拥抱液冷,构建高效绿色AI算力–华南理工大学算力实践篇

当你在电视屏幕前看到,长征五号遥八运载火箭成功发射;嫦娥六号探测器登上月球的背面;神舟十八号载人飞船与太空空间站成功对接。你是否会想到,小小的“陶瓷”正在航天领域发挥着举足轻重的作用。从微观到宏观,这就是材料学的魅力。在华南理工大学,材料科学与工程学院无机系的师生正在开展有关“新型高熵超高温陶瓷材料”的研究课题。

随着新一代高超声速飞行器飞行马赫数的不断提升,对隔热材料的力学强度、热导率和耐温性提出了更严苛的要求,兼具优异力学强度及隔热属性的材料一直是科学家的追求目标。

发展可应用于未来极端条件下的新型超高温陶瓷材料,既是助力长征五号、嫦娥六号及神舟十八号持续成功的“功臣”之一,也是目前国内外学术界研究的热点问题。

华南理工大学材料科学与工程学院无机系副教授庄磊表示:“新型高熵超高温陶瓷材料的主要难点在于高熵陶瓷的形成,不是说任选4种以上的陶瓷材料混合就能形成稳定的单相。可能的组分空间非常庞大,合出来的材料具体性能表现也不确定,所以需要大批量地进行实验,这就带来了大量的计算需求。”

与此同时,高熵陶瓷的结构复杂性,使得原子尺度的模拟计算,需要建立更大的模型以解决结构无序度的问题。这对算力资源要求很高。
华南理工大学材料科学与工程学院无机系副教授俞呼雷指出,华南理工大学升级后的新科学计算集群,让针对复杂高熵陶瓷的第一性原理计算、机器学习、势函数训练和分子动力学模拟变得更加可行,单个任务的计算耗时可以减少到原来的20%到80%,极大地提升了计算效率。

俞呼雷教授强调:“现在,通过学校的科学计算公共服务平台,我们加速开发出了多种新型的高熵超高温陶瓷材料。”

像“新型高熵超高温陶瓷材料”这样的研究课题,只是华南理工大学众多新工科、交叉学科研究项目的缩影。

华南理工大学作为教育部直属的全国重点大学,不仅位列“211工程”“985工程”,也是“双一流”建设A类高校。全校建有29个国家级科研平台、231个省部级科研平台,数量居广东省高校首位。

走进华南理工大学广州国际校区,你可以在众多教学楼中看到这样一座建筑,它就是华南理工大学广州国际校区数据中心,位居国内高校建筑面积最大的单体数据中心之列。其建筑面积12800平方米,设计有660个机柜,总可用功率在1万kW以上,按照A+B级标准设计,配备了7*24小时的专业运维团队。

目前,该数据中心系统的理论峰值性能达到了7.3 PFlops,AI计算能力可以达到94 PFlops。系统存储的裸容量为34.45 PB,实际可用空间约为25 PB,网络方面采用了200 Gb/s的NDR IB网络。

为了响应国家碳中和号召,华南理工大学采用了液冷技术,全水冷设计在提高系统性能的同时,将数据中心能耗降低了30%, PUE值设计小于1.2,而随着PUE的降低,用于散热的电量大大减少,每年节约电费约300万。

华南理工大学信息网络工程研究中心数据与高性能计算中心主任黄建波介绍道:“数据中心的初心是让师生能够快速上手,同时必须覆盖学校主要的使用场景和满足各种科学研究的需求,通过丰富的接口,实现软件的个性化对接定制和优化。”

2023年通过集约化建设方式,建成了为全校提供高端计算+AI的科学计算公共服务平台,建设后算力达到目前全国高校算力领先水平,满足了全校科研团队对算力的需求,支撑起全校新材料、计算化学、生物医学、人工智能、芯片设计、汽车设计、建筑设计、海洋科学等科学研究和创新。

黄建波主任指出,华南理工大学还积极响应国家算力一体化建设,加入教育部的算力联盟,通过采用北京大学SCOW系统实现异构纳管,接入教育部智算融合共享平台。

目前,华南理工大学取得的这些成果都离不开学校的清晰需求和系统建设定位,以及产品供应商联想在技术上的配合。

联想通过专业的技术服务洞察了华南理工大学数据中心在建设升级过程中的核心诉求。为了实现学校对于性能和节能的追求,实现多集群的统一算力交付,针对实际情况为华南理工大学量身定制了液冷解决方案。
通过联想高性能计算和人工智能产品营销主任技术顾问郝常杰的介绍,我们了解到:
首先,联想通过异构算力设计,搭配CPU和GPU的混合使用满足多样化的计算需求。液冷服务器搭配了英特尔6458Q,实现了强大的性能支持。6458Q是一款专门针对液冷服务器设计的处理器,在国内气象、制造、科研领域得到了大规模的部署应用。

其次,部署NDR Fat tree 实现全线速无阻塞,高速低延迟,保证计算网络带宽200 Gb/s。使用2X DSS- G250,13 PB以上容量的联想高性能分布式存储,实现90 GB的读/写带宽,存储单流带宽大于6 Gb/s。
最后,再通过联想自研智能一体化的管理平台Lico实现一键快速部署,异构集群的统一管理,配合高通量低延迟的作业调度软件,同时集成了丰富的AI应用模型。

郝常杰顾问指出,得益于整体的优秀架构,在Linpack基准测试中,数据中心的效率达到理论峰值的90%。为用户现在及未来实际的科研应用保障了强大的实际计算能力。

郝常杰顾问表示:“为了实现绿色低功耗计算,我们部署了联想第五代海神温水水冷技术,入水温度45-50度,水冷覆盖能耗器件达95%以上,包含了水冷电源模块。”

此外,高效的散热设计为计算芯片提供了更加稳定的工作环境,进一步保障了计算性能的充分发挥。PUE理论值可降至1.1,无风扇设计能够减少风扇故障点,实现近乎0分贝噪音。每年节省电力和碳排放可达40%以上。

作为联想全液冷技术和高效算力落地的创新案例,华南理工大学勇于打破“性能、能耗、成本”之间的“不可能三角”,不仅科研应用提供强大实际计算能力,加速了科学研究和复杂场景计算模拟速度,还降低每单位性能的能耗和成本,率先在行业内补全了全栈液冷的拼图,成为高校科学计算平台的成功案例。

上一篇
下一篇