|
|
近期,马斯克在其X社交平台上宣布,xAI团队、X团队、英伟达及支持公司于当地时间7月22日凌晨4时20分开始在孟菲斯超级集群上(Memphis Supercluster)进行训练。
01 Memphis Supercluster稳坐第一嘛?AI军备竞赛从未止步
据马斯克介绍称,该集群在单个RDMA (远程直接内存访问)fabric上使用100,000张液冷H100GPU,是“世界上最强大的AI训练集群”。其目标是在今年12月前训练出“按每项指标衡量都是世界上最强大的人工智能。”根据SemiAnalysis 估计,该公司目前拥有约 32,000 个 GPU,其余的将在第四季度上线。
从规模上看,新的xAI孟菲斯超级集群确实在GPU算力方面超越了最新Top500榜单上的任何一台超级计算机。如Frontier的37,888 个AMD GPU、Aurora的60,000个Intel GPU和Microsoft Eagle的14,400个Nvidia H100 GPU,似乎xAI孟菲斯超级集群在规模和效率来看可以称为老马口中所说的“全球最强大的AI训练平台”。 图1.马斯克在XAI数据中心现场。
此外,马斯克还计划在明年夏天再增加 300,000 个 GPU B200 集群,目标是在 2025 年秋季之前让整个项目启动并运行。这台机器将用于为xAI的Grok聊天机器人的下一个版本提供动力。据信,xAI 目前从 Oracle Cloud 租用了大约 16,000 个 Nvidia H100 GPU,同时还在 X/Twitter 数据中心使用 Amazon Web Services 和备用容量。2024 年 5 月,xAI 完成了 60 亿美元的一轮融资,该公司的估值为 240 亿美元。
按照计划,xAI 已经正式开始在"世界上最强大的人工智能集群"上训练其 Grok 3 大型语言模型(LLM)。Grok 2 LLM 将于下月发布。马斯克的目标是在今年12月之前训练出“按每项指标衡量都是世界上最强大的人工智能”——Grok3。相较于其他竞争对手,xAI入局较晚,在模型参数表现上也不突出。但财大气粗的老马表示,“我们的根本竞争力有赖于比其他任何人工智能公司更快。”。 业内人士指出,xAI超算基地的选址,将进一步巩固孟菲斯作为美国乃至全球重要科技中心的地位。同时,这座顶尖超算或将助力马斯克在与0penAI、谷歌等对手的 AI军备竞赛中取得优势。随着全球AI赛道的竞争日益白热化,这一超算项目的最新进展备受业界瞩目。
稳坐第一嘛?AI军备竞赛从未止步
目前,微软、谷歌和Meta等其他科技巨头也都在扩建数据中心来训练和运行他们的人工智能模型。据报道称,微软和OpenAI正在计划建设一个数据中心项目,该项目将包含一个拥有数百万专用服务器芯片的超级计算机,而目前项目耗资可能1150亿美元,包括一个名为 Stargate的人工智能超级计算机,预计将于2028年启动。
包括Meta首席执行官扎克伯格也在今年一月份表示,到2024年底,公司的计算基础设施将包括3万张H100显卡。他还补充道,“如果包括其他GPU,则大约有60万台H100等效计算。”
02 AIGC拉动算力极速升高,液冷市场有望进入爆发期
AIGC以大模型、大数据为基础。大模型是指通过在大规模宽泛的数据上进行训练后能适应下游任务的模型,大模型出现后: (1)模型参数量级式提升;(2)需求多元化加速算力多样化升级:算力按照需求匹配,可分为基础算力、智能算力及超算算力。
2021年,全球计算设备算力总规模达到615EFlops,增速44%。2030年,有望增至56ZFlops,CAGR达到65%,其中智能算力由232EFlops增至52.5ZFlops,CAGR超过80% ;大模型出现后,带来了新的算力增长趋势,平均算力翻倍时间为9.9个月
算力提升的背后,芯片必须具备更高计算效率,在更短时间内完成更多运算,因而必然伴随芯片能耗的加大。在超算中心中数据中心的高密度和高功耗特性使得散热问题愈加突出。现代数据中心尤其是超算中心,通常包含大量高功耗设备,这些设备在运行过程中会产生大量的热量。如果不能及时有效地散热,不仅会影响设备的性能,还可能导致硬件故障。根据IDC的报告,数据中心的能耗约有40%用于冷却系统,这说明有效的散热方案对数据中心的运营至关重要。
传统的风冷系统已经难以满足当前超算中心的散热需求,因此液冷技术逐渐成为行业的主流选择。液冷技术的应用使得数据中心能够在相同空间内容纳更多的计算设备,同时降低了散热系统的能耗。
例如,在超级计算机的世界中,液冷技术已经在许多顶级设备中得到了广泛应用。以美国橡树岭国家实验室的超级计算机Frontier为例,该计算机采用了液冷技术,以37,888个AMD GPU为核心,成为了全球最强的超级计算机之一。相比之下,xAI孟菲斯超级集群不仅在规模上超越了Frontier,还在散热方案上更加先进,采用了液冷技术来提高散热效率和计算性能。
液冷技术的应用不仅提升了计算效率,还显著降低了能耗和运营成本。液冷技术通过更高效的热传导方式,能够在相同能耗下处理更多的计算任务。根据TechRepublic的报告,液冷技术可以将数据中心的能耗降低20%-30%,这对那些需要大量计算资源的企业来说具有巨大的吸引力。
随着AI训练和高性能计算的需求不断增加,液冷技术在未来的超算中心中将扮演更加重要的角色。预计在未来几年内,液冷技术将成为超算中心和大型数据中心的标准配置,以应对日益增长的计算需求和散热挑战。
03 液冷技术:驱动超算中心的核心力量
液冷数据中心的散热系统架构由室外(一次侧)和室内(二次侧)两部分组成。室外冷却塔中的冷却液通过室内的冷却液体流量分配单元(CDU)提供冷却液循环动力。冷却液经CDU二次侧输出,与服务器中发热的电子元器件(如CPU、GPU、内存等)的导热冷板直接进行热交换。热液体通过冷量分配单元输出到室外冷却塔进行冷却,然后重新循环使用。
CDU用于在液体回路之间进行热交换,分为机架式(嵌柜式)、机柜式和平台式等。它的主要作用是隔离一次侧和二次侧回路,并在内部提供热交换能力。此外,CDU还可以控制压力、流量、温度、露点,监测水质洁净度和泄漏情况。
二次侧系统包括供回液歧管和快速接头等关键部件。供回液歧管用于将冷却液从CDU分配到各机架内的IT设备,并从出液端收集回流液体。由于连接点可能存在泄漏风险,这些歧管通常设置在机柜底部。快速接头能够快速连接或断开IT设备与液冷系统的连接,确保自封功能以防止流体泄漏,通常以公/母接头配对使用。当断开时,快换接头内部的自封阀芯会自动密封,防止液体流出,保护周围设备。
一次侧是指室外制冷系统,根据二次侧末端的水温和室外的气象参数不同,一次侧制冷系统可以分为自然冷却和机械冷却两种形式。自然冷却系统主要包括开式冷却塔、闭式冷却塔和干冷器,可提供30℃以上的冷却水;机械制冷系统主要包括风冷冷冻水系统和水冷冷冻水系统,可提供12-18℃的冷冻水。根据冷却液和发热设备接触换热方式的不同,液冷技术可划分为冷板式液冷、浸没式液冷和喷淋式液冷三种类型。 图2.冷却技术分类(来源:中国液冷数据中心市场深度研究报告)。
(1)冷板式液冷技术
冷板式液冷通过把冷板与发热器件紧密固定,将发热器件的热量传导给冷板中的冷却液,并将冷却液中的热量运输至后端冷却。液冷数据中心应用场景中,冷板式液冷对于服务器芯片组件及附属部件改动较小,主要途径为加装液冷模块,采用集中式或分布式CDU供液、 Manifold分液,对芯片、内存等部件进行精准制冷。目前国内宁畅/新华三/联想/曙光/浪潮等企业均可提供冷板式液冷服务器综合解决方案,以下是部分案例展示。
图3.冷板式液冷结构示意图(来源:中国液冷数据中心市场深度研究报告)。
目前,冷板式液冷数据中心已形成相对成熟的解决方案,通过冷板和CDU带走IT设备超过80%的热量,该部分直接由冷却塔带走;另外20%的热量可通过后置被动式液冷门,经由冷水机组和冷却塔之间换热,支持25-28℃高温水带走热量(高于行级空调18℃以下供水温度),可以在全年大部分时间不开冷水机组,仅在夏季需要少量补冷, 从而做到制冷PUE最佳。
图4.冷板式服务器案例(来源:数据中心大会现场拍摄)。
(2)浸没式液冷技术
浸没式液冷通过将发热元件浸没在冷却液中,直接吸收设备产生 的热量。根据工质是否产生相变划分为单相浸没式液冷和双相浸没式液冷。单相浸没式液冷的冷却液在循环散热过程中始终维持液相,由于要确保冷却液不发生相变,单相浸没技术通常使用高沸点的冷却液, 同时满足绝缘性强、黏度低、腐蚀性小,毒性小等性能要求,常用氟碳化合物和碳氢化合物(矿物油、合成油、天然油等),具有部署成本低、安全性高等优势。
双相浸没式液冷方案下,在密闭的浸没式箱体中安装放置服务器/交换机和低沸点的冷却液,冷却液受热升温,达到沸点后沸腾发生相变,由液态变为气态,同时产生大量蒸汽,蒸汽逃逸升腾至箱体顶部, 遇到水冷冷凝器后热量被吸收,凝结成液滴,滴落回容器再次冷却循环,冷凝器中被加热的冷却水则通过循环冷却水系统完成排热。用于双相浸没式的冷却液一般选用硅酸酯类、芳香族物质、有机硅、脂肪族化合物以及氟碳化合物作冷却液。浸没式液冷对服务器及浸没腔体有较高要求,需要对腔体进行定制,采用高密设计,同时采用结构定制化设计,满足液体与发热器件 之间的热交换和电子设备的运维要求。 图5.浸没式液冷结构示意图(来源:中国液冷数据中心市场深度研究报告)。
硅立方采用浸没式相变液冷,将服务器芯片、 主板在内的所有计算部件浸没于液态冷媒中, 实现高效散热。硅立方单机柜功率达160kW, 是传统风冷数据中心的4-5倍,PUE低至1.04。
图6.中科曙光硅立方液体相变冷却计算机(来源:中国液冷数据中心发展白皮书)。 作为全中国首座绿色等级达5A的液冷数据 中心, 仁和液冷数据中心采用了服务器全 浸没液冷等多项节能技术进行规划设计与 建造,PUE低至1.09。
图7.阿里巴巴浙江云计算仁和数据中心(来源:中国液冷数据中心发展白皮书)。
(3)喷淋式液冷
喷淋式液冷和发热器件直接接触,依靠泵压或重力驱动,向发热设备自上而下精准喷淋,吸收并带走热量,排走的热流体与外部环境 冷源进行热交换,冷却液无相变。喷淋式液冷的冷却液需具备绝缘、 导热、抗氧化性等特点,不发生相变,但在喷淋过程中存在液体飘逸和挥发问题,应用成本较高,且不适合高密度服务器和超大规模数据中心。目前喷淋式主要以广东合一为代表的企业针对该技术进行推进。
图8.喷淋式液冷结构示意图(来源:中国液冷数据中心市场深度研究报告)。
2020年,中国长城推出我国首台国产化喷淋式液冷服务器。通过喷淋系统,实现了服务器件精准散热。某公司将长城喷淋液冷服务器应用于云计算大数据中心,项目中,中国长城共提供了由16个喷淋液冷微模块组成的数据中心,每个微模块由一套控制系统、一套WCU单元、2个列头柜、24个液冷机柜(配 置384台服务器)组成。采用喷淋系统,单机架功耗可提升至56KW以上,北京地区PUE为1.05-1.1
04 冷板增量已显,浸没静等花开
液冷数据中心可采用冷板式液冷、浸没式液冷和喷淋式液冷三种 技术路线,根据科智咨询统计冷板式液冷方案应用比例达到91%,是现阶段及未来较长一段时间的主流技术形式。2019年以来,我国液冷数据中心市场增速较快,根据科智咨询预计2027年我国液冷数据中心市场规模为1020亿元。2019年至2022年,我国液冷数据中心市场规模分别为36.9亿元、49.5亿元、68.3亿元、100.5亿元,预计2022 年至2027年CAGR达到59%。
与此同时国内三大电信运营商也积极起到行业带头作用, 支持液冷技术的成熟与发展。根据中国移动、中国电信、中国联通联合发布的《电 信运营商液冷技术白皮书》,三家运营商计划2024年新建数据中心项目中,10%规模试点液冷技术,到2025年及以后,超过50%项目规模应用液冷技术。
图9.冷板与浸没市场规模对比(来源:中国液冷数据中心发展白皮书)
根据“”对于冷板式和浸没式液冷数据中心供应商进行了调研,基于调研结果对未来5年中国两类液冷数据中心发展趋势进行分析,得出的结论如上表。保守来看,2025年中国冷板式液冷数据中心市场规模将达到757.1亿元,浸没式为526.1亿元;乐观来看,2025 年中国冷板式液冷数据中心市场规模将达到784.9亿元,浸没式为545.4亿元。其中浸没式液冷数据中心凭借其优良的制冷效果,市场份额增长速度较快。 参考资料
关于我们 北京汉深流体技术有限公司是丹佛斯中国数据中心签约代理商。产品包括FD83全流量自锁球阀接头,UQD系列液冷快速接头、EHW194 EPDM液冷软管、电磁阀、压力和温度传感器及Manifold的生产和集成服务。在国家数字经济、东数西算、双碳、新基建战略的交汇点,公司聚焦组建高素质、经验丰富的液冷工程师团队,为客户提供卓越的工程设计和强大的客户服务。 公司产品涵盖:丹佛斯液冷流体连接器、EPDM软管、电磁阀、压力和温度传感器及Manifold。
|
|