NVIDIA Blackwell平台和ASIC芯片升级助力,2025年液冷散热渗透率超过20%
2024年09月23日 17:38 北京
TrendForce最新调查,NVIDIA Blackwell新平台预定第四季出货,帮助液冷散热方案渗透率明显增长,从今年10%左右至2025年突破20%。全球ESG意识提升,加上CSP加速部署AI服务器,有助带动散热方案从气冷转向液冷。
观察全球AI服务器市场,今年主要AI方案供应商仍是NVIDIA。单就GPU AI服务器市场而言,NVIDIA有绝对领先优势,市场占有率逼近90%,排名第二的AMD仅约8%。
TrendForce观察,今年NVIDIA Blackwell出货规模尚小,因供应链持续执行产品最终测试验证等流程,如高速传输、散热设计等有待继续优化。新平台因能耗较高,尤其GB200整柜式方案需更佳散热效率,有望带动液冷方案渗透率。然既有服务器生态系采液冷比例尚低,对漏液或散热性能不佳问题,ODM仍须历经学习曲线后得出最佳解。TrendForce预估2025年Blackwell平台高端GPU占比有望超过80%,促使电源供应厂商、散热企业等将竞相投入AI液冷市场,形成新产业竞合态势。
台厂1H25有望供应快接头,Google积极布局液冷方案
近年Google、AWS和微软等大型美系云计算企业皆加速部署AI服务器,以搭载NVIDIA GPU及自研ASIC为主。TrendForce了解,NVIDIA GB200 NVL72机柜热设计功耗(TDP)高达约140kW,须采液冷方案才能解决散热问题,以水对气(Liquid-to-Air,L2A)为主流。HGX和MGX等其他架构Blackwell服务器因密度较低,气冷散热为主方案。
就云计算企业自研AI ASIC来说,Google TPU除了气冷方案, 也布局液冷散热,是最积极采液冷方案的美系企业,BOYD及Cooler Master为冷水板(Cold Plate)主要供应商。中国阿里巴巴最积极扩建液冷数据中心,其他云计算企业AI ASIC主要仍采气冷散热。
TrendForce指出,云计算企业将指定GB200机柜液冷散热方案的关键零部件供应商,冷水板主要企业为奇??及Cooler Master,分歧管(Manifold)是Cooler Master和双鸿,冷却分配系统(Coolant Distribution Unit,CDU)为Vertiv及台达电。防漏水关键零件快接头(Quick Disconnect,QD)采购仍以CPC、Parker Hannifin、Denfoss和Staubli等海外厂商为主,台湾供应商嘉泽、富世达等在验证阶段,2025上半年台厂有机会加入快接头供应商行列,有助逐步缓解供不应求局面。
AI芯片过热怎么解?3种服务器散热方式一次看
在更深度切入散热赛局之前,必须先对散热方式有初步的了解,目前大致分为3种:气冷、液冷以及浸没式。
气冷散热:还是有高度市场需求
气冷是目前数据中心或是一般企业机房最广泛使用的散热方法,就像让服务器吹冷气,透过风扇、鳍片、导热管等方式带走热能。而气冷散热若要提高到最强的散热效果,就要使用到热管结合热板设计的高阶气冷技术3D VC(Vapor Chamber),并加上大量的风扇来散热。
虽然风量风速越快,热对流速度就越快,但是不可能一直无限上纲,震动、噪音都会为服务器或工作场域带来负面影响。
中国台湾气冷散热的元件供应商有奇鋐、双鸿、建准、尼得科超众、高力及台达电等。高力副总经理吴俊英表示,目前气冷散热在市场需求还是很有空间,因为H100芯片用气冷就可以散热,但当GB系列的芯片出货之后,液冷取代气冷的速度就会加快。
液冷散热:现在各家厂商追求的最大市场
液冷又称为直接式液冷(DLC,Direct liquid cooling),可细分成水对气和水对水。
水对气:利用水冷管线带走芯片的热能之后,变热的水再透过水管传送到机柜后的风扇背门,将热能吹散,进而达到散热效果。
水对气的散热方案是现有数据中心在气冷散热的物理极限下,所因应的对策。因为不需要大规模修改机房或者服务器的机柜设备,只要加装一个风扇背门,就可以加强散热效果,目前约有6~七成的数据中心还是使用这样的散热方式。
然而水对气虽然是目前的最适解,却也不是最佳解,加装的风扇墙会让机房噪音达到90~100分贝(车水马龙的路旁大约是80分贝),工作人员根本无法在机房内长时间作业。
水对水:将装满冷却液的密封管线(或称封闭式冷却回路)环绕在服务器内最容易发热的关键零组件附近,零组件透过导热铜片将热能传导到冷却液,再透过液冷管线进行冷热液体的交换循环。与水对气最大的差异在于,服务器机柜背后不需要再使用风扇墙,大大提高机房空间使用率和降低机房噪音。
英伟达的高阶芯片GB200 NB072就是采用水对水的液冷散热。而此架构也是目前许多服务器代工厂商,如超微、技嘉子公司技钢、纬颖、英业达、云达等已投入的技术。
浸没式散热:是未来散热圣杯?
浸没式冷却,顾名思义就是将整台服务器放进不导电的液体当中,就像泡澡一样解热,且不只解决芯片的热,连同CPU、存储等各种服务器中的电子设备,都可以进行散热。
中国台湾的浸没式厂商包含技钢、光宝科、台达电、纬颖等。然而浸泡的液体(介电液)带来的环保问题、服务器内的电子设备是否可以长时间浸泡、后续服务器的保养该由谁来维护等,浸没式还有很大一段路需要克服。
数据中心在导入浸没式方案时,也必须考量到工厂楼层耐重程度,以及电路和水路的机房基础设施等。也就是说,若想要导入浸没式方案,就必须重新规划厂房,所耗费的成本非常庞大。
*声明:本文系原作者创作。文章内容系其个人观点,我方转载仅为分享与讨论,不代表我方赞成或认同,如有异议,请联系后台。
关于我们
北京汉深流体技术有限公司是丹佛斯中国数据中心签约代理商。产品包括FD83全流量自锁球阀接头,UQD系列液冷快速接头、EHW194 EPDM液冷软管、电磁阀、压力和温度传感器及Manifold的生产和集成服务。在国家数字经济、东数西算、双碳、新基建战略的交汇点,公司聚焦组建高素质、经验丰富的液冷工程师团队,为客户提供卓越的工程设计和强大的客户服务。
公司产品涵盖:丹佛斯液冷流体连接器、EPDM软管、电磁阀、压力和温度传感器及Manifold。
未来公司发展规划:数据中心液冷基础设施解决方案厂家,具备冷量分配单元(CDU)、二次侧管路(SFN)和Manifold的专业研发设计制造能力。
- 针对机架式服务器中Manifold/节点、CDU/主回路等应用场景,提供不同口径及锁紧方式的手动和全自动快速连接器。
- 针对高可用和高密度要求的刀片式机架,可提供带浮动、自动校正不对中误差的盲插连接器。以实现狭小空间的精准对接。
- 基于OCP标准全新打造的UQD/UQDB通用快速连接器也将首次亮相, 支持全球范围内的大批量交付。
|