|
|
水是许多数据中心冷却系统中的核心部分。然而,随着设备密度(以及温度)增加,关于冷却这些系统的水温问题也日益重要。当服务器芯片变得越来越密集、功能更强大时,运营商需要思考是否应降低进入这些芯片的水温,甚至可能需要专注于水冷系统的冷却。
传统上,数据中心温度保持在20°C到22°C左右,但美国采暖、制冷与空调工程师学会(ASHRAE)多年来建议各机构将温控设置调高。因此,数据中心的温度逐渐上升:Facebook母公司Meta将温度提高到29.4°C,Google达到了26.6°C,Microsoft则发布了建议温度可达27°C的指南。传统数据中心的冷却水温设定在42-45°F(6-7°C)之间,而经过冷却系统优化的设施则成功地将冷却水温提高到50°F(10°C)甚至更高。据江森自控(Johnson Controls)估计,冷却水温每升高1°C(1.8°F),普通冷却机组的功耗可降低约2-3%。
近期的一次DCD广播分析了一家英国服务提供商的案例研究。该公司通过提高数据大厅的温度,每年节省了150万英镑(190万美元)的费用,而硬件故障风险仅增加了0.3%。 “冷却一直是数据中心中仅次于IT负载的第二大能耗,主要用于冷却传热介质——无论是空气还是液体。因此,冷却部分消耗的能量越少,设施的整体效率就越高。”DCD培训部门DCD>Academy的解决方案工程总监Vlad-Gabriel Anghel说。 随着业界越来越多地向液冷数据中心发展,液体(如水)直接循环到发热组件上,带走热量。水的热容量远高于空气,这意味着数据中心可以支持更高密度的芯片,同时使用更少的能量进行冷却。 尽管对于每个机架超过20kW的散热需求仍存在空气冷却选项,但其弊端逐渐大于好处,促使运营商转向液冷系统。多年来,30kW被认为是高密度部署的上限,空气冷却足够。然而,随着生成式AI的兴起,“高密度”现在可能超过100kW,仅靠空气冷却已不再可行。 “对于训练负载,将液冷系统水温控制在122-140°F(50-60°C)可能非常不现实。” ——施耐德电气Andrew Bradner
液冷系统中的液体温度通常高于传统冷却水系统,但业界尚未统一最佳方案。同时,芯片变得越来越密集,供这些系统的水温正在逐步下降。数据中心运营商长期以来被指过于谨慎,为保护IT硬件而过度冷却空气冷却数据中心,避免任何可能的过热风险。对液冷系统采取过多的谨慎可能会带来类似问题。 更高的水温意味着用于冷却的能耗减少,这对PUE(电源使用效率)来说是好事,但也带来了让芯片更接近其热极限的风险。那么,水温多少才算合适?
最佳水温是多少? ASHRAE在2011年发布了一份关于液冷的报告,提出了基于冷却温度的几个广泛分类:W1、W2、W3、W4和W5,分别为17°C、27°C、32°C、45°C和超过45°C。2022年,该报告更新了新的温度精细化,增加了40°C的分类,ASHRAE也更新了分类定义:W17、W27、W32、W40、W45和W+。 DCD>Academy的Anghel表示,液冷系统的最佳水温没有统一标准,因为最佳温度因设施配置而异。 “这完全取决于使用的液冷类型、液冷系统所处的环境、芯片类型及其TDP(热设计功耗)以及芯片的使用率。”他表示。“后门气辅液冷解决方案的温度与直通芯片的闭环液冷系统不同。” 据Uptime介绍,目前液冷系统中的水温似乎趋向32°C(89.6°F),这被描述为在设施效率、冷却能力和支持广泛DLC(直接液冷)系统之间的“良好平衡”。不过,公司指出,这通常需要额外的散热基础设施,比如水蒸发或高密度芯片的机械冷却。 “我们最大的客户正在讨论水温范围为80-86°F(27-30°C),而不是104-122°F(40-50°C)” ——施耐德电气Andrew Bradner
分析公司指出,目前高端处理器(高达350W TDP)和加速器(一些GPU最高可达700W)可以在高冷却液温度下“有效”冷却,允许直接液冷系统的设施水供温高达104°F(40°C),甚至达到113°F(45°C)。 施耐德电气冷却业务总经理Andrew Bradner对DCD表示,一旦芯片达到500W,供水温度必须降低到85°F(30°C);对于700W的芯片,水温甚至可能需要降到80°F(27°C)。 “认为液冷系统的水温会达到122-140°F(50-60°C)是不太现实的,特别是对于训练负载。”Bradner说。 正如出于谨慎,空气冷却数据中心通常运行得较冷,使用液冷部署的客户也同样小心谨慎。Meta在其AI重构设计中,将供水温度设定在85°F(30°C),并希望通过开放计算项目(OCP)推动该温度的广泛采用。
免费冷却 vs 辅助冷却 当需要68-75°F(20-24°C)水温时,特别是在炎热气候下,往往需要辅助冷却技术。Bradner举例说,施耐德电气最近与合作伙伴进行了一次评估,以了解高密度应用下的免费冷却(依赖自然冷空气或水而非机械制冷)。当芯片密度为300W时,95%的站点可以不需要任何机械辅助来提供所需的水温以运行液冷系统。但一旦芯片超过500W,只有5%的站点能够支持免费冷却,95%的站点需要压缩机机械辅助解决方案。 随着芯片变得更强大和更耗能,芯片外壳内部的热量耗散需要更低的水温,以便支持芯片的可靠冷却。
-end-
? 微信扫一扫
关于我们 北京汉深流体技术有限公司是丹佛斯中国数据中心签约代理商。产品包括FD83全流量自锁球阀接头;液冷通用快速接头UQD & UQDB;OCP ORV3盲插快换接头BMQC;EHW194 EPDM液冷软管、电磁阀、压力和温度传感器及Manifold的生产。在国家数字经济、东数西算、双碳、新基建战略的交汇点,公司聚焦组建高素质、经验丰富的液冷工程师团队,为客户提供卓越的工程设计和强大的客户服务。 公司产品涵盖:丹佛斯液冷流体连接器、EPDM软管、电磁阀、压力和温度传感器及Manifold。 - 针对机架式服务器中Manifold/节点、CDU/主回路等应用场景,提供不同口径及锁紧方式的手动和全自动快速连接器。
|
|