|
|
报告连载 | 液冷实践 益企研究院倡导全栈数据中心理念落地(一) 最近,业界首个以算网融合为核心的多元算力研究报告《算力经济时代·2023新型算力中心调研报告》出版,我们将对报告内容开启连载模式。 ? 报告连载 | 节能减排新实践 重构排碳之源 随着中国互联网、云计算的发展,超大规模数据中心应用的体量增加,数据中心的建设理念发生变化,最典型的是数据中心的建设与IT 设备结合更紧密。大型互联网公司对数据中心行业的改变也是真正从机房建设,到 IT 设备的设计,再到上层的应用程序,将产品技术与应用贯穿了数据中心的全流程,将数据中心基础设施与 IT 基础架构作为整体优化。为了更快的满足业务需求,提高数据中心能效,大型互联网公司将液冷技术规模应用在数据中心,继而促进了价值链重构和产业生态演化。 为此,益企研究院提出并完善“全栈数据中心”理念。全栈数据中心是纵贯 IT 基础架构与数据中心基础设施,把芯片、计算、存储、网络等技术和数据中心风火水电作为一个整体看待;上层业务需求的变化会通过芯片、计算和存储等 IT 设备传导到网络架构层面,即数据中心作为基础设施也会相应的产生自上而下的变化。这也意味着服务器等 IT 设备的设计和液冷等先进技术的应用,以业务的视角实现应用与技术联动,以数据中心整体的视角将制冷、供电以及监控运维实现垂直整合。 从 2018 年始,数字中国万里行团队见证了液冷技术在云数据中心的应用,并在《2018 年中国超大规模云数据中心考察报告》中加以介绍。 常见的数据中心液冷方式主要包括喷淋式、冷板式和浸没式三种。 冷板式液冷相对成熟,虽然各家形态不同,但技术上差异不大。冷板式液冷是指采用液体作为传热工质在冷板内部流道流动,通过热传递对热源实现冷却的非接触液体冷却技术。通过对 CPU 和内存覆盖冷板,液体直接带走这两个高发热部件的热量。液体在冷板内流动把 CPU 和内存的热量带走,自身温度达到 45℃ , 之后经过与数据中心冷却水交换后降低到 35℃返回,继续冷却。液体主要有不导电、不结垢的去离子水或不导电、不腐蚀的特殊液体两种。用户可根据自身需求进行选择,业界普遍认为前者更经济,而后者更安全。 冷板式液冷服务器对于目前的数据中心的架构影响不大,不需要对机柜的形态进行大幅度的改变,具有低噪音,高能效以及低总体拥有成本(TCO)的特点,可带来传统风冷数据中心所不具备的优势,使得耗能可以大幅度下降,同时又给 CPU 和内存提供了更好的工作环境和工作温度。
浸没式液冷总体方向比冷板式更进一步,给元器件提供更可靠和稳定的工作温度,并具有更高的能效。冷板式的服务器是的风冷和液冷混合,浸没式则是可以完全去除空调的全液冷的数据中心。 浸没式液冷把所有的 IT 设备所有器件浸泡在液体里。主要分为相变式液冷和单相浸没液冷。
相变式液冷,采用沸点低、易挥发的液体作为冷媒,利用 CPU 等器件工作发热使冷媒沸腾带走热量,制冷剂蒸汽在换热器处冷凝,完成制冷循环,可以把冷却系统的能耗降到最低。如曙光研发的相变液冷方案,就可让数据中心实现全地域全年自然冷却。而从产品形态上来看,相变液冷产品还可分为缸式相变液冷方案,以及刀片式相变液冷技术方案。刀片式相变液冷方案,因为其具有更高的计算密度,更易维护性以及可按需灵活增减计算节点等优势。同时该方案对系统自动化供电、减压等有诸多技术要求,目前国内中科曙光实现了刀片式相变液冷方案的大规模部署。
单相式浸没通过液体升温带走热量,不需要发生相变,在整个过程中就可以把换热设施和机柜实现分离,从而对换热系统进行一定的冗余设置就可实现在线维护。两种不同的设计方式也直接影响了维护方式。目前超算中心应用相变式的浸没液冷较多,单相式浸没液冷还更容易实现在线维护,适合通用型的云计算数据中心。
液冷技术的推广应用,是全栈数据中心理念的最佳落地实践。举例来说,液冷就很适合通过整机柜(服务器)的形式交付。传统上在数据中心,机柜是基础设施团队(风火水电、场地)与 IT 业务部门的分界线。基础设施团队通常不会关注机柜里产品技术的演进(比如服务器产品);IT 业务团队也很少了解基础设施的细节。互联网和云计算公司较多把机柜和服务器等 IT 设备做一个整体考虑。比如说阿里、腾讯、字节,服务器保有量都是百万台量级,在这样的规模下把服务器和机柜作为整体设计进行优化,哪怕效率提升 1% 都可以节省一大笔支出。而液冷技术天然适合整机柜交付模式,毕竟液冷更适合集中部署,需要突破服务器与整机整机柜界边界。 业务前置 模块化交付
过去几年,整机柜服务器的设计已经跳出机柜本身,以数据中心乃至整个基础设施的视角,与数据中心的风火水电基础设施紧密协同,同时也能够与上层的应用和业务结合。以京东云自研液冷整机柜服务器为例,基于业务的视角给应用端提供各种各样的可能性。京东业务涉及零售、金融、物流等多领域的服务,所以在整机柜设计时聚焦承载高 CPU 算力的通用算力平台,可以承载热存储和温存储的应用。对于冷存储、异构等应用,只是预留一些设计,以备未来有需要的时候可以开发。整机柜交付可提高交付效率、降低包材用量以及运输所损耗的燃料,可大幅降低碳排放。
京东云自研液冷整机柜服务器尽量把业务功能涉及的模块放在前面,比如存储模块、IO 模块等业务功能前置,前出线使得维护更容易。而散热和供电基础设施后置,并预留支持能力,满足 CPU 的散热需求,风冷可以支持到 500 瓦,液冷可以支持到 800 瓦,甚至更高,如果需要更高功耗,可通过改变冷板设备等来实现。考虑数据中心生命周期很长,尤其是液冷技术的支持,预留三代平台的支持,确保整机柜能够在各种各样的部署环境下使用,既可以在自建新机房使用,也可在液冷机房部署,支持各种各样的设备类型和平台。(未完待续)
液冷实践 益企研究院倡导全栈数据中心理念落地(二) 最近,业界首个以算网融合为核心的多元算力研究报告《算力经济时代·2023新型算力中心调研报告》出版,我们将对报告内容开启连载模式。
以全栈的视角 垂直整合
数据中心基础设施层面的能耗主要来自于制冷和供电模块的损耗。以典型冷冻水数据中心举例,从内到外包含有冷却塔、冷却水泵、冷水机组、冷冻水泵、空调等,都是用电设备;同样数据中心供电架构从市电到一级转化再到 UPS 到机柜,经历几次转化后也会有供电损耗。 整机柜服务器可以整合供电,不用 PDU 或者很少用 PDU,只起转接不起配电的作用,把电给到电源箱,电源箱到铜排(busbar)上配电,原来在服务器里的电源(PSU,供电单元)集中到电源箱里,成为机柜的一个组成部分。比如一个机柜 30 台服务器,每台服务器两个电源就是 60 个,但是如果把电源集成到机柜上,就用不到 10 个电源,而且从 1+1 的冗余变成 N+1 的冗余——原来 30 个处于准浪费的状态,现在大大减少浪费,只提供必要的冗余就可以了;电源的数量少了,每个电源的功率比较大,负载也会比较高,电源在负载比较高的时候,转换效率也比较好。 以数字中国万里行团队考察某云数据中心为例,机房里部署了 20 千瓦的液冷整机柜服务器 FusionPoD,园区内还有相对独立的小型液冷机房 FusionCell,由类似集装箱体的供配电、机柜和制冷模块各一组成。 在产品形态上,超聚变液冷整机柜服务器 FusionPoD 类似于数据中心一个 PoD,作为一个天然物理分区,集成了供电、制冷、网络,同时兼容各种各样的服务器,比如为云场景打造的FusionPoD 600 系列有分布式备电,数据中心使用这个系列可以去掉 UPS,提升供电效率。 图片 FusionPoD 的特点是集成度高,集成了液冷并兼容 1U 的节点设计。从算力密度来看,在 1U 里面最大可以支持 4 个 CPU,风冷服务器通常只部署一半的柜位空间,整机柜可以布满,相对传统的机架服务器算力密度可以提高 8 倍。FusionPoD 机柜是一个平台,天生支持多元算力,机柜里的服务器可以集成计算型、计算存储型包括异构型服务器。FusionPoD 的另外一个特点是全部采用盲插,服务器背后从供液到供电、网络连接,在机柜后方部署有三条总线称之为全盲插,机柜内不用连线,整个部署效率能大幅提升。 图片 盲插的技术难题在于有可能在插拔的时候出现漏液,为了提高可靠性,FusionPoD 在盲插 Manifold 上做了一个防喷射结构,当用户把节点插进来的时候,盲插 Manifold 上的防喷射结构把它封住。同时机柜底下有漏液告警。 同样,FusionPoD 选择冷板式液冷技术路线可兼容现有的基础设施部署,也可应用于新建液冷数据中心。采用混合液冷设计,对服务器里关键发热器件比如 CPU、内存、硬盘、电源等等做了可选的液冷适配并匹配了液冷后门(液冷门),液冷门也是来自于冷塔的供水,把机柜里所有的热量通过液体带走,去掉机房空调和冷机做到全液冷。FusionPoD 保留风扇给一些不太容易做冷板式液冷的小器件,液冷门也是选配,便于客户灵活搭配,利旧现有的空调。在泄漏告警、隔离和处理上 FusionPoD 做了相应的设计,比如把节点做成天然能够支持故障隔离的设计,无论通过它的围挡结构的设计还是导流设计,最后对接盲插 Manifold 的设计,当一个节点出现泄漏只会顺着导流槽流往机柜积液盘,不会影响下一个节点,当然前文说的漏液告警监控也属标配。 在智能监控环节,FusionPoD 板内的水晶绳的监控通过服务机 BMC上传到公司的 Fusion Director,机柜的漏液告警通过机柜顶上 RMU监控模块也上报给 Fusion Director,由于供水温度很低液冷门出现冷凝水时,冷凝水的漏液告警到 Fusion Director 平台。Fusion Director 能对所有的信息全部汇聚监控进行统一处理。 产业生态融合演化 浸没式液冷也成为一套复杂的系统工程,需要在可靠性、经济性和能效之间取得平衡,要解决散热问题的同时解决冷却液和系统中所有部件兼容性、IT 设备高速信号问题。而在系统设计层面,要兼顾服务器和机柜的设计、冷却和监控系统的可靠性,从这个意义来说,液冷不仅是制冷方式的改变,也可能变革数据中心生态。
阿里浸没式液冷数据中心主要功耗集中在泵与室外散热系统,搭载阿里自研液冷监控系统,能够全自动与负载率相匹配,始终保持系统高效运行。据官方介绍,磐久高性能计算一体机的单位面积算力可达 8PFLOPS/m(FP16 AI 算力),单位功耗算力可达 0.4PFLOPS/ 2kW。浸没式液冷从原理上去除了室内部分的空调风机和服务器风机双侧流体驱动系统,彻底排除了空气流动的需求,这样 IT 故障率大幅下降减少维护量、系统热交换次数下降、全自动调泵风机部件运行情况、自主故障预测与调优预测运行,持续保持恒温恒湿环境,有效屏蔽了外界绝大部分不利因素。 新一轮低碳技术带来整体数据中心的技术变革,随着液冷技术在云计算数据中心的应用,算力服务成本也将进一步降低,惠及更多终端用户。云计算数据中心基于规模和应用需求的优势,对数据中心建设也有足够的掌控力,将会整体数据中心的技术变革、价值链重构和产业生态演化。IT 架构和数据中心基础设施冷却也必将深度融合,构建全栈数据中心成为新趋势,产业链的垂直整合也会成为可能。风液冷也必将在很长一段时间之内共存。 图文来源网络 如有侵权 请联系我们删除。
|
|