|
||||||
|
|
|
9月24日讯,2025年云栖大会现场,阿里云发布全新一代磐久128超节点AI服务器,由阿里云自主研发设计,可支持多种AI芯片,单柜支持128个AI计算芯片。磐久超节点集成阿里自研CIPU 2.0芯片和EIC/MOC高性能网卡,采用开放架构,可实现Pb/s级别Scale-Up带宽和百ns极低延迟,相对于传统架构,同等AI算力下推理性能还可提升50%。
2025年云栖大会现场,全面升级的阿里云AI基础设施重磅亮相,全面展示了阿里云从底层芯片、超节点服务器、高性能网络、分布式存储、智算集群到人工智能平台、模型训练推理服务的全栈AI技术能力。在服务器层面,阿里云发布全新一代磐久128超节点AI服务器。新一代磐久超节点服务器由阿里云自主研发设计,具备高密度、高性能和高可用的核心优势,可高效支持多种AI芯片,单柜支持128个AI计算芯片,密度刷新业界纪录。 阿里云磐久128卡AI超节点液冷解析? 整机柜:阿里云磐久AI超节点机柜宽度为2个标准服务器机柜的宽度,采用非对称设计,从机柜前面看,左侧主要为为GPU节点柜,约23inch+宽,右侧为标准的19inch柜,承载了CPU计算节点、OOB交换机、Powershelf、以及CDU(阿里叫CMC组件)等。阿里云磐久AI超节点128单卡的PPU为400W,单芯片最大支持2KW,单柜最大350KW整柜液冷:单台6U高CDU,双柜液冷浮动盲插接头+manifold。阿里云栖大会昨天在杭州云栖小镇落幕,这几天现场人气异常火爆,其中大会现场最靓的硬件仔毫无疑问是磐久128卡超节点了。阿里磐久超节点,是采用两个64个GPU超节点的方式,每个计算节点上有4颗阿里的自研GPU,因此上下各有16个计算节点,总共是16 x 4(4颗GPU) x 2(上下) = 128个GPU。其中64个GPU是一组的scale up。华为的CM384是包括384颗昇腾910C,英伟达的GB200/GB300 NVL72,是包含72颗GPU。 英伟达的NVL72中,采用的CabelTray的互联方式,即Compute tray和Switch Tray是通过线缆进行连接,走的是NVLink的私有协议。华为的CM384中,由于是采用了多个Rack作为一个超节点,昇腾服务器和交换机之间也是通过线缆进行互联。阿里的超节点则完全不同,采用的是无背板的正交互联,计算节点在前面,都是横着放的,Switch节点在后面,是竖着放的。 磐久128超节点AI服务器整机柜简介: 机柜的规格尺寸:宽1.2米,高52RU(约2.55米),深约1.5米,节点下架及日常运维,需要借助工具或机器来实现。柜宽度为2个标准服务器机柜的宽度,采用非对称设计,从机柜前面看,左侧主要为为GPU节点柜,约23inch+宽,右侧为标准的19inch柜,承载了CPU计算节点、OOB交换机、Powershelf、以及CDU(阿里叫CMC组件)等。整柜承重:约5T,机柜的强度设计是一个很大的挑战,同时机房侧的交付部署也是需要统筹考虑。整柜功耗:单卡的PPU为400W,单芯片最大支持2KW,单柜最大350KW。整柜液冷:单台6U高CDU,双柜液冷浮动盲插接头+manifold。单柜支持高达128卡,CPU板并没有和GPU板在一起, 而是使用了两个机柜宽度的配置, 并使用PCIe Cable连接,该Cable Tray采用的是Molex线缆组件,CPU和GPU分离设计的好处是更灵活也容易迭代升级。机柜背部的交换板采用竖插方式,与前部的横叉CPU计算节点(标准的19inch宽度)形成垂直正交。CDU部分:从现场照片中看不出阿里云超节点液冷CDU的厂家信息,应该是厂商给阿里定制的。 CPU液冷设计:这次展示的 GPU 计算节点整体宽度已经超过 23 英寸,接近 600mm,比标准机架服务器更宽,主要是为了容纳高密度的散热与供液结构。散热架构采用 风冷 + 液冷组合: 节点后部配置了两块 GPU 板,每块 PCB 上并列布局两颗 PPU 芯片;此外还集成了一颗后部交换芯片;这些高功耗芯片 均通过液冷冷板进行散热。冷板的安装方式为 并联,从节点中部的 manifold分歧管取液,内部所使用的连接器设计风格与 NV的 NVQD 非常接近。 在安全设计方面,节点布置了 漏液检测线,沿着管路走向铺设,并配合 集水槽来引导冷却液,确保一旦发生泄漏能第一时间感知并引流。不过,从现场展品来看,检测线的缠绕方式略显松散,没有紧贴在管路底部,如果在真实环境中使用,可能会降低检测的灵敏度和可靠性。 阿里云发布全新一代磐久128超节点AI服务器漏液检测线的布置,沿着管路,并设计有集水槽。可能是展品的原因,漏液检测线的缠绕方式有点松散,没有很好的贴着管路并位于管路的底部铺设。
CPU节点:这次展示的 CPU 计算节点依然保持了标准 19 英寸机架宽度,整体采用的是 风液混合架构。两颗 CPU 芯片通过 液冷冷板进行散热,从管路布局来看,连接方式大概率是并联,这样可以保证两颗芯片得到相对均衡的冷却效果。不过,由于 CPU 的单颗功耗相比 GPU、加速卡要低一些,其实也完全可以采用串联的方式,把液体依次经过两块冷板,从而简化管路设计、降低系统复杂度。
交换机:在阿里云这次展示的超节点液冷方案里,交换板的主芯片采用了液冷设计,并且通过手插式快接头与管路连接,便于维护和更换。比较特别的是,冷板底部还接了一根透明的 PU 管。从设计上看,这根管子大概率是作为导流用的——在极端情况下如果发生漏液,冷却液会被快速引流到集水盘,避免液体在机柜内部乱溢,造成设备短路或损坏。阿里云发布全新一代磐久128超节点AI服务器交换板的长度尺寸至少超过了1米,竖插安装,板卡的安装和两侧的扳手操作不会太方便。交换板的主芯片采用液冷,手插方式快接头,冷板的底部连接了一根透明的PU管,猜猜应该是导流用的,极端情况下漏液可将液体快速引流到集水盘中去。
阿里云发布全新一代磐久128超节点AI服务器 阿里云超节点后面的一些现场资料:
阿里云发布全新一代磐久128超节点AI服务器, 背部采用2进2出,实现冗余备份,互锁球阀是丹佛斯的FD83;UQD和NVQD以及液冷连接EPDM软管都是丹佛斯代理商北京汉深流体技术有限公司供应。
导向设计 ~ 亚毫米导向系统
磐久128超节点350KW 单柜功率,前后正交互联,CPU和GPU分开布置,取消cable rack和光模块,采用cabletray铜互联,双组ORV3机架母线与四组POWERSHELF串联。磐久128超节点的发布标志着阿里云在AI基础设施领域的全栈自研能力达到新高度。其高密度、高能效的设计不仅支撑了通义千问等模型的技术突破,也为全球AI算力竞赛提供了中国方案。根据规划,阿里云未来三年将投入3800亿元升级AI基础设施,并计划到2032年将全球数据中心能耗规模提升10倍,进一步巩固其在超级AI云领域的领先地位。磐久128超节点AI服务器通过技术创新和生态协同,为大模型时代提供了高性能、高可靠的算力底座,有望加速AI技术在各行业的规模化落地。
|
|