We engineer tomorrow to build a better future.
Solutions to your liquid cooling challenges.
 
 
DANFOSS
数据中心液冷产品
  数据中心液冷产品
  FD83接头
  UQD快速接头
  UQDB盲插接头
  BMQC盲插接头
  EHW194液冷软管
  EHW094液冷软管
  5400制冷剂接头
  Manifold 分水器
  液冷系统生产及集成
Danfoss流体管阀件
 
 
 
 
 
非标定制液冷产品
液冷系统生产及集成
阀门
传感器
选型资料下载
  新闻通告
  成功案例
  资料下载

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 


   

 

Blackwell GPU GB200 NVL整机系统介绍
CDCC 2024年09月20日 11:55 北京

 

 

GB200 NVL系列较之前DGX系统最大的变化大概有4点:

1、整机柜交付形态,非常密集的铜缆布线,功耗可达120KW/rack。
2、首次计算节点外部使用了独立NVswitch交换机。
3、使用了OCP的ORv3标准,在供电上面使用了Busbar硬接插槽方式。
4、冷板液冷系统成为标配,无风冷版本(DGX B200不算NVL)

 

GB200 NVL72

名字由来:

G——Grace CPU
B——Blackwell GPU
200——代次
NVL——NVlink互联技术
72——72颗GPU

形态介绍

基于Blackwell的NVL72,是整机柜设备,72是指总共72颗B200的GPU芯片。整机包括18个Compute tray(上10下8),9个NVswitch tray,6个电源tray(上3,下3)。整机柜功耗达到了120KW。

单台GB200 NVL72的FP16的算力达到了360P,相当于22.5台H100的算力性能。且本次重点增加了FP4/FP6的精度能力,考虑在推理中使用FP4精度,则算力可达1440P。

单个rack内部使用nvlink全部互联,Compute tray和NVSwitch tray之间为nvlink5.0技术,通过Copper Cable Cartridge相连,总共多大5184条铜芯互联线路。

正面展示:

 

 

计算配置

如上文所介绍,每个NVL72,有18个compute tray,这就是NVL72的算力配置单元,每个tray就是一个计算节点。

GB200 NVL72,首先定义了Bianca board的超级芯片组,每个芯片组由1个NV基于arm架构开发的称为Grace的CPU和2可Blackwell的GPU芯片,而每个compute tray则由2个超级芯片构成,即2CPU+4GPU。NVL72的18个compute tray总共有18*4=72颗GPU。

每个compute tray,以1U的形态,直接插接在机框上。是日常部署、运维的最小化单元。同时单个compute tray的功耗达到了5400W。

整机NVL72,显存为13.8T,单颗B200芯片,显存为192T,比原有H100的80GB,多出了112GB。同时,单GPU显存带宽从H100的3.35TB/s提升为了8TB/s。另,配合CPU配置了17TB的DDR5X内存,单B200芯片480GB内存。

 

 

网络配置

● nvlink网络

NVL72是全NVlink互联的架构,故在NVL72模式下,是无需使用到RDMA(IB&RoCE)网络的。

1、整机NVL72配置了9个NVswitch tray,每个tray里面是2颗NVlink switch chip,每颗chip支持4*1.8TB/s的速率,即7.2TB/s的容量,转换成为57.6Tbps,比当前最热的TH5的51.2Tbps芯片的容量更大一些。每个NVswitch tray提供2*4*1.8TB/s=14.4TB/s的NVLink能力。

NVswitch tray内部线路图:

 

 

NVswitch tray前面板图:

 

2、GB200使用了nvlink5.0,每颗B200 chip通过自身18条nvlink5.0与NVlinkswitch chip进行互联。相当于一台NVL72有72*18=1296条NVlink5.0端口,每个端口是双向100GB/s,由4对差分信号线组成,每对差分信号由1条copper cable提供链接,故实际链路是1296*4=5184条。

各代NVlink的带宽:

 

nvlink5.0信道示意图:

 

3、如下所示,GB200 NVL72机柜中的9个NVSwitch Tray全部用于连接72个B200。每个B200芯片分别与18颗NVswitch芯片由一条nvlink5.0、双向100GB的链路进行互联;每颗NVswitch芯片支持7.2GB带宽,即72条NVlink5.0链路,故适配72颗B200 GPU部署。所以,已经没有额外的NVLink接口用于扩展构成更大规模的集群。需要想其它办法,后文介绍。

 

4、GB200 NVL72的NVlink在内部形成了一个全互联的状态,仅通过NVswitch一跳,可以实现72颗B200芯片的全互联。每个switchchip有4个nvlink端口,每个端口有72条铜缆对接,可以极大的降低光通信的功耗和成本,单机可减少20KW功耗。NVL72内部通信结构分析图:

 

● 非NVlink网络(RDMA+TCP高速网络)

1、每个compute tray含有4个OSFP插槽,及2个QSFP插槽。compute tray前面板图中网络端口示意图如下:

 

a)2个QSFP是由支持Bluefield-3 DPU,提供400G/800G口,用来负责TCP/存储高性能网络通信互联,即NV提出的前端网络。

b)4个OSFP插槽,CX7/CX8的800G/1.6TB口,的用于提供GB200的外部扩容,使用RDMA网络通信,即NV提出的后端网络。

2、受限于设计架构、传输成本、芯片能力,目前NV仅给出了最大576颗GPU(后面会提),即8台GB200 NVL72的纯NVlink组网方案。如果要做更进一步的扩容AI的训练/推理集群,需要通过RDMA网络来进行扩容。Nvlink5.0达到100GB/s的带宽,1个GPU是18条,总共1.8TB/s的带宽,而RDMA目前最快速率单端口200GB/s(1.6Tbps),后者在速度上是无法相提并论的。

3、涉及到的光模块间接(光模块类型众多,主要基于MSA定义,未来有机会单独细讲,本次主要是给大家简单认知。)更多详细可参考:https://www.fibermall.com/

a)下图是1.6T的OSFP-XD模块,使用224G的serdes,总共8个lane,MPO16芯的SMF单模光缆,目前网上能找到的最便宜1.6T,12600刀/个,未来应该会出多模激光器的光模块。

 

b)下图是800G常用的QSFP模块,分别使用1*16芯多模MPO,模块是8个lane组成,在短距离情况是使用MMF光纤。下图属于最基础性的OSPF800G模块,100米传输距离,市场报价在1200刀/个左右。

 

c)下图是800G常用模块中的其中一种,OSPF,使用16芯MPO,模块由8个lane组成。下图模块可以传输100m,使用MMF多模光纤,市场报价在750刀/个左右。

 

电源配置

1、整机额定功耗120KW,按2N配置为4+4(or4+2)个电源shelf,每个电源shelf支持33KW,可安插支持6个5.5KW的PSU单元,提供5+1的冗余能力。

 

2、使用的是OCP的ORv3 HPR的电源shelf,拥有超过97.5%的电源效率,从而减小AC-DC转换过程中的电力损耗。同时使用48V/50V的低压直流输出给各槽位,比传统的12V有更低的电力输送损耗。

 

3、机柜输入电源采用OCP的ORV3 HPR标准,AC input为415V。各槽位通过硬插链接的方式,直接与机柜的Busbar总线链接。

 

 

4、在AC的input侧,使用的是ORv3定义的7pin插接,下图展示了两种(左北美、右欧洲)不同的接头标准。按照单电源shelf支持33KW推测,每个input的输入应该是125A的断路标准。

 

5、在AC的input的上游端,使用的是标准工业连接器,遵循IEC 60309-2的标准IP67,移动工业插头,支持125A断路开关。根据相数电压不同,可以选择3芯125A或者5芯125A。

 

制冷配置

在H100阶段,单GPU为700W,为满足风冷散热的要求,创造更好的空气动力环境,整机在8颗H100的情况下已经做到了6-8U的空间。在B200阶段,单颗芯片为1200W,为了更大的散热空间,整机已经达到10U(8*B200)。

而在GB200 Bianca board的场景下,2700W的功耗,空气流速已经不足以能在19英寸机柜中形成有效散热,故只能选择液冷方案。同时,可以将整机体积控制在1~2U的范围内,大大提升了空间利用率,且散热效率更高。

1、液冷可以通过冷盘解决Bianca上的CPU和GPU的散热,但是每个compute tray和NVswitch tray的前面部分还有很多定制化的部件,比如网卡、PDU、管理卡、硬盘等,这部分依旧需要风冷散热。故以compute tray来讲一般需要形成风液比:8.5:1.5左右。未来如果需要基于CX网卡进行scale-out时候,可能会在NIC网卡处设计cold plate。下图是compute tray液冷架构图:

2、在机柜层面,目前主要提供多种液冷解决方式:

a)针对一些风冷的老机房改造有RDHx和Sidecar两种方案选择,前者可提供30~40KW制冷,而后者则提供70~140KW制冷。这两种方案可在现有机房的风冷空调机组不做改变的情况下,增加每个rack的液冷系统,通过冷媒把热冷带到散热器radiator与空气热交换(需要保留室内风冷环境),从而实现制冷,改动较小,无需大范围改造管路。方案如图下图。但,以上方案要满足NVL72的制冷是比较吃力的。

 

b)针对NV72这样的高密度,新建数据中心,可以有in-rack的CDU和in-row的CDU两种不同方案选择。in-rack的CDU需要占用机柜内部超过4U的位置,其制冷效率一般在80KW左右,同时没法提供CDU冗余能力;in-row的CDU脱离单个rack内部,而是在数个机柜或列机柜配置的规模下,配置2个CDU系统,其制冷可到800KW~2000KW,同时提供冗余能力,目前NVL576集群的官方宣传就是用的in-row的方案。架构如图:

 

 

GB200 NVL36

NVL36是NVL72的变体,差异主要体现在4个方面:

1、每个compute tray从原来的NVL72的1U变成了2U,内部依旧是2颗grace的CPU+4颗B200芯片。单个rack的算力减半,但总算力一致。

2、单个rack从原来的120KW,减少到了单个rack的66KW,这样能适配更加广泛的数据中心。

3、2个rack中间的9个NVswitch tray,由于单rack内的GPU少了一半,而这些端口用来进行跨rack的nvlink互联。这样nvlinkswitch就比原来的NVL72多了一层,变成两层。

4、由于功耗降低,所需的33KW的power shelf也减少,2个即可满足需求,2N冗余可以配置2+2shelf。

除去以上几点外,NVL36与NVL72并无其它不同。另外,传言META会使用定制化的单compute tray为4CPU+4GPU的NVL36。

网上未找到NVL36的实体图,这个是示意图:

 

NVL36的的NVswitch tray与另一个NVL36rack进行back to back的互联,每个NVswitch tray的一半端口连本rack的背板,推测另一半端口与旁边rack进行互联是使用的18个1.8TB的端口,总共为64.8TB的rack间互联带宽。网上有说是OSFP模块的,但是不置可否,因为1.8TB*8=14.4Tbps,目前OSPFDD只能做到1.6Tbps,故更偏向于是背板互联。

 

GB200 NVL576

NVL576是通过16台的NVL36进行扩容而来。因为,NVL72单rack系统的nvlink已经全互联使用,如果要1:1的无阻塞scale-out,那么至少需要有足够的端口和外部互联,但NVL72已经没有了空间。同时,考虑到全互联的需求,把NVL72拆成NVL36后,每个rack还有一半即64.8TB共648条nvlink5.0链路可以进行扩容连接到第二层的NVswitch上。

所以按NV官方说的576颗B200(2880P算力,FP16),那么应该是要用16台NVL36来进行组网。每个NVswitch都提供了36个对外互联的nvlink端口,累计单个机柜有36 * 2 * 9 =648个上行端口,构成NVL576需要有16个机柜,则累计上行端口数为 648 * 16 = 10,368个,对应的第二层交换平面需要有10368个端口进行对接,经计算

10368÷(72/2)÷2÷18=8

实际上可以由8个第二层交换平面构成,每个平面内又有36个NVswitch,由18个NVswitch tray构成576颗GPU的全NVlink HBN域,互联结构如下所示(这图来自fibermall,里面的planes-9应该是错的,正确应该是8):

 

下图是官网NVL576的部署示意图,但这个图其实是有些不确定性的,因为如果是基于NVL36的机框,这个图是不正确的。

DGX B200

设备介绍

1、DGX B200是由NV官方版本的整机系统,含8块B200的GPU,内部2颗NVswitch进行互联,支持8*400G网络,单机额定功耗在14.3KW。

 

 

2、官配机提供的是风冷版本,使用5+1个电源配置模式。目前未找到液冷版本的相关信息。

值得注意就是这里,由于系统设置只有超过1个电源故障,整机就会宕机,所以在做网络配置时,无论如何无法基于传统数据中心A/B两路均插电源的方式实现电源容灾,也就是无法做到A/B路容灾,实际一路供电受影响,机器即受影响。

所以,如果需要做电源侧容灾,需要进行复杂的开关配置,即在每台DGX B200的PDU之前,做一个电源switch,对A/B两路进行故障切换,可能还需要考虑大电容、末端电池UPS等。还有一种方案,就是6路UPS与6个PDU进行独立供电。但无论哪种方式,其电源插接方式都是复杂的。

 

3、安装方式展示

 

SuperPOD网络:

NV官网的DGX B200的super POD是127个节点(1个UFM),单台提供4个800G(8个400G)的OSFP接口,每32台为一个SuperPOD,同时使用64口400G的交换机。

因为要提升扩容能力,leaf提供32上、32下的400G能力,即每个SuperPOD里的leaf接32台B200各1个400G口,总共8台交换机。故上行为8*32=256个400G口。

spine层使用8台的情况下,总共8*64=512个400G口,刚好满足2个S普洱POD的互联(256*2)。如果是16台spine,则如下图可以满足4个POD的互联。16台spine情况下,16*64=32*32=1024口,故总共4个POD共32台leaf,正好spine的上下行能全部用完。另外,按照比例算,如果是二层的网络架构,选用64口400G组网,最多可以64leaf+32spine,构成2048颗GPU的集群。

 

下图是基于SuperPOD推荐的网络机柜配置。

 

 

?

微信扫一扫
关注该公众号

关于我们

北京汉深流体技术有限公司是丹佛斯中国数据中心签约代理商。产品包括FD83全流量自锁球阀接头,UQD系列液冷快速接头、EHW194 EPDM液冷软管、电磁阀、压力和温度传感器及Manifold的生产和集成服务。在国家数字经济、东数西算、双碳、新基建战略的交汇点,公司聚焦组建高素质、经验丰富的液冷工程师团队,为客户提供卓越的工程设计和强大的客户服务。

公司产品涵盖:丹佛斯液冷流体连接器、EPDM软管、电磁阀、压力和温度传感器及Manifold。
未来公司发展规划:数据中心液冷基础设施解决方案厂家,具备冷量分配单元(CDU)、二次侧管路(SFN)和Manifold的专业研发设计制造能力。


- 针对机架式服务器中Manifold/节点、CDU/主回路等应用场景,提供不同口径及锁紧方式的手动和全自动快速连接器。
- 针对高可用和高密度要求的刀片式机架,可提供带浮动、自动校正不对中误差的盲插连接器。以实现狭小空间的精准对接。
- 基于OCP标准全新打造的UQD/UQDB通用快速连接器也将首次亮相, 支持全球范围内的大批量交付。

 

北京汉深流体技术有限公司 Hansen Fluid
丹佛斯签约中国经销商 Danfoss Authorized Distributor

地址:北京市朝阳区望京街10号望京SOHO塔1C座2115室
邮编:100102
电话:010-8428 2935 , 8428 3983 , 13910962635
手机:15801532751,17310484595 ,13910122694
13011089770,15313809303
Http://www.hansenfluid.com
E-mail:sales@cnmec.biz

传真:010-8428 8762

京ICP备2023024665号
京公网安备 11010502019740

Since 2007 Strong Distribution & Powerful Partnerships