|
|
GB200 NVL系列较之前DGX系统最大的变化大概有4点: 1、整机柜交付形态,非常密集的铜缆布线,功耗可达120KW/rack。
GB200 NVL72 名字由来: G——Grace CPU 形态介绍 基于Blackwell的NVL72,是整机柜设备,72是指总共72颗B200的GPU芯片。整机包括18个Compute tray(上10下8),9个NVswitch tray,6个电源tray(上3,下3)。整机柜功耗达到了120KW。 单台GB200 NVL72的FP16的算力达到了360P,相当于22.5台H100的算力性能。且本次重点增加了FP4/FP6的精度能力,考虑在推理中使用FP4精度,则算力可达1440P。 单个rack内部使用nvlink全部互联,Compute tray和NVSwitch tray之间为nvlink5.0技术,通过Copper Cable Cartridge相连,总共多大5184条铜芯互联线路。 正面展示:
计算配置 如上文所介绍,每个NVL72,有18个compute tray,这就是NVL72的算力配置单元,每个tray就是一个计算节点。 GB200 NVL72,首先定义了Bianca board的超级芯片组,每个芯片组由1个NV基于arm架构开发的称为Grace的CPU和2可Blackwell的GPU芯片,而每个compute tray则由2个超级芯片构成,即2CPU+4GPU。NVL72的18个compute tray总共有18*4=72颗GPU。 每个compute tray,以1U的形态,直接插接在机框上。是日常部署、运维的最小化单元。同时单个compute tray的功耗达到了5400W。 整机NVL72,显存为13.8T,单颗B200芯片,显存为192T,比原有H100的80GB,多出了112GB。同时,单GPU显存带宽从H100的3.35TB/s提升为了8TB/s。另,配合CPU配置了17TB的DDR5X内存,单B200芯片480GB内存。
网络配置 ● nvlink网络 NVL72是全NVlink互联的架构,故在NVL72模式下,是无需使用到RDMA(IB&RoCE)网络的。 1、整机NVL72配置了9个NVswitch tray,每个tray里面是2颗NVlink switch chip,每颗chip支持4*1.8TB/s的速率,即7.2TB/s的容量,转换成为57.6Tbps,比当前最热的TH5的51.2Tbps芯片的容量更大一些。每个NVswitch tray提供2*4*1.8TB/s=14.4TB/s的NVLink能力。 NVswitch tray内部线路图:
NVswitch tray前面板图:
2、GB200使用了nvlink5.0,每颗B200 chip通过自身18条nvlink5.0与NVlinkswitch chip进行互联。相当于一台NVL72有72*18=1296条NVlink5.0端口,每个端口是双向100GB/s,由4对差分信号线组成,每对差分信号由1条copper cable提供链接,故实际链路是1296*4=5184条。 各代NVlink的带宽:
nvlink5.0信道示意图:
3、如下所示,GB200 NVL72机柜中的9个NVSwitch Tray全部用于连接72个B200。每个B200芯片分别与18颗NVswitch芯片由一条nvlink5.0、双向100GB的链路进行互联;每颗NVswitch芯片支持7.2GB带宽,即72条NVlink5.0链路,故适配72颗B200 GPU部署。所以,已经没有额外的NVLink接口用于扩展构成更大规模的集群。需要想其它办法,后文介绍。
4、GB200 NVL72的NVlink在内部形成了一个全互联的状态,仅通过NVswitch一跳,可以实现72颗B200芯片的全互联。每个switchchip有4个nvlink端口,每个端口有72条铜缆对接,可以极大的降低光通信的功耗和成本,单机可减少20KW功耗。NVL72内部通信结构分析图:
● 非NVlink网络(RDMA+TCP高速网络) 1、每个compute tray含有4个OSFP插槽,及2个QSFP插槽。compute tray前面板图中网络端口示意图如下:
a)2个QSFP是由支持Bluefield-3 DPU,提供400G/800G口,用来负责TCP/存储高性能网络通信互联,即NV提出的前端网络。 b)4个OSFP插槽,CX7/CX8的800G/1.6TB口,的用于提供GB200的外部扩容,使用RDMA网络通信,即NV提出的后端网络。 2、受限于设计架构、传输成本、芯片能力,目前NV仅给出了最大576颗GPU(后面会提),即8台GB200 NVL72的纯NVlink组网方案。如果要做更进一步的扩容AI的训练/推理集群,需要通过RDMA网络来进行扩容。Nvlink5.0达到100GB/s的带宽,1个GPU是18条,总共1.8TB/s的带宽,而RDMA目前最快速率单端口200GB/s(1.6Tbps),后者在速度上是无法相提并论的。 3、涉及到的光模块间接(光模块类型众多,主要基于MSA定义,未来有机会单独细讲,本次主要是给大家简单认知。)更多详细可参考:https://www.fibermall.com/ a)下图是1.6T的OSFP-XD模块,使用224G的serdes,总共8个lane,MPO16芯的SMF单模光缆,目前网上能找到的最便宜1.6T,12600刀/个,未来应该会出多模激光器的光模块。
b)下图是800G常用的QSFP模块,分别使用1*16芯多模MPO,模块是8个lane组成,在短距离情况是使用MMF光纤。下图属于最基础性的OSPF800G模块,100米传输距离,市场报价在1200刀/个左右。
c)下图是800G常用模块中的其中一种,OSPF,使用16芯MPO,模块由8个lane组成。下图模块可以传输100m,使用MMF多模光纤,市场报价在750刀/个左右。
电源配置 1、整机额定功耗120KW,按2N配置为4+4(or4+2)个电源shelf,每个电源shelf支持33KW,可安插支持6个5.5KW的PSU单元,提供5+1的冗余能力。
2、使用的是OCP的ORv3 HPR的电源shelf,拥有超过97.5%的电源效率,从而减小AC-DC转换过程中的电力损耗。同时使用48V/50V的低压直流输出给各槽位,比传统的12V有更低的电力输送损耗。
3、机柜输入电源采用OCP的ORV3 HPR标准,AC input为415V。各槽位通过硬插链接的方式,直接与机柜的Busbar总线链接。
4、在AC的input侧,使用的是ORv3定义的7pin插接,下图展示了两种(左北美、右欧洲)不同的接头标准。按照单电源shelf支持33KW推测,每个input的输入应该是125A的断路标准。
5、在AC的input的上游端,使用的是标准工业连接器,遵循IEC 60309-2的标准IP67,移动工业插头,支持125A断路开关。根据相数电压不同,可以选择3芯125A或者5芯125A。
制冷配置 在H100阶段,单GPU为700W,为满足风冷散热的要求,创造更好的空气动力环境,整机在8颗H100的情况下已经做到了6-8U的空间。在B200阶段,单颗芯片为1200W,为了更大的散热空间,整机已经达到10U(8*B200)。 而在GB200 Bianca board的场景下,2700W的功耗,空气流速已经不足以能在19英寸机柜中形成有效散热,故只能选择液冷方案。同时,可以将整机体积控制在1~2U的范围内,大大提升了空间利用率,且散热效率更高。 1、液冷可以通过冷盘解决Bianca上的CPU和GPU的散热,但是每个compute tray和NVswitch tray的前面部分还有很多定制化的部件,比如网卡、PDU、管理卡、硬盘等,这部分依旧需要风冷散热。故以compute tray来讲一般需要形成风液比:8.5:1.5左右。未来如果需要基于CX网卡进行scale-out时候,可能会在NIC网卡处设计cold plate。下图是compute tray液冷架构图: 2、在机柜层面,目前主要提供多种液冷解决方式: a)针对一些风冷的老机房改造有RDHx和Sidecar两种方案选择,前者可提供30~40KW制冷,而后者则提供70~140KW制冷。这两种方案可在现有机房的风冷空调机组不做改变的情况下,增加每个rack的液冷系统,通过冷媒把热冷带到散热器radiator与空气热交换(需要保留室内风冷环境),从而实现制冷,改动较小,无需大范围改造管路。方案如图下图。但,以上方案要满足NVL72的制冷是比较吃力的。
b)针对NV72这样的高密度,新建数据中心,可以有in-rack的CDU和in-row的CDU两种不同方案选择。in-rack的CDU需要占用机柜内部超过4U的位置,其制冷效率一般在80KW左右,同时没法提供CDU冗余能力;in-row的CDU脱离单个rack内部,而是在数个机柜或列机柜配置的规模下,配置2个CDU系统,其制冷可到800KW~2000KW,同时提供冗余能力,目前NVL576集群的官方宣传就是用的in-row的方案。架构如图:
GB200 NVL36 NVL36是NVL72的变体,差异主要体现在4个方面: 1、每个compute tray从原来的NVL72的1U变成了2U,内部依旧是2颗grace的CPU+4颗B200芯片。单个rack的算力减半,但总算力一致。 2、单个rack从原来的120KW,减少到了单个rack的66KW,这样能适配更加广泛的数据中心。 3、2个rack中间的9个NVswitch tray,由于单rack内的GPU少了一半,而这些端口用来进行跨rack的nvlink互联。这样nvlinkswitch就比原来的NVL72多了一层,变成两层。 4、由于功耗降低,所需的33KW的power shelf也减少,2个即可满足需求,2N冗余可以配置2+2shelf。 除去以上几点外,NVL36与NVL72并无其它不同。另外,传言META会使用定制化的单compute tray为4CPU+4GPU的NVL36。 网上未找到NVL36的实体图,这个是示意图:
NVL36的的NVswitch tray与另一个NVL36rack进行back to back的互联,每个NVswitch tray的一半端口连本rack的背板,推测另一半端口与旁边rack进行互联是使用的18个1.8TB的端口,总共为64.8TB的rack间互联带宽。网上有说是OSFP模块的,但是不置可否,因为1.8TB*8=14.4Tbps,目前OSPFDD只能做到1.6Tbps,故更偏向于是背板互联。
GB200 NVL576 NVL576是通过16台的NVL36进行扩容而来。因为,NVL72单rack系统的nvlink已经全互联使用,如果要1:1的无阻塞scale-out,那么至少需要有足够的端口和外部互联,但NVL72已经没有了空间。同时,考虑到全互联的需求,把NVL72拆成NVL36后,每个rack还有一半即64.8TB共648条nvlink5.0链路可以进行扩容连接到第二层的NVswitch上。 所以按NV官方说的576颗B200(2880P算力,FP16),那么应该是要用16台NVL36来进行组网。每个NVswitch都提供了36个对外互联的nvlink端口,累计单个机柜有36 * 2 * 9 =648个上行端口,构成NVL576需要有16个机柜,则累计上行端口数为 648 * 16 = 10,368个,对应的第二层交换平面需要有10368个端口进行对接,经计算 10368÷(72/2)÷2÷18=8 实际上可以由8个第二层交换平面构成,每个平面内又有36个NVswitch,由18个NVswitch tray构成576颗GPU的全NVlink HBN域,互联结构如下所示(这图来自fibermall,里面的planes-9应该是错的,正确应该是8):
下图是官网NVL576的部署示意图,但这个图其实是有些不确定性的,因为如果是基于NVL36的机框,这个图是不正确的。 DGX B200 设备介绍 1、DGX B200是由NV官方版本的整机系统,含8块B200的GPU,内部2颗NVswitch进行互联,支持8*400G网络,单机额定功耗在14.3KW。
2、官配机提供的是风冷版本,使用5+1个电源配置模式。目前未找到液冷版本的相关信息。 值得注意就是这里,由于系统设置只有超过1个电源故障,整机就会宕机,所以在做网络配置时,无论如何无法基于传统数据中心A/B两路均插电源的方式实现电源容灾,也就是无法做到A/B路容灾,实际一路供电受影响,机器即受影响。 所以,如果需要做电源侧容灾,需要进行复杂的开关配置,即在每台DGX B200的PDU之前,做一个电源switch,对A/B两路进行故障切换,可能还需要考虑大电容、末端电池UPS等。还有一种方案,就是6路UPS与6个PDU进行独立供电。但无论哪种方式,其电源插接方式都是复杂的。
3、安装方式展示
SuperPOD网络: NV官网的DGX B200的super POD是127个节点(1个UFM),单台提供4个800G(8个400G)的OSFP接口,每32台为一个SuperPOD,同时使用64口400G的交换机。 因为要提升扩容能力,leaf提供32上、32下的400G能力,即每个SuperPOD里的leaf接32台B200各1个400G口,总共8台交换机。故上行为8*32=256个400G口。 spine层使用8台的情况下,总共8*64=512个400G口,刚好满足2个S普洱POD的互联(256*2)。如果是16台spine,则如下图可以满足4个POD的互联。16台spine情况下,16*64=32*32=1024口,故总共4个POD共32台leaf,正好spine的上下行能全部用完。另外,按照比例算,如果是二层的网络架构,选用64口400G组网,最多可以64leaf+32spine,构成2048颗GPU的集群。
下图是基于SuperPOD推荐的网络机柜配置。
? 微信扫一扫 关于我们 北京汉深流体技术有限公司是丹佛斯中国数据中心签约代理商。产品包括FD83全流量自锁球阀接头,UQD系列液冷快速接头、EHW194 EPDM液冷软管、电磁阀、压力和温度传感器及Manifold的生产和集成服务。在国家数字经济、东数西算、双碳、新基建战略的交汇点,公司聚焦组建高素质、经验丰富的液冷工程师团队,为客户提供卓越的工程设计和强大的客户服务。 公司产品涵盖:丹佛斯液冷流体连接器、EPDM软管、电磁阀、压力和温度传感器及Manifold。
|
|