We engineer tomorrow to build a better future.
Solutions to your liquid cooling challenges.
 
 
DANFOSS
数据中心液冷产品
  数据中心液冷产品
  FD83接头
  UQD快速接头
  UQDB盲插接头
  BMQC盲插接头
  NVQD液冷接头
  NVQD02
  NVBQD02
  EHW194液冷软管
  EHW094液冷软管
  5400制冷剂接头
  Manifold 分水器
  液冷系统生产及集成
Danfoss流体管阀件
 
 
 
 
 
非标定制液冷产品
液冷系统生产及集成
阀门
传感器
选型资料下载
  新闻通告
  成功案例
  资料下载
 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 


   

 

英伟达GB300AI服务器预计今年Q2发布,一文读懂GB300
英伟达 GB300 服务器被曝明年登场:全水冷方案、AI 算力再上新台阶

英伟达GB 300细节曝光,下一代GPU怪兽
来源:内容编译自semianalysis


IT之家 12 月 3 日消息,科技媒体 WccfTech 昨日(12 月 2 日)发布博文,报道称英伟达计划在 2025 年年中推出“Blackwell Ultra” GB300 AI 服务器,采用“全水冷”散热方案,并带来更强悍的性能。

英伟达 GB300 服务器被曝明年登场:全水冷方案、AI 算力再上新台阶

消息称新一代 GB300 AI 服务器将采用“Blackwell Ultra”架构,由于性能显著提升,导致功耗也大幅增加,因此将采用全水冷散热方案。不过消息源称,全水冷方案也推高了服务器成本,预计 GB300 服务器的顶配价格将远超目前约 300 万美元(IT之家备注:当前约 2175.4 万元人民币)的 GB200 NVL72 服务器。

英伟达 GB300 服务器被曝明年登场:全水冷方案、AI 算力再上新台阶

与现有的 Blackwell GPU 直接焊接到主板不同,Blackwell Ultra 将采用插槽式设计,用户可以像 CPU 一样自由安装或卸载 GPU,这一改变简化了制造流程,对生产互连组件和插槽的制造商尤为有利。

消息称英伟达GB300AI服务器预计今年Q2发布。英伟达预计2025年3月GTC大会正式发布下一代GB300 AI服务器产品线。而在此之前,鸿海、广达等供应链产生已经先动起来了,进入了GB300 AI服务器研发设计阶段。据悉,英伟达已初步敲定GB300 AI服务器订单的配置,鸿海仍是最大供应商,预计明年上半年有望推出实机面市,脚步领先全球同行业。鸿海除了在GB200系列即掌握的芯片模组、组装等供应链,也陆续投入水冷系统、连接器等领域,并进行相关验证中。

据Digitimes2日报道,供应链消息称GB300服务器正在如火如荼地设计中,预计今年Q2发布、Q3试产。据悉GB300的散热需求更强,主板风扇使用数量更少,这也意味着其液冷散热需求将会更强。在芯片侧方面,GB300超级芯片将基于更新的B300GPU,拥有更强的FP4性能。该GPU功耗将从B200的1000W进一步提升至1400W,达到初代B100的两倍;同时HBM内存规格也将升级共计288GB的8堆栈12HiHBM3E。

大摩预计,英伟达下一代AI GPU GB300有望在今年四季度批量出货,该系列可能会引入GPU插槽、增设冷板模块并采用更高功率的电源模块,且英伟达将减少参与度,赋予ODM(原始设计制造商)更多设计空间。

NVIDIA 的 GB300 AI 服务器是一款性能强大、配置高端的人工智能服务器,以下是其具体介绍:

技术参数

芯片性能:采用全新的 B300 GPU 芯片,FP4 性能相较于前一代 B200显著提升了1.5倍,单卡功耗为1400W,达到初代B100的两倍257。

内存配置:每个GPU配备288GB的HBM3E内存,采用8堆栈12HiHBM3E技术,相比GB200提升了近50%,在处理大规模数据和运行复杂AI模型时更具优势257。

网络功能:内置全新的ConnectX-8网卡,替代了之前的ConnectX-7,同时光模块带宽从800G升级到了1.6T,大大提高了数据传输效率25。

冷却系统:由于性能提升导致功耗大幅增加,采用全水冷散热方案,通过水冷板和增强型UQD技术,确保服务器在高强度运算时能保持稳定状态234。

电源管理:GB300NVL72机柜配备了标准化超级电容UPS,并提供可选的后备电池(BBU)系统,每个BBU模块制造成本约为300美元,每个NVL72机架需要超过300个单元,每个单元生产成本在20至25美元之间25。

升级1:计算性能+50%,功耗+17%,利好液冷、电源。

GB300Flops计算性能提升了50%,同时内存从8个HBM3E升级到12个。计算性能和内存的提升,带动功耗提升,GB300单卡功耗为1.4kW,而GB200为1.2kW,提升幅度约为17%。同时,预计Rubin版本功耗将达到1.8kW,较GB200提升50%,较H100提升157%。

散热、电源等环节与服务器功耗紧密相关,产品有望升级,用量或将明显增长。散热方面,GB300的设计中水冷板、液冷系统、UQD快速接口的使用量或将明显增加。电源方面,GB300或将升级超级电容和BBU技术,确保在断电等突发情况下,系统能够安全关闭,避免数据丢失。

升级2:网卡从CX7升级至CX8,1.6T光模块成标配

GB300的网卡将从CX7升级至CX8,网络规模、性能均得到明显提升。网卡升级对光模块带来两方面影响,一是光模块规格升级,1.6T光模块成为GB300的标配;二是组网规模扩大,网络在AI投资的占比或将提升。当前,海外头部厂商正在着力打造十万卡、甚至百万卡集群,网络的层数和复杂度提升,将带来网络投资的指数增长。根据博通,当前网络在AI的投资占比在5%-10%之间,当集群规模扩大至50万至100万时网络投资占比会上升至15%-20%。

升级3:强化模块化设计思路,有望引入更多供应商

GB300增加了内存模组和GPUsocket,使得组装和替换更加灵活。这种模块化设计不仅提高了系统的可维护性,还为未来的定制化提供了更多可能性。同时,随着机柜设计日益成熟,GB300有望在液冷、PCB、连接器等环节引入更多的供应商。

具体主要变化:

1.引入GPU插槽:英伟达计划为即将推出的第二代BlackwellB300系列处理器引入插槽设计,替代传统的直接表面贴装(SMT)。此举旨在改善低生产良率问题(目前Wistron计算板的良率为80%,而UBB良率超过90%)并提高维修性。初期插槽由FIT供应,未来可能会引入Lotes作为第二供应商。

GB300设计将采用插座以增强可靠性和便于维修,这一变化也将影响PCB设计,预计GB300计算托盘将采用两块独立的PCB,而插座区域将采用HDI,UBB区域则采用多层PCB。

PCB替代HDI和过孔。在GB300产品中,预计计算托盘的PCB价值将增加,原因包括:

1)在插座区域额外使用HDI(M4M7混合,类似于当前计算托盘设计),

2)计算托盘采用至少M7级别材料的高价值多层PCB。研报建议关注是否会采用M8级别CCL(仍在讨论中)。如果采用M8CCL,其价格几乎是M7CCL的两倍,而计算托盘占GB200PCB内容价值的一半,这意味着PCB内容价值可能增加40-50%。

PCB:当前3个开关托盘PCB供应商可能继续参与新计算托盘设计,HDI。

CCL:如果采用M8级别CCL,EMC(2383TT)和Nittobo(3110JP)具有上升空间。如果采用NER玻璃价格是NE玻璃的两倍。3)适配器。

此外B300GPU有望采用插槽设计以提升良率、简化售后维护;而在GraceCPU部分则将采用LPCAMM内存条代替现有的板载LPDDR5。

2.增设冷板模块:由于GPU插槽的采用,新冷板模块可能会为每个GPU/CPU单独设计,并使用新型体积更小的NVQD取代GB200中的UQD(快换接头)设计。主要供应商包括CoolerMaster和AVC集团,Fositek、FII和Lotes也可能受益。

3.更高功率的电源模块:独立电源架有望被引入,以满足更高的可靠性和功率需求。GB300的电源单元将支持10kW和12kW,适用于60kW和72kW的电源架,具体取决于机架兼容性、生产验证和可靠性测试。

4.ODM(原始设计制造商)的价值将有所提升。与GB200相比,英伟达将在GB300的机械组件设计中减少参与度,这将赋予ODM更多设计空间。ODM可以为超大规模客户(hyperscalers)提供定制化设计服务,潜在地提升其利润率。

5.NVIDIA将取消其Blackwell芯片与GraceCPU、NVLink和NVSwitch的捆绑销售,这意味着新的GB300设计可以采用x86CPU和Broadcom的PCIe交换机。同时,将提供参考设计,但允许CSPs/ODMs进行更多定制。

6.互联方面,英伟达将在GB300服务器上导入新一代ConnectX-8SuperNIC和理论带宽翻倍的1.6Tbps光模块。

7.GB300AI服务器液冷散热需求更强。据此前报道,新一代GB300AI服务器将采用“BlackwellUltra”架构,由于性能显著提升,导致功耗也大幅增加,因此将采用全液冷散热方案。不过来自WccfTech的消息源称,全液冷方案也推高了服务器成本,预计GB300服务器的顶配价格将远超目前约300万美元(当前约2196.6万元人民币)的GB200NVL72服务器。

8.超级电容具有成为服务器主流电源方案的优势。与传统的带电池的UPS系统相比,超级电容在调频、弥补电力缺口、负载平衡和能量回收等方面具有显著优势。这些特性使其在断电或负载高峰期间能够快速释放能量,保证不间断供电,并提高能源效率

 

广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考。
风险提示:本文所提到的观点仅代表个人的意见,所涉及标的不作推荐,据此买卖,风险自负。

 

Nvidia 推出其第一代 Blackwell B200 系列处理器时遇到了阻碍,原因是 产量问题,并且还出现了几份未经证实的服务器过热报告。然而,据 SemiAnalysis报道,Nvidia 的第二代Blackwell B300 系列处理器似乎 即将问世。它们不仅具有更大的内存容量,而且性能提高了 50%,而 TDP 仅增加了 200W。

Nvidia 的 B300 系列处理器采用了经过大幅调整的设计,仍将采用台积电的 4NP 制造工艺(针对 Nvidia 进行优化的 4nm 级节点,性能增强),但报告称,它们的计算性能将比 B200 系列处理器高出 50%。性能提升的代价是高达 1,400W 的 TDP,仅比 GB200 高 200W。SemiAnalysis 称,B300 将在 B200 上市大约半年后上市。

Nvidia B300 系列的第二项重大改进是使用 12-Hi HBM3E 内存堆栈,可提供 288 GB 内存和 8 TB/s 带宽。增强的内存容量和更高的计算吞吐量将实现更快的训练和推理,推理成本最多可降低三倍,因为 B300 可以处理更大的批量大小并支持扩展的序列长度,同时解决用户交互中的延迟问题。

除了更高的计算性能和更大的内存外,Nvidia 的第二代 Blackwell 机器还可能采用该公司的 800G ConnectX-8 NIC。该 NIC 的带宽是当前 400G ConnectX-7 的两倍,并且有 48 个 PCIe 通道,而其前代产品只有 32 个。这将为新服务器提供显着的横向扩展带宽改进,这对大型集群来说是一个胜利。

B300 和 GB300 的另一个重大改进是,与 B200 和 GB200 相比,Nvidia 据称将重新设计整个供应链。该公司将不再试图销售整个参考主板或整个服务器机箱。相反,Nvidia 将只销售搭载 SXM Puck 模块、Grace CPU 和 Axiado 主机管理控制器 (HMC) 的 B300。因此,将允许更多公司参与 Blackwell 供应链,这有望使基于 Blackwell 的机器更容易获得。

借助 B300 和 GB300,Nvidia 将为其超大规模和 OEM 合作伙伴提供更多设计 Blackwell 机器的自由,这将影响它们的定价甚至性能。

Nvidia 的圣诞礼物:GB300 和 B300

在 GB200 和 B200 发布仅 6 个月后,他们就向市场推出了一款全新的 GPU,名为 GB300 和 B300。虽然表面上听起来只是渐进式的,但实际效果远超预期。

这些变化尤其重要,因为它们包括对推理模型推理和训练性能的巨大提升。Nvidia 为所有超大规模企业,尤其是亚马逊、供应链中的某些参与者、内存供应商及其投资者准备了一份特别的圣诞礼物。随着向 B300 的转移,整个供应链正在重组和转变,为许多赢家带来了礼物,但也有一些输家得到了煤炭。

B300 GPU 是基于 TSMC 4NP 工艺节点的全新流片,也就是说,它是针对计算芯片的微调设计。这使得 GPU 在产品层面上能够提供比 B200高 50% 的 FLOPS。部分性能提升将来自 200W 的额外功率,GB300 和 B300 HGX 的 TDP 分别达到 1.4KW 和 1.2KW(而 GB200 和 B200 的 TDP 分别为 1.2KW 和 1KW)。

其余性能提升将来自架构增强和系统级增强,例如 CPU 和 GPU 之间的功率浮动。功率浮动是指 CPU 和 GPU 之间动态重新分配功率

除了 FLOPS 增加外,内存还从 8-Hi 升级到 12-Hi HBM3E,每个 GPU 的 HBM 容量增加到 288GB。但是,引脚速度将保持不变,因此内存带宽仍为每 GPU 8TB/s。请注意,三星正在从圣诞老人那里获得煤炭,因为他们至少在未来 9 个月内无法进入 GB200 或 GB300。

此外,Nvidia 也因为圣诞节的气氛,所以定价也相当有意思。这改变了 Blackwell 的利润率,但以后再讨论定价和利润率的问题。首先要讨论的是性能变化。

为推理模型推理而构建

由于长序列长度会增加 KVCache,从而限制关键批次大小和延迟,因此内存的改进是 OpenAI O3 风格 LLM 推理训练和推理的关键。

下图显示了 Nvidia 当前几代 GPU 在 1k 输入token、19k 输出token上运行对token经济学的改进,这类似于 OpenAI 的 o1 和 o3 模型中的思路链。这个演示性的屋顶线模拟是在 FP8 的 LLAMA 405B 上运行的,因为它是我们可以使用 H100 和 H200 GPU(我们可以访问的 GPU)模拟的最佳公共模型。

 

从 H100 升级到 H200 纯粹是内存更大、速度更快的升级,有两个效果。

由于内存带宽更大,所有可比批次大小的交互性普遍提高了 43%(H200 @ 4.8TB/s vs H100 @ 3.35TB/s)。

由于 H200 运行的批处理大小比 H100 大,每秒可生成 3 倍的令牌,因此成本降低了约 3 倍。这种差异主要是因为 KVCache 限制了总批处理大小。

更大内存容量带来的动态变化似乎不成比例的好处是巨大的。对于操作员来说,这两款 GPU 之间的性能和经济差异比纸面上的规格所暗示的要大得多:

由于请求和响应之间等待时间过长,推理模型的用户体验可能会很差。如果您可以提供更快的推理时间,这将增加用户使用和付费的倾向。

3 倍的成本差异是巨大的。坦率地说,通过中代内存升级实现 3 倍性能提升的硬件是疯狂的,比摩尔定律、黄定律或我们所见过的任何其他硬件改进速度都要快得多。

我们观察到,最强大和差异化的模型能够比能力稍差的模型收取更高的费用。前沿模型的毛利率超过 70%,但落后模型的利润率低于 20%。推理模型不必是一条思路。搜索是存在的,并且可以扩展以提高性能,就像 O1 Pro 和 O3 中所做的那样。这使得更智能的模型能够解决更多问题,并为每个 GPU 产生更多收入。

当然,Nvidia 并不是唯一一家能够增加内存容量的公司。ASIC 可以做到这一点,事实上,AMD 可能处于有利地位,因为它们的内存容量比 Nvidia 更高,一般来说,MI300X 的内存容量为 192GB,MI325X 的内存容量为 256GB,MI350X 的内存容量为 288GB……不过圣诞老人黄有一只叫做 NVLink 的红鼻子驯鹿。

当我们转向 GB200 NVL72 和 GB300 NVL72 时,基于 Nvidia 的系统的性能和成本将大幅提升。在推理中使用 NVL72 的关键点在于它能够让 72 个 GPU 以极低的延迟处理同一个问题,共享内存。世界上没有其他加速器具有全对全交换连接。世界上没有其他加速器可以通过交换机完成所有缩减。

Nvidia 的 GB200 NVL72 和 GB300 NVL72 对于实现许多关键功能至关重要。

 

更高的交互性使得每个思路链的延迟更低。

72 个 GPU 分散 KVCache,以实现更长的思维链(提高智能)。

与典型的 8 GPU 服务器相比,批量大小扩展效果更好,从而降低了成本。

通过搜索更多样本来解决同一问题,可以提高准确性并最终提高模型性能。

因此,使用 NVL72 的token经济学要好 10 倍以上,尤其是在长推理链上。KVCache 消耗内存对经济来说是致命的,但 NVL72 是将推理长度扩展到高批次 100k+ token的唯一方法。

Blackwell 供应链为 GB300 重新设计

随着 GB300 的推出,Nvidia 提供的供应链和内容发生了巨大变化。对于 GB200,Nvidia 提供整个 Bianca 主板(包括 Blackwell GPU、Grace CPU、512GB LPDDR5X、VRM 内容,全部集成在一个 PCB 上),以及开关托盘和铜背板。

 

对于 GB300,Nvidia 不会提供整个 Bianca 主板,而是仅提供“SXM Puck”模块上的 B300、BGA 封装上的 Grace CPU 以及来自美国初创公司 Axiado 而非 GB200 的 Aspeed 的 HMC。

最终客户现在将直接采购计算板上的剩余组件,第二层内存将是 LPCAMM 模块,而不是焊接的 LPDDR5X。美光将成为这些模块的主要供应商。

交换机托盘和铜背板保持不变,这些组件全部由 Nvidia 提供。

 

转向 SXM Puck 为更多 OEM 和 ODM 参与计算托盘提供了机会。以前只有 Wistron 和 FII 可以制造 Bianca 计算板,现在更多的 OEM 和 ODM 可以制造。Wistron 是 ODM 方面最大的输家,因为它失去了 Bianca 板的份额。对于 FII 来说,Bianca 板层面的份额损失被他们是 SXM Puck 和 SXM Puck 所依赖的插槽的独家制造商这一事实所抵消。Nvidia 正试图为 Puck 和插槽引入其他供应商,但他们尚未下任何其他订单。

另一个重大转变是 VRM 内容。虽然 SXM Puck 上有一些 VRM 内容,但大部分板载 VRM 内容将由超大规模制造商/OEM 直接从 VRM 供应商处采购。10 月 25 日,我们向Core Research 订阅者发送了一份说明,说明 B300 如何重塑供应链,特别是围绕电压调节器模块(“VRM”)。我们特别指出了单片电源系统将如何因商业模式的转变而失去市场份额,以及哪些新进入者正在获得市场份额。在我们向客户发送说明后的一个月内,由于市场意识到了我们领先研究中的事实,MPWR 下跌了 37% 以上。

Nvidia 还在 GB300 平台上提供 800G ConnectX-8 NIC,在 InfiniBand 和以太网上提供两倍的横向扩展带宽。Nvidia 不久前取消了 GB200 的 ConnectX-8,原因是上市时间复杂,并且放弃在 Bianca 板上启用 PCIe Gen 6。

ConnectX-8 相比 ConnectX-7 有了巨大改进。它不仅拥有 2 倍带宽,还拥有 48 个 PCIe 通道(而非 32 个 PCIe 通道),从而支持独特的架构,例如风冷 MGX B300A。此外,ConnectX-8 还支持 SpectrumX ,而在之前的 400G 代产品中,SpectrumX 所需的Bluefield 3 DPU 效率要低得多。

GB300 对超大规模的影响

GB200 和 GB300 延迟对超大规模计算的影响意味着,从第三季度开始,许多订单将转向 Nvidia 新的更昂贵的 GPU。截至上周,所有超大规模计算公司都已决定继续使用 GB300。部分原因是 GB300 的性能因更高的 FLOPS 和更大的内存而提高,但也有一部分原因是他们能够掌控自己的命运。

由于上市时间的挑战以及机架、冷却和电力输送/密度的重大变化,超大规模企业无法在服务器级别对 GB200 进行太大的更改。这导致 Meta 放弃了能够从 Broadcom 和 Nvidia 多源获取 NIC 的所有希望,转而完全依赖 Nvidia。在其他情况下,例如 Google,他们放弃了内部 NIC,转而只与 Nvidia 合作。

对于超大规模的数千人组织来说,这就像黑板上的钉子一样,他们习惯于对从 CPU 到网络,甚至螺丝和金属板的所有东西进行成本优化。

最令人震惊的例子是亚马逊,它选择了非常次优的配置,与参考设计相比,TCO 更差。由于使用 PCIe 交换机和效率较低的 200G Elastic Fabric Adaptor NIC(需要风冷),亚马逊无法部署 NVL72 机架,如 Meta、Google、Microsoft、Oracle、X.AI 和 Coreweave。由于其内部 NIC,亚马逊不得不使用 NVL36,由于背板和交换机内容更多,每个 GPU 的成本也更高。总而言之,由于定制方面的限制,亚马逊的配置不是最优的。

现在,借助 GB300,超大规模数据中心运营商能够定制主板、冷却系统等。这使得亚马逊能够构建自己的定制主板,该主板采用水冷,并集成了之前采用风冷的组件,例如 Astera Labs PCIe 交换机。在 25 年第三季度,水冷更多组件以及最终在 K2V6 400G NIC 上实现 HVM 意味着亚马逊可以重新转向 NVL72 架构并大大改善其 TCO。

不过,有一个很大的缺点,那就是超大规模企业必须进行大量的设计、验证和确认工作。这无疑是超大规模企业有史以来必须设计的最复杂的平台(谷歌的 TPU 系统除外)。某些超大规模企业将能够快速设计,但其他团队速度较慢的企业则落后了。总体而言,尽管有市场取消报告,但我们认为微软是部署 GB300 速度最慢的企业之一,原因是设计速度太快,他们仍在第四季度购买一些 GB200。

由于组件从 Nvidia 的利润堆积中抽出,转移到 ODM 身上,因此客户支付的总价格相差很大。ODM 的收入会受到影响,最重要的是,Nvidia 的毛利率也会在一年内发生变化。

 

英伟达加速研发 GB300 NVL72:每机柜总 DrMOS 成本降低约 35-40%
2025-02-08 06:59

IT之家 2 月 8 日消息,天风证券分析师郭明錤昨日(2 月 7 日)发布博文,报道称英伟达正加速开发 GB300 NV72,并预计将提前备货 DrMOS / SPS,2025 年采购量或将超过 1.5 亿颗。

郭明錤在博文中称万国半导体有限公司(Alpha and Omega Semiconductor,下文简称 AOS)已确定为 GB300 NVL72 DrMOS 主要供应商(占比约为 70%),预计将在 2025 年第 2 季度出货 5000-6000 万颗 DrMOS,远超市场普遍预期。

这一举动标志着 AOS 正式进入 Nvidia 的 AI 服务器供应链,并有望在 2025 年第二季度结束亏损状态。

郭明錤表示英伟达为降低 GB300 NVL72 成本,采用与显卡同等级的 5x5 DrMOS(也称为 SPS)。与 GB200 NVL72 的主要区别在于更低的电流规格、移除过电流限制(Over Current Limit;OCL)以及更低的成本。

IT之家援引博文介绍,这些改变让 GB300 NVL72 每机柜的 DrMOS 用量增加了约 30%,但 DrMOS 单价降低了约 50%,最终让总 DrMOS 成本降低约 35-40%。

DrMOS 的主要供应商,供应比重为 70%,第二供应商为 MPS。为确保 AOS 在需求强劲的情况下顺利交货,Nvidia 提前下单,预计 AOS 将在 2025 年第二季度出货 5000-6000 万颗。

GB300 NVL72 的 OCL 完全由控制器(controller)负责,目前与 AOS DrMOS 搭配的控制器先由 MPS 供应,预计在 2025 年第二季度出货约 120 万颗。由于规格升级,GB300 NVL72 每机柜的控制器用量较 GB200 NVL72 增加了约 60%。

Nvidia 加速 GB300 系统的开发,主要反映了云服务提供商(CSP)的需求。虽然近期 Nvidia 与供应链股价的修正部分源于 DeepSeek 的竞争,但也反映了市场对 GB200 NVL72 出货量低于预期的担忧。

 

 

英伟达GB300震撼发布,液冷技术引领市场新风潮
2025-01-07 19:47


2025年的开始,科技行业迎来了又一场重要变革。作为全球领先的图形处理器和人工智能计算技术公司,英伟达(NVIDIA)在CES2025上推出了全新的GB300系列AI芯片,凭借1.5倍的性能提升和先进的液冷解决方案,引起了业界的广泛关注。此次发布的GB300芯片不仅在性能上超越了前任,还在功耗管理上体现了前所未有的创新,标志着英伟达在高性能计算领域的又一次技术突破。

GB300系列芯片的关键特性包括其强大的计算能力和高效的散热设计。与上一代GB200系列相比,GB300在单卡功耗方面从1.2kW提升至1.4kW,未来的Rubin版本甚至可能达到1.8kW。这一变化虽然带来了更大的能源要求,但英伟达通过引入液冷技术,尤其是冷板式与浸没式液冷解决方案,有望有效解决高热密度运算过程中散热问题,保证了芯片在高负载情况下的稳定性与安全性。这些特点使得GB300不仅适用于大型数据中心,也能在各类高性能计算环境中表现出色。

实际使用中,GB300芯片在各类应用场景中展现了优异的性能。无论是在复杂的游戏环境中,还是在需要大量计算的AI训练任务中,GB300均表现出卓越的处理速度和稳定性,为用户提供了流畅的体验。此外,液冷系统的引入,不仅提升了散热效率,更通过节能设计降低了长期使用的运营成本,从而在市场中具备了显著的竞争优势。

市场反响也随之而来。行业分析师指出,GB300的推出将影响多个相关市场,特别是液冷技术的普及。东阳光(600673.SH)作为液冷技术的领军企业之一,近期股价已经出现了显著增长。随着AI实力的提升以及算力需求的增加,液冷市场将面临快速扩张的机遇。据预测,2024年中国液冷服务器市场规模将达到12.6亿美元,未来几年年复合增长率将高达47.6%。这一趋势为东阳光等公司提供了发展壮大的机会,企业的市值也在持续上升。

从竞争角度看,英伟达的技术创新将对其他芯片制造商产生压力,尤其是在高性能计算领域。随着算力需求的不断上升,更多厂商可能会加大液冷技术的投入,以应对日益增加的散热挑战。同时,英伟达的成功也可能推动整个行业的转型,促使更多企业进军液冷技术市场,形成一股新的技术潮流。

综上所述,英伟达GB300的发布不仅展示了其在AI和高性能计算领域的领先地位,更引领了液冷技术的应用潮流。随着市场对散热效率及高算力需求的不断提升,这一技术的普及将在未来网络和数据中心的建设中扮演更加重要的角色。消费者和厂商都应关注这一变化,及时调整对新兴技术的应用策略,抓住这一行业发展的新机遇。

 

 

https://semianalysis.com/2024/12/25/nvidias-christmas-present-gb300-b300-reasoning-inference-amazon-memory-supply-chain/

 

Nvidia’s Christmas Present: GB300 & B300 – Reasoning Inference, Amazon, Memory, Supply Chain Blackwell Delays, Microsoft Orders, GB300 BOM, Nvidia Gross Margin, ConnectX-8, VRMs, Micron, Samsung, SK Hynix, Wistron, FII Foxconn, Aspeed, Axiado
By Dylan Patel, Myron Xie and Daniel Nishball

Merry Christmas has come thanks to Santa Huang. Despite Nvidia’s Blackwell GPU’s having multiple delays, discussed here, and numerous times through the Accelerator Model due to silicon, packaging, and backplane issues, that hasn’t stopped Nvidia from continuing their relentless march.

Aug 04, 2024
Nvidia’s Blackwell Reworked – Shipment Delays & GB200A Reworked Platforms
Dylan Patel, Wega Chu, Daniel Nishball, Myron Xie, Chaolien Tseng
They are bringing to market a brand-new GPU only 6 months after GB200 & B200, titled GB300 & B300. While on the surface it sounds incremental, there’s a lot more than meets the eye.

The changes are especially important because they include a huge boost to reasoning model inference and training performance. There is a special Christmas present from Nvidia to all the hyperscalers, especially Amazon, certain players in the supply chain, memory vendors, and their investors. The entire supply chain is reorganizing and shifting with the move to B300, bringing many winners presents, but also some losers get coal.

B300 & GB300 – Not Just An Incremental Upgrade
The B300 GPU is a brand-new tape out on the TSMC 4NP process node, IE it is a tweaked design, for the compute die. This enables the GPU to deliver 50% higher FLOPS versus the B200 on the product level. Some of this performance gain will come from 200W additional power with TDP going to 1.4KW and 1.2KW for the GB300 and B300 HGX respectively (compared to 1.2KW and 1KW for GB200 and B200).

The rest of the performance increase will come from architectural enhancements and system level enhancements such as power sloshing between CPU & GPU. Power sloshing is when the CPU and GPU dynamically reallocate power between the CPU and GPU

In addition to more FLOPS, the memory is upgraded to 12-Hi HBM3E from 8-Hi growing the HBM capacity per GPU to 288GB. However, the pin speed will remain the same so memory bandwidth is still 8TB/s per GPU. Note Samsung is receiving coal from Santa, because they have no shot at getting into the GB200 or GB300 for at least another 9 months.

Furthermore, Nvidia, because they are in the Christmas spirit, the pricing of it is quite interesting. This shifts the margins of Blackwell, but more on pricing and margins later. Most important to discuss first is the performance changes.

Built For Reasoning Model Inference
The improvements to memory are key for OpenAI O3 style LLM Reasoning training and inference due to long sequence lengths growing KVCache, limiting critical batch sizes and latency. We explained this in our Scaling Laws defense piece where we discussed reasoning model training, synthetic data, inference, and much more.

Dec 11, 2024
Scaling Laws – O1 Pro Architecture, Reasoning Training Infrastructure, Orion and Claude 3.5 Opus “Failures”
Dylan Patel, Daniel Nishball, AJ Kourabi, Reyk Knuhtsen
The chart below shows improvements to tokenomics through Nvidia’s current generations of GPUs running on 1k input tokens, 19k output tokens, which is similar to a chain of thought in OpenAI’s o1 and o3 models. This demonstrative roofline simulation is run on LLAMA 405B at FP8 as it is the best public model we can simulate, with H100 and H200 GPUs, the GPUs we have access to.

Source: SemiAnalysis
When going from H100 to H200, which is purely only an upgrade with more, faster memory, there are two effects.

43% higher interactivity generally across all comparable batch sizes due to more memory bandwidth (H200 @ 4.8TB/s vs H100 @ 3.35TB/s).
~3x reduction in cost due to H200 running higher batch size then H100, enabling generation of 3x as many tokens per second. This difference is primarily because of KVCache limiting total batch size.
The dynamic of more memory capacity offering a seemingly disproportional benefit on to are massive. The performance and economic difference for the operator between the two GPUs is much larger than what the paper specs suggest:

Reasoning models can be a poor user experience due to significant waiting time between requests and responses. If you can offer significantly faster reasoning time, this will increase the user’s propensity to use and pay for them.
A 3x difference in cost is massive. Hardware delivering 3x with a mid-generation memory upgrade is frankly insane, way faster than Moore’s law, Huang’s Law, or any other pace of hardware improvement we’ve seen.
We have observed that the most capable and differentiated models are able to charge a significant premium over even slightly less capable models. Gross margins on frontier models are north of 70%, but on trailing models with open source competition, margins are below 20%. Reasoning models don’t have to be 1 chain of thought. Search exists and can be scaled up to improve performance as it has in O1 Pro and O3. This enables smarter models that can solve more problems and generate significantly more revenue per GPU.
Nvidia’s not the only one that can increase memory capacity of course. ASICs can do this and in fact AMD may be well positioned due to their higher memory capacity versus Nvidia generally with MI300X’s 192GB, MI325X 256GB, and MI350X 288GB… Well except Santa Huang has a Red-Nosed Reindeer called NVLink.

Apr 10, 2024
Nvidia Blackwell Perf TCO Analysis – B100 vs B200 vs GB200 NVL72
Dylan Patel, Daniel Nishball
When we step forward to GB200 NVL72 and GB300 NVL72, the performance and cost for Nvidia based systems improve massively. The key point for using NVL72 in inference is because it enables 72 GPUs to work on the same problem, sharing their memory, at extremely low latency. No other accelerator in the world has all-to-all switched connectivity. No other accelerator in the world can do all reduce through a switch.

Nvidia’s GB200 NVL72 and GB300 NVL72 is incredibly important to enabling a number of key capabilities.

Much higher interactivity enabling lower latency per chain of thought.
72 GPUs to spread KVCache over to enable much longer chains of thought (increased intelligence).
Much better batch size scaling versus the typical 8 GPU servers, enabling much lower cost.
Many more samples to search with working on the same problem to improve accuracy and ultimately model performance.
As such, the tokenomics with NVL72 are more than 10x better, especially on long reasoning chains. KVCache eating up memory is a killer for economics, but NVL72 is the only way to scale reasoning lengths to 100k+ tokens at high batches.

Blackwell Supply Chain Reworked for GB300
With GB300, the supply chain and content that Nvidia supplies drastically changes. For the GB200 Nvidia provides the whole Bianca board (including the Blackwell GPU, Grace CPU, 512GB of LPDDR5X, VRM content all integrated onto one PCB) as well as the switch tray and copper backplane.

Source: SemiAnalysis
For GB300, instead of supplying the whole Bianca board, Nvidia will only supply the B300 on an “SXM Puck” module, the Grace CPU on a BGA package, and the HMC which will be from US based startup Axiado instead of Aspeed for GB200.

End customers will now directly procure the remaining components on the compute board and the second tier of memory will be LPCAMM modules instead of soldered-on LPDDR5X. Micron will be the main supplier of these modules.

The switch tray and copper backplane stays the same with Nvidia supplying these components entirely.

Source: SemiAnalysis
The shift to the SXM Puck opens up opportunities for more OEMs and ODMs to participate in the compute tray. Where previously only Wistron and FII could manufacture the Bianca compute board, now more OEMs and ODMs can. Wistron is the biggest loser in the form of ODMs as they lose share of the Bianca board. For FII, share loss at the Bianca board level is offset by the fact that they are the exclusive manufacturer of the SXM Puck and socket that the SXM Puck sits on. Nvidia is attempting to bring other suppliers for both the Puck and socket, but they have not placed any other orders yet.

Another major shift is with the VRM content. While there is some VRM content on the SXM Puck, much of the on board VRM content will be procured by Hyperscalers/OEMs directly from VRM suppliers. On October 25th for Core Research subscribers, we sent a note on how B300 was reshaping the supply chain specifically around Voltage Regulator Modules (“VRM”). We specifically called out how Monolithic Power Systems would lose market share due to the shift in business model and which new entrants were gaining market share. In the month following our note to clients, the MPWR fell over 37% due to the market’s realization of the facts in our leading research.

Nvidia also offers the 800G ConnectX-8 NIC on the GB300 platform, offering twice the scale out bandwidth on InfiniBand and Ethernet. Nvidia cancelled ConnectX-8 for GB200 a while ago due to time to market complexities and foregoing enabling PCIe Gen 6 on the Bianca board.

ConnectX-8 offers a huge improvement versus ConnectX-7. Not only does it have 2x bandwidth, but it also has 48 PCIe lanes instead of 32 PCIe lanes, enabling unique architectures such as the air cooled MGX B300A. Furthermore, ConnectX-8 is SpectrumX capable whereas on the prior 400G generation, SpectrumX required much less efficient Bluefield 3 DPUs.

Hyperscaler Impacts with GB300
The hyperscaler impacts from delayed GB200 and GB300 mean that many orders starting in Q3 shift over to Nvidia’s new more expensive GPU. As of last week, all hyperscalers have decided to go forward with GB300. Partially this is due to the increased performance of GB300 due to higher FLOPS and more Memory, but also a portion of this is due to the ability to have control of their destiny.

Due to time to market challenges and significant changes in rack, cooling, and power delivery/density, hyperscalers were not allowed to change the GB200 much at the server level. This resulted in Meta abandoning all hope of being able to multi-source NICs from Broadcom and Nvidia in favor of relying solely on Nvidia. In other cases, such as Google, they abandoned their in-house NIC in favor of only going with Nvidia.

This is like nails on a chalkboard for the multi-thousand people organizations at hyperscalers who are used to cost optimizing everything from CPUs to networking down to screws and sheet metal.

The most egregious example was Amazon, who choose a very sub-optimal configurations that had worse TCO versus the reference design. Amazon specifically has not been able to deploy NVL72 racks like Meta, Google, Microsoft, Oracle, X.AI, and Coreweave due to the use of PCIe switches and less efficient 200G Elastic Fabric Adaptor NICs needing to be air cooled. Amazon due to their internal NICs had to use NVL36 which also costs more per GPU due to higher backplane and switch content. All in all, Amazon’s configuration was sub-optimal, due to their constraints around customization.

Now with GB300, hyperscalers are able to customize the main board, cooling, and much more. This enables Amazon to build their own custom mainboard which is watercooled with previously air-cooled components integrated such as the Astera Labs PCIe Switches. Watercooling more components alongside finally getting to HVM on the K2V6 400G NIC in Q3 25 means that Amazon can move back to NVL72 architecture and greatly improve their TCO.

There is one big downside though, which is that hyperscalers have to design, verify, and validate a ton more. This is easily the most complicated platform hyperscalers have ever had to design (save for Google’s TPU systems). Certain hyperscalers will be able to design this quickly, but others with slower teams are behind. Generally, despite market cancellation reports, we see Microsoft as one of the slowest to deploy GB300 due to design speed, with them still buying some GB200 in Q4.

The total price the customer pays differs a lot as components get pulled out of Nvidia’s margin stacking, onto ODMs. ODM’s revenue is impacted, and most importantly, Nvidia’s gross margin shifts through the year as well. Below we will show these impacts.

 

 

关于我们

北京汉深流体技术有限公司 是丹佛斯中国数据中心签约代理商。产品包括FD83全流量双联锁液冷快换接头(互锁球阀);液冷通用快速接头UQD & UQDB;OCP ORV3盲插快换接头BMQC;EHW194 EPDM液冷软管、电磁阀、压力和温度传感器。在人工智能AI、国家数字经济、东数西算、双碳、新基建战略的交汇点,公司聚焦组建高素质、经验丰富的液冷工程师团队,为客户提供卓越的工程设计和强大的客户服务。

公司产品涵盖:丹佛斯液冷流体连接器、EPDM软管、电磁阀、压力和温度传感器及Manifold。
未来公司发展规划:数据中心液冷基础设施解决方案厂家,具备冷量分配单元(CDU)、二次侧管路(SFN)和Manifold的专业研发设计制造能力。

- 针对机架式服务器中Manifold/节点、CDU/主回路等应用场景,提供不同口径及锁紧方式的手动和全自动快速连接器。
- 针对高可用和高密度要求的刀片式机架,可提供带浮动、自动校正不对中误差的盲插连接器。以实现狭小空间的精准对接。
- 基于OCP标准全新打造的液冷通用快速接头UQD & UQDB ;OCP ORV3盲插快换接头BMQC , 支持全球范围内的大批量交付。
- 新型体积更小的NVQD液冷快换接头。NVQD02 (H20); NVQD03 (Blackwell B300 GB300); NVQD04

 

北京汉深流体技术有限公司 Hansen Fluid
丹佛斯签约中国经销商 Danfoss Authorized Distributor

地址:北京市朝阳区望京街10号望京SOHO塔1C座2115室
邮编:100102
电话:010-8428 2935 , 8428 3983 , 13910962635
手机:15801532751,17310484595 ,13910122694
13011089770,15313809303
Http://www.hansenfluid.com
E-mail:sales@cnmec.biz

传真:010-8428 8762

京ICP备2023024665号
京公网安备 11010502019740

Since 2007 Strong Distribution & Powerful Partnerships