We engineer tomorrow to build a better future.
Solutions to your liquid cooling challenges.
 
 
DANFOSS
数据中心液冷产品
  数据中心液冷产品
  FD83接头
  UQD快速接头
  UQDB盲插接头
  盲插浮动结构
  BMQC盲插接头
  MQD液冷接头
  MQD02液冷接头
  MQD03液冷接头
  MQD04液冷接头
  MQDB盲插接头
  Mini-QD光模块液冷接头
  EHW194 液冷软管
  EHW094 液冷软管
  DC394 液冷软管
  5400制冷剂接头
  不锈钢90度旋转接头
  Manifold 分水器
  液冷系统生产及集成

卓越成长 业绩突破
Performance Outstanding Award
2024奖项获得者

 
选型资料下载
  新闻通告
  成功案例
  行业动态
  资料下载
 
汉深公司仓库

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 


   

 

浅谈 Nvidia H20 的实用价值
原文:https://zhuanlan.zhihu.com/p/691287727

 

一、引言

站在这个时间点上看,2024年国内通过合规渠道能采购的英伟达的高端显卡只有H20 [1, 2]。Nvidia H20拥有高配的显存、很高的卡间互联带宽和有竞争力的FP8算力,是值得推荐的一款GPU卡(单看96GB的HBM3显存配置,也推荐大家使用H20)。笔者预测2024年Nvidia H20的销售情况与2023年Nvidia H800的销售情况会比较类似,会从刚开始大家观望到后来大家抢购(再到买不到)。本文就谈谈Nvidia H20的实用价值。

 

二、H20简介与对比

Nvidia H20是从Nvidia H200裁剪而来的[1, 2, 3],保留了900GB/s的卡间高速互联带宽(NVLink4.0和NVSwitch3.0)[4],并支持PCIe Gen5(128GB/s双向带宽)。PCIe Gen5连接支持400GbE集群网络,有利于组建超大规模GPU集群和保持较高的集群线性加速比。

在算力方面,H20峰值算力只有H200峰值算力的14.96%(~15%),H20峰值算力相对较低(被严重裁剪)。

在L2 Cache配置方面,H20配置了60MB的L2 Cache,比H200有更大的L2 Cache。 Nvidia H20拥有96GB的HBM3显存,显存带宽高达4TB/s。虽然Nvidia H20的显存配置相对于H200有所裁剪,但是H20的显存配置相对于国产AI芯片还是有明显优势的。

Nvidia GPU FP16算力(稠密,TFLOPS) FP8算力(稠密,TFLOPS) L2 Cache(MB) 显存容量(GB) 显存带宽(TB/s) 卡间互联带宽(GB/s) PCIe连接
H200 989.5 1979 50 141 4.8 900 Gen5
H20 148 296 60 96 4.0 900 Gen5

当前国内大模型厂商的训练算力主要集中在Nvidia A800和H800 [5, 6],以及华为昇腾910B-A2 [7, 8],与现有的算力资源相比,Nvidia H20也有其独特的优势。

例如,相较于Nvidia A800,Nvidia H20在FP8算力、显存配置、卡间互联带宽、PCIe连接等方面都有显著优势;相较于Nvidia H800,Nvidia H20在L2 Cache、显存配置、卡间互联带宽等方面都有显著优势;相较于华为昇腾910B-A2,Nvidia H20在FP8算力、显存配置、卡间互联带宽等方面都有显著优势。

AI加速卡 FP16算力(稠密,TFLOPS) FP8算力(稠密,TFLOPS) L2 Cache(MB) 显存容量(GB) 显存带宽(TB/s) 卡间互联带宽(GB/s) PCIe连接
H800 989.5 1979 50 80 3.35 400 Gen5
H20 148 296 60 96 4.0 900 Gen5
A800 312 不支持 80 80 2.0 400 Gen4(64 GB/s)
910B-A2 376 不支持 64 64 1.6 56 Gen5

 

三、H20 for 大模型训练

Nvidia H20拥有非常高的卡间互联带宽,并支持PCIe Gen5,在配备400GbE集群网络情况下,H20集群线性加速比接近于1,使得H20卡非常适合用来组建大规模集群。

使用Nvidia H20执行大模型训练任务,基于目前的一些测试结果,对于BF16混合精度训练,在集群规模较小的情况下(例如,512 x H20),Nvidia H20训练吞吐大概可以达到Nvidia A800训练吞吐的62%(即集群规模较小的情况下,H20的性能是A800的性能的~60%)[11, 12];在集群规模较大的情况下(例如,4096 x H20),Nvidia H20训练吞吐大概可以达到Nvidia A800训练吞吐的70%(即集群规模较大的情况下,H20的性能是A800的性能的~70%)。

Huawei 910B-A2(over A800) Nvidia H20(over A800) Nvidia A800
较小集群规模(~512卡) 80% 62% 100%
较大集群规模(~4096卡) 50% 70% 90%(线性加速比)
FP8计算 vs BF16计算 80% 大于100% 100%

值得说明的是,FP8混合精度训练方法还不成熟,在现阶段只能支持规模较小的LLM模型训练(例如,34B及以下)。未来随着技术的演讲,FP8混合精度训练会成为主流技术。

 

四、H20 for 大模型推理

Nvidia H20拥有非常好的显存配置以及较好的FP8峰值算力,适合用于LLM推理。使用Nvidia H20执行大模型推理任务,特别是LLM推理任务, Nvidia H20推理性能比Nvidia H800推理性能高出20% (例如,对比显存带宽:4/3.35 ~= 1.19 = 120%)[2, 9, 10]。

随着未来LLM模型参数规模越来越大,需要使用拥有高配显存的AI芯片来进行推理服务,使用Nvidia H20执行超大LLM模型推理任务,是性价比更高的选择[1, 2, 9, 10]。

此外,也可以使用Nvidia H20置换现在推理服务中使用A800和H800卡,这样就可以有更多的A800卡和H800卡用于大模型训练。

Huawei 910B-A2(over A800) Nvidia H20(over A800) Nvidia A800
推理实例(~单机8卡) 80% 120% 100%
推理实例(~32卡) 75% 126% 100%

综上所述,Nvidia H20核心价值在于: (1)使用H20组建大规模集群用于大模型训练(例如,FP8混合精度训练);(2)H20适合用于超大规模LLM推理(FP8计算);(3)H20价格适中(性价比高 )。

 

 

英伟达H20芯片:适应市场变化的战略调整
原创 IT技术订阅 IT技术订阅 2024年08月19日 07:38 中国香港

在全球科技领域中,人工智能(AI)技术的发展正以前所未有的速度推动着产业变革。作为全球领先的GPU制造商之一,英伟达公司始终站在技术创新的前沿。然而,在国际政治经济形势的影响下,英伟达面临着前所未有的挑战。为了应对这些挑战并保持市场领先地位,英伟达推出了专为中国市场设计的H20芯片。本文将深入探讨H20芯片的技术特点、市场定位、竞争格局及其对未来AI产业发展的影响。

一、背景与挑战

在过去的几年里,国际形势的变化对高科技产业产生了深远影响。特别是针对尖端技术的出口管制政策,使得像英伟达这样的国际巨头不得不重新审视其全球战略。面对这一现实,英伟达采取了一系列措施,包括推出H20芯片以适应新的市场环境。

 

由于美国政府对尖端AI芯片实施了新的出口管制措施,英伟达需要调整其产品线以符合这些规定,并继续在中国市场销售其产品。

黄仁勋(英伟达创始人兼CEO)曾表示,这些限制可能会影响英伟达的市场份额,并可能促使中国企业加速自主研发。

二、H20芯片的技术特点

架构与设计

H20芯片基于英伟达最新的Hopper架构,这一架构代表了公司在GPU领域的最新成果。尽管H20在某些方面进行了“阉割”,以满足特定市场的法规要求,但其核心架构依然保留了许多创新元素,确保了较高的性能表现。

性能指标

H20芯片在计算能力和功耗管理方面进行了优化,以适应不同的应用场景。虽然与旗舰级别的H100相比存在差距,但对于大多数用户而言,H20已经能够提供足够的算力支持。

 

H20芯片是经过算力阉割的版本,相较于其他高性能芯片(如A100和H100)有所降级。

在算力方面,H20芯片大约只有H100芯片的20%到30%。

H20芯片基于最新的Hopper架构,这表明它在架构上仍然较为先进。

 

H20和H100综合对比

计算能力
H100理论峰值性能:1979 TFLOPs(使用TF32精度)。性能密度(TFLOPs/Die size):19.4。

H20理论峰值性能:296 TFLOPs(使用FP8精度或其他精度,具体未明确)。性能密度:2.9。

综合算力:H20的综合算力约为H100的20%,这意味着H20的算力大约是H100的六分之一左右。

显存
H100显存容量:80GB HBM3。内存带宽:3.4 TB/s。

H20显存容量:96GB HBM3。内存带宽:4.0 TB/s。

功耗
H20:热设计功耗为400W。
H100:热设计功耗为700W。

架构与互联
H100 NVLink高速互联:900GB/s。支持7路MIG(Multi-Instance GPU)功能。

H20在HGX解决方案中支持8路GPU的配置。

H20在计算能力上远不如H100,但是在显存容量和带宽方面有一定的优势,并且在特定的应用场景中,比如大语言模型推理,它能够提供更好的性能。H20的设计更多地考虑了能效比和成本效益,而H100则定位为顶级的高性能计算GPU。

 

三、市场定位与策略

目标市场

H20芯片主要面向中国市场,旨在满足那些受到出口管制影响但仍希望使用英伟达技术的企业。通过调整产品规格,英伟达能够在遵守法规的同时继续保持与中国市场的联系。

定价策略

为了提高市场竞争力,H20芯片在定价上采取了相对保守的策略。相较于竞争对手的产品,H20提供了更具吸引力的价格点,这对于预算有限的企业来说是一个重要的考虑因素。

 

H20芯片的价格区间大致在8.6万到11万人民币之间,略低于华为昇腾910B的价格。

尽管性能较低,但由于其价格优势以及与英伟达现有平台的兼容性,对于某些客户来说仍具有吸引力。有些情况下,可能需要使用多块H20芯片才能达到与单块更高性能芯片相当的算力水平。

 

预计营收

 

行业分析机构预测,H20芯片能够为英伟达带来显著的收入。据估计,仅这款芯片就能为英伟达贡献超过120亿美元的营收(接近870亿人民币)。

四、竞争格局

国内厂商崛起

国内AI芯片企业如华为、寒武纪、百度等已经有成熟的产品可以批量出货,这些产品在市场上与英伟达形成了竞争。一些大厂如阿里巴巴、腾讯、百度和字节跳动等已经开始将部分订单转向国内供应商。

随着国际贸易环境的变化,国内AI芯片厂商如华为、寒武纪、百度等开始崭露头角。这些企业在过去几年里迅速成长,不仅在国内市场上取得了显著的成绩,也在国际市场上赢得了一席之地。

 

市场份额与趋势

尽管面临来自国内厂商的竞争,英伟达凭借其深厚的技术积累和广泛的生态系统支持,在中国市场仍保持着一定的市场份额。不过,随着国内企业的不断进步,这种态势可能会发生变化。

 

五、未来展望

技术发展

随着AI技术的不断进步,对于更高效、更强大的计算资源的需求将持续增长。英伟达将继续投资研发,推出更多创新产品以满足市场需求。

 

合作与伙伴关系

英伟达认识到,单一企业无法独自解决所有问题。因此,加强与其他企业、研究机构的合作将是未来发展的关键。

 

结语

英伟达H20芯片不仅是公司在特定市场环境下的一次战略调整,也是其在全球范围内持续推动技术创新的一个缩影。面对复杂多变的市场环境,英伟达通过灵活的产品策略展现了其应对挑战的能力。

 

 

 

H20 平台NVQD02接头

- 不锈钢
- EPDM密封
- 单手连接或断开
- Cv值高,高流量低压降
- 连接力小,轻松连接
- 色带清晰,阴接头有色套筒,阳接头有色密封
- 100% 氦气检测
- 规格: NVQD02和NVBQD02

H20 平台NVBQD02盲插接头

- 不锈钢
- EPDM密封
- 单手连接或断开
- Cv值高,高流量低压降
- 连接力小,轻松连接
- 色带清晰,阴接头有色套筒,阳接头有色密封
- 100% 氦气检测
- 规格: NVQD02和NVBQD02

 

 

关于我们

北京汉深流体技术有限公司是丹佛斯中国数据中心签约代理商。产品包括FD83全流量自锁球阀接头,UQD系列液冷快速接头、EHW194 EPDM液冷软管、电磁阀、压力和温度传感器及Manifold的生产和集成服务。在国家数字经济、东数西算、双碳、新基建战略的交汇点,公司聚焦组建高素质、经验丰富的液冷工程师团队,为客户提供卓越的工程设计和强大的客户服务。

公司产品涵盖:丹佛斯液冷流体连接器、EPDM软管、电磁阀、压力和温度传感器及Manifold。
未来公司发展规划:数据中心液冷基础设施解决方案厂家,具备冷量分配单元(CDU)、二次侧管路(SFN)和Manifold的专业研发设计制造能力。


- 针对机架式服务器中Manifold/节点、CDU/主回路等应用场景,提供不同口径及锁紧方式的手动和全自动快速连接器。
- 针对高可用和高密度要求的刀片式机架,可提供带浮动、自动校正不对中误差的盲插连接器。以实现狭小空间的精准对接。
- 基于OCP标准全新打造的UQD/UQDB通用快速连接器也将首次亮相, 支持全球范围内的大批量交付。

 

 
北京汉深流体技术有限公司 Hansen Fluid
Danfoss Data center liquid cooling authorized distributor
丹佛斯签约中国经销商 ~ 液冷一站式连接解决方案供应商

地址:北京市朝阳区望京街10号望京SOHO塔1C座2115室 邮编:100102
电话:010-8428 2935 , 8428 3983
手机:13910962635
Http://www.hansenfluid.com

E-mail:sales@cnmec.biz
传真:010-8428 8762

京ICP备2023024665号
京公网安备 11010502019740

Since 2007 Strong Distribution & Powerful Partnerships