|
|
一、引言
二、H20简介与对比Nvidia H20是从Nvidia H200裁剪而来的[1, 2, 3],保留了900GB/s的卡间高速互联带宽(NVLink4.0和NVSwitch3.0)[4],并支持PCIe Gen5(128GB/s双向带宽)。PCIe Gen5连接支持400GbE集群网络,有利于组建超大规模GPU集群和保持较高的集群线性加速比。 在算力方面,H20峰值算力只有H200峰值算力的14.96%(~15%),H20峰值算力相对较低(被严重裁剪)。 在L2 Cache配置方面,H20配置了60MB的L2 Cache,比H200有更大的L2 Cache。 Nvidia H20拥有96GB的HBM3显存,显存带宽高达4TB/s。虽然Nvidia H20的显存配置相对于H200有所裁剪,但是H20的显存配置相对于国产AI芯片还是有明显优势的。
当前国内大模型厂商的训练算力主要集中在Nvidia A800和H800 [5, 6],以及华为昇腾910B-A2 [7, 8],与现有的算力资源相比,Nvidia H20也有其独特的优势。 例如,相较于Nvidia A800,Nvidia H20在FP8算力、显存配置、卡间互联带宽、PCIe连接等方面都有显著优势;相较于Nvidia H800,Nvidia H20在L2 Cache、显存配置、卡间互联带宽等方面都有显著优势;相较于华为昇腾910B-A2,Nvidia H20在FP8算力、显存配置、卡间互联带宽等方面都有显著优势。
三、H20 for 大模型训练Nvidia H20拥有非常高的卡间互联带宽,并支持PCIe Gen5,在配备400GbE集群网络情况下,H20集群线性加速比接近于1,使得H20卡非常适合用来组建大规模集群。 使用Nvidia H20执行大模型训练任务,基于目前的一些测试结果,对于BF16混合精度训练,在集群规模较小的情况下(例如,512 x H20),Nvidia H20训练吞吐大概可以达到Nvidia A800训练吞吐的62%(即集群规模较小的情况下,H20的性能是A800的性能的~60%)[11, 12];在集群规模较大的情况下(例如,4096 x H20),Nvidia H20训练吞吐大概可以达到Nvidia A800训练吞吐的70%(即集群规模较大的情况下,H20的性能是A800的性能的~70%)。
值得说明的是,FP8混合精度训练方法还不成熟,在现阶段只能支持规模较小的LLM模型训练(例如,34B及以下)。未来随着技术的演讲,FP8混合精度训练会成为主流技术。 四、H20 for 大模型推理Nvidia H20拥有非常好的显存配置以及较好的FP8峰值算力,适合用于LLM推理。使用Nvidia H20执行大模型推理任务,特别是LLM推理任务, Nvidia H20推理性能比Nvidia H800推理性能高出20% (例如,对比显存带宽:4/3.35 ~= 1.19 = 120%)[2, 9, 10]。 随着未来LLM模型参数规模越来越大,需要使用拥有高配显存的AI芯片来进行推理服务,使用Nvidia H20执行超大LLM模型推理任务,是性价比更高的选择[1, 2, 9, 10]。 此外,也可以使用Nvidia H20置换现在推理服务中使用A800和H800卡,这样就可以有更多的A800卡和H800卡用于大模型训练。
综上所述,Nvidia H20核心价值在于: (1)使用H20组建大规模集群用于大模型训练(例如,FP8混合精度训练);(2)H20适合用于超大规模LLM推理(FP8计算);(3)H20价格适中(性价比高 )。
英伟达H20芯片:适应市场变化的战略调整 一、背景与挑战 在过去的几年里,国际形势的变化对高科技产业产生了深远影响。特别是针对尖端技术的出口管制政策,使得像英伟达这样的国际巨头不得不重新审视其全球战略。面对这一现实,英伟达采取了一系列措施,包括推出H20芯片以适应新的市场环境。
由于美国政府对尖端AI芯片实施了新的出口管制措施,英伟达需要调整其产品线以符合这些规定,并继续在中国市场销售其产品。 黄仁勋(英伟达创始人兼CEO)曾表示,这些限制可能会影响英伟达的市场份额,并可能促使中国企业加速自主研发。 二、H20芯片的技术特点 架构与设计 H20芯片基于英伟达最新的Hopper架构,这一架构代表了公司在GPU领域的最新成果。尽管H20在某些方面进行了“阉割”,以满足特定市场的法规要求,但其核心架构依然保留了许多创新元素,确保了较高的性能表现。 性能指标 H20芯片在计算能力和功耗管理方面进行了优化,以适应不同的应用场景。虽然与旗舰级别的H100相比存在差距,但对于大多数用户而言,H20已经能够提供足够的算力支持。
H20芯片是经过算力阉割的版本,相较于其他高性能芯片(如A100和H100)有所降级。 在算力方面,H20芯片大约只有H100芯片的20%到30%。 H20芯片基于最新的Hopper架构,这表明它在架构上仍然较为先进。
H20和H100综合对比 计算能力 显存 功耗 架构与互联 H20在计算能力上远不如H100,但是在显存容量和带宽方面有一定的优势,并且在特定的应用场景中,比如大语言模型推理,它能够提供更好的性能。H20的设计更多地考虑了能效比和成本效益,而H100则定位为顶级的高性能计算GPU。
三、市场定位与策略 目标市场 H20芯片主要面向中国市场,旨在满足那些受到出口管制影响但仍希望使用英伟达技术的企业。通过调整产品规格,英伟达能够在遵守法规的同时继续保持与中国市场的联系。 定价策略 为了提高市场竞争力,H20芯片在定价上采取了相对保守的策略。相较于竞争对手的产品,H20提供了更具吸引力的价格点,这对于预算有限的企业来说是一个重要的考虑因素。
H20芯片的价格区间大致在8.6万到11万人民币之间,略低于华为昇腾910B的价格。 尽管性能较低,但由于其价格优势以及与英伟达现有平台的兼容性,对于某些客户来说仍具有吸引力。有些情况下,可能需要使用多块H20芯片才能达到与单块更高性能芯片相当的算力水平。
预计营收
行业分析机构预测,H20芯片能够为英伟达带来显著的收入。据估计,仅这款芯片就能为英伟达贡献超过120亿美元的营收(接近870亿人民币)。 四、竞争格局 国内厂商崛起 国内AI芯片企业如华为、寒武纪、百度等已经有成熟的产品可以批量出货,这些产品在市场上与英伟达形成了竞争。一些大厂如阿里巴巴、腾讯、百度和字节跳动等已经开始将部分订单转向国内供应商。 随着国际贸易环境的变化,国内AI芯片厂商如华为、寒武纪、百度等开始崭露头角。这些企业在过去几年里迅速成长,不仅在国内市场上取得了显著的成绩,也在国际市场上赢得了一席之地。
市场份额与趋势 尽管面临来自国内厂商的竞争,英伟达凭借其深厚的技术积累和广泛的生态系统支持,在中国市场仍保持着一定的市场份额。不过,随着国内企业的不断进步,这种态势可能会发生变化。
五、未来展望 技术发展 随着AI技术的不断进步,对于更高效、更强大的计算资源的需求将持续增长。英伟达将继续投资研发,推出更多创新产品以满足市场需求。
合作与伙伴关系 英伟达认识到,单一企业无法独自解决所有问题。因此,加强与其他企业、研究机构的合作将是未来发展的关键。
结语 英伟达H20芯片不仅是公司在特定市场环境下的一次战略调整,也是其在全球范围内持续推动技术创新的一个缩影。面对复杂多变的市场环境,英伟达通过灵活的产品策略展现了其应对挑战的能力。
H20 平台NVQD02接头 H20 平台NVBQD02盲插接头
关于我们 北京汉深流体技术有限公司是丹佛斯中国数据中心签约代理商。产品包括FD83全流量自锁球阀接头,UQD系列液冷快速接头、EHW194 EPDM液冷软管、电磁阀、压力和温度传感器及Manifold的生产和集成服务。在国家数字经济、东数西算、双碳、新基建战略的交汇点,公司聚焦组建高素质、经验丰富的液冷工程师团队,为客户提供卓越的工程设计和强大的客户服务。 公司产品涵盖:丹佛斯液冷流体连接器、EPDM软管、电磁阀、压力和温度传感器及Manifold。
|
|