We engineer tomorrow to build a better future.
Solutions to your liquid cooling challenges.
 
 
DANFOSS
数据中心液冷产品
  数据中心液冷产品
  FD83接头
  UQD快速接头
  UQDB盲插接头
  BMQC盲插接头
  NVQD02
  NVBQD02
  EHW194液冷软管
  EHW094液冷软管
  5400制冷剂接头
  Manifold 分水器
  液冷系统生产及集成
Danfoss流体管阀件
 
 
 
 
 
非标定制液冷产品
液冷系统生产及集成
阀门
传感器
选型资料下载
  新闻通告
  成功案例
  资料下载

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 


   

 

英伟达或推迟Blackwell架构产品上市 将延期至2025 Q1
原创 吴梓豪 梓豪谈芯 2024年08月04日 15:55 辽宁

上周英伟达Blackwell芯片问题消息满天飞 , 一开始是CoWoS良率太低 , B100被取消 , 然后是Blackwell出货延迟 , 最后是8月2号 Blackwell 芯片re tape out 被广泛讨论 , 然而实际情况到底是怎一回事? 本文将做一次全方位的梳理 .

7月中台积电内部已经发现Blackwell问题 , 但因为连续多天肆虐小岛的格美台风 , 导致小岛经历5天的台风假 , 7月29号一上班 , 台积电内部正式开会讨论此事 , Blackwell 芯片re tape out 在外资与台系卖方的报告后 , 全世界科技行业炸锅 , 作者从台积电内部了解 , 也确认了重新流片真有其事 .

同时间还有报告称因CoWoS - L良率不好 , 影响了NV几款Blackwell芯片的生产 , 新的芯片型号B200A被提出来 , B100被取消 , GB200等型号出货延迟等等消息 .

由于太多讯息满天飞 , 市场上大大小小卖方的讯息取得与理解都不同 , 整个市场的解读众说纷纭 , 大家用自己的认知去理解与求证 , 有朋友问我这是台积电的问题还是NV? 到底问题出在哪?

事实上 , 上述几个问题是同时存在的 , 但问题的核心还是出在Blackwell设计缺陷需要re tape out , 而CoWoS - L良率不好这也是同时存在 , 在这些问题上 , 各种型号,名称的混乱加剧了分析问题的复杂性 , 导致许多卖放解读错误 , 我甚至看到了有专家说CoWoS - L良率只有66% , 只能出10颗Good die的离谱说法 , 在这我还是得说明一下CoWoS - L良率确实有问题 , 但后段封装良率80%都不可能去排产更何况66%这种水平 , 实际上CoWoS - L目前的良率在90%出头 , 持续提升中 , 90出头的良率当然是不好 , 因为CoWoS - S的良率是99%以上 .

不论B100/200或GB200的延误主要在Blackwell原始芯片也就是B100的re tape out , 因为更高型号的B200或GB200都是来自B100的Chiplet方案 , 实际上在台积电内部Blackwell只有两个型号那就是b100以及b102 .

由于Blackwell采取Chiplet + CoWoS 组成与型号比较复杂 , 再加上NV对Blackwell定义模糊不清 , 又有分析机构传出B100取消等消息 , 这里面出现了一些名字理解上的混乱 .

我想应该统一各型号的命名才不会有理解的错误 , b102是所有Blackwell芯片的基础 , 由一个GPU die + 4个HBM3e组成 , b100则是由两个b102组成 , 两个GPU die + 8个HBM3e , 如下图所示

 

对应服务器的出货 , b102则是B200A , 而b100则是B200 , GB200则是两颗b100 + 一颗Grace CPU 放在一块主版上 , GB200并不是一颗芯片而是一块版 , 不应该与芯片来同比较 , 如下图所示

图片

目前针对Blackwell架构的基础芯片只有两款b102与b100 , 但对应服务器的话则有三款主板(B200A/B200/GB200) , 很多人好奇 , 这时候B100跑哪去了? 说实在的NV定义本身就不清楚 , 而针对不同应用的服务器则可组合出更多款式(HGX B200A / HGX B200/ NVL36/72甚至是NVL8或GB210A的气冷版本)

看了许多卖方报告 , 除了一小部分出现离谱的错误以外 , 比如缺乏行业常识的CoWoS-L良率 , 目前整个市场各式各样的解读 , 除了Blackwell同时出现多个问题以外 , 还有一个很重要的因素就是命名的混乱 , 每个人理解认知不同 , 统一一下说法很有必要 , 大家更不要针对所谓名字去做无谓的争执 , 以免乱上加乱 , 大摩8/2的报告也注意到了这一点 , 另外也看到了一个现象 , 那就是外资卖方研究以芯片源头为依据 , 内资卖方往往缺少芯片端的基础讯息 , 而以服务器整体分析为着重点 .

理清楚了芯片生产端也就是台积电针对Blackwell只有两个型号也就是b102/b100 , 那我们就可以清楚前面说的re tape out就是那颗基础的b102 芯片 , 大摩8/2号的报告称这个问题会导致两周的暂停生产 , 许多对NV持乐观态度的人直接解读为只要两周后就能解决这个问题 , 实际上大摩的报告是称Blackwell在台积电暂停两周生产 , 2024第四季更大规模的生产可以追回 , 这样的阐述确实避重就轻 , 显得不那么专业 , 也造成不少人误解 , 误以为问题小到两周就可以搞定 .

事实上当然不是如此 , 但结果在第四季追回是合理的 , 作者8/2号再星球更新的文章中就提到re tape out的过程 , 这次出问题的是底层standard cell , 也就是说确实必须针对性的重新设计 , 目前问题都已发现并解决 , 需要重新开几个mask , 整体来说wafer in / wafer out时间没有办法能缩短 , 但2024年本来就不是Blackwell服务器出货的主要时间 , 只有小批量出货 , 今年底扩大产能把之前缺少的补回来 , 这对于在Fab厂待过的作者来说 , 我认为并不是啥困难的事.

不知道读者们还记得7月中 , 路透传出中国特供板B20的消息 , 我想很大概率路透以为的B20就是只有b100一半的b102(一颗GPU die + 4颗HBM3e) , 当时作者也分析在这一代中国特供板H20可能被禁止的情况下推出下一代特供板B20可能性相对较小 , 如今看来之前的分析还是合理的 .

除了芯片本身的设计缺陷 , 我们再来看看其他制造问题 , Blackwell的GPU die采用台积电N4P制程 , 跟AMD, 高通, 苹果采用的一样 , 在台积电属于运行成熟的工艺 , 所以芯片前段制程并没有值得担心的点 .

而 Blackwell采用的CoWoS-L封装技术是首次大规模应用 , 良率没有达到预期 , 这一点被国内卖方理解错误而夸大其影响 , 导致许多人来问我 , 台积电怎会出这种低级失误 , 影响了NV出货 , 良率的问题 , 文章前已经说了 , CoWoS-L良率是90%+ , 这对先进封装来说确实不高 , 也不如台积电年初的预期95% , 对于一个新工艺来说 , 勉强能接受 , Fabless采用全新工艺本来就是要同时开几个方案 , 不可能全部压注在新方案上 , 这样风险太大

, 如果新技术方案有问题 , 那整代产品就废了 , Fabless在下单时一定会有备选方案同时开案 , 比如苹果明年想采用全新的2nm新工艺 , 但同时还会有N3P的方案在run , 以确保赚无一失 , 台积电不保证新工艺良率在什么时间点一定能到多少 , 最多就是在商务合同上有一个保底良率 , 但可以肯定这保底良率并不会太高 , 最终的风险Fabless客户在下单时必须自行充分考虑 , 所以出了这么大问题 , 我们看到台积电几乎没有什么责任需要承担 , 更多的是如何帮客户擦屁股 , 提出各种的紧急解决方案 .

目前的问题是没有前段的GPU die , CoWoS-L产能会有一段时间的停摆 , NV服务器出货会造成延迟 . 针对CoWoS - L的良率问题 , 作者也与公认跟台积电CoWoS最靠普的野村团队确认过 , 获得的数据跟我原本了解是一致的.

在出现re tape out这个变化之前 , NV已经计划推出搭载b102芯片的HGX B200A及GB210A(或NVL8)服务器 , 并因为CoWoS - L良率没达到95%的预期 , 做出生产的调整 , 也就是B200A从原本的CoWoS - L改用CoWoS - S , 这样一来可以分担CoWoS - L的生产压力 , 并在2025年可以有更多的Blackwell产出 , 原本Blackwell全系列有采用CoWoS - L , 如今把B200A改为CoWoS - S, 很显然 , 这将很好的追回2024年因为re tape out而减少的出货量 , 而且2025年Blackwell总出货量也能因为CoWoS - S的加入而有所提升 .

许多卖方把B200A改为CoWoS - S归咎于CoWoS - L良率低 , 甚至把Blackwell出货延迟误解为CoWoS - L良率只有10颗Good die造成的 , 大摩8/2号的报告则把B200A因不需要高性能所以采用CoWoS - S , 这些说法很显然都是错误的 .

对于其他可能造成出货延误的选项 , 我们来看一下零部件也就是供应链环节 , 较为紧张的零部件有HBM以及液冷QCD , 紧俏的零部件供给并不会造成出货延迟 , 最多只是出货量减少 , 毕竟这些紧缺的零部件或芯片还是有一定的供货能力 . 更何况如HBM下半年也已经明确会加入新的大供应商三星

目前进入生产阶段的不止芯片,还有板卡组件、新的交换设备、新设计的机架、新制冷方案等等,从8卡Pod扩容到72卡Pod需要考虑的问题很多,尤其是包括网络带宽的收敛、以及各种并行策略(模型数据切分、分段计算、拷贝和重组)在整个Pod中的最佳工况。

Rack也需要重新设计,毕竟tray变得更多、更高密、更紧凑,机架内的布线数量、高速交换、散热也就更复杂,相信这种Rack还没有正式量产 , 正紧锣密鼓的进行各种测试中。

服务器所有子系统与集成 , 由于NVL36/72是一项全新的技术方案 , 所有子系统与最终的集成是否完善这一点确实会有风险 , 因为除了性能以外 , 整个系统的高成熟度与高可靠性同样是一个商业产品好坏的依据 .

除了服务器个子系统产品本身的问题以外 , 水冷散热的GB系列服务器,目前还有漏液的问题,即使该产品已经通过认证,漏夜问题让服务器厂家挺头大。

水冷散热主要零件:水冷板、分歧管、CDU及快接头(QCD)当中,以快接头处是最容易发生漏液之处,漏夜最大的问题就是责任归属。

水冷散热服务器最重要的不是价格,而是质量,所以NV这类客户选择的条件不是会不会做,而是能不能信赖,一个AI服务器的Rack动辄数百万美元,但漏液的赔偿可能会让一家小型企业破产,如果漏液,NV自己需向客户先行赔偿 , 再向鸿海广达这类系统厂作为责任归属与索赔对象。

目前NV与系统厂进行水冷散热的合作、测试,然尚无真正大量导入,都纯粹属于沙盘推演,水冷散热的RACK价格高、配置高,系统厂趋之若鹜 , 但是导入后的责任归属,才是最大问题,不论是芯片厂、系统厂或散热厂,没有哪一家厂商愿意承担此风险 , 这需要实际导入后,有了「白老鼠」才更明朗。

图片

我们把所有情况都分析一遍之后 , 芯片端的部分 , 设计缺陷的问题是明确了 , 制造问题上CoWoS-L良率或许不完美 , 但这一点并不会造成出货延迟 . 再来就是全新的服务器技术方案 , 各式各样采用新技术的子系统可靠度还有提升空间 , 也就是说不论芯片设计还是服务器方案都是问题点 .

对NV来说Blackwell出现技术失误以及业绩受影响 , 目前看来是跑不掉 , 但影响到底几何 ? 要知道Blackwell在台积电的芯片生产中第三季本来就是小批量排产 , Q4才会上量 , 这是台积电芯片的排产节奏 , 并非NV服务器出货, 业绩落地节奏 , GPU die生产完到后段CoWoS然后才会出货至Bumping厂 , 最终给工业富联或者纬创做服务器的系统组装 .

也就是说Blackwell原本计划是2024第三季在台积电小量排产 , 第四季才大量生产芯片, 2025年第一季正式大量出货服务器 , 英伟达明年第一季度才会实现Blackwell较大的新业务增量 .

对于Blackwell这个明年才会大量贡献营收的产品 , 在今年第三季度发现了文章前面所说的诸多技术问题 , 或许还有一些转圜余地 , 既然现在发现了问题 , 也正在进行解决方案 , 在台积电跑个super hot run 对应时间还是在今年Q4的中后期 , 也就是11跟12月份 , 这些产能与备料原本NV都早已预订 , 所以只要问题能发现 , 3个月的时间基本就可以继续排产 , 再来是年底台积电不论前段N4P或者CoWoS - S/L产能都比现在充足 , 把稼动率拉到120%来应对原本Q3要小量出货而因出问题无法出货的芯片 , 基本上没有太大困难 , 也就是说以年度来计算 , 今年Blackwell出货虽然会少但不会比少很多 .

现在更重要的是各方面技术的完善 , 芯片问题目前已暴露 , 服务器的个子系统也必须同时进行各种实际环境的的测试 , 幸好从已知讯息来看 , 目前生产出的芯片 , 只在特定高压环境会有问题 , 这些芯片是可以交给鸿海等服务器系统厂家去做各种调适与测试 , 也就是服务器各子系统跟原本一样 , 还是有半年时间拿到芯片去模拟各种环境的测试 , 最终大量的出货时间点会落在2025年2~3月份 .

即便今年CoWoS - L(Blackwell)排产数量不大 , 但却因为re tape out有大幅度下修 , 预计有2万片+的下修(4万多片到2万片的下修) , 2万的减少量会出现在今年11/12以及隔年1月的第四季财报 , 然后在往下一个季度开始追回减少的量 , 如果今年第四季度要保持业绩不受影响 , 目前只有靠Hopper系列救场 , 个人预估采去各种紧急补教方案之后 , 最终第四季度的业绩影响在50亿美元左右 , 但下一个季度这些损失基本就能追回 .

这次re tape out的影响反应在股价上 , 个人认为短期对NV来说还有下降空间 , 毕竟是真翻车 , 8月份的第二季财报将在Hopper泄洪式出货的带动下用很好的业绩增长来冲散re tape out的影响 , 进入第四季度后重新恢复排产并加大生产力度 , 那时大家应该就忘记re tape out这档事 , 比如去年底BIS禁止H800 , NV紧急推出H20应对 , 影响了两个月份的业绩 , 但最后股价还是在一次又一次的业绩增长中续创新高 , 当然去年H20只针对中国区业务 , 跟这次的影响程度不一样 , 但是原则还是相同 , 只要业绩一直向上冲 , 待业绩落实 , 利空因素就会烟消云散 .

作为Fab出身的工程师 , 我个人认为只要不再出新的问题 , 面对目前状况的紧急应对措施还是有空间 , 毕竟Fab一天到晚也是在面对各种大大小小状况与意外 , 当然NV这事涉及面非常广 , 除了芯片还有服务器问题 , 所以我们也不能排除未来还有其他问题与风险的产生 , 毕竟NV每年都要出新的SKU ,并每代都会采用各式各样新技术 , 这对NV以及供应商来说本来就是命悬一线 , 每一个细小环节都不允许出错误的大考验 .

这一次Blackwell出货延迟 , 整个供应链采取紧急措施 , 我的预计是延误2-3个月左右 ,这对NV的影响还在可接受范围 , 以业绩来看 , 今年第三季本来就没有Blackwell的收入预期 , 第四季Blackwell服务器出货也不高 , 要说有问题只有市场给的预期太过乐观 , 出现问题就必须有更大幅度的修正 , 要知道整个2024年的下半年才进入Hopper系列服务器的出货高峰 , 搭载H系列芯片的服务器才是NV今年主要业绩来源 , 市场却非得把Blackwell也算在今年会有较大的营收增量 , 这逻辑本身就失去了理性 .

服务器出货才对NV营收有影响 , 而不是台积电芯片出货 , 这一点有许多人搞混了 , 原计划台积电Q3/Q4生产Blackwell , 并不是英伟达Q3/Q4就有大量业绩进帐 , 这事有一定延迟的 , 大家得先明白这是两码事 .

Blackwell原计划是今年Q3小规模排产 , 到下游服务器组装并产生收入 , 原本就是2025年的事 , 2024下半年后续季度的业绩兑现靠的是Hopper系列 , 毫无疑问会是令人兴奋的高增长 , 只要好业绩出来 , 明年度稍微延迟的问题或许也不是那么重要了. 当然这次重新流片的问题对于NV股价短期的打击我想也不会太小 .

图片

Blackwell的出货延迟 , 引起作者对NV未来的思考并不是B系列会不会延误本身 , 毕竟采用新技术的延误风险本身就不低 , 影响只要在一定范围内均可接受 , 太多采用新技术的环节 , 很多新技术只能在真正应用才能一步一步完善优化 , 未来NV每年推出全新SKU , 每一个SKU都需要许多创新技术 , 但却无法通过足够的时间去优化以及提高可靠性 , 尤其是可靠性这种一定需要时间来打磨的问题 , 如果把时间拉长三年 , 我想说不定在哪一代产品出现彻底翻车的可能性并不低 , 这才是我认为需要担心并重新审视NV未来的发展逻辑 .

针对这次事件引发的对产业的全盘思考 , 作者长期以来是看多NV , 但从今年英伟达来到3万亿市值后 , 我也同时强调NV绝对垄断地位背后的各种风险正不断加大 , 未来英伟达面临的风险不仅仅是每一代疯狂激进的技术更迭 , 还有应用端以及后续需求问题 , 又或者是否会出现新技术的强力竟争者 , 比如新的芯片技术或者掌握大模型的上游企业开始自研 , NV在今明年的增长基本没问题 , 但更长期的发展逻辑则是风险不断加大 .

对于AI产业 , 目前全球所有芯片生产几乎垄断在台积电手上 , 再经历2023/24/25连续三年的疯狂算力建设之后 , 整个AI产业要继续发展必然需要进入应用层面 , 不可能应用端上不来 , 还能支持庞大基础算力建设的资本支出 , 应用端早期是To B , 后面要发展的好必然得To C的蓬勃 , 这样一来AI产业才能实现正向循环 , 欣欣向荣 , 这一天的到来是必然 , 只是不目前无法具体判断出是何时 , 到了这一天NV的市场与技术垄断地位是否还同时存在? 到那时纯基础算力建设的增长大概率是平缓许多 , 转而进入端侧硬件的上升环节 , 又或者目前硅谷许多企业在研发全新的AI芯片 , 在未来某一天对传统GPGPU形成有力竞争 , 以上不论出现哪一种情况对NV来说都不是好事 , 但上述所有情况全部都离不开台积电的芯片制造 , 不论未来风云如何变化!

全世界AI行业 , 未来可见的数年还是会由台积电垄断既有的制造端市场 , 除了NV, 谷歌/博通等既有玩家全部仰赖台积电 , 大模型领导者Open AI已经跟台积电谈得差不多的自研GPU , 又比如未来端侧 , 不论AI Phone或AI PC的苹果 , 英特尔 , AMD , 高通或者联发科 , 已经没有第二厂家代工可以选择 , 所有AI以及高端HPC芯片制造都必须向台积电集中 , 台积电制程的领先造成了制造端的绝对垄断地位 .

退一步来说 , 假如AI是一场泡沫 , 那首当其中的是AI营收占比百分百的OPEN AI或者占比85%的英伟达 , 而不是AI营收占比只有15~20%的台积电 , 当然这样非黑即白的比喻是不洽当的 , 这仅仅是个比喻 , 让大家能直观的理解风险 , 更大的概率是AI如2000年的互联网泡沫 , 在一窝蜂的疯狂密集投资却无相应的营收增长作为支持 , 泡沫随之破裂 , 泡沫挤完之后行业今入正常发展 , 并如预期的改写了整个科技行业 , 互联网泡沫催生了AOL , Yahoo , 谷歌 , AWS , Netscape , 思科等公司 , 在经历2000年这轮泡沫后 , 台面上的企业大部分都成了科技行业的全球巨擘 , 经常被拿出来作为反面教材Yahoo以及思科 , 在2000这轮泡沫后也是保持了相当长时间的行业垄断地位 , 而不是在泡沫中开始走下坡或被淘汰 .

我认为未来的AI世界跟当初互联网发展过程或许会有许多相似之处 , 但现在我们想象力有限 , 正如在2000年当下 , 我们也无法判断新技术革命会带来什么变局一样 , 但如果非要选一个能在未来AI大变局中长期处于优势地位的 , 我想非台积电莫属 .

 

关于我们

北京汉深流体技术有限公司是丹佛斯中国数据中心签约代理商。产品包括FD83全流量自锁球阀接头,UQD系列液冷快速接头、EHW194 EPDM液冷软管、电磁阀、压力和温度传感器及Manifold的生产和集成服务。在国家数字经济、东数西算、双碳、新基建战略的交汇点,公司聚焦组建高素质、经验丰富的液冷工程师团队,为客户提供卓越的工程设计和强大的客户服务。

 

北京汉深流体技术有限公司 Hansen Fluid
丹佛斯签约中国经销商 Danfoss Authorized Distributor

地址:北京市朝阳区望京街10号望京SOHO塔1C座2115室
邮编:100102
电话:010-8428 2935 , 8428 3983 , 13910962635
手机:15801532751,17310484595 ,13910122694
13011089770,15313809303
Http://www.hansenfluid.com
E-mail:sales@cnmec.biz

传真:010-8428 8762

京ICP备2023024665号
京公网安备 11010502019740

Since 2007 Strong Distribution & Powerful Partnerships