|
|
上周英伟达Blackwell芯片问题消息满天飞 , 一开始是CoWoS良率太低 , B100被取消 , 然后是Blackwell出货延迟 , 最后是8月2号 Blackwell 芯片re tape out 被广泛讨论 , 然而实际情况到底是怎一回事? 本文将做一次全方位的梳理 . 7月中台积电内部已经发现Blackwell问题 , 但因为连续多天肆虐小岛的格美台风 , 导致小岛经历5天的台风假 , 7月29号一上班 , 台积电内部正式开会讨论此事 , Blackwell 芯片re tape out 在外资与台系卖方的报告后 , 全世界科技行业炸锅 , 作者从台积电内部了解 , 也确认了重新流片真有其事 . 同时间还有报告称因CoWoS - L良率不好 , 影响了NV几款Blackwell芯片的生产 , 新的芯片型号B200A被提出来 , B100被取消 , GB200等型号出货延迟等等消息 . 由于太多讯息满天飞 , 市场上大大小小卖方的讯息取得与理解都不同 , 整个市场的解读众说纷纭 , 大家用自己的认知去理解与求证 , 有朋友问我这是台积电的问题还是NV? 到底问题出在哪? 事实上 , 上述几个问题是同时存在的 , 但问题的核心还是出在Blackwell设计缺陷需要re tape out , 而CoWoS - L良率不好这也是同时存在 , 在这些问题上 , 各种型号,名称的混乱加剧了分析问题的复杂性 , 导致许多卖放解读错误 , 我甚至看到了有专家说CoWoS - L良率只有66% , 只能出10颗Good die的离谱说法 , 在这我还是得说明一下CoWoS - L良率确实有问题 , 但后段封装良率80%都不可能去排产更何况66%这种水平 , 实际上CoWoS - L目前的良率在90%出头 , 持续提升中 , 90出头的良率当然是不好 , 因为CoWoS - S的良率是99%以上 . 不论B100/200或GB200的延误主要在Blackwell原始芯片也就是B100的re tape out , 因为更高型号的B200或GB200都是来自B100的Chiplet方案 , 实际上在台积电内部Blackwell只有两个型号那就是b100以及b102 . 由于Blackwell采取Chiplet + CoWoS 组成与型号比较复杂 , 再加上NV对Blackwell定义模糊不清 , 又有分析机构传出B100取消等消息 , 这里面出现了一些名字理解上的混乱 . 我想应该统一各型号的命名才不会有理解的错误 , b102是所有Blackwell芯片的基础 , 由一个GPU die + 4个HBM3e组成 , b100则是由两个b102组成 , 两个GPU die + 8个HBM3e , 如下图所示
对应服务器的出货 , b102则是B200A , 而b100则是B200 , GB200则是两颗b100 + 一颗Grace CPU 放在一块主版上 , GB200并不是一颗芯片而是一块版 , 不应该与芯片来同比较 , 如下图所示 图片 目前针对Blackwell架构的基础芯片只有两款b102与b100 , 但对应服务器的话则有三款主板(B200A/B200/GB200) , 很多人好奇 , 这时候B100跑哪去了? 说实在的NV定义本身就不清楚 , 而针对不同应用的服务器则可组合出更多款式(HGX B200A / HGX B200/ NVL36/72甚至是NVL8或GB210A的气冷版本) 看了许多卖方报告 , 除了一小部分出现离谱的错误以外 , 比如缺乏行业常识的CoWoS-L良率 , 目前整个市场各式各样的解读 , 除了Blackwell同时出现多个问题以外 , 还有一个很重要的因素就是命名的混乱 , 每个人理解认知不同 , 统一一下说法很有必要 , 大家更不要针对所谓名字去做无谓的争执 , 以免乱上加乱 , 大摩8/2的报告也注意到了这一点 , 另外也看到了一个现象 , 那就是外资卖方研究以芯片源头为依据 , 内资卖方往往缺少芯片端的基础讯息 , 而以服务器整体分析为着重点 . 理清楚了芯片生产端也就是台积电针对Blackwell只有两个型号也就是b102/b100 , 那我们就可以清楚前面说的re tape out就是那颗基础的b102 芯片 , 大摩8/2号的报告称这个问题会导致两周的暂停生产 , 许多对NV持乐观态度的人直接解读为只要两周后就能解决这个问题 , 实际上大摩的报告是称Blackwell在台积电暂停两周生产 , 2024第四季更大规模的生产可以追回 , 这样的阐述确实避重就轻 , 显得不那么专业 , 也造成不少人误解 , 误以为问题小到两周就可以搞定 . 事实上当然不是如此 , 但结果在第四季追回是合理的 , 作者8/2号再星球更新的文章中就提到re tape out的过程 , 这次出问题的是底层standard cell , 也就是说确实必须针对性的重新设计 , 目前问题都已发现并解决 , 需要重新开几个mask , 整体来说wafer in / wafer out时间没有办法能缩短 , 但2024年本来就不是Blackwell服务器出货的主要时间 , 只有小批量出货 , 今年底扩大产能把之前缺少的补回来 , 这对于在Fab厂待过的作者来说 , 我认为并不是啥困难的事. 不知道读者们还记得7月中 , 路透传出中国特供板B20的消息 , 我想很大概率路透以为的B20就是只有b100一半的b102(一颗GPU die + 4颗HBM3e) , 当时作者也分析在这一代中国特供板H20可能被禁止的情况下推出下一代特供板B20可能性相对较小 , 如今看来之前的分析还是合理的 . 除了芯片本身的设计缺陷 , 我们再来看看其他制造问题 , Blackwell的GPU die采用台积电N4P制程 , 跟AMD, 高通, 苹果采用的一样 , 在台积电属于运行成熟的工艺 , 所以芯片前段制程并没有值得担心的点 . 而 Blackwell采用的CoWoS-L封装技术是首次大规模应用 , 良率没有达到预期 , 这一点被国内卖方理解错误而夸大其影响 , 导致许多人来问我 , 台积电怎会出这种低级失误 , 影响了NV出货 , 良率的问题 , 文章前已经说了 , CoWoS-L良率是90%+ , 这对先进封装来说确实不高 , 也不如台积电年初的预期95% , 对于一个新工艺来说 , 勉强能接受 , Fabless采用全新工艺本来就是要同时开几个方案 , 不可能全部压注在新方案上 , 这样风险太大 , 如果新技术方案有问题 , 那整代产品就废了 , Fabless在下单时一定会有备选方案同时开案 , 比如苹果明年想采用全新的2nm新工艺 , 但同时还会有N3P的方案在run , 以确保赚无一失 , 台积电不保证新工艺良率在什么时间点一定能到多少 , 最多就是在商务合同上有一个保底良率 , 但可以肯定这保底良率并不会太高 , 最终的风险Fabless客户在下单时必须自行充分考虑 , 所以出了这么大问题 , 我们看到台积电几乎没有什么责任需要承担 , 更多的是如何帮客户擦屁股 , 提出各种的紧急解决方案 . 目前的问题是没有前段的GPU die , CoWoS-L产能会有一段时间的停摆 , NV服务器出货会造成延迟 . 针对CoWoS - L的良率问题 , 作者也与公认跟台积电CoWoS最靠普的野村团队确认过 , 获得的数据跟我原本了解是一致的. 在出现re tape out这个变化之前 , NV已经计划推出搭载b102芯片的HGX B200A及GB210A(或NVL8)服务器 , 并因为CoWoS - L良率没达到95%的预期 , 做出生产的调整 , 也就是B200A从原本的CoWoS - L改用CoWoS - S , 这样一来可以分担CoWoS - L的生产压力 , 并在2025年可以有更多的Blackwell产出 , 原本Blackwell全系列有采用CoWoS - L , 如今把B200A改为CoWoS - S, 很显然 , 这将很好的追回2024年因为re tape out而减少的出货量 , 而且2025年Blackwell总出货量也能因为CoWoS - S的加入而有所提升 . 许多卖方把B200A改为CoWoS - S归咎于CoWoS - L良率低 , 甚至把Blackwell出货延迟误解为CoWoS - L良率只有10颗Good die造成的 , 大摩8/2号的报告则把B200A因不需要高性能所以采用CoWoS - S , 这些说法很显然都是错误的 . 对于其他可能造成出货延误的选项 , 我们来看一下零部件也就是供应链环节 , 较为紧张的零部件有HBM以及液冷QCD , 紧俏的零部件供给并不会造成出货延迟 , 最多只是出货量减少 , 毕竟这些紧缺的零部件或芯片还是有一定的供货能力 . 更何况如HBM下半年也已经明确会加入新的大供应商三星 目前进入生产阶段的不止芯片,还有板卡组件、新的交换设备、新设计的机架、新制冷方案等等,从8卡Pod扩容到72卡Pod需要考虑的问题很多,尤其是包括网络带宽的收敛、以及各种并行策略(模型数据切分、分段计算、拷贝和重组)在整个Pod中的最佳工况。 Rack也需要重新设计,毕竟tray变得更多、更高密、更紧凑,机架内的布线数量、高速交换、散热也就更复杂,相信这种Rack还没有正式量产 , 正紧锣密鼓的进行各种测试中。 服务器所有子系统与集成 , 由于NVL36/72是一项全新的技术方案 , 所有子系统与最终的集成是否完善这一点确实会有风险 , 因为除了性能以外 , 整个系统的高成熟度与高可靠性同样是一个商业产品好坏的依据 . 除了服务器个子系统产品本身的问题以外 , 水冷散热的GB系列服务器,目前还有漏液的问题,即使该产品已经通过认证,漏夜问题让服务器厂家挺头大。 水冷散热主要零件:水冷板、分歧管、CDU及快接头(QCD)当中,以快接头处是最容易发生漏液之处,漏夜最大的问题就是责任归属。 水冷散热服务器最重要的不是价格,而是质量,所以NV这类客户选择的条件不是会不会做,而是能不能信赖,一个AI服务器的Rack动辄数百万美元,但漏液的赔偿可能会让一家小型企业破产,如果漏液,NV自己需向客户先行赔偿 , 再向鸿海广达这类系统厂作为责任归属与索赔对象。 目前NV与系统厂进行水冷散热的合作、测试,然尚无真正大量导入,都纯粹属于沙盘推演,水冷散热的RACK价格高、配置高,系统厂趋之若鹜 , 但是导入后的责任归属,才是最大问题,不论是芯片厂、系统厂或散热厂,没有哪一家厂商愿意承担此风险 , 这需要实际导入后,有了「白老鼠」才更明朗。 图片 我们把所有情况都分析一遍之后 , 芯片端的部分 , 设计缺陷的问题是明确了 , 制造问题上CoWoS-L良率或许不完美 , 但这一点并不会造成出货延迟 . 再来就是全新的服务器技术方案 , 各式各样采用新技术的子系统可靠度还有提升空间 , 也就是说不论芯片设计还是服务器方案都是问题点 . 对NV来说Blackwell出现技术失误以及业绩受影响 , 目前看来是跑不掉 , 但影响到底几何 ? 要知道Blackwell在台积电的芯片生产中第三季本来就是小批量排产 , Q4才会上量 , 这是台积电芯片的排产节奏 , 并非NV服务器出货, 业绩落地节奏 , GPU die生产完到后段CoWoS然后才会出货至Bumping厂 , 最终给工业富联或者纬创做服务器的系统组装 . 也就是说Blackwell原本计划是2024第三季在台积电小量排产 , 第四季才大量生产芯片, 2025年第一季正式大量出货服务器 , 英伟达明年第一季度才会实现Blackwell较大的新业务增量 . 对于Blackwell这个明年才会大量贡献营收的产品 , 在今年第三季度发现了文章前面所说的诸多技术问题 , 或许还有一些转圜余地 , 既然现在发现了问题 , 也正在进行解决方案 , 在台积电跑个super hot run 对应时间还是在今年Q4的中后期 , 也就是11跟12月份 , 这些产能与备料原本NV都早已预订 , 所以只要问题能发现 , 3个月的时间基本就可以继续排产 , 再来是年底台积电不论前段N4P或者CoWoS - S/L产能都比现在充足 , 把稼动率拉到120%来应对原本Q3要小量出货而因出问题无法出货的芯片 , 基本上没有太大困难 , 也就是说以年度来计算 , 今年Blackwell出货虽然会少但不会比少很多 . 现在更重要的是各方面技术的完善 , 芯片问题目前已暴露 , 服务器的个子系统也必须同时进行各种实际环境的的测试 , 幸好从已知讯息来看 , 目前生产出的芯片 , 只在特定高压环境会有问题 , 这些芯片是可以交给鸿海等服务器系统厂家去做各种调适与测试 , 也就是服务器各子系统跟原本一样 , 还是有半年时间拿到芯片去模拟各种环境的测试 , 最终大量的出货时间点会落在2025年2~3月份 . 即便今年CoWoS - L(Blackwell)排产数量不大 , 但却因为re tape out有大幅度下修 , 预计有2万片+的下修(4万多片到2万片的下修) , 2万的减少量会出现在今年11/12以及隔年1月的第四季财报 , 然后在往下一个季度开始追回减少的量 , 如果今年第四季度要保持业绩不受影响 , 目前只有靠Hopper系列救场 , 个人预估采去各种紧急补教方案之后 , 最终第四季度的业绩影响在50亿美元左右 , 但下一个季度这些损失基本就能追回 . 这次re tape out的影响反应在股价上 , 个人认为短期对NV来说还有下降空间 , 毕竟是真翻车 , 8月份的第二季财报将在Hopper泄洪式出货的带动下用很好的业绩增长来冲散re tape out的影响 , 进入第四季度后重新恢复排产并加大生产力度 , 那时大家应该就忘记re tape out这档事 , 比如去年底BIS禁止H800 , NV紧急推出H20应对 , 影响了两个月份的业绩 , 但最后股价还是在一次又一次的业绩增长中续创新高 , 当然去年H20只针对中国区业务 , 跟这次的影响程度不一样 , 但是原则还是相同 , 只要业绩一直向上冲 , 待业绩落实 , 利空因素就会烟消云散 . 作为Fab出身的工程师 , 我个人认为只要不再出新的问题 , 面对目前状况的紧急应对措施还是有空间 , 毕竟Fab一天到晚也是在面对各种大大小小状况与意外 , 当然NV这事涉及面非常广 , 除了芯片还有服务器问题 , 所以我们也不能排除未来还有其他问题与风险的产生 , 毕竟NV每年都要出新的SKU ,并每代都会采用各式各样新技术 , 这对NV以及供应商来说本来就是命悬一线 , 每一个细小环节都不允许出错误的大考验 . 这一次Blackwell出货延迟 , 整个供应链采取紧急措施 , 我的预计是延误2-3个月左右 ,这对NV的影响还在可接受范围 , 以业绩来看 , 今年第三季本来就没有Blackwell的收入预期 , 第四季Blackwell服务器出货也不高 , 要说有问题只有市场给的预期太过乐观 , 出现问题就必须有更大幅度的修正 , 要知道整个2024年的下半年才进入Hopper系列服务器的出货高峰 , 搭载H系列芯片的服务器才是NV今年主要业绩来源 , 市场却非得把Blackwell也算在今年会有较大的营收增量 , 这逻辑本身就失去了理性 . 服务器出货才对NV营收有影响 , 而不是台积电芯片出货 , 这一点有许多人搞混了 , 原计划台积电Q3/Q4生产Blackwell , 并不是英伟达Q3/Q4就有大量业绩进帐 , 这事有一定延迟的 , 大家得先明白这是两码事 . Blackwell原计划是今年Q3小规模排产 , 到下游服务器组装并产生收入 , 原本就是2025年的事 , 2024下半年后续季度的业绩兑现靠的是Hopper系列 , 毫无疑问会是令人兴奋的高增长 , 只要好业绩出来 , 明年度稍微延迟的问题或许也不是那么重要了. 当然这次重新流片的问题对于NV股价短期的打击我想也不会太小 . 图片 Blackwell的出货延迟 , 引起作者对NV未来的思考并不是B系列会不会延误本身 , 毕竟采用新技术的延误风险本身就不低 , 影响只要在一定范围内均可接受 , 太多采用新技术的环节 , 很多新技术只能在真正应用才能一步一步完善优化 , 未来NV每年推出全新SKU , 每一个SKU都需要许多创新技术 , 但却无法通过足够的时间去优化以及提高可靠性 , 尤其是可靠性这种一定需要时间来打磨的问题 , 如果把时间拉长三年 , 我想说不定在哪一代产品出现彻底翻车的可能性并不低 , 这才是我认为需要担心并重新审视NV未来的发展逻辑 . 针对这次事件引发的对产业的全盘思考 , 作者长期以来是看多NV , 但从今年英伟达来到3万亿市值后 , 我也同时强调NV绝对垄断地位背后的各种风险正不断加大 , 未来英伟达面临的风险不仅仅是每一代疯狂激进的技术更迭 , 还有应用端以及后续需求问题 , 又或者是否会出现新技术的强力竟争者 , 比如新的芯片技术或者掌握大模型的上游企业开始自研 , NV在今明年的增长基本没问题 , 但更长期的发展逻辑则是风险不断加大 . 对于AI产业 , 目前全球所有芯片生产几乎垄断在台积电手上 , 再经历2023/24/25连续三年的疯狂算力建设之后 , 整个AI产业要继续发展必然需要进入应用层面 , 不可能应用端上不来 , 还能支持庞大基础算力建设的资本支出 , 应用端早期是To B , 后面要发展的好必然得To C的蓬勃 , 这样一来AI产业才能实现正向循环 , 欣欣向荣 , 这一天的到来是必然 , 只是不目前无法具体判断出是何时 , 到了这一天NV的市场与技术垄断地位是否还同时存在? 到那时纯基础算力建设的增长大概率是平缓许多 , 转而进入端侧硬件的上升环节 , 又或者目前硅谷许多企业在研发全新的AI芯片 , 在未来某一天对传统GPGPU形成有力竞争 , 以上不论出现哪一种情况对NV来说都不是好事 , 但上述所有情况全部都离不开台积电的芯片制造 , 不论未来风云如何变化! 全世界AI行业 , 未来可见的数年还是会由台积电垄断既有的制造端市场 , 除了NV, 谷歌/博通等既有玩家全部仰赖台积电 , 大模型领导者Open AI已经跟台积电谈得差不多的自研GPU , 又比如未来端侧 , 不论AI Phone或AI PC的苹果 , 英特尔 , AMD , 高通或者联发科 , 已经没有第二厂家代工可以选择 , 所有AI以及高端HPC芯片制造都必须向台积电集中 , 台积电制程的领先造成了制造端的绝对垄断地位 . 退一步来说 , 假如AI是一场泡沫 , 那首当其中的是AI营收占比百分百的OPEN AI或者占比85%的英伟达 , 而不是AI营收占比只有15~20%的台积电 , 当然这样非黑即白的比喻是不洽当的 , 这仅仅是个比喻 , 让大家能直观的理解风险 , 更大的概率是AI如2000年的互联网泡沫 , 在一窝蜂的疯狂密集投资却无相应的营收增长作为支持 , 泡沫随之破裂 , 泡沫挤完之后行业今入正常发展 , 并如预期的改写了整个科技行业 , 互联网泡沫催生了AOL , Yahoo , 谷歌 , AWS , Netscape , 思科等公司 , 在经历2000年这轮泡沫后 , 台面上的企业大部分都成了科技行业的全球巨擘 , 经常被拿出来作为反面教材Yahoo以及思科 , 在2000这轮泡沫后也是保持了相当长时间的行业垄断地位 , 而不是在泡沫中开始走下坡或被淘汰 . 我认为未来的AI世界跟当初互联网发展过程或许会有许多相似之处 , 但现在我们想象力有限 , 正如在2000年当下 , 我们也无法判断新技术革命会带来什么变局一样 , 但如果非要选一个能在未来AI大变局中长期处于优势地位的 , 我想非台积电莫属 .
关于我们 北京汉深流体技术有限公司是丹佛斯中国数据中心签约代理商。产品包括FD83全流量自锁球阀接头,UQD系列液冷快速接头、EHW194 EPDM液冷软管、电磁阀、压力和温度传感器及Manifold的生产和集成服务。在国家数字经济、东数西算、双碳、新基建战略的交汇点,公司聚焦组建高素质、经验丰富的液冷工程师团队,为客户提供卓越的工程设计和强大的客户服务。
|
|