We engineer tomorrow to build a better future.
Solutions to your liquid cooling challenges.
 
 
DANFOSS
数据中心液冷产品
  数据中心液冷产品
  FD83接头
  UQD快速接头
  UQDB盲插接头
  BMQC盲插接头
  NVQD液冷接头
  NVQD02
  NVBQD02
  EHW194液冷软管
  EHW094液冷软管
  5400制冷剂接头
  Manifold 分水器
  液冷系统生产及集成
Danfoss流体管阀件
 
 
 
 
 
非标定制液冷产品
液冷系统生产及集成
阀门
传感器
选型资料下载
  新闻通告
  成功案例
  资料下载
 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 


   

 

黄仁勋及高管谈论数据中心机架密度的未来,公布Nvidia 未来产品路线
黄仁勋2025年GTC大会演讲两千字总结

 

在2025年3月19日举办的NVIDIA GTC大会上,CEO黄仁勋发表了主题为“人工智能与加速计算新时代”的演讲,持续展示了NVIDIA在人工智能(AI)、加速计算和机器人技术领域的最新进展。这场长达2万字的演讲包括:AI的四个发展阶段、NVIDIA的技术路线图、Blackwell平台的应用、数据中心与AI工厂的转型,以及机器人和企业计算的未来。

以下是演讲的核心内容:

1.GTC大会的意义与开场

“人工智能的超级碗”。GTC从最初的GeForce技术论坛演变为涵盖AI、加速计算和机器人技术的大型盛会,近年吸引了医疗、交通、零售等多个领域的参与者,今年依然干货满满,对于未来一年全球的AI硬件发展指明了方向,当之无愧的科技盛会。

2.AI的四个发展阶段

黄仁勋回顾了AI的演进历程,分为四个阶段:

感知AI
(约10年前):以计算机视觉和语音识别为代表。
生成式AI
(过去5年):从文本到图像、视频等模式转换,改变了计算范式,从检索式计算转向生成式计算。
代理式AI
(近3年突破):具备推理、规划和行动能力的AI,能够理解多模态信息(如网站、视频),并使用工具解决问题。
物理AI
(未来趋势):理解物理世界(如摩擦、惯性)的AI,推动机器人技术发展。
这些阶段为各行业创造了新的市场机会,GTC也因此吸引了更多合作伙伴。

3.Blackwell平台与性能提升

演讲的核心是NVIDIA的Blackwell平台及其应用。Blackwell GPU是NVIDIA最新的旗舰芯片,采用4NP TSMC工艺制造,拥有2080亿个晶体管,通过10 TB/s的芯片间连接实现统一GPU架构。相比上一代Hopper,Blackwell在同等功率下性能提升25倍,特别在推理(Inference)任务中表现优异。黄仁勋展示了Blackwell的实际应用:

GeForce 5090
:体积缩小30%、散热效率提高30%,性能显著提升,支持实时100%路径追踪渲染,并结合AI预测15%的像素,带来革命性的图形效果。
AI推理需求激增
:代理式AI的推理需要生成大量Token(例如思维链技术),计算需求比去年增长100倍。Blackwell通过NVLink 72架构、FP4精度和Dynamo操作系统,将AI工厂的Token生成效率提升至Hopper的40倍。
图片

4.数据中心与AI工厂的转型

黄仁勋将现代数据中心重新定义为“AI工厂”,其核心任务是从电力输入生成Token(信息单位),进而转化为音乐、视频、蛋白质等内容。他强调:

数据中心建设正经历“计算方式转变”,从通用计算转向加速计算,全球资本支出预计到2030年将达到1万亿美元。
Blackwell系统采用液冷技术,将一亿亿次浮点运算(Exaflops)压缩到一个机架,减少能耗,解决电力限制问题。
NVIDIA的数字孪生技术(通过Omniverse和Cadence Reality)用于优化AI工厂设计,模拟空气/液体冷却和电源效率,减少建设错误和成本。

5.技术路线图

黄仁勋详细介绍了NVIDIA未来的产品规划,遵循“每年一次”的节奏:

2025年下半年
:Blackwell Ultra,带来1.5倍浮点运算、2倍内存带宽和新的注意力指令。
2026年下半年
:Vera Rubin(以天文学家命名),包括Rubin GPU CX9、NVLink 144和HBM4内存,性能提升900倍,扩展带宽达4600太字节/秒。
2027年下半年
:Rubin Ultra,NVLink 576架构,达到15亿亿次浮点运算,机架功率达600千瓦。
这些产品通过NVLink和Infiniband/Spectrum X网络实现扩展,同时采用硅光子技术(如微环谐振调制器)降低能耗,支持数百万GPU的超大规模部署。

图片Nvidia Roadmap, semi analysis制图

6.机器人与物理AI

黄仁勋预测机器人技术将是未来最大行业之一,解决全球劳动力短缺问题(预计到这个十年末期缺5000万工人)。NVIDIA通过以下技术推动机器人发展:

Isaac Groot N1
:开源的人形机器人基础模型,支持通用任务(如操作物体、协作执行),结合慢思考(推理)和快思考(动作)系统。
Omniverse与Cosmos
:生成无限合成数据和虚拟环境,用于训练机器人策略,解决数据稀缺问题。
Newton物理引擎
(与DeepMind和Disney合作):专为机器人设计的高保真物理仿真,支持刚体/软体、触觉反馈,运行于超实时状态。
图片
7.企业计算与边缘AI

NVIDIA计划将AI扩展到企业、边缘和自动驾驶领域:

企业计算
:推出DGX工作站(如DGX Station、DGX Spark),支持AI代理作为数字劳动力,改变传统检索式数据访问为语义式交互。
边缘AI
:与思科、T-Mobile等合作,构建全栈AI解决方案,革命化无线电网络(如AI RAN)和视频处理。
自动驾驶
:与通用汽车(GM)合作,开发车载AI、制造AI和企业AI,支持安全驾驶(Halos安全技术)和仿真(Omniverse、Cosmos)。

8.CUDA生态与开发者支持

黄仁勋回顾了NVIDIA CUDA平台的20年发展,拥有600万开发者、900个CUDA X库(如CuPy、CuOpt、MONAI等),覆盖科学、医疗、5G和量子计算等领域。他宣布新库Cu DSS(稀疏求解器)加速CAE行业,并开源Dynamo操作系统,支持AI工厂管理。

9.总结与展望
演讲结尾,黄仁勋感谢合作伙伴和开发者,推动NVIDIA成为AI基础设施领导者。他强调Blackwell的全面投产、AI推理需求的激增,以及NVIDIA在云端、企业和机器人领域的全面布局。Groot N1的开源标志着机器人技术的新起点,而NVIDIA将继续以每年一次的节奏创新,目标是让AI无处不在。

黄仁勋及高管谈论数据中心机架密度的未来,公布Nvidia 未来产品路线
图片

人工智能的爆炸式增长颠覆了数据中心行业,推动数据中心从低于 10kW 的机架快速转向 120kW 机架,并加速采用液冷技术。

 

这一变化本身已经在一个传统上步调谨慎的行业引发了深远的变革,但本周在 GTC 开发者大会上,Nvidia 提出了一个更加激进的目标:到 2027 年底推出 600kW 机架。

 

图片
“我们向世界公布 Nvidia 未来三到四年的路线图,是为了让所有人都能提前规划。”黄仁勋说道。

 

“我们是历史上第一家一次性公布四代产品的科技公司。这就像某个手机厂商说‘我要提前公布未来四款手机’,完全不符合常理。但我们是一家基础设施公司,我们是全球计算工厂,对许多企业来说至关重要。”

 

▌GTC:Nvidia 路线图曝光

 

即将在今年晚些时候推出的第一款新 GPU 是 Blackwell Ultra。尽管单颗芯片的功耗比 Blackwell 更高,但DGX GB300 NVL72 机架的总功耗预计不会超过 GB200 机架。

 

DGX 业务负责人 Charlie Boyle 解释道:“虽然 GB300 计算性能更强了,但我们优化了芯片,并在冷却方面做了一些有趣的改进。”

 

从外观上看,Nvidia GB300 NVL72 与 GB200 机架几乎没有区别。“唯一的不同之处在于机架背面。” Boyle 说道。

 

“我们首次在数据中心层面引入了一种总线式供电架构,整个机架由一个供电外壳统一供电,只需将 DGX 服务器插入即可。”

 

同时,Nvidia 还增加了电容器的数量和尺寸,以平滑电流波动。“我们希望服务器内的供电子系统来吸收电流冲击,而不是把这些冲击传递回数据中心,否则就会引发各种问题。”Boyle 补充道。

 

▌消除“浪费的电力”

 

数据中心运营商通常需要预留一定的电力余量,以应对功耗峰值。“许多客户会预留 1.3 倍甚至 1.5 倍的机架功率。”Boyle 说道。

 

“但这样会浪费电力,而电力是数据中心里最宝贵的资源,我们希望每一瓦电力都能得到充分利用。”

 

在 GB300 及之后的 GPU 设计中,新的供电系统可以减少数据中心的电力过度配置问题。即使在峰值负载下,服务器也能以最大容量运行,而无需预留过多电力。

 

▌2026:Vera Rubin NVL144 机架即将登场

 

在 2026 年下半年,Nvidia 计划推出 Vera Rubin NVL144 机架,其中包括全新的 Arm 处理器和 GPU。

 

尽管 Nvidia 尚未透露该机架的具体功耗,但 Boyle 表示:“从 120kW 到 600kW 之间会有多个过渡阶段。我们必须先满足客户的当前需求。”

 

此外,Vera Rubin 机架的命名方式也发生了变化。在 DGX GB300 NVL72 机架中,数字 72 代表机架内的 GPU 数量。

 

但从 Vera Rubin 机架开始,数字将表示光罩(reticle)尺寸的 GPU 数量。

 

Blackwell 和 Rubin GPU 都由两个光罩尺寸的GPU 组成,因此 NVL144 机架的 GPU 数量看似翻倍,但实际上并没有增加。

 

▌2027:600kW 机架的“Kyber”时代

 

到 2027 年下半年,Nvidia 计划推出 Rubin Ultra NVL576 机架,并最终实现 600kW 级别的 Kyber 机架。

 

图片
kyber机架

 

Kyber 机架将彻底摒弃风冷,实现 100% 液冷,并采用计算刀片(compute blade),即更小的垂直服务器,以提升机架内的计算密度和网络能力。

 

图片
△计算刀片

 

Kyber 机架还将配备一个 机架大小的“侧舱”(sidecar),专门用于电力和冷却管理。因此,尽管它是一个 600kW 机架,但实际上需要两个机架的空间。

 

Nvidia 此前的 Blackwell 机架也需要额外的电力和冷却设备,但一台电力和冷却单元可以支持多个 GB200 机架,因此 每个 120kW 机架只需要占用略多于一个机架的物理空间。

 

▌1MW 机架的挑战

 

在过去 18 个月里,Nvidia 一直在与供应链讨论1MW 机架的可行性。在 GTC 期间,甚至有传言称 Nvidia 可能计划 将 NVL576 的密度翻倍。

 

如果要突破 1MW 机架的门槛,就需要液冷技术的进一步革命以及电力基础设施的彻底变革。

 

Vertiv CEO Giordano Albertazzi 指出:“更高密度的机架意味着需要更高电压、全新的电力基础设施,这些都仍然是动态变化的。”

 

但他也承认:“数据中心的计算密度肯定会继续增加。即便我们不确定能否达到 1MW 机架的水平,但计算密度一定会越来越高。”

 

▌Nvidia:从 GPU 公司到基础设施公司

 

在 GTC 期间,Nvidia 邀请了 100 多位数据中心高管讨论超高密度机架的部署挑战。

 

Nvidia 数据中心业务负责人 Ian Buck 表示:“我们已经从 GPU 公司转型为基础设施公司。”“我们不再只是谈论芯片,而是在数据中心规模层面进行布局。”

 

Buck 强调,公开 Nvidia 的未来计划,可以让供应链更有信心进行投资。“NVL72 机架推出后,全球数据中心为支持 120kW 机架进行了大规模改造,快速普及液冷。”

 

“现在,我们需要确保供应商能够理解我们的路线图,并投资研发下一代数据中心组件。”

 

▌铜 vs. 光纤:下一步是什么?

 

Nvidia 目前仍然依赖铜连接 NVLink 设备。但铜的传输距离限制在 1 米左右,这也是 Nvidia 追求高密度机架的主要原因之一。

 

在更大规模的扩展中,光纤将不可避免地成为下一步。Nvidia 网络部门高级副总裁 Gilad Shainer 表示:“在未来几年,当我们过渡到 400Gbps 互联时,铜的传输距离将变得微不足道。”

 

“那时,一切都会变成光纤互联。”

 

▌未来:规模化 vs. 扩展化

 

黄仁勋认为,GPU 计算的未来在于尽可能多地将 GPU 连接到单一计算架构中。

 

“当 NVLink 连接所有 GPU 后,它们实际上就变成了一颗超级芯片。”

 

但目前铜的物理限制使得 Nvidia 只能继续增加单机架 GPU 数量,直到找到新的光学互联方案。“我们会尽可能扩展,直到达到数学上的收益递减点。”

 

“当扩展到 4,000 甚至 5,000 GPU 时,如果没有收益递减,我们会继续扩大。如果有,那就改为横向扩展(scale out)。”

 

总结:Nvidia 正在引领数据中心机架密度的革命。从 120kW 到 600kW,再到 1MW,未来几年可能见证数据中心基础设施的深刻变革。

 

英伟达黄仁勋在GTC2025上重点讲了什么?

科技界泰勒·斯威夫特、Token经济学鼓吹者、摩尔定律的新希望和新晋“英伟达首席财务摧毁官”黄仁勋,刚刚完成了他年度最重要演讲。

顺带一提,看外媒的现场返图,英伟达这次在 GTC 大会会馆前摆了个摊卖煎饼,黄仁勋亲自上阵边吃边卖,里面穿着围裙,外边儿穿着皮衣,真的是坚持皮衣到底。

下面先简单总结演讲的内容有哪些?

我们来云体验一遍。

 

一、Blackwell 全面投入生产

第一代 Blackwell 芯片还没热乎,英伟达就推出了下一代 Blackwell Ultra,旨在提升训练和扩展推理能力。主会上展示了两个版本:

GB300 NVL72:机架级解决方案,集成 72 颗 Blackwell Ultra GPU 和 36 颗 Grace CPU,可视为单一巨型 AI GPU,提升复杂任务分解与 AI 推理能力。

HGX B300 NVL16:高性能服务器单元,相比前代 Hopper GPU,大语言模型推理速度提升 11 倍,算力增加 7 倍,内存容量扩大 4 倍。

目前的落地计划是:

云服务厂商:AWS、谷歌云、微软 Azure、甲骨文云等将率先提供 Blackwell Ultra 实例。

服务器厂商:戴尔、惠普、联想、Supermicro 等计划 2025 年底推出基于 Blackwell Ultra 的 AI 基础设施。

Blackwell Ultra 专为 AI 推理设计,支持预训练、后训练及推理全流程,黄仁勋称其为“AI 推理领域最大飞跃”。

 

二、一路规划到 2028 年:Rubin、Rubin Ultra、Feynman

英伟达将延续“一年一旗舰”策略以及“用杰出科学家命名”的传统,2026 年推出以“证实暗物质存在”的女性科学先驱薇拉?鲁宾(Vera Rubin)命名的「Rubin」架构,2027 年更新 Ultra 版本。2028 年推出以知名科学家、美国国家科学院院士,诺贝尔物理学奖获得者理查德·费曼命名的「Feynman」架构。

 

2026 年下半年将推出 Vera Rubin NVL144;

 

 

2027 年下半年再推出 Rubin Ultra NVL576;

 

老黄表示,Rubin 的性能可以达到 Hopper 的 900 倍,而 Blackwell 又是 Hopper 的 68 倍。

至于费曼,还在新建文件夹阶段。

 

三、个人 AI 超级计算机

英伟达推出 DGX Spark,将搭载 GB10 Superchip(精简版 Blackwell),算力达每秒千万亿次,适合模型微调与推理。起售价约 3000 美元。

而这其实就是今年 CES 2025 亮相的那个“迷你超算” Project DIGITS,其设计理念是一个能够运行高端 AI 模型的单元,占用的空间与标准台式机相当。

 

另一个产品 DGX Station 则是上面这个迷你计算机的加强版,黄仁勋称之为“桌面级数据中心”。它搭配 B300 Grace Blackwell Ultra 芯片,784GB 统一内存,支持大规模训练与推理,预计年内由华硕、戴尔等厂商推出。

 

四、备战量子计算

今年英伟达很看重量子计算这个风口,今年在波士顿设立加速量子研究中心(NVAQC),基于 GB200 NVL72 硬件,目标是解决量子比特噪声、实验芯片设计等问题,推动量子计算与 AI 融合。彼时,MIT(麻省理工)量子工程团队将利用该中心开发量子纠错技术,预计年内启动。

 

还有就是,本次 GTC 2025 有一场“量子计算论坛”作为收尾,黄仁勋将对话 14 家企业领袖,侃一侃量子计算相关的话题。这个对标的应该是去年那场《黄仁勋对话 Transformer 七子》的论坛,可见黄仁勋本人的重视程度。

 

 

此外,黄仁勋还在主会上宣布了英伟达推出基于硅光子技术的 Spectrum-X 和 Quantum-X 交换机:

Spectrum-X 支持 128 端口 800Gb/s 或 512 端口 200Gb/s,能效提升 3.5 倍,信号稳定性提高 63 倍,适合超大规模 GPU 互联。

Quantum-X 是液冷设计,支持 144 端口 800Gb/s InfiniBand,AI 计算网络速度翻倍、扩展性提升 5 倍。

 

黄仁勋称其将“打破传统网络限制,助力百万 GPU 级 AI 工厂”。

 

五、“通用机器人时代已经到来”

演讲尾声,黄仁勋宣布了一堆可以加速人形机器人开发的技术。

首先就是铺垫已久的 NVIDIA Isaac GR00T N1,这是全球首个开放且完全可定制的基础模型,用于通用的人形推理和技能。它还配套了 NVIDIA Isaac GR00T 蓝图技术,用于生成合成数据。

 

这次正式命名加了个“艾萨克·牛顿”(Isaac Newton)的半个名字进去,致敬了这位广为人知的科学家。

而另外半截名字则用于一个开源物理引擎 Newton——它由 Google DeepMind 和迪士尼研究共同开发,专为开发机器人而设计。

黄仁勋最后强调:“通用机器人时代已经到来,借助 NVIDIA Isaac GR00T N1 和新的数据生成及机器人学习框架,全世界的机器人开发者将开启人工智能时代的下一个前沿。”

紧接着就是最后一个惊喜:英伟达的小机器人 Blue 亮相。

 

从迪士尼制作的动画,再到 DeepMind 提供的 AI 技术,以及英伟达的硬件能力,让这个由 Newton 物理引擎驱动的机器人走进现实。

美国网友觉得它很像《星球大战》里的机器人,个人觉得比较像那个经典电影《瓦力》(WALL·E)。Blue 不是消费产品,所以黄仁勋真的就是叫它出来亮相收个尾的。

 

大会回顾正式开始

接下来详细回顾演讲的完整内容:

今年的 GTC 大会在美国加州圣何塞的体育场馆 SAP Center 举行,据说原计划是要在圣何塞的另一个会议中心办主会,但由于本次参会人数众多(约 19,000 人),会议中心没法容纳所有观众,所以英伟达只能在 SAP Center 这个体育馆举行——而 GTC 大会的其他部分依旧在会议中心举行。

主会开始前的一小时,英伟达举办了预热直播节目,请了众多企业家轮流到一张桌子前讲讲自己对行业动态的看法,其中也有稍后即将登台演讲的黄仁勋。

老黄哪怕穿着一身围裙,也要外套个皮衣出镜,简直是坚持人设到底。他还端出了一锅煎饼,并聊了聊故事,将自己年轻时与现在的自己进行比较。

 

老黄和煎饼的故事相当悠久,比如九岁那年他移民到美国的时候,就是在 Denny’s 餐厅里当洗碗工,整天给客人端招牌煎饼和咖啡;后来黄仁勋自己也喜欢上了煎饼,他在 2023 年评价 AI 安全问题还有 2024 年采访扎克伯格的时候都提到了自己吃煎饼的爱好。还有一次对话惠普 CEO,他直接在节目上吃起了饼,并展示了自己吃饼的方式。

时间来到凌晨 1 点 10 分,迟到的主会正式开始。

一、两大关键词:「token」「AI 工厂」

“去年全世界都搞错了 Scaling Law。大家都以为是法则失效了,但其实是因为推理所需的计算量比去年人们认为的要多 100 倍。”

“计算领域迎来了拐点,AI 的增长正在加速,到 2028 年,数据中心资本支出预计超过 1 万亿美元。”

“何谓 AI 工厂:计算机已经成为了生成 token 的工具,而不是文件检索工具。”

首先是今年 GTC 2025 的官方开幕宣传片:“在 NVIDIA 的世界里,token 是 AI 计算的基本单位。token 不仅能教会机器人如何移动,还能教会它们如何带来快乐……”

这个宣传片想表达的思想其实就是,一个 token 生两个 token,两个token 生三个 token,然后三生万物。“token 连接着所有的点,让生命触手可及,带我们一起迈出下一个伟大的飞跃,前往之前没有人抵达过的地方。”
短片结束,黄仁勋上台,感叹“(2025 是)多么令人惊叹的一年”。

他想要通过人工智能的魔法,请大家来到英伟达总部,然后特意强调了一下他这场演讲“没有任何脚本和提词器”:

这里的彩蛋是背景动画里有个人形机器人想刷工牌进入英伟达总部。暗示了这场演讲最后的爆点。

开讲之前,老黄惯例感谢了一波金主们:从医疗保健、交通到零售……几乎每个行业都有代表。尤其是计算机行业,几乎每一家 IT 大厂都在赞助商列表中。

紧接着又是一个短片,强调「GTC 起源于 GeForce」,纪念这个最初为了玩游戏而生的显卡系列:

接着短片的内容,黄仁勋回忆了当年 G 系列显卡在市场上叱咤风云的时候,然后双手各举一块 RTX 5090 显卡和 RTX 4090 显卡:“你会发现它的体积小了百分之三十。”

这里有句话很精彩:英伟达的 GeForce 系列显卡最大的历史意义是将 CUDA 技术引入世界,然后 CUDA 推动了人工智能的发展,而如今人工智能又反过来彻底革新了计算机图形学,生成式 AI 从根本上改变了计算的方式。

下面这个背景,正是完全基于路径追踪的实时渲染画面:

聊到了 AI,就引入了今天的第一张增长图。

 

从 2012 年 Alex Krizhevsky、Ilya Sutskever、Geoffrey Hinton 三位大神开发的 AlexNet 深度学习神经网络,开始一路发展,才有了最初的感知 AI(Perception AI);再就是 ChatGPT 出来之后,大家熟悉的生成式 AI(Generative AI)诞生;近几年随着对智能体(Agent)的想法成熟,还有推理模型的诞生,又出现了自主式 AI(Agentic AI);最后再往上,就是具身智能和自动驾驶兴起后,开始需求使用运动技能理解现实世界并与之进行交互的模型,即物理 AI(Physical AI)。

黄仁勋说,理解物理世界的能力,将使 AI 进入一个新的时代,使机器人成为可能。和此前的每一个阶段一样,都带来了新的市场机会——然后为 GTC 大会带来更多合作伙伴。

这里他将去年的 GTC 2024 大会比喻为“AI 的第一次现场表演”,也就是 AI 的伍德斯托克音乐节(换成中国比喻就是迷笛音乐节),今年这场大会,则被他描述为 AI 的超级碗(换成中国比喻就是春晚)。

所以,是什么因素让 AI 的每一个阶段得以实现呢?看下面这张图:

黄仁勋提到了「三大基础问题」:

1. 数据。

人工智能是一种数据驱动的计算机科学方法,需要数据来学习知识。

2. 训练。

为了训练 AI,我们的最终目标是“希望没有人类参与到训练的循环中”,因为人类在循环中之所以具有根本性的挑战性,也就是寿命时间。我们希望人工智能能够以超人的速度、超实时的速度和无人能及的规模学习。

3. 扩展。

这个问题涉及到我们要怎么找到各种算法,让人工智能随着数据的增多可以变得越来越聪明,而不是数据用完了就停止。

图上就展示了三种扩展:从感知 AI 到生成式 AI 最重要的就是预训练扩展,比如 GPT-3.5;而通过后训练扩展,我们获得了更强的生成式 AI,比如 GPT-4;再之后就是测试时训练扩展,正是这一步让我们有了 OpenAI o1 和 DeepSeek-R1 这样的长思考模型,让 AI 学会了推理。

所以,扩展法则其实从一条,变为了三条。

黄仁勋接下来这句话很经典:“去年,几乎全世界都搞错了扩展法则(Scaling Law)。大家都以为是扩展法则失效了,但其实是因为自主式 AI 的推理所需的计算量比去年人们认为的要多 100 倍。”

现在我们有了能够通过思维链思考和其他技术逐步推理的 AI,但是生成 token 的基本过程并没有改变。这种推理需要更多的 token,且为了保持模型的响应性,每秒所需的计算量同样很高。

所以老黄就给出了解法:合成数据。“强化学习是过去几年的重大突破。给 AI 提供成千上万种不同的例子,让 AI 一步步解决问题,并在它做得更好的时候对其进行奖励(强化)。这意味着要训练该模型需要万亿甚至更多的 token。换句话说:生成合成数据来训练 AI。”

为了证明自己的话,老黄也是直接搬出了数据,表示“计算正在面临巨大的挑战,而行业正在回应这点”。去年 Hopper 芯片(就是我们常说的 H100 那个系列,DeepSeek 用的是 H800)出货量位居云服务提供商之首,属于是 Hopper 系列的一大高峰。然而,与新系列 Blackwell 第一年的对比,则产生了三倍差距:

要知道 Blackwell 其实才刚刚开始发货没多久。

黄仁勋说:“我们早就知道通用计算已经过时了,当然,顺其自然吧,我们需要一种新的计算方法,世界正在经历平台转变。”

然后是今晚第一个爆点:“数据中心建设正朝着加速计算(即使用 GPU 和其他加速器而非仅仅 CPU)的方向出现转折点,计算领域正在出现拐点。到 2028 年,数据中心资本支出预计超过 1 万亿美元。”

最后是这段内容的总结,解释了到底什么是 AI 工厂:“计算机已成为生成令牌的工具,而不是文件检索工具。从基于检索的计算转变为基于生成的计算,从旧的数据中心操作方式转变为构建这些基础设施的新方式。我称它们为 AI 工厂(AI Factory)。”

二、从 CUDA 到边缘计算和自动驾驶

“我热爱我们所做的工作,更热爱着你们(开发者)用它所开发的一切。”

“自动驾驶的时代已经来临!”

介绍完 AI 工厂的概念后,黄仁勋一转话锋:“虽然数据中心中的一切都将加速,但并非都是人工智能驱动——还需要物理、生物和其他科学领域的框架。”

而这些框架,已经被英伟达作为其 CUDA-X 库的一部分提供。cuLitho 用于计算光刻,cuPynumeric 用于数值计算,Aerial 用于信号处理等。这也是英伟达在更大行业中的“护城河”。
这里黄仁勋还提到,美东时间 20 日(我们的 21 日)将会是英伟达的第一个“量子日”(Quantum Day),其实就是本文前面提到的那个量子计算论坛,黄仁勋会对话许多量子企业的 CEO。
再次进入一段短片:自 CUDA 诞生以来,超过 200 个国家的 600 万开发者使用它并改变了计算方式……开发者们用 CUDA 加速科学发现、重塑行业、赋予机器视觉、学习和推理的能力,而如今,英伟达 Blackwell 比第一代 Cuda GPU 快了五万倍。

短片结束,黄仁勋感谢了各位开发者:“我热爱我们所做的工作,更热爱着你们用它所开发的一切。”

然后就到了大家最喜欢的 AI 话题。

 

“众所周知人工智能起源于云端,它之所以起源于云端是有充分理由的,因为事实证明人工智能需要基础设施,所谓的「机器学习」顾名思义,需要一台机器来进行科学研究。”

“而云数据中心有基础设施,他们也拥有非凡的计算机科学、非凡的研究、人工智能在云端起飞的完美环境以及 NVIDIA 合作伙伴网络云服务提供商 (CSP),但这并不是人工智能所局限的领域。人工智能将无处不在,我们将以许多不同的方式谈论人工智能。”

“当然,云服务提供商喜欢我们的领先技术,他们喜欢我们拥有完整的堆栈。但现在他们要把 AI 带到整个世界,情况就有些变化了。GPU 云、边缘计算等,都有各自的要求。”

铺垫了那么多,全在讲云,都是为了引出这段:“我们今天宣布,思科、T-Mobile 和英伟达将会在美国构建完整的无线网络堆栈,目标是人工智能的边缘计算。”

 

但这只是一个行业,人工智能会赋能千行百业。“还有自动驾驶车辆。当年正是 AlexNet 让 NVIDIA 全力投入自动驾驶汽车技术。而现在,他们的技术正在全世界范围内被使用。NVIDIA 为训练、模拟和自动驾驶汽车本身构建计算机,而今天我们还要隆重宣布,英伟达将和通用汽车(GM)合作,共同构建其未来的自动驾驶车队。”

“自动驾驶的时代已经来临!” 这话不知道老黄以前有没有讲过,可能上一个这么说的是马斯克。

大家讨论自动驾驶的时候,最关心的还是安全问题,这也是 NVIDIA 今年在汽车领域工作的关键。如今 NVIDIA 已由第三方对全部 700 万行代码进行了安全性评估,并宣布了芯片到部署的自动驾驶安全系统 NVIDIA Halos:

紧接着再次来到短片环节,这次是关于 NVIDIA 用于创建自动驾驶车辆的技术和方法。数字孪生、强化学习、生成多样化场景等,将全部基于 NVIDIA Cosmos 构建,形成一个训练循环:利用 AI 来创造更多的 AI。

 

三、数据中心和下 N 代芯片

“看到这个,你应该倒吸一口凉气。”

“未来当英伟达讨论 NVLink 互联域时,将不再以“GPU 芯片数量”为单位,而是以“GPU 核心裸片(die)数量”为统计标准。”

“每个未来的数据中心都将受到功率限制。我们现在是一个功率受限的行业。”

短片结束,就直接转到了数据中心的话题。
黄仁勋重磅宣布:Blackwell 系列已全面投入生产。

然后舞台上就直接亮真家伙了。老黄首先展示了其合作伙伴提供的各种机架系统。英伟达长期以来一直在研究分布式计算——如何纵向扩展和横向扩展。

由于横向扩展很难,因此英伟达首先通过 HGX 和 8 块 GPU 配置实现了纵向扩展。

 

然后他举起了 HGX 上的一块 H 系列芯片,并表示它是过去式了:

 

未来则是需要构建这样的一个 NVL8 系统:

 

为了超越过去的设计,实现人工智能革命,英伟达必须重新设计 NVLink 系统的工作方式,以进一步扩展。这里老黄很忙,先是展示了 NVLink Switch,展示它应该如何移出机箱,并移到其他机架单元设备上。这个过程应该叫“解耦 NVLink”(Disaggregated NVLInk):

 

最终得到的结果是可以在一个机架内,提供一个 ExaFLOP。“这是世界上有史以来最极端的扩展。”

总之,这套方法是有极限的。由于 Blackwell GPU 的芯片尺寸已接近光刻工艺的物理极限(reticle limits),英伟达无法再通过单纯“做大单个芯片”来提升性能,因此转向“将整个机架(rack)作为一个巨型计算单元”来扩展算力,而不是依赖传统的单台服务器设计。

(这张图好像 CES 2025 才用过)

这种转向还有助于提供用于 AI 的计算性能。不仅仅是用于训练,还包括推理——黄仁勋展示了一个大规模计算的推理性能曲线。简而言之,这是总吞吐量和响应性之间的平衡。保持系统饱和将最大化 token 的吞吐量,但单个 token生成的时间会很长(如果时间过长,用户可能会转向其他地方):

 

因此,对于使用 NVIDIA 硬件进行推理的 NVIDIA CSP 合作伙伴和其他客户来说,为了最大化他们的收入,他们需要仔细选择曲线上的一个点。通常,理想的情况将是向右上方移动——在不显著牺牲一方的情况下,实现最大的吞吐量和响应性。这一切又离不开浮点运算和内存带宽,因此英伟达建立了硬件来提供这些功能。

下面又是一条短片,这个内容很好玩,展示了推理模型的实用性和计算需求:

 

这里的 Case 是让大模型安排婚礼宴席的座位。

一个传统文本模型可以安排得很快速高效,但却是错误的。浪费了 439 个 token;推理模型则可以搞定这个问题,但需要超过 8,000 个 token。

所以,使这一切都能高效运行不仅需要大量的硬件,还需要大量的软件优化,甚至需要操作系统来处理像批量处理这样的基本优化。

单个GPU无法同时满足两个阶段的极端需求——预填充(Pre-fill)需要高算力,解码(Decode)则需要高带宽,那就得通过多 GPU 协同优化。NVLink 完成连接这一步之后,还需要一个操作系统来进行动态任务分配或后续的优化,提供 GPU 的利用率,这就引出了老黄真正的重点——分布式推理服务库 NVIDIA Dynamo:

“它就是这个 AI 工厂的操作系统。” 黄仁勋说。

Dynamo 的对比对象是 VMWare。VMWare 是基于 CPU 系统构建的,而 Dynamo 是基于 GPU 系统构建的。值得一提的是——Dynamo 还开源。

现在再次回到了硬件和性能的话题上。黄仁勋将 NVL8 Hopper 配置与 Blackwell 进行比较。下面图表表达的是 H 系列每兆瓦每秒的 token 与每用户每秒的 token:

由于这里讲解图表说了很多数据,所以老黄防止观众太无聊,还调侃了一句“只有在英伟达,你才会被数学折磨。”

对于服务提供商,长时间内产生大量 token 意味着大量收入,所以之前 DeepSeek 公布模型成本利润率 545% 的时候惊呆了不少人。Blackwell 在硬件上有所改进,并支持更低精度的数据格式(FP4),从而在相同能耗下处理更多的数据:

 

Dynamo 则可以使 Blackwell NVL72 更加快速——而且这是在等功率下,而不是等芯片下,一代就提升了 25 倍。下图标注了这种情况下曲线的两处亮点,老黄称之为“最大 Q 值”(Max Q),是人工智能最大吞吐量和最高质量之间的平衡:

最后就是这个曲线的帕累托最优边界(在一个分配系统中,没有可能通过重新分配使某个个体更好而不使任何其他个体变得更坏的状态),Blackwell 可以达到 Hooper 的 40 倍(等效功率)性能:

这里老黄的推销语是:“你买的(Blackwell)越多,赚的越多。”

顺带一提,此处现场音频设备爆音了一下,影响到了黄仁勋,他尴尬地停顿了一秒左右。不得不感叹,这种顶级科技演讲场合也难免出现一些小问题。

下一个短片展示英伟达如何为各种数据中心构建数字孪生,这个过程其实就是所谓“AI 工厂”,使用数字孪生可以提前计划和优化工厂流程,最终达成一次性构建:

 

接下来就是下一代芯片架构的发布,由于文章开头我们已经写过参数,此处只写写演讲中一些细节性的内容。

Blackwell Ultra NVL72 将于今年下半年出货,如今各行各业正处于必须规划支出的阶段,也就是要给英伟达的硬件、基础设施和生态系统下多年份的订单。所以老黄希望可以明确英伟达未来的路线图,直接一口气规划到 2028。

2026 下半年的 Rubin 由 Vera Rubin NVL144 由 Vera Arm CPU + Rubin GPU 组成:

黄仁勋强调,未来当英伟达讨论 NVLink 互联域时,将不再以“GPU 芯片数量”为单位,而是以“GPU 核心裸片(die)数量”为统计标准。

例如,“NVL144”表示该 NVLink 域内包含 144 个 GPU 核心裸片,而非 144 颗独立 GPU 芯片。

然后是 2027 年下半年的 Rubin Ultra NVL576,“看到这个,你应该倒吸一口凉气。”

Rubin 将大幅降低人工智能计算的成本。

 

四、进一步扩展护城河
这一段开头,黄仁勋回顾了六年前英伟达以 69 亿美元收购 Mellanox 的这件往事,后面这次收购成就了业界第一款专为 AI 打造的以太网网络平台 NVIDIA Spectrum-X,其实就是为了六个字:进军网络市场。
所以老黄也推出了最新的英伟达网卡 CX-8 和 CX-9,希望在 Rubin 时代(2026)将 GPU 扩展到数十万甚至更多。

英伟达扩展得越来越大,数据中心的规模将达到体育场大小。那样的话,铜连接不够用,就需要使用光连接——而光连接可能会非常耗能。因此,英伟达计划通过共封装硅光子技术 Photonics,使光网络更加高效。

基于一种称为微环调制器(MRM)的技术,英伟达正在与晶圆厂合作开发的新 3D 堆叠工艺制造。

这里老黄直接把一堆线缆带到了台上,然后发现解不开:

“我的妈呀。”(原文 Oh mother of god)

解开后露出了欣慰的笑容:

老黄讲解了现在光学网络是如何工作的。首先,两条线每一边的每个端口都有单独的传输器。这既可靠又有效,但电到光的转换(再转换回电)会消耗大量的电力。

并且,“每块 GPU 都会有 6 个传输器”。这将消耗 180 瓦(每个多 30 瓦)并且需要数千美元的传输器。所有由收发器消耗的功率都是本可以用于 GPU 的功率。这使得英伟达无法向客户销售更多的 GPU。

这场演讲肯定不会提出无法解决的问题,所以接下来果不其然又是广告时间。

一段介绍光学原理的短片之后,硅光子 Quantum-X(InfiniBand)交换机正式亮相,将在 2025 年下半年发布。2026 年下半年则会发售另一款 Spectrum-X 交换机,它没有光电收发器,直接光纤输入,最多可支持 512 端口。

这一通节省下来,数据中心可以增加 10 个 Rubin Ultra 机架。

老黄这里又展示了另一个路线图,表示现在英伟达每年会推出一个新平台,同时公布了下下一代架构——费曼(Feynman)。

接下来聊聊企业。“人工智能和机器学习已经重新发明了整个计算堆栈。处理器不同,操作系统也不同,上面的应用程序也不同,你协调的方式也不同,运行它们的方式也不同。让我给你举一个例子:未来访问数据的方式将与过去完全不同。不再是精确地检索你想要的数据,而是人类产生困惑,提出一个问题,让 AI 告诉答案。”

“这也是企业未来的运作方式。我们有 AI 智能体,它们是我们数字劳动力的一部分。世界上有十亿知识工作者——未来甚至可能会有 100 亿数字工作者与我们并肩工作,最终实现 100% 的软件工程师。”

“我确信,到今年年底,100% 的英伟达软件工程师将得到人工智能的帮助。Agent 将无处不在,企业运营的内容和我们的运营方式将会有根本性的不同。”

“因此,我们需要一条新的计算机生产线。”——说完这句话之后,最最重点的地方断流了,这下真的出大问题了。

官网也短暂地从直播变成了录播状态,我记录了这个珍贵的一刻(画面就卡在这个迷你电脑上面了):

 

恢复到直播后回放发现,中间断掉的地方也没补上,直接跳转到了下一段。

有个梗说得好,果然全世界都是草台班子!

幸好事后已经知道,其实这里就是在发布 DGX Spark。这是英伟达之前 CES 2025 宣布的 Project DIGITS 迷你电脑的最终名称。它还会有个加强版,迷你工作站 DGX Station。

 

GPU 加速存储。英伟达已与所有主要的存储供应商合作。

然后是新的合作,戴尔将提供一系列基于 NVIDIA 的系统。

本段最后,再次提到 CES 2025 宣布过的 NVIDIA Nemo Llame Nemotron 模型——这次是加了个 Reasoning 后缀,代表推理。因为是开源模型,此处图表同时对标了 Llama 3.3 和 DeepSeek R1 Llama 70B。

 

五、通用机器人时代降临

一个短片开场,万众期待的机器人环节终于来了!

上来就讲述一个现状:“世界严重缺乏人力工人。”

短片内容大多是英伟达以前具身智能视频的回顾。比如使用数字孪生创建一个虚拟设施来帮助训练机器人。(当机器人在虚拟世界中出错时,不会有任何东西损坏)这些机器人将通过对物理世界的 AI 模拟进行训练。

一轮铺垫之后,主角正式登场,英伟达发布人形机器人通用基础模型 NVIDIA Isaac GROOT N1:开头讲过,token 可以解释万物,这里就是将感知 token 和文本 token 分别输入到慢思考(System 2)的视觉语言模型和快思考(System 1)的扩散 Transformer 模型里,最终输出行动 token 给机器人,让它有所反应。

 

黄仁勋这里做了个预言:“物理 AI 和机器人学发展得如此之快。请大家关注这个领域。这很有可能成为最大的行业之一。”

呼应开场那张增长图:

老黄还回顾了 Omniverse + Cosmos 模拟是如何工作的。使用 Cosmos 创建各种环境来帮助训练,这个过程中类似现在的奖励模型,需要设置一个可验证的奖励。

在机器人学中,可验证的奖励其实就是物理。如果机器人以物理上正确的方式行为,那么这就可以被验证为准确的。

下一个短片,咱们的主角「牛顿物理引擎」(Newton Physics Engine)正式登场:

 

而这一次,短片不再是短片。通过 Newton,迪士尼的短片从数字变为了现实,让机器人 Blue 站到了黄仁勋的跟前。

“让我们结束这场主会。该吃午饭了。” 也是在这一刻,老黄宣布 GR00T-N1 开源,引爆现场。

一轮总结之后,最后自然还是用短片收尾。

英伟达的技术从游戏到计算机视觉、再到 AI、自动驾驶、人形机器人,一座「AI 工厂」平地而起,最终再次呼应了本次演讲的开头,老黄邀请大家进入的那所英伟达总部,变形成了一座飞船,飞向无垠的宇宙。

NVIDIA GTC 2025 以 Blackwell Ultra GPU、光子网络交换机和开源机器人模型 GR00T-N1,重新定义了 AI 算力边界。从芯片逼近物理极限到机架级“超级 GPU”,从量子计算实验室到桌面级 AI 超算,黄仁勋的“AI 工厂”正将科幻场景落地。

 

关于我们

北京汉深流体技术有限公司 是丹佛斯中国数据中心签约代理商。产品包括FD83全流量双联锁液冷快换接头(互锁球阀);液冷通用快速接头UQD & UQDB;OCP ORV3盲插快换接头BMQC;EHW194 EPDM液冷软管、电磁阀、压力和温度传感器。在人工智能AI、国家数字经济、东数西算、双碳、新基建战略的交汇点,公司聚焦组建高素质、经验丰富的液冷工程师团队,为客户提供卓越的工程设计和强大的客户服务。

公司产品涵盖:丹佛斯液冷流体连接器、EPDM软管、电磁阀、压力和温度传感器及Manifold。
未来公司发展规划:数据中心液冷基础设施解决方案厂家,具备冷量分配单元(CDU)、二次侧管路(SFN)和Manifold的专业研发设计制造能力。

- 针对机架式服务器中Manifold/节点、CDU/主回路等应用场景,提供不同口径及锁紧方式的手动和全自动快速连接器。
- 针对高可用和高密度要求的刀片式机架,可提供带浮动、自动校正不对中误差的盲插连接器。以实现狭小空间的精准对接。
- 基于OCP标准全新打造的液冷通用快速接头UQD & UQDB ;OCP ORV3盲插快换接头BMQC , 支持全球范围内的大批量交付。
- 新型体积更小的NVQD液冷快换接头。NVQD02 (H20); NVQD03 (Blackwell B300 GB300); NVQD04。

 

北京汉深流体技术有限公司 Hansen Fluid
丹佛斯签约中国经销商 Danfoss Authorized Distributor

地址:北京市朝阳区望京街10号望京SOHO塔1C座2115室
邮编:100102
电话:010-8428 2935 , 8428 3983 , 13910962635
手机:15801532751,17310484595 ,13910122694
13011089770,15313809303
Http://www.hansenfluid.com
E-mail:sales@cnmec.biz

传真:010-8428 8762

京ICP备2023024665号
京公网安备 11010502019740

Since 2007 Strong Distribution & Powerful Partnerships