|
NVIDIA CES 2026 主题演讲:AI 与加速计算的工业革命 (完整演讲稿)
原创 Jensen Huang The Al Frontier 2026年1月6日 21:59 上海
你好,拉斯维加斯! 新年快乐,欢迎来到 CES。这里的观众大概有 3000 人,外面的庭院里还有 2000 人在观看,据我在四楼原本应该是 NVIDIA 展区的地方还有 1000 人在观看这场主题演讲。当然,全世界还有数百万人正在观看这场直播,共同开启新的一年。 嗯,我们大概有 15 公斤重的干货要在这里塞给大家。非常高兴见到大家。

你好,拉斯维加斯!
新年快乐,欢迎来到 CES。这里的观众大概有 3000 人,外面的庭院里还有 2000 人在观看,据我在四楼原本应该是 NVIDIA 展区的地方还有 1000 人在观看这场主题演讲。当然,全世界还有数百万人正在观看这场直播,共同开启新的一年。
嗯,我们大概有 15 公斤重的干货要在这里塞给大家。非常高兴见到大家。
每隔 10 到 15 年,计算机行业就会发生一次重置。新的平台转移会出现:从大型机到 PC,从 PC 到互联网,从互联网到云,从云到移动端。每一次,应用程序的世界都会瞄准一个新的平台,这就是为什么它被称为“平台转移”。你为新的计算机编写新的应用程序。
但这一次,实际上有两个平台转移同时发生。
当我们转向 AI 时,应用程序将建立在 AI 之上。起初,人们认为 AI 本身就是应用程序。事实上,AI 确实是应用程序,但你们将会在 AI 之上构建应用程序。
除此之外,软件的运行方式、软件的开发方式也发生了根本性的变化。计算机行业的整个制造堆栈(Foundry stack)正在被重新发明。你不再编写软件,而是训练软件。你不再在 CPU 上运行它,而是在 GPU 上运行它。
过去的应用程序是预先录制、预先编译并在你的设备上运行的,而现在的应用程序能够理解上下文,并且每一次都完全从零开始生成每一个像素、每一个 Token(词元)。计算因此被从根本上重塑了,这归功于加速计算,归功于人工智能。这五层蛋糕的每一层现在都在被重新发明。
这意味着过去十年中大约10万亿美元的计算基础设施现在正在向这种新的计算方式现代化。这意味着每年有数千亿美元的风险投资正在投入到现代化和发明这个新世界的过程中。这也意味着 100万亿美元的产业,其中一部分研发预算正在转向人工智能。人们问钱从哪里来?这就是钱的来源。从传统方法到 AI 的现代化,研发预算从经典方法向人工智能方法的转移。巨大的投资正在涌入这个行业,这也解释了为什么我们如此忙碌,去年也不例外。
去年是不可思议的一年。
这里有一张幻灯片要出来。这就是不做彩排的后果。这是今年的第一场主题演讲。我希望这也是你们今年的第一场主题演讲,否则你们就已经够忙的了。我们要把蜘蛛网清扫一下。
2025 年是不可思议的一年。似乎所有事情都在同一时间发生,事实上可能确实如此。
首先当然是缩放定律(Scaling Laws)。
2015 年,第一个我认为真正产生影响的语言模型 BERT 出现了,它带来了巨大的变化。2017年Transformer 问世。直到五年后的 2022 年,ChatGPT 时刻发生了,它唤醒了世界对人工智能可能性的认识。
那之后的一年发生了一件非常重要的事情。来自 ChatGPT 的第一个o1模型,即第一个推理模型,完全革命性地发明了这个叫做测试时缩放(Test Time Scaling)的概念,这是一个非常符合常识的事情。我们不仅预训练一个模型让它学习,我们还用强化学习对它进行后训练(Post-train),使它能够学习技能。现在我们还有了测试时缩放,换句话说就是“思考”。你在实时地思考。人工智能的每一个阶段都需要巨大的计算量,而计算定律在继续扩展。
大型语言模型(LLM)继续变得更好。与此同时,另一个突破发生了,这一突破发生在 2024 年。
代理系统(Agentic Systems)在 2025 年开始涌现。它开始普及到几乎所有地方。代理模型拥有推理、查找信息、做研究、使用工具、规划未来、模拟结果的能力。突然之间,它们开始解决非常非常重要的问题。我最喜欢的代理模型之一叫做 Cursor,它彻底改变了我们在NVIDIA 进行软件编程的方式。代理系统将从这里真正起飞。
当然,还有其他类型的 AI。我们知道大型语言模型并不是唯一的信息类型。只要宇宙有信息,只要宇宙有结构,我们就可以教一个大型语言模型、一种形式的语言模型去理解这些信息,理解它的表征,并将其转化为 AI。其中最重要、最大的一个就是物理AI(Physical AI)。即理解自然法则的 AI。
物理 AI 是关于 AI 与世界互动的,但世界本身有编码的信息,这叫做AI物理学(AI Physics)。也就是说,物理 AI 是与物理世界互动的 AI,而 AI 物理学是理解物理定律的 AI。
最后,去年发生的最重要的事情之一是开放模型(Open Models)的进步。我们现在知道,当开源、当开放创新、当全世界每个公司和每个行业的创新被激活时,AI 将会无处不在。
实际上,去年我们看到了DeepSeek R1 的进步,这是第一个开放的推理系统模型。它让世界大吃一惊,它真正激活了整个运动。非常非常令人兴奋的工作。我们对它非常满意。现在我们在全世界有各种各样的开放模型系统,我们现在知道开放模型也已经达到了前沿。虽然稳固地落后于前沿模型六个月,但每六个月都有一个新模型出现,这些模型因为这个原因变得越来越聪明。你可以看到下载量爆炸式增长。下载量增长如此之快,是因为初创公司想参与 AI 革命,大公司想要参与,研究人员想要参与,学生想要参与,几乎每个国家都想要参与。数字形式的智能怎么可能抛下任何人呢?
所以开放模型去年真正彻底改变了人工智能。整个行业将因此被重塑。
其实我们很久以前就有这种预感。你们可能听说过几年前,我们开始建立和运营我们自己的 AI 超级计算机。我们称之为DGX Cloud。很多人问,你们是要进入云业务吗?答案是不。我们建立这些 DGX 超级计算机是为了自己使用。事实证明,我们运营着数十亿美元的超级计算机,以便我们可以开发我们的开放模型。
我对我们正在做的工作感到非常高兴。它开始吸引全世界和各行各业的关注,因为我们在许多不同的领域做着前沿的 AI 模型工作。
我们在蛋白质和数字生物学方面的工作:Llama-Protina 用于合成和生成蛋白质。OpenFold 3 用于理解蛋白质结构。Evo 2 用于理解和生成多种蛋白质,也就是细胞表征的开端。
Earth-2:理解物理定律的 AI。我们在 ForecastNet 和 CorrDiff 方面的工作真正彻底改变了人们进行天气预测的方式。
Nemotron:我们在那里做了开创性的工作。第一个混合 Transformer SSM 模型,速度极快,因此可以思考很长时间,或者非常快地思考不需要很长时间就能产生非常聪明的智能答案。Nemotron-3 是开创性的工作,你可以期待我们在不久的将来发布 Nemotron-3 的其他版本。
Cosmos:一个前沿的开放世界基础模型,一个理解世界如何运作的模型。
Groot:一个人形机器人系统,涉及关节、移动性、运动。
这些模型、这些技术现在正在被整合,并且在每一个案例中都向世界开放。前沿的人形机器人模型向世界开放。今天我们要稍微谈谈Alpamayo,我们在自动驾驶汽车方面所做的工作。
我们不仅开源模型,我们还开源了用于训练这些模型的数据,因为只有那样你才能真正信任模型是如何产生的。我们开源所有模型。我们帮助你们从中通过衍生产品。我们有一整套库,我们称之为 NeMo 库、物理 NeMo 库和 Clara NeMo 库(BioNeMo)。这些库中的每一个都是 AI 的生命周期管理系统,以便你可以处理数据、生成数据、训练模型、创建模型、评估模型、为模型设置护栏,一直到部署模型。每一个库都极其复杂,所有这些都是开源的。
因此,在这个平台之上,NVIDIA 是一个前沿的 AI 模型构建者,我们以一种非常特殊的方式构建它。我们完全在公开环境中构建它,以便我们可以赋能每个公司、每个行业、每个国家成为这场 AI 革命的一部分。我对自己在那里的工作感到无比自豪。事实上,如果你注意图表,图表显示我们对这个行业的贡献是首屈一指的,你会看到我们实际上会继续这样做,甚至加速。这些模型也是世界级的。
所有系统都瘫痪了。
这种事在圣克拉拉(NVIDIA总部)从来不会发生。是因为拉斯维加斯吗?
是不是有人在外面的老虎机中大奖了?所有系统都瘫痪了。
好吧,我想我的系统还是瘫痪的,但这没关系。我会即兴发挥。
所以,不仅这些模型具有前沿能力,不仅它们是开放的,它们还在排行榜上名列前茅。这是我们非常自豪的一个领域。
它们在智能方面名列前茅。我们有重要的模型可以理解多模态文档,也就是 PDF。世界上最有价值的内容都捕捉在PDF 中。但这需要人工智能来找出里面的内容,解释里面的内容,并帮助你阅读它。所以我们的 PDF 检索器、我们的PDF 解析器是世界级的。
我们的语音识别模型绝对是世界级的。我们的检索模型,基本上就是搜索、语义搜索、AI 搜索——现代 AI 时代的数据库引擎,也是世界级的。所以,我们经常占据排行榜榜首。这是我们非常自豪的领域。
所有这一切都是为了服务于你们构建AI智能体(AI Agents)的能力。这确实是一个开创性的发展领域。
你知道,起初当 ChatGPT 出来时,人们说,天哪,它产生了非常有趣的结果,但它产生了严重的幻觉(胡言乱语)。它产生幻觉的原因,当然是因为它可以记住过去的一切,但它无法记住未来和现在的一切。所以它需要以研究为基础(Grounding)。在回答问题之前,它必须做基础研究。推理的能力——关于我是否需要做研究?我是否需要使用工具?我如何将一个问题分解成步骤?每一个步骤都是 AI 模型知道如何做的,并将它们组合成一系列步骤来执行它从未做过、从未被训练过的事情。这就是推理的奇妙能力。我们可以遇到以前从未见过的情况,并将其分解为我们知道如何做的情况、知识或规则,因为我们在过去经历过。
现在,大型语言模型已经实现了这一根本性的飞跃。使用强化学习和思维链(Chain of Thought)、搜索和规划以及强化学习中的所有这些不同技术的能力,使我们拥有这种基本能力成为可能,并且现在也完全开源了。
但真正棒的事情是另一个突破,我第一次看到它是在 Aravind 的Perplexity 上。Perplexity 这家 AI 搜索公司,真的是一家非常有创意的公司。当我第一次意识到他们同时使用多个模型时,我认为这完全是天才。当然,我们会这样做。当然,AI 也会调用世界上所有伟大的 AI 来解决它想在推理链的任何部分解决的问题。
这就是为什么 AI 真正是多模态(Multi-modal)的。
意味着它们理解语音、图像、文本、视频、3D 图形和蛋白质。它是多模态的。
它也是多模型(Multi-model)的。
意味着它应该能够使用最适合该任务的任何模型。
根据定义,它是多云(Multi-cloud)的。
因为这些 AI 模型位于所有这些不同的地方。
它也是混合云(Hybrid cloud)的。
因为如果你是一家企业公司,或者你制造了一个机器人或任何设备,有时它在边缘,有时在无线电信号塔,也许有时在企业内部,或者也许在医院这样你需要数据实时就在你身边的地方。
无论那些应用程序是什么,我们现在知道这就是未来 AI 应用程序的样子。或者换一种方式思考,因为未来的应用程序是建立在 AI 之上的。这就是未来应用程序的基本框架。这个基本框架,这种能够做我所说的那些事情的代理 AI 的基本结构——即多模型的结构,现在已经为各种各样的 AI 初创公司注入了强劲动力。
现在你也可以,因为有了所有的开放模型和我们提供给你们的所有工具,你可以定制你的 AI 来教你的 AI 别人没有教过的技能。没有别人让他们的 AI 以那种方式变得智能或聪明。你可以为自己做这件事。这就是我们在 Nemotron、NeMo 以及我们在开放模型方面所做的所有事情旨在做的。你在它前面放一个智能路由器(Smart Router)。那个路由器本质上是一个管理者,根据你给出的提示的意图,决定哪一个模型最适合那个应用程序来解决那个问题。
好的。所以现在当你思考这个架构时,你拥有了什么?当你思考这个架构时,突然之间你有了一个 AI:
一方面完全由你定制。你可以教它为你公司的特定技能。它是商业机密,你有深厚的领域专业知识。也许你拥有训练该 AI 模型所需的所有数据。
另一方面,你的 AI 根据定义总是处于前沿。
你总是拥有一方面的前沿技术。另一方面,你总是定制化的。而且它应该能直接运行。
所以我们想我们会做一个最简单的例子来让你们可以使用。整个框架我们称之为Blueprint(蓝图),我们的蓝图已经集成到世界各地的企业 SaaS 平台中,我们对进展感到非常高兴。但我们要做的是向你们展示一个简短的例子,说明任何人都可以做什么。
(演示视频开始)
(画外音:让我们构建一个个人助理。我想让它帮我处理日历、邮件、待办事项列表,甚至帮我照看家里。我使用 Brev 将我的 DGX Spark 变成个人云。所以我可以使用相同的界面,无论我是使用云 GPU 还是 DGX Spark。我使用前沿模型 API 来轻松开始。)
(音乐)
(画外音:我想让它帮我处理邮件,所以我为我的代理创建了一个邮件工具来调用。我希望我的邮件保持私密,所以我将添加一个在 Spark 上本地运行的开放模型。现在,对于任何工作,我都希望代理为正确的任务使用正确的模型。所以我将使用一个基于意图的模型路由器。这样,需要邮件的提示将留在我的 Spark 上,其他所有内容都可以调用前沿模型。)
(画外音:我想让我的助手与我的世界互动,所以我将它连接到 Hugging Face 的 Reachi 迷你机器人。我的代理通过工具调用控制Reachi 的头、耳朵和摄像头。我想给 Reachi 一个声音,我真的很喜欢 ElevenLabs,所以我将连接他们的API。)
Reachi (机器人声音): 嗨,我是运行在DGX Spark 上的 Reachi。
用户: 嘿 Reachi,今天我的待办事项列表上有什么?
Reachi: 你今天的待办事项列表:买杂货、鸡蛋、牛奶、黄油,还要把新脚本发给 Jensen。
用户: 好的,给Jensen 发个更新。告诉他我们在今天结束前会给他。
Reachi: 好的,会做的。
用户: Reachi,这儿还有个草图。你能把它变成建筑渲染图吗?
Reachi: 当然。
(音乐,生成渲染图)
用户: 不错。现在做一个视频,带我参观一下这个房间。
Reachi: 给你。
用户: 太棒了。通过Brev,我可以分享对我的 Spark 和 Reachi 的访问权限。所以我要把它分享给Anna。
Anna: 嘿,Reachi。Potato(宠物名)在干什么?
Reachi: 他在沙发上。我记得你不喜欢这样。我会叫他下去。Potato,下沙发!
(画外音:随着开源的所有进展,看到你能构建什么是令人难以置信的。我很想看看你会创造什么。)
(演示视频结束)
(音乐)
这难道不令人难以置信吗?
现在,令人惊奇的是,这现在是完全微不足道的事情。这现在完全是微不足道的。然而,就在几年前,所有这些都是不可能的。绝对无法想象。
这种使用语言模型构建应用程序的基本框架——使用那些预训练的、专有的、前沿的语言模型,并将其与定制的语言模型结合到一个代理框架、一个推理框架中,使你可以访问工具和文件,甚至连接到其他代理。这基本上就是现代 AI 应用程序或应用程序的架构。我们创建这些应用程序的能力非常快。注意,如果你给它以前从未见过的应用程序信息,或者以一种并不完全像你想的那样表示的结构,它仍然可以推理并尽最大努力通过数据和信息来推理,试图理解如何解决问题。这就是人工智能。
好的,所以这个基本框架现在正在被整合。正如我刚才描述的一切,我们有幸与世界上一些领先的企业平台公司合作。
例如 Palantir,他们整个 AI 和数据处理平台正在由NVIDIA 加速。
ServiceNow,世界领先的客户服务和员工服务平台。
Snowflake,云端顶级数据平台。那里正在做令人难以置信的工作。
CodeRabbit,我们在 NVIDIA 各处都在使用CodeRabbit。
CrowdStrike,创建 AI 来检测和发现 AI威胁。
NetApp,他们的数据平台现在上面有 NVIDIA 的语义 AI 和代理系统,用于做客户服务。
但重要的是这一点。这不仅是现在开发应用程序的方式,这将是你平台的用户界面。所以无论是 Palantir、ServiceNow、Snowflake 还是我们要合作的许多其他公司,代理系统就是界面。不再是 Excel 和一堆你需要输入信息的方块。也许不再仅仅是命令行。所有这些多模态信息现在都成为可能,你与平台互动的方式更像是……如果你愿意的话,就像你与人互动一样简单。这就是被代理系统彻底革命化的企业 AI。
接下来的事情是物理AI(Physical AI)。这是你们听我谈论了几年的领域。事实上,我们在这方面已经工作了八年。
问题是,如何将那种在计算机内部很智能、通过屏幕和扬声器与你互动的东西,变成可以与世界互动的东西?也就是说,它可以理解世界如何运作的常识。
物体恒存性(Object permanence):如果我把视线移开再看回来,那个物体还在那里。
因果关系(Causality):如果我推它,它会倒下。
它理解摩擦力和重力。理解惯性:一辆重型卡车沿路行驶需要更多的时间停下来,一个球会继续滚动。这些概念对一个小孩子来说都是常识,但对 AI 来说完全是未知的。
所以我们必须创建一个系统,允许 AI 学习物理世界的常识,学习它的定律,当然也要能够从数据中学习,而数据是非常稀缺的。并且要能够评估那个 AI 是否在工作,这意味着它必须在一个环境中进行模拟。AI 如何知道它正在执行的动作是否符合它应该做的,如果它没有能力模拟物理世界对其动作的反应?模拟其动作的反应对于评估它非常重要。否则,就没有办法评估它。每次都不一样。
所以这个基本系统需要三台计算机。
1.第一台计算机,当然是我们知道的 NVIDIA 制造的用于训练AI模型的计算机。
2.另一台计算机,我们知道是用于推理的计算机。推理模型本质上是运行在汽车里、机器人里、工厂里或边缘任何地方的机器人计算机。
3.但必须有第三台计算机,它是为模拟而设计的。模拟几乎是 NVIDIA 所做一切的核心。这是我们最舒适的地方,模拟确实是我们用物理 AI 所做几乎所有事情的基础。
所以我们有三台计算机和运行在这些计算机上的多个堆栈、这些库使其变得有用。
Omniverse 是我们的数字孪生、基于物理的模拟世界。
Cosmos,正如我之前提到的,是我们的基础模型。不是语言的基础模型,而是世界的基础模型。并且也与语言对齐。你可以说像“球发生了什么?”这样的话,它们会告诉你球正滚下街道。所以是一个世界基础模型。
然后当然是机器人模型。我们有两个。一
个叫 Groot。另一个叫Alpamayo,我将要告诉你们。
现在,对于物理 AI,我们必须做的最重要的事情之一是首先创建用于训练 AI 的数据。数据从哪里来?与其像语言那样,因为我们创建了一堆文本,那是我们认为 AI 可以从中学习的基准事实(Ground Truth)。我们如何教 AI 物理的基准事实?有非常多的视频,非常多的视频,但这几乎不足以捕捉我们需要的多样性和互动类型。
这就是伟大的头脑聚集在一起,将曾经的计算转化为数据的地方。
现在使用以物理定律为基础和条件的合成数据生成(Synthetic Data Generation),以基准事实为基础和条件,我们可以有选择地、巧妙地生成数据,然后我们可以用这些数据来训练 AI。
例如,输入到这个 AI、这个Cosmos 世界模型(左边的)的是交通模拟器的输出。这个交通模拟器对于 AI 学习来说几乎不够。我们可以把这个放入Cosmos 基础模型中,生成环绕视频,它是基于物理的、物理上合理的,AI 现在可以从中学习。这有太多例子了。
让我向你们展示 Cosmos 能做什么。
(Cosmos 演示视频开始)
(画外音:物理 AI 的 ChatGPT时刻即将到来,但挑战是显而易见的。物理世界是多样且不可预测的。收集真实世界的训练数据缓慢且昂贵,而且永远不够。)
(画外音:答案是合成数据。它始于 NVIDIA Cosmos,一个用于物理AI 的开放前沿世界基础模型。它在互联网规模的视频、真实驾驶和机器人数据以及 3D 模拟上进行了预训练。Cosmos学习了世界的统一表征,能够对齐语言、图像、 3D 和动作。)
(画外音:它执行物理 AI 技能,如从单张图像进行生成、推理和轨迹预测。Cosmos从3D 场景描述中生成逼真的视频。从驾驶遥测和传感器日志中生成物理上连贯的运动。)
(画外音:来自规划模拟器、多摄像头环境或场景提示的环绕视频。它将边缘情况(Edge Cases)带入生活。开发者可以在Cosmos 中运行交互式闭环模拟。当动作产生时,世界会做出反应。)
(画外音:Cosmos 进行推理。它分析边缘场景,将它们分解为熟悉的物理交互,并推理接下来可能发生的事情。Cosmos 将计算转化为数据,为长尾情况训练自动驾驶汽车(AV),并训练机器人如何适应每一种场景。)
(演示视频结束)
(音乐)
我知道这令人难以置信。Cosmos 是世界领先的基础模型。世界基础模型。它已经被下载了数百万次,在世界各地使用,让世界为这个物理 AI 的新时代做好准备。
我们也自己使用它。我们自己使用它来创建我们的自动驾驶汽车。用于场景生成和用于评估。我们可以拥有让我们有效地行驶数十亿、数万亿英里的东西,但在计算机内部完成。
我们取得了巨大的进步。今天,我们宣布Alpamayo,世界上第一个会思考、会推理的自动驾驶汽车AI。
Alpamayo 是端到端(End-to-End)训练的。从字面上看,从摄像头输入到执行输出。
摄像头输入:大量由其自身驾驶或人类演示驾驶的里程,并且我们有大量由 Cosmos 生成的里程。除此之外,成千上万的例子被非常非常仔细地标记,以便我们可以教汽车如何驾驶。
Alpamayo 做了一些非常特别的事情。它不仅接收传感器输入并激活方向盘、刹车和加速,它还推理它即将采取的行动。它告诉你它将采取什么行动,它得出该行动的理由,当然还有轨迹。所有这些都直接耦合,并由大量人类训练数据以及 Cosmos 生成的数据组合进行非常具体的训练。
结果简直令人难以置信。你的车不仅像你期望的那样驾驶,而且它驾驶得如此自然,因为它直接从人类演示者那里学习,而且在每一个场景中,当它遇到场景时,它会推理它要做什么,并推理它即将要做什么。
这之所以如此重要,是因为驾驶的长尾效应(Long Tail)。我们不可能简单地为每一个国家、每一个可能发生的情况、所有人口收集每一个可能的场景。然而,很有可能如果将每个场景分解成一堆其他的更小的场景,对于你要理解来说是很正常的。所以这些长尾将被分解为相当正常的情况,这辆车知道如何处理。它只需要对其进行推理。
所以让我们来看一看。你们即将看到的一切都是一次通过(One shot)。无手操作。
(自动驾驶演示视频开始)
我们八年前开始研究自动驾驶汽车。原因是因为我们在早期推理出深度学习和人工智能将重新发明整个计算堆栈。如果我们想要了解如何导航并将行业引向这个新的未来,我们必须擅长构建整个堆栈。
就像我之前提到的,AI 是一个五层蛋糕。
最底层是土地、电力和外壳。在机器人技术的情况下,最底层是汽车。
上面一层是芯片,GPU,网络芯片,CPU,所有这类东西。
再上面一层是基础设施。在这种特定情况下,正如我提到的物理 AI,那个基础设施是Omniverse 和 Cosmos。
再上面是模型。在我刚才展示的模型层中,这里的模型叫做Alpamayo。
今天,Alpamayo 已经开源。这项令人难以置信的工作。这花了数千人。我们的 AV(自动驾驶)团队有数千人。
作为参考,我们的合作伙伴 Ola,我想 Ola 就在观众席的某个地方。梅赛德斯(Mercedes)五年前同意与我们合作,使这一切成为可能。我们想象有一天,道路上的十亿辆汽车都将是自动驾驶的。你可以拥有一辆你正在编排并从某人那里租用的 Robo Taxi(自动驾驶出租车),或者你可以拥有它并且它自己驾驶,或者你可以决定自己驾驶。但是每一辆车都将拥有自动驾驶汽车的能力。每一辆车都将由 AI 驱动。
所以在这种情况下,模型层是Alpamayo,而上面的应用程序是梅赛德斯-奔驰。好的。
所以这整个堆栈是我们的第一个NVIDIA First 全堆栈努力,我们一直致力于此,我很高兴来自 NVIDIA 的第一辆 AV 汽车将在第一季度上路,然后在第二季度去欧洲,这里是美国第一季度,然后欧洲第二季度,我想亚洲是第三季度和第四季度。
而且强有力的事情是,我们将继续用下一版本的Alpamayo和之后的版本更新它。我现在毫无疑问,这将是最大的机器人行业之一,我很高兴我们致力于此,它教会了我们大量关于如何帮助世界其他地方构建机器人系统的知识。那种深刻的理解,知道如何自己构建它,自己构建整个基础设施,并知道机器人系统需要什么样的芯片。
在这个特定案例中,双 Orin,下一代双 Thor。这些处理器是为机器人系统设计的,并且是为了最高级别的安全能力而设计的。这辆车刚刚获得评级。它刚刚投入生产。梅赛德斯-奔驰 CLA 刚刚被NCAP 评为世界上最安全的汽车。
这是我所知道的唯一一个每一行代码、芯片、系统、每一行代码都经过安全认证的系统。整个模型系统基于传感器是多样化和冗余的,自动驾驶汽车堆栈也是如此。
Alpamayo 堆栈是端到端训练的,拥有令人难以置信的技能。然而,直到你永远驾驶它,没有人知道它是否会绝对安全。
所以我们用另一个软件堆栈来作为护栏(Guardrail),下面是一个完整的AV 堆栈。那个完整的 AV 堆栈是构建为完全可追溯的,我们花了大约五年时间来构建它。实际上大概六七年来构建第二个堆栈。
这两个软件堆栈相互镜像,然后我们有一个策略和安全评估器(Policy and Safety Evaluator)来决定:这是我有信心并可以推理出安全驾驶的事情吗?如果是这样,我会让Alpamayo来做。如果这是一种我不太自信的情况,并且安全策略评估器决定我们要回到一个非常更简单、更安全的护栏系统,那么它就会回到经典的 AV 堆栈。这是世界上唯一同时运行这两个 AV 堆栈的汽车,所有安全系统都应该具有多样性和冗余性。
我们的愿景是有一天每一辆车、每一辆卡车都将是自动驾驶的,我们一直在朝着那个未来努力。这整个堆栈是垂直整合的。当然,在梅赛德斯-奔驰的案例中,我们一起构建了整个堆栈。我们将部署这辆车。我们将运营这个堆栈。我们将维护这个堆栈,只要我们还活着。
然而,就像我们作为一家公司所做的一切一样。我们构建整个堆栈,但整个堆栈对生态系统是开放的。与我们合作构建 L4 和 Robo Taxi 的生态系统正在扩大,并走向各地。
我完全预计这将会是——这对于我们来说已经是一个巨大的业务。这对我们来说是一个巨大的业务,因为他们用它来训练我们的训练数据、处理数据和训练他们的模型。在某些情况下,他们用它来生成合成数据;在一些汽车公司,他们几乎只构建汽车内部的计算机芯片;有些公司与我们进行全栈合作;有些公司与我们进行部分合作。好的。所以不管你决定使用多少都没有关系。我唯一的请求是尽可能多地使用一点视频,整个东西都是开放的。
这将是第一个大规模主流 AI 物理 AI 市场。现在我认为我们都可以完全同意,从非自动驾驶汽车到自动驾驶汽车的这个拐点可能就在这个时候发生。在接下来的 10 年里,我相当确定世界上很大一部分汽车将是自动驾驶或高度自动驾驶的。
但我刚才描述的这个基本技术——使用三台计算机、使用合成数据生成和模拟——适用于每一种形式的机器人系统。它可能是一个只是关节、机械手的机器人,也许是一个移动机器人,也许是一个完全人形的机器人。
所以下一个旅程,机器人系统的下一个时代将是,你知道,机器人。这些机器人将会有各种不同的大小和……我邀请了一些朋友。他们来了吗?
嘿伙计们,快点。我有很多东西要讲。
快点,快点。你们告诉R2-D2 你们要来这里吗?你们告诉了吗?还有 C-3PO。
好的。好吧。过来。
在此之前,现在,真正的一件事是……你们有Jetson。它们里面有小小的 Jetson 计算机。它们是在 Omniverse 内部训练的。
这个怎么样?让我们向大家展示一下你们这帮家伙是在哪个模拟器里学会如何成为机器人的。你们想看看那个吗?好的,让我们看看那个。请播放。
真的吗?
这难道不令人惊奇吗?这就是你们学会成为机器人的方式。你们完全是在 Omniverse 内部完成的。
机器人模拟器叫做Isaac Sim 和 Isaac Lab。任何想制造机器人的人,你知道,没有人会像你们这么可爱。但现在我们有所有这些……看看所有这些我们正在制造机器人的朋友。我们在制造大的。不,就像我说的,没有人像你们这么可爱。但我们有 Neura Robotics,我们有 Agility Robotics。那边的 Agility。我们有 LG 在这边。他们刚刚宣布了一个新机器人。Caterpillar(卡特彼勒),他们有最大的机器人。那个是送到你家的食物配送机器人,连接到 Uber Eats。那是 Serve Robotics。我爱那些家伙。Agility, Boston Dynamics(波士顿动力),不可思议。你有手术机器人,你有来自 Franka 的机械臂机器人,你有 Universal Robotics 的机器人,数量惊人的不同机器人。
所以这是下一章。我们将来会更多地谈论机器人技术。但这最终不仅仅是关于机器人。我知道一切都是关于你们这帮家伙的。它是关于到达那里。
世界上最重要的行业之一将被物理 AI 和 AI 物理学彻底改变,那就是开启了我们 NVIDIA 所有人的行业。如果不是我要谈到的这些公司,这就不可能实现。我很高兴所有这些公司,从Cadence 开始,将加速一切。Cadence CUDA-X 集成到他们所有的模拟和求解器中。他们有 NVIDIA 物理 AI,他们将用于不同的工厂和工厂模拟。你有 AI 物理学被集成到这些系统中。
所以无论是 EDA 还是 SDA,在未来的机器人系统中,我们将拥有基本上相同的技术,让你们这帮家伙成为可能的技术现在完全彻底改变这些设计堆栈。
Synopsys(新思科技)。没有 Synopsys,你知道 Synopsys 和 Cadence 在芯片设计领域是完全不可或缺的。Synopsys 在逻辑设计和 IP 方面处于领先地位。而在 Cadence 的情况下,他们领导物理设计、布局布线、仿真和验证。Cadence 在仿真和验证方面令人难以置信。他们俩都在进入系统设计和系统模拟的世界。
所以在未来,我们将在 Cadence 和 Synopsys 内部设计你们的芯片。我们将设计你们的系统,并在这些工具内部模拟整个事物和模拟一切。那就是你们的未来。我们会给……是的。你们将会在这些平台内部诞生。相当惊人,对吧?
所以我们很高兴我们正在与这些行业合作,就像我们将 NVIDIA 集成到 Palantir 和 ServiceNow 一样,我们将 NVIDIA 集成到计算最密集的模拟行业 Synopsys 和 Cadence 中。
今天我们宣布Siemens(西门子)也在做同样的事情。我们将集成 CUDA-X、物理 AI、代理 AI、NeMo、Nemotron 深度集成到 Siemens 的世界中。
原因是这样的。首先,我们设计芯片,未来所有的芯片都将由 NVIDIA 加速。你们会对此感到非常高兴。我们将拥有代理芯片设计师(Agentic Chip Designers)和系统设计师与我们一起工作,帮助我们做设计,就像我们今天有代理软件工程师帮助我们的软件工程师编码一样。所以,我们将拥有代理芯片设计师和系统设计师。我们将在其中创造你们。
但之后我们要建造你们。我们必须建造工厂,制造你们的工厂。我们必须设计组装你们所有人的生产线。而这些制造工厂本质上将是巨大的机器人。不可思议,对吧?我知道。我知道。
所以你们将在计算机中被设计。你们将在计算机中被制造。你们将在计算机中被测试和评估,早在你们必须花时间应对重力之前。我知道。
你们知道怎么应对重力吗?你们能跳吗?
能跳吗?
(机器人做动作)
好的。行了。别显摆了。
好的。所以这……所以现在,使 NVIDIA 成为可能的行业,我只是很高兴我们正在创造的技术现在处于如此复杂的水平和能力,我们可以回去帮助他们彻底改变他们的行业。所以从他们开始的事情,我们现在有机会回去帮助他们彻底改变他们的行业。让我们看看我们要和 Siemens 做的事情。来吧。
(西门子合作视频开始)
(画外音:物理 AI 的突破正让 AI 从屏幕走向我们的物理世界。正是时候,因为世界正在为芯片、计算机、救命药物和 AI 建造各种各样的工厂。随着全球劳动力短缺的恶化,我们比以往任何时候都更需要由物理 AI 和机器人驱动的自动化。)
(画外音:这就是 AI 与世界上最大的物理行业相遇的地方,是NVIDIA 和 Siemens 合作的基础。近两个世纪以来,Siemens 建立了世界的工业,现在它正在为AI 时代重新发明它。)
(画外音:Siemens 正在将NVIDIA CUDA-X 库、AI 模型和 Omniverse 集成到其 EDA、CAE 和数字孪生工具及产品组合中。)
(画外音:我们要一起将物理 AI 带入完整的工业生命周期。从设计和模拟到生产和运营。)
(音乐)
(画外音:我们要站在新工业革命的开端,这是由 NVIDIA 和 Siemens为下一个工业时代建立的物理 AI 时代。)
(视频结束)
不可思议,对吧,伙计们?你们觉得怎么样?好的,抓紧了。抓紧了。
所以这是,你知道,如果你看看世界的模型,毫无疑问 OpenAI 是今天领先的 Token 生成者。OpenAI 生成的 Token 比其他任何东西都多。第二大群体,第二大可能是开放模型。我的猜测是随着时间的推移,因为有这么多公司、这么多研究人员、这么多不同类型的领域和模态,开源模型将是迄今为止最大的。
让我们谈谈一个真正特别的人。你们想这样做吗?让我们谈谈Vera Rubin。
Vera Rubin。是的,继续。
她是一位美国天文学家。她是第一个观察到……她注意到星系的尾部移动的速度与星系的中心差不多快。嗯,我知道这说不通。这说不通。牛顿物理学会说,就像太阳系一样,离太阳较远的行星绕太阳公转的速度比离太阳较近的行星慢。因此,除非有不可见的物体,我们称之为——她发现了——暗物质(Dark Matter),尽管我们看不到它,但它占据空间,否则这发生是没有道理的。
所以 Vera Rubin 是我们以此命名我们下一台计算机的人。这难道不是个好主意吗?
我知道。
(掌声)
好的。嘿,Vera Rubin是为了解决我们面临的这个根本挑战而设计的。AI 所需的计算量正在飙升。对 NVIDIA GPU 的需求正在飙升。它飙升是因为模型每年增加 10 倍,一个数量级。更不用说,正如我提到的,o1 的引入是 AI 的一个拐点。不再是一次性回答(One-shot),推理现在是一个思考过程。为了教 AI 如何思考,强化学习和非常显著的计算被引入到后训练中。不再仅仅是监督微调或称为模仿学习或监督训练。你们现在有了强化学习,本质上是计算机自己尝试不同的迭代,学习如何执行任务。
因此,预训练、后训练、测试时缩放的计算量因此爆炸式增长。现在我们做的每一个推理,不再仅仅是一次性,你可以看到 AI 在思考,这是我们所赞赏的。它思考的时间越长,通常产生的答案就越好。所以测试时缩放导致要生成的 Token 数量每年增加5倍。
更不用说,与此同时,AI 的竞赛正在进行。每个人都试图达到下一个水平。每个人都试图达到下一个前沿。每当他们达到下一个前沿时,上一代 AI Token 的成本就开始每年下降大约10倍。每年 10 倍的下降实际上告诉你在发生一些不同的事情。它在说竞争如此激烈。每个人都试图达到下一个水平,有人正在达到下一个水平。因此,所有这一切都是一个计算问题。你计算得越快,你就能越快达到下一个前沿的下一个水平。所有这些事情都在同一时间发生。
所以我们决定我们必须每年推进最先进的计算技术。一年都不能落下。
我们一年半前开始发货 GB200。现在我们正在全面量产GB300。如果 Vera Rubin 要赶上今年,它现在必须已经投产了。
所以今天我可以告诉你们,Vera Rubin 已经全面投产。
你们想看看 Vera Rubin 吗?好的,来吧。请播放。
(Vera Rubin 介绍视频开始)
(画外音:Vera Rubin 恰好赶上了 AI 的下一个前沿。这就是我们如何构建它的故事。架构,一个由六个芯片组成的系统,工程设计为一体工作,源于极致的协同设计(Extreme Co-design)。)
(画外音:它始于 Vera,一个定制设计的CPU,性能是上一代的两倍。以及 Rubin GPU。Vera 和 Rubin 从一开始就协同设计,以便更快、更低延迟地双向一致地共享数据。)
(画外音:然后 17,000 个组件聚集在一个Vera Rubin 计算板上。高速机器人以微米级精度放置组件,然后 Vera CPU 和两个 Rubin GPU 完成组装。能够提供 100 Petaflops 的 AI 算力,是其前身的五倍。)
(画外音:AI 需要快速的数据。ConnectX-9为每个GPU 提供每秒 1.6 Terabits 的横向扩展带宽。BlueField-4 DPU 卸载存储和安全性,以便计算完全专注于AI。)
(画外音:Vera Rubin 计算托盘(Compute Tray)完全重新设计,没有电缆、软管或风扇。具有一个 BlueField-4 DPU、八个ConnectX-9 网卡、两个 Vera CPU 和四个 Rubin GPU,这是 Vera Rubin AI 超级计算机的计算构建块。)
(画外音:接下来是第六代 NVLink Switch,移动的数据比全球互联网还多,连接18 个计算节点,扩展到 72 个 Rubin GPU,作为一个整体运行。)
(画外音:然后是 Spectrum-X Ethernet Photonics(以太网光子学),世界上第一个具有 512 个通道和 200 Gbit 能力的共封装光学(Co-packaged Optics)以太网交换机,将成千上万的机架扩展为 AI 工厂。)
(画外音:自设计开始以来的 15,000 个工程师年。第一个Vera Rubin NVL72 机架上线。六个突破性芯片,18 个计算托盘,9 个 NVLink 交换机托盘,220万亿个晶体管,重近两吨。向 AI 下一个前沿的巨大飞跃。Rubin 来了。)
(视频结束)
你们觉得怎么样?
这是一个Rubin Pod。16 个机架中有 1152 个 GPU。正如你们所知,每一个机架有 72 个 Vera Rubin 或 72 个 Rubin。每一个 Rubin 是两个实际的 GPU 芯片连接在一起。我要把它展示给你们看,但这有几件事……好吧,我待会儿再告诉你们。我不能一下子告诉你们所有事情。
好吧,我们设计了六种不同的芯片。首先,我们要公司内部有一条规则,这是一条好规则。任何新一代都不应该更改超过一两个芯片。但问题是这样的。正如你们所看到的,我们在描述每一个被描述的芯片中的晶体管总数。我们知道摩尔定律在很大程度上已经放缓。所以我们年复一年能得到的晶体管数量不可能跟上 10 倍大的模型。它不可能跟上每年生成更多 Token 的 5 倍。它不可能跟上 Token 成本下降将如此激进的事实。
如果行业要继续进步,就不可能跟上这种速度,除非我们部署激进的极致协同设计(Extreme Co-design)。基本上同时在整个堆栈的所有芯片上进行创新。这就是为什么我们决定这一代我们别无选择,只能重新设计每一个芯片。
现在,刚才描述的每一个芯片本身都可以是一个新闻发布会,而在过去的日子里,可能有一整个公司专门做这个。每一个都是完全革命性的,同类中最好的。
Vera CPU,我为它感到非常自豪。在一个受电力限制的世界里,Gray CPU(注:口误,应指Grace 的继任者 Vera)性能是两倍。在一个受电力限制的世界里。它是世界上最先进 CPU 每瓦性能的两倍。它的数据速率是疯狂的。它是为处理超级计算机而设计的。Vera 是一个不可思议的 GPU(注:口误,应指CPU)。Grace是一个不可思议的 GPU(注:口误,应指 CPU)。现在 Vera增加了单线程性能,增加了内存容量,仅仅是急剧增加了一切。这是一个巨大的芯片。
这是 Vera CPU。这是一个 CPU。
这连接到 Rubin GPU。看看那个东西。这是一个巨大的芯片。
现在,真正特别的事情是,我会过一遍这些。我想这需要三只手,四只手来做这个。好的。
所以,这是 Vera CPU。它有 88 个 CPU 核心。CPU 核心被设计为多线程的。但Vera 的多线程特性被设计为每一个 176 个线程都可以获得其全部性能。所以本质上好像有 176 个核心,但只有88 个物理核心。这些核心是使用一种叫做空间多线程的技术设计的。但 IO 性能令人难以置信。
这是Rubin GPU。浮点性能是 Blackwell 的 5倍。但重要的事情是看底线。底线是它的晶体管数量仅为 Blackwell 的 1.6倍。这某种程度上告诉了你今天半导体物理的水平。如果我们不做协同设计,如果我们不在整个系统的每一个芯片层面上做极端的协同设计,我们怎么可能提供哪怕是最好每年 1.6 倍的性能水平呢?因为那就是你拥有的晶体管总数。即使你的每个晶体管性能多一点,比如说 25%,你也不可能从你得到的晶体管数量中获得 100% 的良率。所以 1.6 倍某种程度上为你每年性能能走多远设定了上限,除非你做一些极端的事情。我们称之为极致协同设计。
好吧,我们做的一件事,这是一个伟大的发明。它叫做NVFP4 Tensor Core。我们芯片内部的 Transformer 引擎不仅仅是我们放入数据路径的某种 4 位浮点数。它是一个完整的处理器,一个处理单元,了解如何动态地、自适应地调整其精度和结构以处理 Transformer 的不同层级,以便你可以在可能损失精度的地方实现更高的吞吐量,并在你需要的地方回到尽可能高的精度。那种动态执行此操作的能力。你不能在软件中这样做,因为显然它运行得太快了。所以你必须能够在处理器内部自适应地做到这一点。这就是 NVFP4。当有人说 FP4 或 FP8 时,这对我们来说几乎没有任何意义。原因是让它工作的是 Tensor Core 结构和所有的算法。NVFP4,我们已经为此发表了论文。它能够保持的吞吐量和精度水平是完全不可思议的。这是开创性的工作。如果是未来行业希望我们将这种格式和这种结构作为行业标准,我也不会感到惊讶。这是完全革命性的。这就是为什么即使我们只有 1.6 倍的晶体管数量,我们也能提供如此巨大的性能提升。好的。
所以这是……现在一旦你有了一个伟大的处理节点,这就是处理器节点,在这里……例如这里,让我做这个……
这就是……哇,它超级重。你必须是一个身材非常好的CEO 才能做这份工作。好的。
所以这东西是……我猜这大概……我不知道,几百磅。
(有人笑)
我也觉得这很有趣。来吧。
(看向后台) 可能是这样的。大家都走了。不,我不这么认为。
好的。所以看看这个。这是最后一个。我们彻底改变了整个 MGX 机箱。
这个节点。43 根电缆,零电缆。六根管子,这儿只有两根。
组装这个需要两个小时。如果你幸运的话,需要两个小时。当然,你可能会组装错。你得重新测试,测试,重新组装。所以组装过程极其复杂。作为我们第一批以这种方式解构的超级计算机之一,这是可以理解的。
这个从两小时变成了 5 分钟。
80% 液冷。100% 液冷。
是的。真的,真正的突破。
好的。所以,这是新的计算底盘。连接所有这些到机架顶部交换机、东西向流量的是Spectrum-X网卡(NIC)。这是世界上最好的网卡。毫无疑问,NVIDIA 的 Mellanox,很久以前加入我们的收购 Mellanox。他们在高性能计算方面的网络技术是世界上最好的,毋庸置疑。算法、芯片设计、所有的互连、运行在上面的所有软件堆栈、他们的 RDMA,绝对绝对首屈一指,世界上最好的。现在它有能力做可编程 RDMA 和数据路径加速器,以便像 AI 实验室这样的合作伙伴可以为他们想要如何在系统中移动数据创建自己的算法。但这完全是世界级的 ConnectX-9,Vera CPU 是协同设计的,我们从未透露过。直到 CX9 出现我们才从未发布过,因为我们为一种新型处理器协同设计了它。
你知道,ConnectX-9 或 CX8 和 Spectrum-X 彻底改变了以太网为人工智能所做的方式。AI 的以太网流量要密集得多,需要更低的延迟。瞬时的流量激增不同于以太网所见的任何东西。所以我们创建了 Spectrum-X,即AI以太网。两年前我们宣布了 Spectrum-X。NVIDIA 今天是世界上最大的网络公司。所以它非常成功,被用于许多不同的安装中。它正在席卷 AI 领域。
性能令人难以置信,特别是当你有一个 200 兆瓦的数据中心,或者如果你有一个吉瓦的数据中心。这些是数十亿美元。假设一个吉瓦的数据中心是 500 亿美元。如果网络性能允许你多提供 10%——在 Spectrum-X 的情况下,提供 25% 更高的吞吐量并不罕见。即使我们只提供 10%,那也值50亿美元。网络完全是免费的,这就是为什么——嗯,每个人都使用 Spectrum-X。这真是一件不可思议的事情。
现在我们将发明一种新型的……一种新型的数据处理。所以 Spectrum 是用于东西向流量的。我们现在有一个名为BlueField-4 的新处理器。BlueField-4 允许我们采取一个非常大的数据中心,隔离不同的部分,以便不同的用户可以使用不同的部分。确保一切都可以虚拟化,如果他们决定虚拟化的话。所以你卸载了很多用于南北向流量的虚拟化软件、安全软件、网络软件。所以 BlueField-4 标配在每一个这些计算节点上。BlueField-4 有第二个应用,我马上就会讲到。这是一个革命性的处理器,我对此感到非常兴奋。
这是 NVLink 6 Switch。就在这里。
这个交换机芯片。在这个 NVLink 交换机里有四个。
这每一个交换机芯片都有历史上最快的 SerDes。世界勉强达到200 Gbits。这是 400 Gbits 每秒的交换机。
这之所以如此重要,是为了让我们可以让每一个 GPU 在完全相同的时间与每一个其他GPU 对话。这个交换机,在这个机架背板上的这个交换机使我们要移动相当于两倍全球互联网数据量的数据,速度是两倍。
如果你拿整个地球互联网的横截面带宽,大约是每秒 100 TB。这是每秒 240 TB。所以这某种程度上把它放在了透视中。这是为了让每一个 GPU 都可以与每一个其他 GPU 在完全相同的时间工作。好的。
然后在那之上……在那之上,好的,这是一个机架。这是一个机架。
正如你们所看到的,这个机架中的晶体管数量是 1.7 倍。
是的。你能帮我做这个吗?
所以,这通常大约是两吨,但今天它是两吨半,因为当他们运送它时,他们忘了把水排干。所以,我们从加利福尼亚运了很多水过来。
你能听到它尖叫吗?你知道,当你旋转两吨半重的东西时,你得尖叫一下。哦,你可以做到。哇。
好的,我们不会让你做两次。
好的。所以,在这背后是NVLink Spines(脊柱)。基本上是两英里的铜缆。铜是我们知道的最好的导体。这些都是屏蔽铜缆,结构化铜缆,世界上在计算系统中使用的最多的。我们的 SerDes 以每秒 400 gigabits 的速度驱动从机架顶部一直到底部的铜缆。这令人难以置信。所以这总共有 2 英里的铜缆,5000 根铜缆。这使得 NVLink Spine 成为可能。这是真正开启 MGX 系统的革命。
现在我们决定我们将创建一个行业标准系统,以便整个生态系统、我们所有的供应链都可以标准化这些组件。有大约 80,000 个不同的组件组成了这些 MGX 系统,如果我们每年都改变它,那就是彻底的浪费。每一个主要的计算机公司,从富士康到广达再到纬创,你知道,名单还在继续,到惠普、戴尔和联想,每个人都知道如何构建这些系统。
所以尽管性能如此之高,更重要的是功耗是两倍,我们仍然可以将 Vera Rubin 挤进这个系统,这就是奇迹:进入它的空气,气流大约是相同的。非常重要的是,进入它的水是相同的温度,45°C。用 45°C,数据中心不需要冷水机组(Chillers)。我们基本上是用热水冷却这台超级计算机。它是如此令人难以置信的高效。
所以这是……这是新的机架。晶体管多 1.7 倍,但峰值推理性能多5倍,峰值训练性能多 3.5倍。好的,它们在顶部使用 Spectrum-X 连接。
哦,谢谢。
(掌声)
这是世界上第一个使用台积电(TSMC)新工艺制造的芯片,我们共同创新的工艺叫做COUPE。这是一种硅光子集成硅光子工艺技术。这允许我们将硅光子直接带到芯片上。这是 512个端口,每秒200 Gbits。这是新的以太网 AI 交换机,Spectrum-X 以太网交换机。看看这个巨大的芯片。但真正令人惊奇的是,它有直接连接到它的硅光子。激光从这里进来。激光从这里进来。光学器件在这里,它们连接到数据中心的其余部分。我稍后会展示给你们看,但这在机架顶部。这是新的 Spectrum-X 硅光子交换机。好的。
我们有一些新东西想告诉你们。
正如我几年前提到的,我们推出了 Spectrum-X,以便我们可以重新发明网络的方式。以太网真的很容易管理,每个人都有以太网堆栈,世界上的每个数据中心都知道如何处理以太网。当时我们唯一使用的是 InfiniBand,用于超级计算机。InfiniBand 延迟非常低。但当然,软件堆栈、InfiniBand 的整个可管理性对于使用以太网的人来说非常陌生。所以我们决定第一次进入以太网交换机市场。Spectrum-X 就这样起飞了,使我们成为了世界上最大的网络公司。正如我提到的,下一代 Spectrum-X 将继承这一传统。
但正如我刚才所说,AI 已经重新发明了整个计算堆栈,计算堆栈的每一层。理所当然地,当 AI 开始部署在世界各地的企业中时,它也将重新发明存储的方式。嗯,AI 不使用 SQL。AI 使用语义信息。当使用 AI 时,它会创建这种临时知识,临时记忆,称为KV Cache(KV缓存)。键值组合,但它是一个 KV 缓存。基本上是 AI 的缓存,AI 的工作记忆。
AI 的工作记忆存储在 HBM 内存中。对于每一个 Token,对于每一个 Token,GPU 读入模型,整个模型。它读入整个工作记忆,它产生一个 Token,并将那个 Token 存储回 KV 缓存,然后在下一次它这样做时,它读入整个记忆,读取它,并通过我们的 GPU 流式传输,然后生成另一个 Token。嗯,它一个 Token 接一个 Token 地重复这样做,显然如果你在那段时间与那个 AI 进行长时间的对话,那个记忆、那个上下文记忆将会极大地增长。
更不用说模型正在增长。我们使用的轮次(Turns)正在增加。我们希望这个 AI 伴随我们一生。记住我们曾经与它进行的每一次对话,对吧?我向它请求的每一丁点研究。当然,共享超级计算机的人数将继续增长。因此,最初适合放在 HBM 内部的这个上下文记忆不再足够大了。
去年我们创建了 Grace Blackwell 的非常快的内存,我们称之为快速上下文内存。这就是为什么我们将 Grace 直接连接到 Hopper,这就是为什么我们将 Grace 直接连接到 Blackwell,以便我们可以扩展上下文记忆。但即使那样也是不够的。所以下一个解决方案当然是去网络上,南北向网络,去公司的存储。但如果你有很多 AI 同时运行,那个网络就不再足够快了。
所以答案非常清楚,要做得不同。所以我们创建了 BlueField-4,以便我们基本上可以在机架中拥有一个非常快的 KV 缓存上下文内存存储。所以我马上就会向你们展示。但这是一个全新的存储系统类别。行业非常兴奋,因为这对于几乎所有今天做大量 Token 生成的人来说都是一个痛点。AI 实验室,云服务提供商,他们真的因为 KV 缓存移动造成的大量网络流量而受苦。
所以我们将创建一个新平台、一个新处理器的想法,来运行整个 Dynamo KV 缓存上下文内存管理系统,并将其放在离机架其余部分非常近的地方,这是完全革命性的。所以就是这个。它就在这里。
所以这就是所有的计算节点。每一个都是 NVLink 72。所以这是 Vera Rubin NVLink 72,144 个 Rubin GPU。这是存储在这里的上下文内存。在每一个这些背后是四个 BlueField。在每一个 BlueField 背后是 150 TB……150 TB 的内存,上下文内存。对于每一个 GPU,一旦你在每一个 GPU 上分配它,将获得额外的 16 TB。现在在这个节点内部,每个 GPU 本质上有一 TB。现在有了这里的这个后备存储(Backing Store),直接在同一个东西向流量上,以完全相同的数据速率,每秒 200 gigabits,实际上跨越这个计算节点的整个结构。你将获得额外的 16 TB 内存。好的。这就是管理平面。这些是连接所有它们的 Spectrum-X 交换机,在这里,末端的这些交换机将它们连接到数据中心的其余部分。好的。
所以这是 Vera Rubin。
现在有几件事真的令人难以置信。所以我提到的第一件事是,这整个系统的能源效率是两倍。本质上,即使功耗是两倍,使用的能量是两倍,计算量是其许多倍,但进入它的液体仍然是 45 摄氏度。这使我们能够节省大约 6% 的世界数据中心电力。所以这是一件非常大的事情。
第二件非常大的事情是,这整个系统现在是机密计算安全(Confidential Computing Safe)的。意味着一切都在传输中、静止时和计算期间被编码。每一条总线现在都被加密了。每一个 PCI Express,每一个 NVLink,你知道对于 CPU 和 GPU 之间的 NVLink,GPU 到 GPU 之间,一切现在都被加密了,所以它是机密计算安全的。这允许公司感到安全,即他们的模型是由其他人部署的,但永远不会被其他人看到。好的。
这特定的系统不仅非常节能,而且还有一件事是令人难以置信的。由于 AI 工作负载的性质,它会瞬间飙升。通过这个称为 All-Reduce 的计算层,电流的大小、使用的能量虽然是瞬间的,但确实超出了图表。通常它会飙升 25%。我们现在在整个系统中拥有功率平滑(Power Smoothing),这样你就不必过度配置 25 倍,或者如果你过度配置 25 倍,你不必留下 25%……不是 25 倍,是 25% 的能量被浪费或未使用。所以现在你可以填满整个功率预算,你不必在此之外进行配置。
最后一件事当然是性能。所以让我们来看看这个的性能。这些只是构建 AI 超级计算机的人会喜欢的图表。
我们需要对每一个芯片进行完全重新设计,并在整个系统上重写整个堆栈,才能使这成为可能。
基本上这是训练 AI 模型。第一列。你训练AI 模型越快,你就能越快将下一个前沿带给世界。这是你的上市时间。这是技术领导力。这是你的定价能力。
所以在绿色的情况下,这本质上是一个 10 万亿参数的模型。我们从DeepSeek 扩大了它,DeepSeek。这就是为什么我们称之为 DeepSeek++。在一个 100 万亿 Token 上训练一个 10 万亿参数的模型。好的。这是我们对构建下一个前沿模型所需的模拟预测。
Elon 已经提到 Grok 的下一个版本,Grok 3 我想是,不,Grok 5 还是什么,是 7 万亿参数(注:可能指Grok 3,此处为演讲者口语推测)。这是 10 万亿。
绿色是 Blackwell。而在 Rubin的情况下,注意吞吐量是如此之高,因此只需要 1/4 的这些系统就可以在我们给出的时间(一个月)内训练模型。好的。所以时间对每个人来说都是一样的。现在你能多快训练那个模型,以及你能训练多大的模型,是你如何首先到达前沿的关键。
第二部分是你的工厂吞吐量(Factory Throughput)。Blackwell 再次是绿色的。工厂吞吐量很重要,因为你的工厂在吉瓦的情况下是 500 亿美元。一个 500 亿美元的数据中心只能消耗一吉瓦的电力。所以如果你的性能、你的每瓦吞吐量非常好对比非常差,那直接转化为你的收入。你的数据中心的收入与第二列直接相关。在 Blackwell 的情况下,它比 Hopper 高大约 10 倍。在 Rubin 的情况下,它将再高大约 10倍。好的。
在现在的情况下……Token的成本,生成 Token 的成本效益如何。这是 Rubin,大约是 1/10,就像在……是的。
所以这就是我们要如何让每个人都到达下一个前沿,将 AI 推向下一个水平,当然还有能源高效和成本高效地构建这些数据中心。
所以就是这样。这就是今天的 NVIDIA。
你知道,我们提到我们制造芯片,但正如你们所知,NVIDIA 现在制造整个系统。AI是一个全栈。我们正在重新发明 AI,从芯片到基础设施,到模型,到应用程序的一切。我们的工作是创建整个堆栈,以便你们所有人都可以为世界其他地方创建令人难以置信的应用程序。
感谢大家的到来。祝大家有一个愉快的 CES。
现在,在我……在我让你们离开之前,有一大堆幻灯片我们不得不剪掉,我们不得不留在剪辑室的地板上。所以,我们这里有一些花絮(Outtakes)。我想这会让你们觉得很有趣。
祝大家有一个愉快的 CES,伙计们。

关于我们
北京汉深流体技术有限公司 是丹佛斯中国数据中心签约代理商。产品包括FD83全流量双联锁液冷快换接头(互锁球阀);液冷通用快速接头UQD & UQDB;OCP ORV3盲插快换接头BMQC;EHW194 EPDM液冷软管、电磁阀、压力和温度传感器。在人工智能AI、国家数字经济、东数西算、双碳、新基建战略的交汇点,公司聚焦组建高素质、经验丰富的液冷工程师团队,为客户提供卓越的工程设计和强大的客户服务,支持全球范围内的大批量交付。
公司产品涵盖:丹佛斯液冷通用零泄漏快换接头、EPDM软管、电磁阀、压力和温度传感器及Manifold。
未来公司发展规划:数据中心液冷基础设施解决方案厂家,具备冷量分配单元(CDU)、二次侧管路(SFN)和Manifold的专业研发设计制造能力。
数据中心液冷解决方案 ~ 满足您各种需求的一站式解决方案:
- 主线解决方案:Danfoss Hansen FD83 系列全流量双互锁接头
- 机架内部解决方案:基于OCP标准全新打造的液冷通用快速接头UQD & UQDB ;OCP ORV3盲插快换接头BMQC , 支持全球范围内的大批量交付。
- Danfoss Hansen MQD and MQDB 液冷快换接头: MQD02 (H20); MQD03 (Blackwell B300 GB300); MQD04;MQDB03 and MQDB04。
- 针对机架式服务器中Manifold/节点、CDU/主回路等应用场景,提供不同口径及锁紧方式的手动和全自动快速连接器。
- 针对高可用和高密度要求的刀片式机架,可提供带浮动、自动校正不对中误差的盲插连接器。以实现狭小空间的精准对接。
- 液冷软管:EHW194 EPDM(三元乙丙橡胶)软管,最高防火等级(UL94 V0) 的软管
- 制冷剂解决方案: 5400系列制冷剂接头和GH001和EZ卡扣式配件。
- 液冷服务器、液冷板、CDU、液冷接头、管路、Manifold、液冷泵\阀门、换热器、冷却塔、漏液检测、液冷模块、过滤器、激光焊接、清洁度检测等。
About Us
Beijing Hansen Fluid Technology Co., Ltd. is an authorized distributor of Danfoss China, specializing in the data center industry. Our product portfolio includes Danfoss FD83 full-flow double-interlock liquid cooling quick-disconnect couplings (equipped with interlocking ball valves); universal liquid cooling quick-disconnect couplings UQD & UQDB; OCP ORV3 blind-mate quick-disconnect couplings BMQC; EHW194 EPDM liquid cooling hoses; solenoid valves; and pressure/temperature sensors. Amid the convergence of strategic trends such as artificial intelligence (AI), China’s national digital economy, the “Eastern Data and Western Computing” initiative, the “dual carbon” goals, and new infrastructure development, we are committed to building a high-caliber, experienced team of liquid cooling engineers. We deliver exceptional engineering design, robust customer service, and support global large-scale deployment.
Products: Danfoss liquid cooling fluid connectors, EPDM hoses, solenoid valves, pressure/temperature sensors, and manifolds.
Development Plan:Our goal is to become a leading provider of liquid cooling infrastructure solutions for data centers, with professional R&D, design, and manufacturing capabilities for cooling distribution units (CDUs), secondary fluid networks (SFNs), and manifolds.
Data center liquid cooling Solutions ~ One partner, every solution :
- Source line solutions: Danfoss Hansen FD83 Series Full-fow dual-interlock coupling
- Inner rack solutions: Newly engineered universal liquid cooling quick connectors UQD & UQDB compliant with OCP standards; OCP ORV3 blind-mate quick-disconnect connectors BMQC, supporting mass delivery on a global scale.
- Inner rack solutions: Danfoss Hansen MQD and MQDB Liquid Cooling Quick-Disconnect Connectors: MQD02 (H20); MQD03 (Blackwell B300 GB300); MQD04; MQDB03 and MQDB04.
- For application scenarios including Manifold/node, CDU/main loop in rack-mounted servers, manual and fully automatic quick connectors with different calibers and locking mechanisms are available.
- For blade racks requiring high availability and high density, blind-mate connectors with floating function and automatic misalignment correction are offered to enable precise docking in confined spaces.
- Liquid Cooling Hoses: EHW194 EPDM (Ethylene Propylene Diene Monomer) hoses, featuring the highest fire rating (UL94 V0). Hoses with UL94 V0 rating — leads the industry
- Refrigerant solutions: 5400 Series Refrigerant Connectors, along with GH001 and EZ Snap-Fit Fittings.
- Liquid cooling servers, liquid cooling plates, CDUs, liquid cooling connectors, pipelines, Manifolds, liquid cooling pumps/valves, heat exchangers, cooling towers, leak detection systems, liquid cooling modules, filters, laser welding, cleanliness testing, etc.
|