Nvidia发展战略研究(2024)
原创 常华Andy Andy730 2024年11月19日 07:30 上海
按:本文内容基于NVIDIA Presentations 2024(https://investor.nvidia.com/events-and-presentations/presentations/)总结,不包括财务分析,信息截至2024年10月6日。
概览
NVIDIA作为加速计算领域的领导者,凭借其GPU架构在过去十年将计算速度提升100万倍,确立了不可撼动的技术优势。公司的核心竞争力体现在三个方面:首先是从芯片到系统、软件的全栈技术实力,形成了以GPU、CPU、DPU为核心的完整平台;其次是庞大的生态系统,拥有500万开发者和4万家企业用户,通过CUDA、AI Enterprise等软件平台持续扩大影响力;第三是在AI训练/推理、专业图形和游戏等关键市场的主导地位。这三大优势相互强化,构建了极高的竞争壁垒。
NVIDIA近期呈现出极其强劲的财务表现。2024财年公司实现收入609.22亿美元,而2025财年仅前两季度收入就达到560.84亿美元,增长主要来自数据中心业务(占比87%)。盈利能力持续提升,2025财年上半年营业利润率升至68%,毛利率保持在77%的高位。现金流表现同样亮眼,2025财年上半年自由现金流达284.18亿美元。
NVIDIA在其核心市场领域均占据绝对主导地位。在游戏市场,GeForce平台拥有超2亿用户,在Steam平台最受欢迎的15款GPU中独占全部;在专业可视化领域,工作站图形市场份额超95%,服务4500万设计师和创作者;在高性能计算领域,全球TOP500超级计算机中超75%采用其平台。公司在AI市场的优势尤为显著,目前已有1600多家生成式AI公司采用其平台,生态系统拥有近550万开发者。在自动驾驶领域,DRIVE平台已成为行业标配,获得全球40余家车企采用,包括前30大电动车企中的20家。
关键洞察
1. 计算架构变革
CPU性能增长已降至年均1.1倍,无法支撑高强度计算需求
GPU计算能力保持每年2倍增速,过去十年实现1000倍性能跃升
现有数据证明:2个配备16颗H100的计算节点可替代960台CPU服务器,带来25倍成本优化及84倍能效提升
2. 生成式AI带来的计算需求激增
ChatGPT用户量两月突破1亿,验证了市场需求
与Pascal架构相比,Blackwell架构在2万亿参数GPT模型训练时能耗降低350倍
推理效率提升明显:每Token生成所需能量降低4.5万倍
3. AI基础设施升级
传统数据中心正向AI专用计算设施转型
Blackwell架构、Spectrum-X网络等技术显著提升计算密度
液冷技术优化散热效率,降低运营成本
4. 物理AI应用趋势
自动驾驶、工业机器人等场景已开始规模化部署
仿真环境支持机器人训练与开发
机器人工厂将加速计算与物理AI结合,推动自动化升级
一、NVIDIA发展历程与战略演进
1.整体战略定位
NVIDIA的核心战略定位是“加速计算”领域的技术引领者。公司专注于在后摩尔定律时代,通过并行计算架构突破传统计算性能限制。在2023财年,公司将战略重点转向打造完整的AI计算平台,涵盖从硬件基础设施到软件工具链的全栈式解决方案。
NVIDIA采用“全栈优化”作为核心实施方法论,具体体现在三个维度:1. 垂直整合:在硬件层面,整合了GPU、CPU(Grace)、DPU(BlueField)、网络(Spectrum-X/InfiniBand)等核心组件;2. 平台赋能:在软件层面,通过CUDA生态系统、AI Enterprise套件等,为开发者提供标准化工具;3. 行业渗透:针对自动驾驶(DRIVE)、数字孪生(mniverse)等垂直领域,提供完整的应用解决方案。
2.发展关键时间轴
1999年:NVIDIA发布了世界上第一款GPU,GeFrce 256。这标志着计算领域的一个里程碑。
2006年:NVIDIA发布了CUDA,这是一个革命性的编程模型。
2012年:研究人员发现了深度学习的潜力,并发现了CUDA。NVIDIA与AI的首次深度接触,这是一个具有里程碑意义的日子。NVIDIA与科学家们合作,使深度学习成为可能,AlexNet取得了计算机视觉领域的巨大突破。
2016年:NVIDIA推出了DGX,这是世界上第一台AI超级计算机。OpenAI成为第一个DGX的客户。
2017年:Transfrmer架构崛起,它使研究人员能够训练海量数据,并识别和学习长时间序列的模式。
2022年11月:OpenAI在由成千上万台NVIDIA GPU组成的巨型AI超级计算机上训练了ChatGPT。ChatGPT的发布标志着世界首次见证了生成式AI的力量。
2024年:
1月:NVIDIA推出了BiNeM,这是一个生成式AI平台,为药物发现提供开发、定制和部署基础模型的服务。
2月:NVIDIA发布了GeFrce RTX 40 SUPER系列GPU和新的RTX 40系列AI笔记本电脑,为广泛的尺寸规格带来了高性能游戏和AI功能。
4月:NVIDIA推出了Blackwell平台,使组织能够以比其前身低25倍的成本和能耗,在数万亿参数的大型语言模型上构建和运行实时生成式AI。
5月:NVIDIA推出了NVIDIA Inference Micrservices(NIM),它提供了由NVIDIA CUDA加速的、性能优化的安全容器。
6月:NVIDIA在台北国际电脑展上宣布了Blackwell平台。
8月:NVIDIA宣布NVIDIA NIM现已全面上市,并被超过150家合作伙伴采用。
3.战略演进过程
初始阶段:游戏显卡的成功奠基(1999-2006)
NVIDIA以GeForce系列显卡进军游戏显卡市场,并在PC游戏领域取得成功,为其奠定了技术和市场基础。通过在GPU技术上的积累,NVIDIA为后续跨领域扩展提供了关键支撑。
战略转折:从游戏到加速计算平台(2006-2012)
NVIDIA意识到GPU在并行计算中的巨大潜力,于2006年推出了CUDA并行计算编程模型,并逐步将其引入计算生态系统,开辟了高性能计算和深度学习等新兴市场。2010年,NVIDIA在医疗保健领域的GPU计算收入达到10亿美元。这一阶段标志着NVIDIA从单一硬件供应商向计算能力提供者的战略转型。
深度学习推动业务结构重塑(2012-2018)
2012年,深度学习技术的兴起引发了对计算能力的指数级需求。NVIDIA凭借GPU在并行计算方面的天然优势,迅速确立了其在AI市场的领先地位,并通过DGX系列等解决方案进军高端市场。NVIDIA在2016年向OpenAI交付了世界上第一台AI超级计算机DGX。这一阶段推动了NVIDIA收入结构从游戏硬件向多元化计算平台转变。
全栈布局与生态系统构建(2018-2022)
为了应对AI和高性能计算需求的全面增长,NVIDIA开始纵向扩展产品线,通过优化架构(Tensor Core)、开发互联技术(NVLink)以及战略收购(如Mellanox),构建了从硬件到软件的一体化平台。到2020年,NVIDIA拥有470万名CUDA开发者和3200个GPU加速应用程序。这种生态系统化的布局不仅巩固了NVIDIA的技术护城河,还增强了用户粘性。
生成式AI:爆发式增长催化剂(2022-至今)
生成式AI的普及加速了NVIDIA业务模式的演变。NVIDIA的AI计算平台成为了行业基础设施,助力客户实现从数据分析到内容生成的全流程转型,推动NVIDIA从传统硬件销售向平台订阅服务模式转变。截至2024年,已有超过1600家生成式AI公司在NVIDIA平台上进行开发。
下一步:拥抱机器人与物理AI(未来)
NVIDIA正在布局物理AI和机器人技术,目标是在下一代技术浪潮中保持领先地位。通过推出Isaac和Omniverse等平台,NVIDIA正在向智能设备开发和现实交互领域拓展。Omniverse平台已被用于开发“地球二号”项目,该项目旨在创建一个地球的数字孪生体,以预测未来的气候变化。
二、技术与产品体系
1.产品路线图
GPU
Rubin(2026年):预计将采用8S或12S HBM4显存,并与NVLink 6交换机和CX9 SuperNIC协同工作。
Blackwell-Ultra(2025年):将提供更多AI算力,并采用288GB HBM3e显存。
Blackwell(2024年):支持FP4精度,算力为20,000 TFLOPS,采用双芯片设计,通过10TB/s的链接连接,拥有2080亿个晶体管,支持第五代NVLink技术,具有安全AI功能和可靠性引擎。Blackwell平台还包括HGX B200服务器平台,该平台包含八个B200 GPU,并通过NVLink互连。Blackwell的训练速度比H100快4倍,推理速度比H100快30倍。与Hopper相比,在功耗受限的数据中心中,AI吞吐量提高了3到5倍。与Pascal相比,训练GPT-4模型所需的能量减少了350倍,生成GPT-4模型的每个Token的能耗降低了45,000倍。
Hopper(2022年):支持FP8精度,算力为4,000 TFLOPS,采用6S HBM3/HBM3e显存,并支持NVLink 5技术。Hopper GPU在一年内推理性能提升了5倍。
Ampere(2020年):支持FP16精度,算力为620 TFLOPS。
Volta(2018年):支持FP16精度,算力为130 TFLOPS。
Pascal(2016年):支持FP16精度,算力为19 TFLOPS。
NVLink
NVLink 6 Switch(2026年):带宽为3600 GB/sec。
NVLink 5 Switch:带宽为1800 GB/sec。
NVLink Switch:带宽为900 GB/sec。
CPU
Vera CPU(2026年):将与代号为“Rubin”的下一代GPU平台协同工作。
Grace CPU(2022年):旨在与GPU协同工作,为AI和高性能计算提供强大的计算能力。
DPU/NIC
CX9 SuperNIC:支持1600G带宽。
CX8 SuperNIC:支持800G带宽。
CX7 SuperNIC:带宽为400G。
BlueField-3 SuperNIC:支持400G带宽。
交换机
Spectrum-X1600(2026年):带宽为102.4T,支持512个Radix。
Quantum-X800 InfiniBand Switch(2024年)
Spectrum-X800 Ultra(2025年):带宽为51.2T,支持512个Radix。
Spectrum-X800 Ethernet Switch(2024年):带宽为51.2T,支持256个Radix。
Quantum-X400 InfiniBand Switch。
2.产品与服务
硬件
GPU:
GeFrce:面向游戏玩家的GPU产品线,包括Turing、Ampere和Ada等架构。
Tesla:面向数据中心的GPU产品线,包括Hpper和Blackwell等架构。
H100:Hpper架构的旗舰产品,被广泛应用于大型语言模型的训练和推理。
H200:H100的升级版,性能和能效进一步提升。
Blackwell:下一代GPU架构,预计将在2024年第四季度开始量产。
GB200:Blackwell架构的旗舰产品,采用多节点、液冷、机架式系统设计,将36个GB200超级芯片组合成一个巨型GPU。
RTX:支持光线追踪和AI技术的GPU产品线,面向游戏玩家和创作者。
CPU:
Grace CPU,旨在与GPU协同工作,提升AI和高性能计算的性能和能效。
DPU:
BlueField:NVIDIA的DPU产品线,包括BlueField-3等产品。
网络设备:
InfiniBand:高性能网络互连技术,被广泛应用于超级计算机和AI工厂。
以太网:NVIDIA也开始提供以太网解决方案,旨在将AI技术引入到更广泛的数据中心环境中。
Spectrum:NVIDIA的以太网交换机产品线,包括Spectrum-X800和Spectrum-X1600等产品。
CnnectX:NVIDIA的以太网网卡产品线,包括CnnectX-8等产品。
系统:
DGX:面向AI训练和推理的超级计算机系统。
HGX:面向高性能计算的GPU服务器平台。
MGX:模块化服务器系统,可以灵活地配置GPU、CPU、DPU和网络设备。
AGX:面向自动驾驶和边缘计算的嵌入式系统。
IGX:面向医疗保健、物流和制造等领域的工业级系统。
软件
CUDA:NVIDIA的并行计算平台和编程模型,是加速计算的基础。
CUDA-X:一系列加速库,涵盖了从深度学习到基因测序的各种应用领域。
cuDNN:深度神经网络库,用于加速神经网络的训练和推理。
cuQuantum:量子计算仿真系统,用于设计量子计算机和量子算法。
Mdulus:AI物理库,用于模拟流体动力学等物理现象。
Aerial:5G无线电库,用于软件定义和加速电信网络。
Kith:计算光刻平台,用于芯片制造中的掩模制作。
Parabricks:基因测序库,用于加速基因组分析。
cuPT:组合优化库,用于解决路线规划等优化问题。
cuDF:数据处理库,用于加速数据分析和机器学习。
NVIDIA AI Enterprise:面向企业的AI软件平台,提供企业级安全、API稳定性、可管理性和支持。
NVIDIA BiNeM:用于药物发现的AI平台,提供预训练模型、框架和云服务。
NVIDIA Clara:用于医疗保健的AI平台,提供用于医学影像、基因组学和药物发现的工具和服务。
NVIDIA DRIVE:用于自动驾驶的AI平台,提供用于感知、规划和控制的软件和硬件解决方案。
DRIVE Hyperin:自动驾驶汽车的传感器架构。
DRIVE rin:自动驾驶汽车的AI计算平台。
DRIVE Thr:下一代自动驾驶汽车的AI计算平台。
NVIDIA Isaac:用于机器人的AI平台,提供用于感知、导航和操作的软件和硬件解决方案。
NVIDIA mniverse:用于创建和运行虚拟世界的平台,可以用于模拟、协作和AI训练等应用场景。
NVIDIA GeFrce NW:云游戏服务,让用户可以在各种设备上玩PC游戏。
平台服务
NVIDIA DGX Clud:云服务,让用户可以访问NVIDIA DGX超级计算机的强大计算能力,用于训练和推理AI模型。
NVIDIA BiNeM训练即服务:云服务,让用户可以使用NVIDIA BiNeM平台训练大型生物分子模型。
3.产品与技术关键数据
加速计算性能
1000倍性能提升:从2016年的Pascal架构到2024年的Blackwell架构,NVIDIA的AI计算性能提升了1000倍。
训练GPT-4模型能耗降低350倍:从Pascal架构到Blackwell架构,训练拥有2万亿参数、8万亿Tokens的GPT-4模型所需的能量减少了350倍。
生成GPT-4Token能耗降低4.5万倍:从Pascal架构到Blackwell架构,生成一个GPT-4Token的能耗降低了4.5万倍。
Blackwell架构
NVLink域规模:Blackwell系统的NVLink域可连接144个GPU,分布在72个GB200封装中。
NVLink带宽:单个Blackwell机架的NVLink总带宽高达259TB/s,比Hpper架构高出约10倍。
Blackwell单芯片性能:Blackwell架构的单芯片AI性能达到20,000TFLPS,采用FP4精度。
Spectrum-X以太网
Spectrum-X800交换机:支持51.2T的带宽和256个Radix,可连接数万个GPU。
Spectrum-X800Ultra交换机:支持51.2T的带宽和512个Radix,可连接数十万个GPU。
Spectrum-X1600交换机:支持102.4T的带宽和512个Radix,可连接数百万个GPU。
软件生态系统
CUDA开发者数量:NVIDIA拥有超过500万CUDA开发者。
CUDA库数量:NVIDIA拥有超过350个CUDA库。
NVIDIA AI Enterprise年收入:预计到2024年底,NVIDIA AI Enterprise的年收入将达到20亿美元。
市场地位
TP500超级计算机占比:NVIDIA的平台为超过75%的TP500超级计算机提供动力。
工作站图形市场份额:NVIDIA在工作站图形市场占有超过95%的份额。
三、解决方案与生态系统
1.行业应用场景
数据中心
核心计算组件:H100/B200 GPU、Grace CPU、DPU
网络架构:InfiniBand、Spectrum-X以太网
软件生态:CUDA平台、358个领域优化库
案例:
AWS/Azure/GCP:AI专用超算中心建设
政府项目:日本/韩国/新加坡国家级AI中心
企业客户:Meta大规模训练集群、特斯拉自动驾驶训练场
游戏产业应用
RTX光追技术:支持250+3A游戏,实现实时光线追踪
DLSS 3.5超采样:已集成至UE5/Unity等主流引擎
GeFrce NW云游戏:
支持1500+PC游戏实时串流
全球25个数据中心覆盖
主流平台全覆盖(PC/Mac/移动设备/智能电视)
专业可视化与工业设计
工业应用场景:
汽车设计:比亚迪/宝马数字工厂规划
建筑设计:采用mniverse进行协同设计和渲染
工业仿真:杜邦/西门子工业流程优化
生成式AI集成:
3D资产快速生成
场景自动布局与优化
材质与光照智能调节
智能驾驶与机器人
DRIVE平台应用:
自动驾驶:感知、规划、控制全栈方案
智能座舱:驾驶监控、语音交互、车载娱乐
已知采用方案的车企:蔚来、小鹏、理想、比亚迪
Isaac机器人平台:
工业机器人:柔性制造、智能装配
服务机器人:物流配送、清洁服务
仿真训练:物理引擎高精度还原真实环境
医疗创新应用
BiNeM平台:
药物研发:分子设计、性质预测、筛选优化
临床应用:医学影像分析、诊断辅助
医疗设备:智能影像设备、手术机器人
具体落地案例:
辉瑞:新药研发流程优化
飞利浦:医学影像设备升级
Intuitive Surgical:手术机器人系统开发
其他行业拓展
金融:风险分析、交易策略优化
零售:智能选品、需求预测
制造:质量控制、预测性维护
能源:智能电网调度、设备监控
2.合作伙伴生态体系
云服务商(CSP):NVIDIA与所有主要的云服务商合作,包括亚马逊、谷歌、微软、甲骨文等。NVIDIA的加速计算平台在云端得到广泛应用,为AI训练和推理、高性能计算等提供支持。
原始设备制造商(EM):NVIDIA与众多EM厂商合作,包括服务器制造商、PC制造商、汽车制造商等。NVIDIA的GPU、DPU等产品被集成到EM厂商的产品中,为各种应用提供加速计算能力。
软件开发商:全球有超过500万开发者使用NVIDIA的CUDA平台进行软件开发。NVIDIA提供了丰富的软件库和工具,帮助开发者优化和加速各种应用。
行业合作伙伴:NVIDIA与各行各业的企业合作,将AI和加速计算应用于实际场景,例如医疗保健、金融服务、制造业、零售业、交通运输等。
研究机构:NVIDIA与全球的大学和研究机构合作,推动AI和加速计算领域的创新。
NVIDIA的合作伙伴生态系统呈现出以下特点:
全栈式合作:NVIDIA不仅仅提供硬件产品,还提供软件、工具、服务和专家支持,与合作伙伴进行全栈式合作,共同构建完整的解决方案。
广泛的行业覆盖:NVIDIA的合作伙伴生态系统涵盖了几乎所有主要的行业,推动了AI和加速计算在各行各业的应用。
四、未来发展与重点布局
NVIDIA认为加速计算和生成式AI是未来计算行业的两大趋势,并将重塑全球各行各业。
1.持续投入加速计算平台,保持全栈技术领先优势。
为了应对AI训练和推理的指数级增长需求,NVIDIA将持续投入研发,不断推出性能更强、成本更低的加速计算平台。
NVIDIA的加速计算平台不仅包含GPU,还包括CPU、DPU、NVLink、网络交换机以及全栈软件。
NVIDIA将继续保持一年一代的芯片迭代速度,并不断推出新的网络技术。
NVIDIA的加速计算平台将在云端、数据中心、边缘计算、PC和机器人等领域得到广泛应用。
2. 构建AI工厂,引领生成式AI时代。
NVIDIA认为未来的数据中心将演变为AI工厂,专门用于生产AI模型和Token。
NVIDIA将提供全栈解决方案,帮助客户构建和运营AI工厂,包括硬件、软件、网络以及专业服务。
NVIDIA的AI工厂将采用模块化设计,客户可以根据需求灵活选择配置。
NVIDIA相信AI工厂将成为国家级基础设施,帮助各国实现AI主权。
3. 推动AI应用落地,赋能各行各业。
NVIDIA将与各行业合作伙伴紧密合作,推动AI在医疗、金融、制造、零售、交通、能源等领域的应用落地。
NVIDIA将重点发展以下AI应用:
生成式AI:包括用于文本、图像、视频、代码、蛋白质等内容生成的AI模型。
物理AI:包括用于机器人、自动驾驶、天气预测等领域的AI模型。
AI代理:包括用于客户服务、医疗诊断、教育培训等领域的AI代理。
数字孪生:包括用于工厂、城市、地球等场景的数字孪生平台。
NVIDIA将提供NVIDIA AI Enterprise软件平台,帮助企业部署和管理AI应用。
4. 拓展PC AI生态,打造全新用户体验。
NVIDIA将把GeFrce RTX GPU打造成PC AI平台,支持用户在PC上运行生成式AI应用和数字人类代理。
NVIDIA将与微软等合作伙伴合作,优化Windws操作系统,提升PC AI性能。
NVIDIA将推动NVIDIA ACE技术在游戏和其他应用中的应用,为用户带来更智能、更沉浸的体验。
?
微信扫一扫
关注该公众号
关于我们
北京汉深流体技术有限公司是丹佛斯中国数据中心签约代理商。产品包括FD83全流量自锁球阀接头;液冷通用快速接头UQD & UQDB;OCP ORV3盲插快换接头BMQC;EHW194 EPDM液冷软管、电磁阀、压力和温度传感器及Manifold的生产。在国家数字经济、东数西算、双碳、新基建战略的交汇点,公司聚焦组建高素质、经验丰富的液冷工程师团队,为客户提供卓越的工程设计和强大的客户服务。
公司产品涵盖:丹佛斯液冷流体连接器、EPDM软管、电磁阀、压力和温度传感器及Manifold。
未来公司发展规划:数据中心液冷基础设施解决方案厂家,具备冷量分配单元(CDU)、二次侧管路(SFN)和Manifold的专业研发设计制造能力。
- 针对机架式服务器中Manifold/节点、CDU/主回路等应用场景,提供不同口径及锁紧方式的手动和全自动快速连接器。
- 针对高可用和高密度要求的刀片式机架,可提供带浮动、自动校正不对中误差的盲插连接器。以实现狭小空间的精准对接。
- 基于OCP标准全新打造的液冷通用快速接头UQD & UQDB ;OCP ORV3盲插快换接头BMQC , 支持全球范围内的大批量交付。
|