We engineer tomorrow to build a better future.
Solutions to your liquid cooling challenges.
 
 
DANFOSS
数据中心液冷产品
  数据中心液冷产品
  FD83接头
  UQD快速接头
  UQDB盲插接头
  盲插浮动结构
  BMQC盲插接头
  MQD液冷接头
  MQD02液冷接头
  MQD03液冷接头
  MQD04液冷接头
  MQDB盲插接头
  Mini-QD光模块液冷接头
  EHW194 液冷软管
  EHW094 液冷软管
  DC394 液冷软管
  5400制冷剂接头
  不锈钢90度旋转接头
  Manifold 分水器
  液冷系统生产及集成

卓越成长 业绩突破
Performance Outstanding Award
2024奖项获得者

 
选型资料下载
  新闻通告
  成功案例
  行业动态
  资料下载
 
汉深公司仓库

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 


   

 

Arista的这份白皮书,是对CPO技术下的一道战书《XPO:重新定义可插拔光学用于人工智能网络》
XPO:重新定义可插拔光学用于人工智能网络

执行摘要


人工智能(AI)工作负载的爆炸式增长正在从根本上重塑数据中心基础设施的需求。下一代AI集群要求远高的带宽密度、更好的热管理以及比传统云数据中心设计支持的更高系统级可靠性。

虽然行业标准的OSFP(八进制小型可插拔)模块成功支持了400Gbps、800Gbps和1.6Tbps的光插拔模块[1],但每个机架单元(RU)限制为32个模块,通常需要2个RU才能达到102.4Tbps,4个RU才能达到204.8Tbps的交换容量。尽管联合封装光学(CPO)和车载光学(OBO)被提出以提高带宽密度,但这些方法在现场服务性、可扩展性和制造性方面带来了重大挑战,使其难以在超大规模环境中广泛部署[2]。

为应对这些挑战,Arista Networks与45个以上行业合作伙伴的生态系统共同推出了eXtra密集的可插拔光学(XPO)[3]。XPO代表了一类专为下一代AI数据中心结构设计的新型光学可插拔模块。每个XPO模块通过64条电线提供12.8Tbps带宽,并集成液冷冷板,支持400W+模块功耗。

XPO模块比OSFP宽约2.7×,每个模块带宽提升8倍,使单个开放式机架单元(1OU)垂直空间内可实现高达204.8Tbps的切换容量——相比OSFP前面板密度增加了4×。

XPO可插拔模块保留了现场插拔的优势,使得光学模块能够快速更换或升级,无需维护整个开关,并最大限度地减少停机时间。它还支持按增长付费的部署模式,并兼容多种光纤架构——包括DR、FR、LR、SR和ZR——以支持多样化的网络配置,同时提供更高的运营灵活性。

人工智能基础设施需求增长


人工智能(AI)和机器学习工作负载的指数级增长正在从根本上重塑数据中心架构。这一转型对网络基础设施施加了前所未有的压力,推动现有互联技术远超其最初设计的极限。随着AI模型的复杂性和规模不断提升,底层网络的性能成为整体系统效率的关键因素。因此,下一代光互连解决方案的开发对于防止网络成为限制人工智能创新的主要瓶颈至关重要。

核心挑战源于一个简单的现实:AI数据中心需要比传统云数据中心多出数量级的带宽。这种需求吞吐量的剧增无法仅靠渐进式改进来解决;这需要对互联技术进行根本性的重新评估。为了支持支持现代AI工作负载的分布式训练集群和庞大数据集,网络结构的每个组件都必须重新设计,以实现更高的性能、更高的密度和更高的效率。本文概述了这一人工智能驱动转型带来的新需求,并介绍了专门设计以应对这些挑战的光学架构。

人工智能网络光互连的要求


理解人工智能工作负载对网络基础设施的具体技术要求至关重要。组件层面的设计决策可能对整个数据中心的性能、成本和可扩展性产生连锁反应。本节概述了定义下一代数据中心光学的五个关键要求,并探讨了为何现有标准——最初为传统云计算环境开发——越来越难以满足大规模人工智能工作负载的需求。

极限带宽
AI网络的一个关键要求是能够以最小延迟传输大量数据。跨分布式加速器集群训练大规模AI模型需要比传统数据中心工作负载更高的网络带宽。这一挑战不仅仅体现在提升链路速度上;它需要构建一个非阻塞的高基网络结构,能够维持数万个加速器之间的同时通信。

高可靠性
在由数万条光链路组成的大型AI结构中,组件故障在统计上变得不可避免。然而,现今光学模块的硬和软失效率仍高于此类环境下所需的运行可靠性。一次故障可能中断或停止数百万美元的培训任务,导致计算周期浪费和重大财务损失。在包含50,000+光链路的结构中诊断和更换失效模块是一项重大运营挑战,常常引发作业调度的连锁反应,并导致网络严重的资源碎片化。

液冷
现代人工智能加速器的巨大计算密度产生了超过传统风冷能力的热负荷。因此,超大规模AI数据中心越来越多地将液冷作为基础设施的基本需求。这种转变对机架内的每个组件都施加了严格的热设计约束。因此,任何无法高效集成液冷环境的光互联解决方案,都根本不适合下一代AI数据中心的部署。

能效
功耗是现代数据中心设计中的关键限制。高密度机架在有限的功率预算内运行,网络消耗的每一瓦电都意味着一瓦无法用于产生收益的计算资源。因此,光互连必须实现每个传输比特显著降低功耗。高效率不仅对降低运营成本至关重要,也有助于最大化每个机架的计算密度和整体性能。

前所未有的密度
物理空间是现代数据中心中宝贵的资源。为了构建AI工作负载所需的大规模结构,网络架构师需要带宽密度显著更高的解决方案。密度不足迫使部署更大更复杂的多层网络拓扑,并增加脊梁层和超脊层,增加延迟、成本和布线复杂度。现行标准的密度限制构成了重大障碍;例如,OSFP每1U仅支持32个模块,这对于大型AI集群所需的规模来说远远不足。

基于这五个基本需求,显然广泛采用的OSFP模块并不适合AI 驱动数据中心的新兴需求。现有光学技术与下一代人工智能基础设施需求之间的差距凸显了光互连设计新架构方法的必要性。

解决方案概述:Arista XPO 可插拔光学模块


Arista XPO(eXtra密集可插拔光学)模块是一款专为解决超大规模AI数据中心独特挑战而设计的解决方案。其架构直接针对下一代AI和机器学习工作负载所需的带宽、密度、可靠性、散热和能效等关键指标。通过重新思考光模块的形态及其与主机系统的集成,XPO在网络可扩展性和性能方面取得了显著进步。

XPO模块的主要规格和优势直接对应上述五项关键要求:

带宽:每个XPO模块提供12.8Tbps带宽,配置为64个通道,速度为200Gbps,支持高基数、无阻塞的网络结构,支持最苛刻的AI集群。

可靠性:通过优化电气通道、热管理和整体组件架构,XPO 提高了每传输比特的可靠性,减少作业中断并提升整体系统可用性。

冷却:XPO模块集成了液冷冷板,为液冷数据中心环境提供了高效的热解决方案,并实现高功率光学元件的直接散热。

功耗:设计采用高质量线性接口通道,提升信号完整性,使得依赖复杂且耗电量大的传统光学元件更低功耗。

密度:XPO提供OSFP的8×带宽,OSFP前面板密度的4倍,使每个开门机架单元(1OU)的交换吞吐量高达204.8Tbps,并树立了可插拔光模块密度的新基准。

图1:OSFP与XPO的比较,突出XPO相较8X OSFP在密度上的提升


机械架构


“腹到腹”设计为了实现每个模块带宽的8倍提升,XPO放弃了传统的单PCB布局。

一. 尺寸与间距: 该模块采用紧凑的机械形态,尺寸为宽度60.8毫米×长111.8毫米×高度21.3毫米, 实现了高前面板密度。

二. 双拨片卡:在模块外壳内部,XPO架构包含两块独立的32通道印刷电路板(PCB),称为拨片卡。

三. 腹对腹布局: 这两张相同的牌(牌1和牌2)以“腹对腹”排列,朝内朝向共享的中央元素。 高功率发热元件(如发射电路和激光驱动器)安装在PCB内向的“热”侧,而低功率元件(如接收电路和控制逻辑)安装在朝外的“冷”侧。

四. 弹壳抛出机构: 由于电接触点数量众多,插入和 拆卸需要较大的力。XPO模块采用机械弹射器配备释放拉片,提供1:11的机械杠杆,帮助操作员 在插入时与主笼平稳啮合。


图2:XPO爆炸视图
集成液冷



XPO模块的一个显著创新是其原生水冷。XPO没有依赖热界面材料(TIM)和笼式骑行散热器,而是将冷却直接引入模块内部。

一. 中央冷板:液冷板物理夹在两块拨片的“热”侧之间,同时冷却两块电路板。

二. 热能力:该设计高效去除超过400W的高功率模块热量,轻松支持XPO模块内8颗1.6Tbps的ZR光学元件等高强度应用。通过采用40-45°C的温水液冷,XPO使部件温度比风冷同类产品低20°C至25°C。

三.流体接口:该模块集成了流体通道,并通过盲对、快速断开液体连接器连接到主机系统的冷却歧管。这些无滴水连接器额定匹配500次,支持从低功率模块0.25升/分钟(LPM)到高功率模块0.7 LPM的动态流量。

电气接口与50伏电源传输
XPO模块利用64条高速电线,采用200Gbps PAM4信令传输,传输12.8Tbps,路线图支持通过400Gbps线路实现25.6Tbps。为了最大化信号完整性和功率效率,电气设计严格隔离:

一. 干净线性信道:高速发射(Tx)和接收(Rx)信号被分隔在拨片卡的两侧,以减少串扰,提供一个优化的线性信道,非常适合线性驱动插拔光学(LPO)。

二.专用电源/控制连接器:为防止电源噪声耦合到高速数据通道,电源和低速控制信号(如I2C/I3C、重置和中断)通过模块中央的完全独立专用卡边连接器传输。

三.50V直流架构:传统插拔式依赖3.3V直流输入,该输入对高功率光学器件产生巨大电流。XPO直接从机架母线引入46V到53V的直流输入(名义上为48V或50V)。这种高压输入显著降低了所需的额定电流和电源连接器的物理尺寸。

四.主板简化:通过利用直接位于模块拨片卡上的板载48V转3.3伏电压调节器,XPO消除了在开关主板上安装笨重且最坏情况配置电压调节器的需要,最大化了整体系统的可靠性。

比较分析:量化XPO相较于OSFP的优势

要充分理解XPO模块的架构影响,必须直接、基于数据的对比现有OSFP标准。本分析评估了单个模块层面和机架层面的性能差异,展示了组件层面的创新如何转化为系统整体效率提升。


图3:204.8Tbps交换机示例,XPO(上方)和OSFP(下方)显示了4倍密度的提升
从最根本的层面上讲,XPO显著提升了前面板带宽密度。为了实现204.8Tbps的总交换吞吐量,基于XPO的系统仅需四分之一的机架空间,而基于OSFP的部署则是同等的。这明显比OSFP提升了4×密度,使网络架构师能够在同一物理覆盖范围内构建更强大的结构。

当这种密度优势应用于标准ORv3(HPR)液冷机架[4]的系统层面时,其益处更加显著。下表比较了基于各光学标准的完整机架。这一比较揭示了关于总拥有成本(TCO)的重要见解。液冷基础设施是一项可贵的资本投资,为了证明这笔费用,机架部署通常必须以120千瓦或更高的功率密度为目标。

基于OSFP的机架最大功耗约为32kW,严重低估了现有的冷却基础设施。相比之下,基于XPO的机架,功率约为128kW,充分发挥机架的液冷能力。这使得冷却和电力传输基础设施能够高效摊销到更大的计算负载上。这一点在表1中总结。


因此,XPO使数据中心运营商能够在同一基础设施覆盖范围内提供4×更高的网络容量。通过大幅增加机架内可用有效载荷,支持基础设施(如电力传输、冷却系统和机架空间)的相对成本得以有效降低。这一改进不仅限于组件级效率,还开始重塑大规模AI数据中心部署的整体经济性。
重新定义数据中心规模:覆盖面积、成本与效率提升
当组件级改进转化为数据中心系统层面的效益时,像XPO这样的架构创新的真正价值才得以体现。4×密度优势从根本上改变了数据中心设计,实现物理占地面积、资本支出、部署时间和运营复杂度的显著降低。

考虑一个由512个XPU(如GPU或其他加速器)组成的AI集群,连接在一个可扩展领域。假设每个XPU带宽为25.6Tbps,该扩展域需要64台交换机,每台容量为204.8Tbps。采用现有的OSFP技术,每4个机架单元提供204.8Tbps的传输速度,网络需要八个交换机架来提供必要的连接。相比之下,基于XPO的架构仅用两个交换机架即可支持同一集群,因为XPO在单个机架单元内支持204.8Tbps的交换容量,实现4×密度提升。

在超大规模上,这种效率提升具有深远影响。考虑一个400兆瓦的AI数据中心,支持128,000个XPU。在此情景中,我们假设一个扩展网络,每个XPU为12.8Tbps,一个扩展网络为每个XPU1.6Tbps,加速器通过三层Clos拓扑相互连接。在这种情况下,每个机架的交换容量大约为

OSFP为1.64Pbps,而XPO为6.55Pps,体现了XPO架构带来的显著密度优势。


图4:OSFP与XPO之间交换机架占地面积减少75%的示意图
该分析显示,所需开关机架占地面积约减少75%,同时电气基础设施、冷却能力和管道需求也相应减少。因此,这对资本支出的影响可能相当可观。对于需要数十亿美元建设成本的超大规模人工智能设施,这些改进可以显著减少所需建筑数量,或在同一设施占地内实现更大的计算能力。

或者,拥有现有数据中心的运营商可以利用这一密度优势,提高每栋建筑的加速器密度,最大化现有基础设施和房地产的利用率。此外,XPO支持的高基交换机实现了更简洁的扩展网络拓扑结构,层数更少,往返延迟更低,直接提升了大规模AI训练工作负载的性能和效率。

核心创新与平台多样性
XPO的价值源于一系列工程决策,优化其机械、热能和电气设计以满足超大规模AI数据中心的特定需求,同时保持与现有及未来行业标准的广泛兼容性。

一.现有技术的应用:XPO通过利用现有的光子和硅芯片技术,支持提升每个模块的容量。这种方法降低了采用风险,使生态系统能够基于成熟、可靠且具成本效益的制造流程进行建设。

二. 集成冷板:XPO通过嵌入两张板板之间的冷板,采用了本地液冷系统,这两片板板呈腹部对腹部排列。该设计实现了光学元件和DSP直接高效传热到液冷系统的能力。

三. 干净线性信道:通过CPC飞越电缆和优化的边缘连接器引脚,实现了更优的信号完整性。这种干净、低损耗的电信道减少了对高功耗数字信号处理(DSP)的需求,从而降低了整体功耗。

四. 能效:除了支持线性通道架构外,XPO还通过直接利用50V直流母线电压作为模块供电,提升电力传输效率,最大限度地减少系统内的功率转换损耗。

五. 提升可靠性:可靠性通过多种因素共同提升,包括减少元件数量、集成冷板实现的较低工作温度、最小化温度变化以及通过优化的电气通道提升信号完整性。

六. 高密度:XPO模块密度通过使用MPO-16连接器优化模块物理尺寸以实现最大光学密度。这种配置也符合高速电气系统连接器中可用的最高密度,从而实现高效的布线和封装。这种务实的物理设计是实现相较OSFP提升4×密度的关键因素。

除了这些核心创新外,XPO平台还设计了最大灵活性,使其能够适应不断演进的光学技术和未来的行业标准。

结论:开启下一代人工智能网络

人工智能工作负载的快速扩展正在重新定义现代数据中心网络的性能要求。AI集群要求前所未有的带宽、更高的可靠性、高效的液冷集成、更高的能效,以及远超传统光互连技术设计的前面板密度。这些新兴需求难以通过传统的可插拔解决方案(如OSFP)来满足。

XPO架构通过专门设计的可插拔模块应对这些挑战,优化了超大规模AI 基础设施。通过结合双拨片机械架构、集成液冷冷板、干净的线性电通道和高压功率传输,XPO大幅提升光学密度,同时保持可插拔光学器件的操作灵活性和可维修性优势。

XPO每模块12.8Tbps,每台1OU交换机最高可达204.8Tbps,前面板密度比OSFP提升4×,实现交换机机架占地约75%,同时显著降低基础设施成本和网络复杂度。在超大规模阶段,这些改进转化为资本效率、运营简化和整体系统性能的显著提升。

通过从零开始重新思考光模块架构,XPO为下一代AI网络基础设施提供了可扩展的基础,使数据中心运营商能够构建更高容量、更高效、更可靠的网络,以支持人工智能快速增长的需求。

 

参考文献
[一]https://osfpmsa.org/

[二]《释放人工智能与高性能计算中共封光学的潜力:机遇与挑战》,Sunil Priyadarshi,IEEE通信杂志,2026年2月刊,https://ieeexplore.ieee.org/document/11303304

[三]https://xpomsa.com

[四]https://www.opencompute.org/wiki/Open_Rack/SpecsAndDesigns

 

 

最近超级火的XPO到底是什么? 与NPO CPO有什么区别


“最近超级火的XPO”,英文全称:eXtra-dense Pluggable Optics,超高密度可插拔光学。是由 Arista 联合 45 家产业伙伴(MSA)于2026 年3月推出的新一代可插拔光模块标准,专为解决 AI 智算中心对超高速、超高密、高散热的迫切需求而生,是当前 OSFP 模块的革命性升级方案。

下面讲讲 XPO / NPO / CPO 三者到底是什么

先看懂这三个技术

- XPO(eXtra-dense Pluggable Optics)
超大块、可插拔、原生液冷、12.8T。
面板插在交换机前面,像“巨型OSFP”,单模块 12.8Tbps,1U面板 204.8T(OSFP的4倍)

- NPO(Near-Packaged Optics)
近芯片贴装、可插拔、3.2T/6.4T、平衡派。
光引擎不插前面板,贴在ASIC芯片旁边(几厘米),电线路很短、功耗低,仍可拆换。

- CPO(Co-Packaged Optics)
光引擎和芯片封在一起、不可插拔、终极集成。
跟ASIC 同封装/同基板,电信号只有毫米级,功耗最低、密度最高,但坏了要整机换。

注意,三者虽然都有“PO”,但XPO的“P”是可插拔的“P”

核心区别对比

1. 物理位置 & 形态

- XPO:前面板可插拔,大模块(60.8mm宽)
- NPO:板上近芯片贴装(1–5cm),小引擎
- CPO:跟ASIC共封装(<1mm),完全集成

2. 速率 & 密度(2026)

- XPO:单模块 12.8Tbps(64×200G)
- NPO:主流 3.2Tbps(16×200G)
- CPO:目标 6.4T/12.8T+,单交换机可达 409.6T

3. 功耗(关键)

- XPO:单模块 ~400W(液冷刚需)
- NPO:3.2T ~20W(去DSP,线性直驱)
- CPO:比传统可插拔 低50–70%,每比特最优

4. 可维护性

- XPO:? 热插拔、单换模块
- NPO:? 可拆换(LGA插座)
- CPO:? 不可插拔,故障整机更换

5.XPO与CPO,NPO的关系

XPO 是传统“可插拔光模块”阵营为了对抗甚至取代 CPO/NPO 架构,而进化出的新形态。

路线之争:CPO 和 NPO 属于“板载集成路线”,试图用集成化换取功耗和密度;而 XPO 属于“前面板可插拔路线”,试图在保留运维便利性的同时,通过液冷和超高通道密度来逼近CPO 的性能。

 

模块厂商与云厂商对XPO的态度

XPO保住可插拔生态,避免被CPO颠覆
CPO会让模块厂沦为“光引擎供应商”,失去独立产品与定价权。
XPO延续可插拔产业链,模块厂继续做独立主力产品。

另外不喜欢CPO(共封装光学)“光引擎与芯片绑定”:CPO一旦光模块故障,需更换整板/整机,停机时间长、成本极高。
XPO完全热插拔,坏了直接换模块,符合超大规模数据中心(百万服务器级)的运维逻辑。

云厂商要“好运维”,模块厂商要“好生意”,XPO刚好同时满足两边。

 

共识与未来

- 短期(2026—2028):XPO是AI数据中心主力方案,快速上量。
- 长期(2029后):CPO仍可能走向高端定制,但XPO/NPO会长期共存。

 

 
北京汉深流体技术有限公司 Hansen Fluid
Danfoss Data center liquid cooling authorized distributor
丹佛斯签约中国经销商 ~ 液冷一站式连接解决方案供应商

地址:北京市朝阳区望京街10号望京SOHO塔1C座2115室 邮编:100102
电话:010-8428 2935 , 8428 3983
手机:13910962635
Http://www.hansenfluid.com

E-mail:sales@cnmec.biz
传真:010-8428 8762

京ICP备2023024665号
京公网安备 11010502019740

Since 2007 Strong Distribution & Powerful Partnerships