|
|
作为美国科技七巨头之一的Meta在构建AI集群上一直以来都很努力。除了大家熟知的Meta 大模型 Llama Meta外,随着AI火热加剧,Meta也在推动基础设施的发展,以支持它不断发展的人工智能工作负载。在今年的OCP 全球峰会上,Meta推出了一系列的开放式 AI创新 硬件,包括:Catalina,专为 AI 工作负载设计的全新高性能机架;Grand Teton 的扩展,尖端 AI 平台;以及新的高性能网络解决方案。 Catalina :面向 AI 基础设施的开放式架构 构建 AI 集群需要的不仅仅是 GPU。网络和带宽在确保集群性能方面发挥着重要作用。Meta的系统由紧密集成的 HPC 计算系统和独立的高带宽计算网络组成,该网络连接Meta所有的 GPU 和特定领域的加速器。 在未来几年中,Meta预计每个加速器的注入带宽将达到每秒 1TB 的数量级,同时具有相同的标准化二分带宽。与今天的网络相比,这代表着一个数量级以上的增长!为了支持这一增长,这就需要一种高性能、多层、无阻塞的网络结构,该结构可以利用现代拥塞控制在重负载下可预测地运行。这将充分利用Meta的 AI 集群的强大功能,并确保它们在突破 AI 的极限时继续发挥最佳性能。 OCP 全球峰会上发布的Catalina,是专为 AI 工作负载设计的全新高功率机架。Catalina 基于 NVIDIA Blackwell 平台全机架解决方案,重点关注模块化和灵活性。它旨在支持最新的NVIDIA GB200 Grace Blackwell 超级芯片,确保满足现代 AI 基础设施日益增长的需求。 GPU 不断增长的功率需求意味着开放式机架解决方案需要支持更高的功率能力。通过Catalina,Meta推出了 Orv3,这是一款能够支持高达 140kW 的高功率机架 (HPR)。完整的解决方案采用液体冷却,由一个电源架组成,该电源架支持计算托盘、交换机托盘、Orv3 HPR、Wedge 400 结构交换机、管理交换机、电池备用单元和机架管理控制器。 通过Catalina 的模块化设计让其他人能够定制机架以满足他们特定的 AI 工作负载,同时利用现有和新兴的行业标准。
支持 AMD 加速器的Grand Teton 平台 2022 年,Meta发布了下一代 AI 平台 Grand Teton(Zion-EX 平台的后续产品)。Grand Teton 的计算能力设计可满足内存带宽受限型工作负载(例如 Meta 的深度学习推荐模型 (DLRM))以及计算受限型工作负载(例如内容理解)的需求。现在,Meta扩展了 Grand Teton 平台以支持 AMD Instinct MI300X,并将向 OCP 贡献此新版本。与前代产品一样,此新版 Grand Teton 采用单一单片系统设计,具有完全集成的电源、控制、计算和结构接口。这种高水平的集成简化了系统部署,可实现快速扩展,并提高大规模 AI 推理工作负载的可靠性。 除了支持一系列加速器设计(现在包括 AMD Instinct MI300x)外,Grand Teton 还提供显著更大的计算能力,允许在更大的权重集上更快地收敛。此外,还可通过扩展内存来在本地存储和运行更大的模型,并增加网络带宽以有效扩大训练集群规模。
开放式分解调度结构 Meta为下一代 AI 集群提供的新型分解式调度结构 (DSF) 比现有的交换机具有多项优势。通过开放Meta的网络结构,可以克服规模、组件供应选项和功率密度方面的限制。DSF 由开放的 OCP-SAI 标准和 FBOSS(Meta 自己的用于控制网络交换机的网络操作系统)提供支持。它还支持开放且标准的基于以太网的 RoCE 接口,可连接到来自多个不同供应商(包括合作伙伴NVIDIA、Broadcom和 AMD)的多个 GPU 和 NICS 上的端点和加速器。 除了 DSF,Meta还开发并构建了基于 Broadcom 和 Cisco ASIC 的新型 51T 结构交换机Minipack3和Cisco8501. Meta 第三代 Minipack 交换机基于 Broadcom Tomahawk5 ASIC。 而Cisco 8501是基于Cisco Silicon One G200 ASIC 设计,具有 64 个 OSFP 端口、128 个 400GE 无阻塞容量,向后兼容 200GE 和 100GE 标准,配备 Meta 2x400G-FR4 OSFP 光学模块。
Meta 与微软:共同推动开放式创新 Meta 和Microsoft 在 OCP 中建立了长期合作伙伴关系,始于 2018 年为数据中心开发交换机抽象接口 (SAI)。多年来,两者共同为开放加速器模块 (OAM) 标准和 SSD 标准化等关键计划做出了贡献,目前的合作重点是 Mount Diablo,这是一种新型分解式电源机架,一款尖端解决方案,具有可扩展的 400 VDC 单元,可提高效率和可扩展性。这种创新设计允许每个 IT 机架安装更多 AI 加速器,从而显著推进 AI 基础设施。 不过这边前脚刚说完长期合作,后脚就有点挂不住。据《信息报》周一报道,Meta Platforms 正在开发一款基于人工智能的搜索引擎,希望减少对Alphabet谷歌和微软必应的依赖。 人工智能搜索引擎领域正在升温,ChatGPT制造商 OpenAI、谷歌和微软都在争夺这个快速发展的市场的主导地位。 据该报道援引一位参与该战略的人士的话称,Meta 的网络爬虫将为用户提供有关 Meta AI 上时事的对话式答案,Meta AI 是该公司在 WhatsApp、Instagram 和 Facebook 上的聊天机器人。
搭载NVIDIA最强AI芯片GB200的AI服务器近期陆续出货,微软、Meta等云端服务大厂不仅积极导入GB200,并扩大抢买升级版的更高规NVL72机柜,鸿海为GB200 NVL72机柜独家供应商,近期订单塞爆,业务大爆发。 GB200 NVL72机柜平均单价约300万美元,比NVL36机柜平均售价180万美元高逾66%,鸿海NVL72机柜订单涌进,对营收、获利都有显著助力。
原本业界认为,NVL36性价比就很不错,出货量看俏,近期却出现CSP大厂扩大抢买NVL72机柜的趋势,甚至把NVL36逐步打入冷宫。 引领这波采购由NVL36转向大举购买NVL72机柜的CSP大厂,包括原本就是NVL72最大买家的微软,如今包括Meta、亚马逊AWS等也加入。 供应链分析,CSP由NVL36转向NVL72机柜,规格升级可以带来更大效能,只要电力供应充足,且数据中心基础设施可以容纳,现在客户端采购NVL36架构的意愿普遍不高,NVL72俨然成为主流,鸿海为NVL72独家供应商,接单爆满。 因美系CSP客户对GB200 AI服务器强劲需求,鸿海墨西哥厂有就近供应优势,将跃升为第二大营收来源。 据悉,鸿海透露规划在墨西哥打造全球最大的GB200伺服务器生产基地,就是因为GB200 NVL72订单强劲。 刘扬伟指出,该工厂产能非常巨大,细节不便多谈。
微信扫一扫
关于我们 北京汉深流体技术有限公司是丹佛斯中国数据中心签约代理商。产品包括FD83全流量自锁球阀接头;液冷通用快速接头UQD & UQDB;OCP ORV3盲插快换接头BMQC;EHW194 EPDM液冷软管、电磁阀、压力和温度传感器及Manifold的生产。在国家数字经济、东数西算、双碳、新基建战略的交汇点,公司聚焦组建高素质、经验丰富的液冷工程师团队,为客户提供卓越的工程设计和强大的客户服务。 公司产品涵盖:丹佛斯液冷流体连接器、EPDM软管、电磁阀、压力和温度传感器及Manifold。 - 针对机架式服务器中Manifold/节点、CDU/主回路等应用场景,提供不同口径及锁紧方式的手动和全自动快速连接器。
|
|