|
|
可以看出,这不是第一代产品,包含了产品迭代的经验,这也不是最后一代产品,透露了长期的发展计划。
如引言所介绍,英伟达的介绍干货比较多。 其中一些设计挑战,目前在我们的设计过程中也发现了同样的问题,所以对于经验的学习还是比较重要的。 当然,这些经验在其他的GPU机架的设计中,会遇到一些不适用的情况,比较明显的就是GB系列super chip对于面积的优化。
同时,英伟达也介绍了对于未来的想法,可以看出英伟达对于整机架形态的推进,是一个持续化的过程,对于液冷和整机架电源传输也是一致的方向。
与视频搭配,我整理了以下几个关键的信息。 1、整机架虽然和ORv3比较类似,但是在尺寸上有一些明显差异,例如MGX机架是19英寸,而ORv3是21英寸。MGX机架是RU,而ORv3是OU。 2、为什么要使用19英寸?有两个主要原因,其一是统一的参考设计:目标是希望用一个参考设计来满足不同客户的数据中心需求,而19英寸的机箱可以适配到21英寸的机架中。在介绍中也特别提到了中国市场对于19英寸机架的使用。其二是因为前面的网线绕线空间,19英寸的机架有更多的绕线空间。 3、由于盲插设计,机架设计的公差挑战较大,需要辅助设计来达到公差要求,例如横向和纵向的加强筋。 4、目前的机架内,液冷和空冷的占比约为一半一半,将来计划实施全液冷。 5、液冷接头采用了UQD,目前是UQD04,将来有计划升级,支持更高的液流。 6、目前的整机架功耗是120KW,将来有可能会更高。当然同时也解释了,120KW是目前参考设计的最高值,针对于不同的需求,25KW到40KW的机架功耗可能是更为标准和通用的范围。 7、将来整机架供电有计划实施全部power bus bar 供电。
QCT和Supermicro率先使用这项支持100多种系统配置的服务器规范来加速AI、HPC、元宇宙工作负载 COMPUTEX——2023年5月29日——为了满足全球数据中心多样化的加速计算需求,NVIDIA今天在COMPUTEX发布了 NVIDIA MGX? 服务器规范。该规范为系统制造商提供了一个模块化参考架构,以快速、经济高效地制造100多种服务器机型,适用于广泛的AI、高性能计算和元宇宙应用。 ASRock Rack、ASUS、GIGABYTE、Pegatron、QCT和 Supermicro 将采用MGX,它可将开发成本削减四分之三,并将开发时间缩短三分之二至仅6个月。 NVIDIA GPU产品副总裁Kaustubh Sanghani表示:“在构建满足特定业务和应用需求的数据中心时,企业正在寻求更多的加速计算选项。我们设计MGX是为了帮助各个机构可以自行开发企业AI,同时节省他们大量时间和金钱。” 通过MGX,制造商以一个为加速计算优化的服务器机箱作为基础系统架构入手,然后选择适合自己的GPU、DPU和CPU。不同的设计可以满足特定的工作负载,如HPC、数据科学、大型语言模型、边缘计算、图形和视频、企业AI以及设计与模拟。AI训练和5G等多种任务可以在一台机器上处理,而且可以轻松地升级到未来多代硬件。MGX还可以轻松集成到云和企业数据中心。
与行业领导厂商合作 QCT和Supermicro将率先在8月份上市采用MGX设计的机型。Supermicro今天发布的ARS-221GL-NR系统将采用NVIDIA Grace? CPU超级芯片,而QCT今天宣布的S74G-2U系统将采用 NVIDIA GH200 Grace Hopper超级芯片。 此外,SoftBank Corp计划在日本各地推出多个超大规模数据中心,并使用MGX在生成式AI和5G应用之间动态分配GPU资源。 SoftBank Corp总裁兼首席执行官Junichi Miyakawa表示:“随着生成式AI日益进入商业和消费者的生活方式中,以合适的成本构建合适的基础设施是网络运营商面临的最大挑战之一。我们期待NVIDIA MGX能够应对这些挑战,以满足多用途AI、5G以及更多依赖实时工作负载的需求。”
不同的设计满足不同的需求 数据中心越来越需要满足不断增长的算力需求并降低碳排放,以应对气候变化,同时还要降低成本。 由NVIDIA加速计算加速的服务器长期以来一直提供卓越的计算性能和能效。现在,MGX模块化的设计使系统制造商能够更有效地满足每个客户独特的预算、供电、散热设计和机械要求。
多种规格尺寸提供最大的灵活性 MGX提供不同的规格尺寸,并兼容当前和未来多代NVIDIA硬件,包括: 机箱:1U、2U、4U(风冷或液冷)
软件进一步驱动加速 除硬件外,MGX还得到NVIDIA完整软件栈的支持,使开发人员和企业能够开发并加速AI、HPC和其他应用。其中包括 NVIDIA AI Enterprise,即NVIDIA AI平台的软件层,它涵盖100多个框架、预训练模型和开发工具,可为AI和数据科学加速,从而全面支持企业AI的开发和部署。 MGX兼容开放计算项目(Open Compute Project)和电子工业联盟(Electronic Industries Alliance)的服务器机架,可快速集成到企业和云数据中心。 观看NVIDIA创始人兼首席执行官黄仁勋在2023年 COMPUTEX 主题演讲中介绍MGX服务器规范。
|
|