|
|
近日,微软Azure展示了全球首个采用Nvidia Blackwell处理器的定制服务器机架,引发了广泛关注。这标志着微软成为首个运行Nvidia Blackwell系统的云服务提供商,且其服务器已正式投入运行。这些服务器配备了强大的GB200 AI处理器,专为训练拥有大量参数的大型语言模型(LLM)而设计。
▌Blackwell处理器的突破 Nvidia的Blackwell处理器正成为数据中心中的热门硬件。它在FP8/INT8性能上比之前的H100处理器高出2.5倍(4,500 TFLOPS对1,980 TOPS),在FP4数据格式下,Blackwell的性能更是高达9 PFLOPS。这一飞跃为训练更复杂、功能更强大的AI模型提供了新的可能,推动AI技术进入新的应用领域。 微软Azure在X平台上发布消息称:“我们通过优化每个层次,利用Infiniband网络和闭环液冷技术,支持世界上最先进的AI模型。”这一声明展示了Azure的技术优势,尤其是在散热和高效能的计算环境管理上。服务器采用复杂的液冷系统,以应对高功率运算的需求,特别是在大规模部署Blackwell处理器时。 ▌液冷技术的应用 随着AI计算负载的增加,功耗和散热成为挑战。据悉,Nvidia的NVL72 GB200服务器配备72个B200处理器时,功耗将达到120千瓦,使得液冷方案成为必需。微软Azure此次的测试,不仅为其未来的Blackwell部署铺平了道路,也为大规模应用高功耗GPU提供了散热和功效管理的可靠解决方案。 微软计划在今年11月18日至22日于芝加哥举行的MS Ignite大会上,公布更多关于Blackwell服务器和AI项目的细节。未来几个月,微软将进一步扩展基于Blackwell的服务器,预计在2025年初迎来大规模商用部署。
▌与Nvidia的深度合作 微软与Nvidia的长期合作正不断推动AI计算的发展。微软CEO Satya Nadella表示,公司将继续通过与Nvidia的深度创新,引领行业发展,满足最复杂的AI工作负载需求。这一合作不仅将为微软Azure平台带来更多商业机会,也有望推动AI技术在更广泛领域的应用。 随着Blackwell服务器的广泛部署,微软的AI能力将迎来新的突破,进一步巩固其在全球云计算和AI服务市场中的领先地位。
因在训练大语言模型方面的卓越性能,英伟达的Blackwell处理器成为了数据中心硬件中的热门选择。此前有传言微软可能是首家获得Blackwell服务器的公司,但这一消息并未得到官方确认。微软最近宣布,他们已经获得了英伟达的Blackwell硬件,而且这些设备已经开始运行。
微软Azure宣称自己是首个运行搭载GB200的英伟达Blackwell系统的云服务提供商,微软Azure正在优化其服务的每一个层面,以支持世界上最先进的AI模型,包括利用Infiniband网络和创新的闭环液体冷却技术,更多细节将在Ignite大会上公布。微软Ignite大会是微软公司每年举办的全球性技术盛会,今年的大会重点是“AI转型中的最新创新”。 据悉,微软Azure至少部署了一个基于GB200的服务器机架,配备了大概32个B200处理器。这台服务器采用了精密的液体冷却系统,并非英伟达的GB200 NVL72,据称微软更倾向于这种密度更高的版本。这个机架预计将用于测试英伟达Blackwell GPU和液体冷却系统,而在未来几个月内,微软将开始部署基于Blackwell的服务器以处理商业工作负载。
一台配备72个B200 GPU的GB200 NVL72机器预计将消耗和散发大约120千瓦的电力,因此液体冷却对于这类机器来说是必需的。英伟达的B200 GPU在FP8/INT8性能上比H100处理器高出2.5倍,达到了4500 TFLOPS/TOPS,而H100为1980 TOPS。在FP4数据格式下,B200的性能更是达到了惊人的9 PFLOPS,这为训练极其复杂的大语言模型提供了可能。 微软首席执行官萨提亚·纳德拉在社交网站上的一篇帖子中表示,微软与英伟达的长期合作关系和深度创新将继续引领行业发展,为最复杂的AI工作负载提供支持。微软将在2024年11月18日至22日在芝加哥举行的年度Ignite大会上分享更多关于其基于Blackwell的机器和AI项目的细节,预计Blackwell服务器的大规模部署将在2024年底或2025年初开始加速。
New Microsoft Azure NVIDIA GB200 Systems Shown Microsoft Azure NVIDIA GB200 With In Rack CDU New Microsoft Azure NVIDIA GB200 Systems Shown
Microsoft Azure is the 1st cloud running @nvidia‘s Blackwell system with GB200-powered AI servers. We’re optimizing at every layer to power the world’s most advanced AI models, leveraging Infiniband networking and innovative closed loop liquid cooling. Learn more at MS Ignite. pic.twitter.com/K1dKbwS2Ew — Microsoft Azure (@Azure) October 8, 2024 Taking a quick look at the rack, something is immediately obvious, the cooler dwarfs the compute rack, even though the compute rack only shows 8 GB200 trays installed. Microsoft Azure NVIDIA GB200 With In Rack CDU Final Words For years, folks on the desktop side have used larger and larger air coolers, and liquid coolers. This is fun for computer enthusiasts because it is a case where the liquid cooler is roughly twice the size of the compute and networking rack itself. Of course, this is necessary as the NVIDIA GB200 NVL designs are very dense. Patrick’s Editor’s Note: Usually, heat exchangers that are two racks wide are for multiple racks. Microsoft did not picture it, but I sense that the cooling might actually be for multiple racks, including those not shown, since that would be a huge one for a single GB200 rack with eight compute trays installed. For reference, we covered CoolIT in-row liquid-to-air CDUs that were two racks wide, but they can do 180-240kW in a similar footprint. CoolIT said its 240kW in-row CDU can handle up to four GB200 NVL72 racks. Note that is not the CDU it looks like Microsoft is showing but it gives you some sense of how much cooling is normal in that footprint. Microsoft only showed one rack that looks like it is in progress with the heat exchanger, but it is likely part of a larger installation. Who knows. But what they shared was just the two side-by-sde.
关于我们 北京汉深流体技术有限公司是丹佛斯中国数据中心签约代理商。产品包括FD83全流量自锁球阀接头,UQD系列液冷快速接头、EHW194 EPDM液冷软管、电磁阀、压力和温度传感器及Manifold的生产和集成服务。在国家数字经济、东数西算、双碳、新基建战略的交汇点,公司聚焦组建高素质、经验丰富的液冷工程师团队,为客户提供卓越的工程设计和强大的客户服务。 公司产品涵盖:丹佛斯液冷流体连接器、EPDM软管、电磁阀、压力和温度传感器及Manifold。
|
|