当地时间6月21日,英伟达官方博客发布了一篇文章,详细介绍了自家最新AI服务器所使用的45℃全面液冷技术,以及其带来的“数据中心历史上最重要的能效突破之一”。

文章表示,热水浴缸的水温通常在38至40℃左右,大多数人在这样的高温热水中浸泡约15分钟就得出来休息。而英伟达该技术使用的冷却液温度可达45℃——这种名为“冷却”实则“高温”的反差,也带来了更高的能源利用效率。

英伟达Rubin平台是全球首个实现100%液冷的AI计算平台——系统中的每一颗芯片、每一个网络组件都完全依靠液冷散热,不再需要风冷。这种液冷方法也被写入了英伟达DSX AI工厂参考设计(NVIDIA DSX AI Factory Reference Design)中。

根据英伟达6月初的公开新闻稿,Vera Rubin平台正加速进入全面量产阶段,将于今年秋季正式启动量产并开始出货。

英伟达表示,由于英伟达Rubin平台采用全面液冷,因此所有为该平台建设系统的云服务商和数据中心运营商都在推动相关转型。

施耐德总裁兼CEO Richard Whitmore表示,随着芯片功率密度跨越风冷所能承受的极限,施耐德与英伟达的合作变得更加紧密。“当单颗芯片功耗达到某个水平之后,液冷就不再是可选项,而是必需品。”

英伟达指出,此前的液冷服务器实际上属于混合散热架构,即GPU和CPU采用冷板散热,系统其他组件仍依赖风冷,通过带鳍片的散热器将热量释放到空气中。在全面液冷服务器中,这些部件的散热方式必须被彻底重构,使其同样能够依靠液体冷却。

英伟达热设计工程团队开发出新的冷却回路架构,这带来了两个变化:一方面,Rubin服务器采用了整洁、密封的前面板,而传统风冷服务器则需要布满通风孔的前面罩;另一方面,全面液冷服务器能够实现比风冷服务器更高的机架密度,过去需要占用6个机架单元的系统,如今只需2个即可。

同时,全面液冷能帮助AI数据中心大幅降低能耗,从而在超大规模部署场景下显著减少整体能源消耗。“用于AI工厂的英伟达DSX参考设计下,我们消除了大量电力消耗,也几乎消除了所有用水需求。”英伟达数据中心冷却与基础设施总监Ali Heydari表示。

值得注意的是,在这篇博客文章中,英伟达用大量篇幅不断强调全面液冷在用水量方面的优势:在Rubin架构中,冷却液流经直接贴附于处理器表面的冷板,在热源处直接吸收热量。由于冷却液运行温度最高可达45摄氏度,因此在许多地区,设施级循环系统无需启动机械冷水机组和高噪音风扇便能完成散热。