直接芯片液体冷却:优化数据中心效率

人工智能 (AI) 与先进冷却技术的融合正在为数据中心带来重大转变。其中最重要的是直接到芯片液体冷却的兴起,这是一种重新定义高密度 GPU 集群热管理的复杂解决方案。

随着 NVIDIA H100 GPU 的部署终于克服了之前的延迟,2024 年将成为标志着 AI 和先进计算能力重大飞跃的关键一年。

直接到芯片(D2C)液体冷却正在从奢侈的性能提升过渡到为主机托管、边缘计算和联邦应用中的高密度群集提供燃料的不可或缺的要求。

AI 在冷却技术创新中的作用

随着对 AI 及其高耗能计算的需求不断增加,随之而来的是巨大的热挑战:有效管理 AI 工作负载的冷却。因此,预计液体冷却解决方案(尤其是单相直接芯片冷却)的实施将激增,以管理密集的服务器机架和高密度 GPU 集群产生的极端热量。

全球数据中心液体冷却市场在 2021 年的规模为 22.5 亿美元,预计年复合增长率为 25.8%,到 2032 年将达到约 310.7 亿美元,这直接反映了市场对冷却 CPU 和 GPU 集群的迫切需求,这些集群在 AI 和高性能计算 (HPC) 应用中越来越重要。这一发展有助于提高系统性能和更有效的电源管理策略。

GPU Pod 和模块化数据中心解决方案的出现

随着生成式 AI 的采用不断升级(KPMG 的一项调查显示,72% 的美国 CEO 认为生成式 AI 至关重要),对复杂冷却技术(尤其是直接芯片液体冷却)的紧迫性达到了前所未有的高度。对高端技术(例如每台售价超过 30,000 美元的 NVIDIA H100 GPU)的投资凸显了高效冷却以保护这些投资的必要性。

为了满足这一需求,公司正在开发 GPU Pod 和模块化数据中心解决方案,这些解决方案专为当今复杂的服务器环境而设计,包括云计算和高密度设置。这些创新强调效率,并利用直接芯片冷却来提高服务器性能、降低过热风险并提高 GPU 利用率。

2024 年,与液体冷却和基础设施提供商建立战略合作伙伴关系将简化、有效地管理密集计算集群,使模块化数据中心成为数据中心运营商可扩展且高效的选择。这种方法不仅可以满足日益增长的高级计算需求,还可以提高运营效率、降低能耗并促进快速扩展。

直接芯片液冷增长


单相直接芯片液冷今年正在成为冷却领域的领跑者。利用作为冷板系统一部分的微通道或微喷射来有效散热。在冷却技术领域,直接芯片和浸没式冷却方法一直在争夺主导地位。

在单相浸没式冷却的背景下,正在不断开发以增强其处理更高功率密度的能力。这种方法现在包括将风扇和额外的动力机制集成到油箱中。

最近的发展尚未实现超过 1,000W 的冷却能力,并且操作条件尚未达到芯片制造商设定的合规标准。例如,这些实验装置通常会导致芯片温度超过 80 摄氏度,并且需要高流速,大约每分钟七升。尽管以牺牲效率为代价来提高性能,但浸没式冷却在市场上仍有其用例。

另一方面,受人工智能驱动应用需求的推动,两相液体冷却正变得越来越流行。随着行业转向环保且运营高效的冷却解决方案,这种方法面临着一系列监管障碍。

监管机构介入:环境影响

对于两相液体冷却,无论是直接到芯片还是其他方式,受到严格审查的是两相浸入式冷却系统中化学品的使用,特别是多氟烷基物质 (PFAS),通常被称为“永久化学品”。这些物质虽然在冷却方面有效,但正在对其环境和健康影响进行调查。当主要 PFAS 制造商 3M 于 2022 年初关闭其主要工厂时,市场亲身经历了监管变化的影响。在 2024 年这样的时期,人们预计有关这些化学品的监管措施将收紧,反映出全球对可持续实践的承诺。

作为回应,企业可能会倾向于单相直接到芯片 (D2C) 液体冷却制造商,以确保长期可持续性和合规性。推动可持续冷却方法对于支持下一代先进计算至关重要,突显了该行业对创新和环境责任的承诺。

液体冷却扩展到多租户主机托管设施

2024 年,液体冷却的覆盖范围预计将超越单个企业数据中心,并接管多租户主机托管设施。随着企业继续优先考虑性能和效率,主机托管将在卸载和管理各种工作负载方面发挥重要作用。

多租户设施通常容纳来自不同客户的各种工作负载,每个客户都有独特的冷却要求。然而,随着对计算能力的需求不断增加,主机托管设施预计将在其产品中纳入初步的液体冷却解决方案,以保持竞争力。

领先的主机托管提供商(如 Equinix 和 Sabey Data Centers)已采取积极措施来多样化其冷却解决方案。例如,Equinix 正在迅速部署液体冷却解决方案,包括单相直接到芯片和后门热交换器,以支持企业 AI 工作负载。

与此同时,Sabey 数据中心通过实施液体辅助空气冷却,功耗显著降低了 13.5%,最近的案例研究表明了这一点。这一降低使他们的客户能够部署更多高密度 IT 服务器,同时利用更少的空间。这不仅扩大了 Sabey 的设施容量,而且由于冷却效率的提高,他们能够提供具有竞争力的电价。

随着液体冷却解决方案越来越受到 AI 和 HPC 集群的青睐,采用这些解决方案的主机托管可以在更小的空间内容纳更多的计算能力,提高利用率,同时满足多样化的客户群。与两相液体冷却相比,采用水基液体冷却使主机托管能够以更安全的方式提高其全球园区的效率。

液体冷却是数据中心基础设施的解决方案

总之,人工智能的快速发展和对先进计算能力的相应需求正在突破传统热管理解决方案的界限。直接芯片液冷,尤其是单相系统,站在这场革命的最前沿,为高密度 GPU 集群和 AI 工作负载带来的热挑战提供了高效、可持续的解决方案。

随着全球数据中心液冷市场预计将大幅增长,反映出行业向更节能、高性能计算基础设施的转变,采用这些先进的冷却技术不仅是一种趋势,而且是一种必需品。随着监管机构介入以确保环境合规性以及将液冷扩展到多租户主机托管设施,数据中心的未来前景光明。

这种向直接芯片液冷的转变体现了更广泛的创新、可持续性和效率运动,标志着 2024 年成为数据中心基础设施和整个计算行业的变革之年。

JetCool 首席执行官兼创始人 Bernie Malouin。