12月12日消息,英伟达正在向微软的数据中心输送最新一代的Blackwell芯片。然而,在今年初秋的一次部署过程中,英伟达一位员工注意到微软某数据中心的冷却系统存在资源浪费的问题。
随着AI模型训练和推理对算力需求的快速增长,英伟达正为包括微软在内的多家科技巨头大规模部署GB200 Blackwell系统。这种高密度计算架构能够显著提升AI处理能力。
今年初秋,英伟达基础设施专家团队在内部邮件中详细记录了为OpenAI集群部署Blackwell机架的现场情况。作为OpenAI的主要云服务提供商和最大投资方,微软负责具体的部署工作。
据《商业内幕》援引的英伟达内部邮件显示,此次安装包括两组GB200 NVL72机架,每组配置了72颗英伟达GPU。如此高密度的GPU阵列会产生巨大的热量,因此微软采用了液冷技术来迅速带走服务器周围的热量。
不过,邮件中也提到,微软在建筑层面的整体冷却方式因规模过于庞大且未充分利用设施级冷却用水而显得资源浪费。但这种设计确实带来了良好的弹性与故障容忍能力。
美国加州大学电气与计算机工程副教授任绍雷解释道,数据中心通常采用”双层冷却架构”:服务器内部使用液冷技术处理热量,同时建筑整体需要另一套系统将热能排放到外部环境中。
因此,邮件中提到的”浪费”可能是指微软采用了空气冷却作为建筑级散热方式,而非直接使用水冷系统。任绍雷指出,虽然空气冷却在能源消耗上更高,但它不耗用水资源。由于水资源的使用容易被公众感知,企业在权衡能源消耗、水资源压力和舆论影响时需要格外谨慎。
微软发言人对此回应称,其液冷换热器单元是一个闭环系统,并部署在现有的风冷数据中心中,旨在增强第一方和第三方平台的冷却能力。该系统充分利用现有数据中心规模,实现高效散热并优化电力输送,以满足AI和超大规模计算的需求。
微软表示,其目标是在2030年前实现”碳负排放、净产水与零废弃”的企业愿景,并计划在下一代数据中心中采用零用水冷却设计,同时推动芯片级冷却技术的发展。
邮件还强调了Blackwell量产硬件的品质有了显著提升。两组GB200 NVL72机架在特定计算性能测试中均达到100%通过率,显示出量产版本更高的稳定性和成熟度。

相关阅读:
-
《微软建立”世界最强”AI数据中心,将塞下数十万块英伟达GB200》
值得注意的是,在高密度计算环境下,散热效率直接影响着系统的稳定性和能耗表现。虽然液冷技术能有效带走服务器产生的大量热量,但整个建筑级的冷却系统采用了传统的空气制冷方式,这在规模上显得过于庞大且未充分利用设施级冷却用水。这种设计理念虽然在运营成本和维护便利性上有其优势,但在水资源利用效率方面还有改进空间。
微软对于可持续发展的承诺体现在其长期目标中:计划到2030年实现”碳负排放、净产水与零废弃”。这意味着在数据中心的设计和运营中,不仅要考虑能源使用效率,还要兼顾水资源的保护和循环利用。
英伟达方面则强调,其Blackwell系统在性能、可靠性和能效方面均表现优异,已被广泛应用于各种计算场景。包括微软在内的多家客户已部署了数十万套GB200与GB300 NVL72系统,以满足全球范围内不断增长的AI算力需求。