微软全新AI超级工厂Fairwater在亚特兰大落成

DoNews12月3日消息,据微软方面公布,微软正式发布位于美国乔治亚州亚特兰大的 Azure AI 数据中心 Fairwater 站点。

全新的数据中心将与威斯康星州的首个 Fairwater 站点、前几代 AI 超级计算机以及全球 Azure 数据中心深度互联,共同构建首个全球规模的 AI 超级工厂 Fairwater 。

重新定义 AI 数据中心架构

为了满足激增的 AI 计算需求,微软重新定义了 AI 数据中心的架构设计和系统运行方式。Fairwater 打破传统云数据中心模式,采用单一扁平网络架构,可以将数十万颗最新的 NVIDIA GB200、GB300 GPU 组建成一台真正意义上的超级计算机。

这些创新源于微软在数据中心与网络设计上的数十年积累,以及支撑全球最大规模 AI 技术训练任务的深厚经验。

灵活应对多样化 AI 技术工作负载Fairwater 不仅适用于下一代前沿模型训练,还在设计之初就考虑到了多场景弹性调度。模型训练包含预训练、微调、强化学习、合成数据生成等多种不同类型的工作负载。

微软还为此部署了专用的 AI WAN 广域网骨干,把每个 Fairwater 站点连成一个高度弹性的整体,实现跨站点的动态算力调度,让不同任务都能高效运行,最大化整个系统的 GPU 利用率。

极致算力密度:突破物理极限的 Azure AI 架构

现代 AI 技术基础设施的性能正面临物理定律的挑战,光速延迟正在成为限制加速器、计算与存储深度整合的关键因素。Fairwater 的设计核心,就是把算力密度做到极致,在机架内部、机架之间尽可能缩短延迟,从而将整体系统性能推到新的高度。

想要实现这种算力密度,冷却技术是关键。Fairwater 数据中心采用全场液冷系统,并通过闭环循环设计 —— 冷却液在初次注入后会被持续循环使用,不会蒸发流失,实现高效与可持续。初始注水量仅相当于 20 户家庭一年的用水量,且可持续使用 6 年以上,仅在水质监测异常时更换。

液冷不仅提升散热效率,还让机架功率达到约 140kW/机架,1,360kW/排。先进冷却技术确保在高负载下保持稳定性能,让超大规模训练任务高效运行。

图为:机架级直液冷

为了进一步提升算力密度,Fairwater 还采用了双层数据中心建筑设计。原因很简单:因为 AI 技术工作负载对延迟极度敏感,哪怕是线缆长度的微小差异,都可能影响集群性能。

在 Fairwater 中,每一块 GPU 都需要与其他 GPU 互联。通过三维空间布局,双层设计让机架分布更紧凑,显著缩短线缆长度,从而带来更低延迟、更高带宽、更强可靠性以及更优成本控制。

图为:双层网络架构

高可用,低成本供电

为了支撑前所未有的算力需求,Fairwater 不仅在网络架构上创新,还在供电模式上突破传统。亚特兰大站点选址基于电网韧性,能以 3×9 成本实现 4×9 可用性,无需传统冗余方案(如现场发电、UPS、双路配电),降低客户成本并加快交付。

同时,微软与行业伙伴联合开发电力管理解决方案,应对大规模 AI 技术任务带来的电网波动:

软件层面:在低负载时段自动引入补充性任务,平滑电力波动

硬件层面:让 GPU 自主控制功率阈值,抑制瞬时冲击

现场储能系统:通过本地储能吸收波动,而无需额外消耗电力

这些方案让 Fairwater 能在 AI 技术需求持续攀升的情况下保持平稳运行。

尖端加速器与网络系统

Fairwater 的强大性能,来自于专为 AI 技术打造的服务器架构、先进加速器和全新的网络系统。

单一扁平网络:突破传统 Clos 网络限制,支持数十万 GPU 互联

机架级互联:每机架最多容纳 72 块 Blackwell GPU,通过 NVLink 实现超低延迟通信

极致算力密度:支持 FP4 等低精度格式,提升 FLOPS 与内存效率

带宽与内存:每机架提供 1.8TB GPU 间带宽,每块 GPU 可访问 14TB 共享内存

图为:采用应用驱动网络技术的密集型 GPU 机架

为了让数十万块 GPU 像一台超级计算机一样高效运作,Fairwater 采用横向扩展网络架构,将机架扩展为 Pod 和集群,实现最少跳数、最低延迟的互联。

核心技术亮点

双层以太网后端架构:支持超大规模集群,GPU 间互联速率高达 800Gbps

SONiC 网络操作系统:微软自研,避免单一供应商锁定,降低成本,支持通用硬件

网络优化技术:多层面重构性能,实现拥塞控制、快速重传和智能负载均衡,保障超低延迟与高可靠性

行星级规模

即便有这么多创新,面对动辄万亿参数的大模型训练,单个数据中心的电力和空间仍难以承载不断上升的算力需求。为此,微软打造了一个专用的 AI WAN 光网络,将 Fairwater 的纵向扩展与横向扩展网络进一步向外延伸。

依托多年的超大规模基础设施经验,微软仅在过去一年内就在全美铺设了 12 万英里的新光纤,全面增强 AI 技术网络的覆盖与稳定性。

凭借这条高性能、高可用的骨干网络,我们可以把不同世代的超级计算机跨地域联成一个整体——打造真正意义上的 AI 超级工厂(AI Superfactory)。

开发者可以根据任务需求,在单站点内部的 scale-up / scale-out 网络之间灵活切换,也可以跨站点通过 AI WAN 调度算力资源。

这与过去所有流量都必须走同一个横向扩展网络的模式截然不同。

如今,任务可以基于需求选择最适合的网络路径,不仅提升效率,也让整个基础设施更灵活、更高利用率。

下一代 Azure AI 基础设施的跃迁

全新的亚特兰大 Fairwater 站点,是 Azure AI 基础设施迈出的又一大步,也是微软多年支撑全球最大规模 AI 技术训练经验的成果总结。

它融合了突破性的算力密度设计、高效可持续的能源体系以及世界领先的网络架构,并与全球各地的 Azure AI 数据中心深度互联,共同构成首个全球规模的 AI 超级工厂。

对企业与开发者而言,这意味着更容易将 AI 技术融入现有工作流、更快把想法变成现实、更轻松构建出曾经难以实现的创新型 AI 技术应用。

微软全新AI超级工厂Fairwater在亚特兰大落成
扫描二维码查看原文
分享自DoNews
Copyright © DoNews 2000-2025 All Rights Reserved
蜀ICP备2024059877号-1