中科曙光发布400G无损网络,36小时上线3万卡智算集群

中科曙光近日发布全栈自研400G无损高速网络scaleFabric,采用原生RDMA技术,填补国内数据中心高速网络空白。该方案基于“算存传一体化”紧耦合架构,通过“超级隧道”技术与自研RDMA网络深度结合,为超大规模智算集群提供高效、安全、稳定的数据供给。

曙光信息产业(北京)公司总裁助理、分布式存储产品部总经理石静指出,当前AI基础设施核心挑战在于计算、存储、网络三者无法强耦合,导致算力利用率偏低。传统存储难以匹配GPU/国产算力卡的带宽、IOPS与时延需求;网络若不能承担计算与存储间的高效连接角色,将直接拖累集群整体效率。算存传一体化并非物理集成,而是在物理分离基础上实现逻辑层深度协同,确保数据“跑得起、跑得稳、跑得通”。

“超级隧道”技术构建专属数据通道:硬件层面以CPU为核心,将线程、内存、高速网络、SSD等资源划入独立数据域,配置独享RDMA连接与PCIe通道;软件层面通过将高速网卡虚拟成多个小网卡,实现数据稳定均衡传输,解决网络拥塞、PCIe通道竞争及CPU/内存带宽饱和等问题。scaleFabric采用Credit-Based流控机制,先确认接收端空闲再传输,实现零丢包、低时延、高稳定性。其内存分配采用“预先分配+动态共享”模式,保障万卡级集群稳定运行。

scaleFabric具备三大核心优势:性能方面,全闪存储节点达220G带宽、1000万IOPS,单节点可支撑数十块GPU算力卡;国产化方面,从112G SerDes IP、硬件设备到管理软件实现100%全栈自研,系国内首款原生RDMA 400G无损网络;液冷方面,构建“液冷存储+液冷计算+液冷IB交换机”全栈液冷方案,实现全组件、全链路协同优化。大型新建算力中心采用一体化液冷部署,PUE可低至1.1;风冷改造项目如华南理工大学案例已稳定运行3–4年;小型场景支持单机柜风液转化模块,降低试用门槛。尽管初期部署成本高于风冷,但长期TCO优势显著。

在国家超算互联网核心节点试运行的3套scaleX万卡超集群,从首台交换机上电到业务上线仅耗时36小时,已稳定运行一个半月,未发生因网络导致的业务波动。同等规模RoCE集群部署通常需1–2周。scaleFabric完全兼容IB生态,用户原有脚本无需修改即可切换;管理工具与开源工具兼容,运维零门槛。

从400G无损网络突破,到算存传一体化架构,再到全栈国产化与全栈液冷,曙光正重新定义智算中心的数据供给能力。其方案已应用于国家超算互联网、大模型训推及关键行业数字化场景。曙光表示已在规划更高带宽、更低时延的多模态交换机与网卡,持续推进国产智算从“补短板”向“建长板”跨越。

免责声明:本文内容由开放的智能模型自动生成,仅供参考。

最新文章
Copyright © DoNews 2000-2026 All Rights Reserved
蜀ICP备2024059877号-1