中科曙光发布400G无损网络，36小时上线3万卡智算集群- DoNews

中科曙光近日发布全栈自研400G无损高速网络scaleFabric，采用原生RDMA技术，填补国内数据中心高速网络空白。该方案基于“算存传一体化”紧耦合架构，通过“超级隧道”技术与自研RDMA网络深度结合，为超大规模智算集群提供高效、安全、稳定的数据供给。

曙光信息产业（北京）公司总裁助理、分布式存储产品部总经理石静指出，当前AI基础设施核心挑战在于计算、存储、网络三者无法强耦合，导致算力利用率偏低。传统存储难以匹配GPU/国产算力卡的带宽、IOPS与时延需求；网络若不能承担计算与存储间的高效连接角色，将直接拖累集群整体效率。算存传一体化并非物理集成，而是在物理分离基础上实现逻辑层深度协同，确保数据“跑得起、跑得稳、跑得通”。

“超级隧道”技术构建专属数据通道：硬件层面以CPU为核心，将线程、内存、高速网络、SSD等资源划入独立数据域，配置独享RDMA连接与PCIe通道；软件层面通过将高速网卡虚拟成多个小网卡，实现数据稳定均衡传输，解决网络拥塞、PCIe通道竞争及CPU/内存带宽饱和等问题。scaleFabric采用Credit-Based流控机制，先确认接收端空闲再传输，实现零丢包、低时延、高稳定性。其内存分配采用“预先分配+动态共享”模式，保障万卡级集群稳定运行。

scaleFabric具备三大核心优势：性能方面，全闪存储节点达220G带宽、1000万IOPS，单节点可支撑数十块GPU算力卡；国产化方面，从112G SerDes IP、硬件设备到管理软件实现100%全栈自研，系国内首款原生RDMA 400G无损网络；液冷方面，构建“液冷存储+液冷计算+液冷IB交换机”全栈液冷方案，实现全组件、全链路协同优化。大型新建算力中心采用一体化液冷部署，PUE可低至1.1；风冷改造项目如华南理工大学案例已稳定运行3–4年；小型场景支持单机柜风液转化模块，降低试用门槛。尽管初期部署成本高于风冷，但长期TCO优势显著。

在国家超算互联网核心节点试运行的3套scaleX万卡超集群，从首台交换机上电到业务上线仅耗时36小时，已稳定运行一个半月，未发生因网络导致的业务波动。同等规模RoCE集群部署通常需1–2周。scaleFabric完全兼容IB生态，用户原有脚本无需修改即可切换；管理工具与开源工具兼容，运维零门槛。

从400G无损网络突破，到算存传一体化架构，再到全栈国产化与全栈液冷，曙光正重新定义智算中心的数据供给能力。其方案已应用于国家超算互联网、大模型训推及关键行业数字化场景。曙光表示已在规划更高带宽、更低时延的多模态交换机与网卡，持续推进国产智算从“补短板”向“建长板”跨越。

免责声明：本文内容由开放的智能模型自动生成，仅供参考。