AI4S攻坚战：中科曙光国内首个6万卡集群投入使用- DoNews

撰文 | 李信马

题图 | AI生图

当全球还在为大模型的“幻觉”头疼时，另一场更严肃的AI革命正在实验室里悄然发生——不只是生成文本和图片，而是去计算生命的密码和材料的极限。

AI4S计算集群，是为“AI for Science”（科学智能）设计的计算基础设施。

大家一般更熟悉的概念，是“超级计算机”，简单解释下两者之间的区别，超级计算机是通过并行计算来加速已知科学公式的求解过程，比如气象预报、核模拟、流体力学等；AI4S计算集群则不同，不仅要“算得更快”，而且利用AI技术，从海量科学数据（比如分子结构、基因序列、材料性质）中加速新结构、新规律的发现。

因此，两者在技术设计上有明显的不同，AI4S不是现有超算的简单改造，而是从芯片、互联网络、存算协同到调度系统全栈重新设计的新一代基础设施。

伴随人工智能技术发展，AI4S正成为全球科技竞争焦点。2025年11月24日，美国正式启动“创世纪计划”，目标是用 AI 重塑科学研究，该计划也被白宫称为“自阿波罗计划以来规模最大的联邦科学任务”。我国早在2023年4月，就由科技部主导部署了一体化算力服务平台——国家超算互联网，来整合全国超算中心资源构建算力网络，并在2024年4月正式上线。“十五五”规划中，也明确提出要以人工智能引领科研范式变革，抢占人工智能产业应用制高点。

中科曙光是中国核心信息基础设施的领军企业，是我国少数拥有从硬件、整机到算力服务、基础设施全栈自研能力的科技公司。2025年12月，中科曙光发布了scaleX万卡超集群；2026年2月，3万卡上线国家超算互联网核心节点。

4月14日，中科曙光提供的6万卡科学智能计算集群系统，在位于郑州的国家超算互联网核心节点投入使用。伴随着该集群的落地运行，国家超算互联网平台构建起了国内规模最大的AI4S计算基础设施，总计链接超300万CPU核和超20万GPU卡，并接入全国一体化算网调度体系，来为全国高校、科研院所和企业提供普惠化AI4S算力服务。

当天DoNews也受邀参加了发布会，会上，中国科学院院士、河南省科学院院长徐红星表示：“该集群落地，不仅是一次技术成果展示，更是我国人工智能技术与科研创新深度融合的里程碑。”

AI4S计算集群为什么重要？会后的采访中，清华大学智能产业研究院（AIR）助理教授李琨介绍，AI4S已经超越纯科研范畴，是新一轮科技革命与产业变革的核心驱动力。它不仅关乎着基础科学的突破，也直接决定了新材料、新药物、新能源等未来产业的主导权归属，深刻影响国家经济竞争力和综合国力的表现。尤其在当今大国之间科技竞争日趋激烈背景下，AI4S已经成为衡量国家综合实力和战略科技力量的关键指标。

在生物、材料等多领域进行的大规模并行计算测试中，依托曙光AI4S计算集群，3万卡规模蛋白质折叠模拟较传统算法加速1000倍；4.5万卡规模实现万亿原子液态水分子动力学模拟，在打破世界模拟规模纪录的同时效率提升3个数量级以上；湍流直接模拟规模扩展至百万亿网格，大幅提升了科研效率。

“从原本以超算为代表的超算架构，慢慢地配上AI加速单元这种混合异构的智算架构，也就是现在说的‘超智融合’。传统的计算任务或者科学应用没有办法很好地利用上新型的硬件算力，这是一个非常大的挑战。随着AI不断地赋能科学应用，未来AI4S解决的问题更多不是加速型的，而是把之前不能解的问题变成能解的，这种情况下如何通过AI把好算力用到刀刃上，也是一个非常大的挑战。”李琨说。

中科曙光高级副总裁李斌表示，把AI方法用在科学和工程领域一定是正确的，产业化前景也是无比巨大的，在生物医药、半导体、新材料、电池、清洁能源等领域，一旦有技术突破都会带来更大规模的市场。但AI4S并不是万能的，因为AI方法有不可解释性，还有泛化的问题，它需要跟传统方法相结合；另一方面，随着大模型基础能力的提升，特别是智能体技术发展，对AI4S的发展也会有极大的促进作用，降低门槛和极大地提高效率。

那怎么评价AI4S计算集群的能力？中科曙光给出的答案是“六大核心要求”。对应刚刚上线的6万卡科学智能计算集群系统，就是：

强大算力：实现6万卡集群部署。
全面精度：可支持8/16/32/64位宽的全精度计算，高效处理高维函数和复杂科学问题。
高速互连：通过国内首款类InfiniBand无损高速网络scaleFabric系列产品，满足AI4S计算集群对高带宽、低时延网络的极致需求。
存算协同：通过“超级隧道”、AI数据加速等设计，实现从芯片、系统到应用的三层传输协同，避免存储IO瓶颈。
灵活调度：智能调度机制，使系统可根据任务需求灵活匹配、调度集群的计算存储网络等资源，并发作业调度效率超每秒万次。
稳定可靠：依托智能化运维、数字孪生系统以及浸没相变液冷技术，让系统可用性达到99.99%，保障集群长周期稳定运行。

坦诚讲，对于计算集群，我们首要关心的问题一定是芯片，也要正视目前中国与海外之间的差距。李斌表示，国产芯片制程工艺上存在代差，可以一方面在芯片封装、结构工艺上挖一些潜力，还有就是通过系统端去优化，以及工程化能力的优化等来弥补差距。此外，由于工艺相对落后一些，要达到同样的性能芯片功耗就会更高，通过一些技术来解决芯片的供电和散热问题，也能缩短差距。

此前在光合组织2025人工智能创新大会（HAIC2025）上，中科曙光发布scaleX万卡超集群时，李斌曾表示该集群在超节点架构、高速互连网络、存储性能优化、系统管理调度等方面实现了多项创新突破，部分技术与能力已超越海外同类产品研发路线图的2027年NVL576里程节点。

在当天的一个演示案例中，中科曙光的AI4S计算集群和英伟达的A800集群相比，训练Loss下降曲线高度重合，下游测试中，9项基准测试的结果也高度一致。此外，据工作人员介绍，公司产品的部分性能指标已超越英伟达集群。

目前，从产业生态来看，国内AI4S已经形成了上游算力与数据，中游平台与模型，下游科研与工业应用的完整链条。李斌表示，未来几年AI4S可能需要更多关注世界模型和物理AI，世界模型依赖的数据需要物理规律约束，而物理规律约束的数据又需要传统计算来产生，这会进一步增强传统计算和超算的融合，对未来的算力结构也会有一些影响。

随着国家算力基础设施被用互联网理念重构，算力成为“普惠服务”，将进一步支撑中国在全球AI和科技竞争中占据主动——这不仅关乎几家公司的市值，更关乎未来科技革命里我们的话语权。

注：文中演讲配图均来自现场拍摄