商汤大装置 SenseCore 与昇腾 384 超节点近日完成全面适配,在功能与性能验证中达到预期目标。
超节点是一种通过高速互联技术整合多个 GPU / NPU 的新型架构,解决 AI 大模型训练中的算力协同和通信效率问题。
昇腾 384 超节点(Atlas 900 A3 SuperPoD)是华为推出的业界最大规模超节点方案,采用“全对等架构”实现高速互联总线的扩展,将 CPU、NPU、DPU、存储和内存等资源整合为统一的“超级计算机”,提供更高的算力密度和互联带宽。
基于双方技术特点,联合团队在调度优化、系统稳定性、故障恢复等方面实现多项创新:
在调度优化方面,SenseCore 支持 POD 内单机、多机调度,跨 POD 多机调度,亲和性调度等能力,并配合模型并行策略实现逻辑超节点自动划分,使 EP / TP 等通信策略充分利用灵衢网络,提升训练效率。
在跨 POD 训练稳定性方面,SenseCore 团队提交多个 MR,修复多 POD 场景下 master / work 任务 rank 乱序问题,从根本上解决跨 POD 训练任务概率性失败的问题。
在故障检测与恢复方面,系统覆盖从服务器硬件、高速互联总线、RoCE 网络到任务、进程等软硬件层面的检测,并结合检测结果实现 Job / Pod / 进程多级恢复机制,提升昇腾 384 超节点在训练场景下的可靠性与容错性。
未来,双方将继续探索大模型推理加速、智能体应用部署、垂直行业大模型训练与推理优化等应用场景,推动 SenseCore 与昇腾 384 超节点在更多行业的应用落地。
免责声明:本文内容由开放的智能模型自动生成,仅供参考。