商汤SenseCore适配华为昇腾384超节点

近日,商汤大装置SenseCore与华为昇腾384超节点完成全面适配,在功能与性能验证中达到预期目标,为国产AI算力从“可用”迈向“好用”取得突破,同时为大模型高效训练与推理提供支撑。

昇腾384超节点是华为推出的业界最大规模超节点方案,采用“全对等架构”,实现高速互联总线的扩展,将CPU、NPU、DPU、存储和内存等资源全部互联和池化,形成一台“超级计算机”,提供更大的算力密度和互联带宽。

商汤大装置SenseCore作为AI云原生平台,致力于提供敏捷、灵活、可靠的全栈AI基础设施服务,以极致性价比推动大模型技术的高效落地与规模化应用。

双方团队在调度优化、系统稳定性及故障恢复等方面提出多项创新:

在调度优化方面,SenseCore支持POD内单机和多机调度、跨POD多机调度、亲和性调度等能力,并配合模型并行策略实现逻辑超节点自动划分,使EP/TP等大通信策略可充分利用灵衢网络,提升训练效率。

在跨POD训练稳定性方面,SenseCore团队提交多个MR修复跨POD场景下的任务rank乱序问题,解决训练任务概率性失败的问题。

在故障检测与恢复方面,系统覆盖服务器硬件、高速互联总线、RoCE网络到任务、进程的软硬件多维度检测,并结合检测能力实现Job/Pod/进程多级恢复机制,提升训练场景下的可靠性与容错性。

此次适配使得多租户、大规模、弹性AI云服务成为可能。未来,双方将继续探索大模型推理加速、智能体应用部署及垂直行业的大模型训练与推理优化,进一步推动基于SenseCore的昇腾384超节点在各行业应用落地。

商汤科技大装置事业群CTO宣善明表示,SenseCore成为首批完成昇腾384超节点适配的AI云平台,是国产AI基础设施融合发展的重要里程碑。SenseCore通过与昇腾的深度融合,释放昇腾算力潜能,为产业界提供更敏捷、智能、可靠的算力底座,并在此基础上打造面向各行业的AI解决方案,共同推动千行百业的智能化升级。

免责声明:本文内容由开放的智能模型自动生成,仅供参考。

最新文章
Copyright © DoNews 2000-2025 All Rights Reserved
蜀ICP备2024059877号-1