华为将发布降低HBM依赖的AI推理技术

据《科创板日报》报道,华为将于8月12日在2025金融AI推理应用落地与发展论坛上发布AI推理领域的突破性技术成果。该成果或将降低中国AI推理对HBM(高带宽内存)技术的依赖,提升国内AI大模型推理性能。

此前,华为已在AI推理领域取得相关成果。2025年3月,北京大学联合华为发布DeepSeek全栈开源推理方案。该方案基于北大自研SCOW算力平台系统和鹤思调度系统,整合了DeepSeek、openEuler、MindSpore与vLLM / RAY等社区开源组件,实现了华为昇腾上的DeepSeek高效推理。

在性能方面,华为昇腾已实现多项突破。例如CloudMatrix 384超节点部署DeepSeek V3 / R1时,在50ms时延约束下单卡Decode吞吐突破1920 Tokens / s;Atlas 800I A2推理服务器在100ms时延约束下单卡吞吐达到808 Tokens / s。

科大讯飞与华为的合作也取得显著进展,双方率先实现了国产算力上MoE模型的大规模跨节点专家并行集群推理,使推理吞吐提升3.2倍,端到端时延降低50%。

免责声明:本文内容由开放的智能模型自动生成,仅供参考。

最新文章
Copyright © DoNews 2000-2025 All Rights Reserved
蜀ICP备2024059877号-1