2025世界人工智能大会(WAIC)期间,华为首次展出昇腾384超节点真机Atlas 900 A3 SuperPoD,该产品被评选为本次大会镇馆之宝。
昇腾384超节点通过高速互联总线突破互联瓶颈,使超节点像单一计算机一样运作,相较传统集群具备三大优势:超大带宽、超低时延和超强性能。
昇腾384超节点实现超大带宽,其内任意两个AI处理器间通信带宽较传统架构提升15倍,单跳时延降低10倍。该产品支持全局内存统一编址,具备更高效的内存语义通信能力,可满足大模型训练/推理中的小包通信需求,提升专家网络小包数据传输及离散随机访存通信效率。
昇腾384超节点是业界唯一突破Decode时延15ms的方案,满足实时深度思考下的用户体验需求。
经实测,在昇腾超节点集群上,LLaMA3等千亿稠密模型训练性能可达传统集群的2.5倍以上;在Qwen、DeepSeek等多模态、MoE模型上,性能提升可达3倍以上。
昇腾384超节点采用全新架构,将384颗昇腾NPU和192颗鲲鹏CPU通过高速网络MatrixLink全对等互联,形成一台超级AI服务器,其算力总规模达300Pflops,是英伟达NVL72的1.7倍。
昇腾384超节点网络互联总带宽达269TB/s,比英伟达NVL72提升107%;内存总带宽达1229TB/s,比英伟达NVL72提升113%;单卡推理吞吐量达2300 Tokens/s。
免责声明:本文内容由开放的智能模型自动生成,仅供参考。