英伟达GB200服务器实现MoE模型性能10倍提升

英伟达GB200 NVL72 AI服务器在混合专家模型上取得重大性能突破,相比上一代Hopper HGX 200性能提升10倍。测试基于开源大语言模型Kimi K2 Thinking、Deepseek-R1-0528和Mistral Large 3完成。

混合专家模型(MoE)是一种高效的AI大模型架构,通过仅激活与任务最相关的参数子集(专家)来处理问题,显著降低计算成本并提高处理速度。该架构类似人脑使用特定区域执行不同任务,利用路由器选择最相关专家生成每个token。自2025年初以来,几乎所有前沿AI模型均采用MoE设计。

为解决MoE模型扩展中的性能瓶颈,英伟达采用“协同设计”策略,整合GB200的72芯片配置、最高30TB快速共享内存、第二代Transformer引擎以及第五代NVLink高速互联技术。这些技术协同工作,高效拆分并分配Token批次至各GPU,并以非线性速率提升通信量,将专家并行计算提升至新水平,实现性能飞跃。

除硬件协同设计外,英伟达实施多项全栈优化措施提升MoE推理性能。NVIDIA Dynamo框架将预填充(prefill)和解码(decode)任务分配给不同GPU,实现任务解耦服务,使解码阶段可大规模并行运行。系统同时采用NVFP4格式,在保持计算精度的同时进一步提升性能与效率,确保AI计算流程高效稳定。

此次GB200 NVL72取得的性能突破对英伟达及其合作伙伴具有重要意义,成功克服MoE模型扩展时的计算瓶颈,满足日益增长的AI算力需求,巩固英伟达在AI服务器市场的领先地位。

免责声明:本文内容由开放的智能模型自动生成,仅供参考。

最新文章
Copyright © DoNews 2000-2026 All Rights Reserved
蜀ICP备2024059877号-1