英伟达近日宣布,其Blackwell GPU在处理4000亿参数的Meta Llama 4 Maverick模型时,成功打破大型语言模型(LLM)推理速度的世界纪录。通过配置8块Blackwell GPU的DGX B200节点,AI基准测试机构Artificial Analysis实现了每用户每秒生成1000个token(TPS)的性能突破。
这一成就得益于TensorRT-LLM软件栈的深度优化及EAGLE-3技术的应用,使系统性能较优化前提升了4倍,峰值吞吐量可达每秒72,000 token。推测解码技术通过小型草稿模型预测token序列并由大型LLM验证,显著加速了推理过程。
此外,基于EAGLE3的软件架构与GPU硬件形成协同效应,确保Blackwell架构完美适配超大规模语言模型。英伟达还表示,使用FP8数据格式在保持响应准确性的同时大幅提升了性能,与BF16格式的人工分析结果相当。