英伟达Blackwell GPU刷新LLM推理速度纪录- DoNews快讯

DoNews > 快讯 > 英伟达Blackwell GPU刷新LLM推理速度纪录

英伟达Blackwell GPU刷新LLM推理速度纪录

2025-05-24 12:40:03

466284

英伟达近日宣布，其Blackwell GPU在处理4000亿参数的Meta Llama 4 Maverick模型时，成功打破大型语言模型（LLM）推理速度的世界纪录。通过配置8块Blackwell GPU的DGX B200节点，AI基准测试机构Artificial Analysis实现了每用户每秒生成1000个token（TPS）的性能突破。

这一成就得益于TensorRT-LLM软件栈的深度优化及EAGLE-3技术的应用，使系统性能较优化前提升了4倍，峰值吞吐量可达每秒72,000 token。推测解码技术通过小型草稿模型预测token序列并由大型LLM验证，显著加速了推理过程。

此外，基于EAGLE3的软件架构与GPU硬件形成协同效应，确保Blackwell架构完美适配超大规模语言模型。英伟达还表示，使用FP8数据格式在保持响应准确性的同时大幅提升了性能，与BF16格式的人工分析结果相当。

2025国际影像文化周深圳开幕:SmallRig全球影像场景产业论坛解码影像未来，构建场景生态协同新范式 2025国际影像文化周深圳开幕

徕芬剃须刀T1 Pro正式发布售价499元起开启极致剃须新时代

鲲鹏昇腾开发者大会2025在北京成功举办鲲鹏昇腾深度开放，加速创新者创新

宁德时代遭换电设备供应商起诉，索赔6088万元意外。

徕芬剃须刀 P3 Pro正式发布售价699元机械美学引领新风尚

BMW Speedtop概念车全球亮相宝马再推收藏级限量车型，纯手工高定全球限量发售70台创新美学设计。

抖音百科抓取百度百科60余万词条，被判赔偿800万不正当竞争。

从京东店庆到全民购物节，今年618有新招吗？谁能戳中顾客的剁手DNA？

关于我们| 电子协议| 合作联系| 蜀ICP备2024059877号-1

网站信息

Copyright © DoNews 2000-2025 All Rights Reserved
蜀ICP备2024059877号-1
联系地址：北京市海淀区宝盛东路兴华绿色产业楼3层307室（东升地区）
邮箱：jubao@infinities.com.cn
网上有害信息举报专区: www.12377.cn

Copyright © DoNews 2000-2025 All Rights Reserved
蜀ICP备2024059877号-1

京公网安备11010802023059号