英伟达发布专为长上下文推理设计Rubin CPX GPU

推理需求激增重塑算力基建格局

在AI浪潮中,随着生成式AI开启规模化落地,推理能力成为产业竞逐新焦点。海量数据的瞬间调用、百万Token的连续推理以及长上下文的高效处理,显著提升了算力需求,并重塑算力基建的价值链。

英伟达推出专为推理设计的Rubin CPX GPU

英伟达在AI基础设施峰会上发布全新Rubin CPX GPU。该芯片专为长上下文推理负载设计,是英伟达首颗专为一次性处理大量知识(数百万级别tokens)并进行AI推理的模型构建的芯片。

Rubin CPX带来显著投资回报

英伟达表示,Rubin CPX可为客户带来“前所未有的投资回报率”——每部署价值1亿美元的新芯片,将带来50亿美元收入,投资回报率约50倍,远超GB200 NVL72的约10倍回报率。此外,公司宣布GB300 NVL72机架级系统在最新MLPerf推理基准测试中创造了新推理基准记录。

“推理时代”加速到来

花旗研究指出,在ASIC竞争加剧的环境下,英伟达产品发布节奏加快,Rubin CPX在产品路线图中“插队”,标志着“推理时代”已经到来。分析师认为,新品组合有望带动英伟达收入显著增长。

甲骨文指出推理算力正在被耗尽

甲骨文创始人Larry Ellison在业绩会上表示,AI推理市场将“远大于”AI训练市场,并指出当前市场上的推理算力正在被耗尽。尽管公司股价在飙升后出现回调,摩根大通仍认可其在AI领域的长期潜力。

Token调用量爆发式增长

海内外大厂的Token调用量已出现明显增长。Google的Token月均调用量从2023年4月的9.7万亿增长至2024年4月的480万亿,增长50倍。Azure AI基础设施在2024年一季度处理了超100万亿Token,较去年同期增长5倍,其中3月份单月达50万亿。字节火山引擎在2024年5月的Token日均调用量为16.4万亿(月均508万亿),是2023年5月的137倍。

长上下文需求驱动算力升级

随着生成式AI进入规模化落地阶段,企业级知识库问答、代码生成、多模态长视频生成等场景对“长上下文”的需求快速上升。然而,现有GPU在处理超长上下文时普遍面临内存带宽瓶颈与计算冗余问题,导致算力利用率不足。

算力产业链价值持续提升

东吴证券指出,Rubin CPX的推出意味着海外算力基础设施进入“上下文与生成分工协作”的新阶段。随着百万Token推理与长视频生成成为标配需求,硬件和软件的耦合度提高,算力产业链的价值量同步上升。相关厂商包括GPU、存储、网络、高速PCB、光模块与封装工艺等领域均有望深度受益。

免责声明:本文内容由开放的智能模型自动生成,仅供参考。

最新文章
Copyright © DoNews 2000-2025 All Rights Reserved
蜀ICP备2024059877号-1