英伟达发布专为长上下文推理设计Rubin CPX GPU- DoNews

推理需求激增重塑算力基建格局

在AI浪潮中，随着生成式AI开启规模化落地，推理能力成为产业竞逐新焦点。海量数据的瞬间调用、百万Token的连续推理以及长上下文的高效处理，显著提升了算力需求，并重塑算力基建的价值链。

英伟达推出专为推理设计的Rubin CPX GPU

英伟达在AI基础设施峰会上发布全新Rubin CPX GPU。该芯片专为长上下文推理负载设计，是英伟达首颗专为一次性处理大量知识（数百万级别tokens）并进行AI推理的模型构建的芯片。

Rubin CPX带来显著投资回报

英伟达表示，Rubin CPX可为客户带来“前所未有的投资回报率”——每部署价值1亿美元的新芯片，将带来50亿美元收入，投资回报率约50倍，远超GB200 NVL72的约10倍回报率。此外，公司宣布GB300 NVL72机架级系统在最新MLPerf推理基准测试中创造了新推理基准记录。

“推理时代”加速到来

花旗研究指出，在ASIC竞争加剧的环境下，英伟达产品发布节奏加快，Rubin CPX在产品路线图中“插队”，标志着“推理时代”已经到来。分析师认为，新品组合有望带动英伟达收入显著增长。

甲骨文指出推理算力正在被耗尽

甲骨文创始人Larry Ellison在业绩会上表示，AI推理市场将“远大于”AI训练市场，并指出当前市场上的推理算力正在被耗尽。尽管公司股价在飙升后出现回调，摩根大通仍认可其在AI领域的长期潜力。

Token调用量爆发式增长

海内外大厂的Token调用量已出现明显增长。Google的Token月均调用量从2023年4月的9.7万亿增长至2024年4月的480万亿，增长50倍。Azure AI基础设施在2024年一季度处理了超100万亿Token，较去年同期增长5倍，其中3月份单月达50万亿。字节火山引擎在2024年5月的Token日均调用量为16.4万亿（月均508万亿），是2023年5月的137倍。

长上下文需求驱动算力升级

随着生成式AI进入规模化落地阶段，企业级知识库问答、代码生成、多模态长视频生成等场景对“长上下文”的需求快速上升。然而，现有GPU在处理超长上下文时普遍面临内存带宽瓶颈与计算冗余问题，导致算力利用率不足。

算力产业链价值持续提升

东吴证券指出，Rubin CPX的推出意味着海外算力基础设施进入“上下文与生成分工协作”的新阶段。随着百万Token推理与长视频生成成为标配需求，硬件和软件的耦合度提高，算力产业链的价值量同步上升。相关厂商包括GPU、存储、网络、高速PCB、光模块与封装工艺等领域均有望深度受益。

免责声明：本文内容由开放的智能模型自动生成，仅供参考。