英伟达宣布推出Groq 3 LPU推理芯片- DoNews

DoNews3月17日消息，在 3 月 17 日美国圣何塞举行的GTC主题演讲中，黄仁勋透露了英伟达如何利用 2025 年从 Groq 收购的知识产权来扩展 Rubin 的功能。

Rubin 平台现在包含一款新的芯片——英伟达 Groq 3 LPU，这是一款推理加速器，能够增强这些系统以低延迟、大批量的方式交付令牌的能力，从而在人工智能模型的前沿实现高交互性。

与大多数依赖 HBM 作为工作内存层的 AI 加速器不同，每个 Groq 3 LPU 都集成了 500 MB 的 SRAM，这种内存也用于 CPU 和 GPU 的超高速缓存。

虽然与每个 Rubin GPU 上容量高达 288GB 的 HBM4 相比，这显得微不足道，但这块 SRAM 可提供 150 TB/s 的带宽，远高于 HBM 的 22 TB/s。对于带宽敏感型 AI 解码操作而言，Groq 3 芯片带宽的大幅提升为推理应用带来了诱人的优势。

反过来，英伟达将构建包含 256 个 Groq 3 LPU 的 Groq 3 LPX 机架。该机架提供 128GB 的 SRAM 和 40 PB/s 的推理加速带宽，并通过每个机架 640 TB/s 的专用扩展接口将这些芯片连接起来。

英伟达将 Groq LPX 设想为 Rubin 的协处理器，据英伟达超大规模副总裁 Ian Buck 称，它将提升“每个令牌上 AI 模型每一层”的解码性能，并使 Rubin 能够服务于人工智能的下一个前沿领域：多智能体系统，这些系统需要在推理数万亿个参数的模型的同时，在数百万个token的上下文窗口中提供交互式性能。

随着多智能体系统中的人工智能代理越来越多地与其他人工智能进行交互，而非与查看聊天机器人窗口的人类进行交流，对响应速度的要求也随之改变。

对人类而言看似合理的每秒token生成速率，对人工智能代理来说却如同蜗牛爬行。在巴克所描述的未来多智能体系统中，Rubin GPU 和 Groq LPU 的组合将人工智能代理间通信的吞吐量从每秒 100 个token提升到每秒 1500 个token甚至更高。