黄仁勋提出‘推理拐点’，Akamai推全球首个AI Grid分布式推理架构- DoNews

黄仁勋在GTC 2026大会上提出AI‘推理拐点’已至，将Tokenomics重新定义为AI推理经济学，核心指标为Tokens per Watt，并预测Blackwell与Vera Rubin芯片订单量将于2027年达1万亿美元。OpenAI数据显示，企业客户过去一年推理token消耗量增长约320倍。需求侧爆发的同时，供给侧面临物理瓶颈：光速限制导致集中式数据中心难以满足实时推理的低延迟要求。伦敦至美东往返延迟约56毫秒，东京至美东超134毫秒，而F1个性化直播、游戏NPC响应、实时广告插入等场景要求端到端延迟分别控制在百毫秒甚至50毫秒内。

Akamai在GTC上系统阐述AI推理必须走向分布式的原因。该公司拥有全球超4400个边缘入网点，覆盖130多个国家，承载近三分之一互联网流量。其CTO Office SVP Andy Champagne以‘个人AI导播’为例说明：数百万路差异化4K视频流无法由单一数据中心统一生成与分发。产品管理VP Shawn Michels指出，实时广告链路全流程预算仅100毫秒，其边缘节点‘就近处理’能力构成结构性优势。物理定律决定，集中式部署下1GW算力需75 Tbit/s出口带宽（Blackwell），下一代Vera Rubin更达135 Tbit/s；而分布至20节点后，单点仅需3.75 Tbit/s。Comcast AI与边缘计算负责人基于排队论分析表明，仅14毫秒往返延迟差异即导致GPU利用率相差约30%，该差距无法通过batching或提升tokens/s弥补。

Akamai将AI发展类比互联网MySpace阶段，普及率当前约7%，远低于互联网95%水平。其逻辑延续近三十年基础设施演进路径：从分发网页、视频，转向分发AI推理。公司提出‘AI工厂创造智能，AI Grid分发智能’，并强调‘没有分布式推理的AI，就像没有CDN的互联网’。GTC期间，NVIDIA官方将Akamai Cloud与AWS并列为首批提供RTX PRO Blackwell Server Edition实例的云服务商，黄仁勋keynote合作伙伴logo墙中Akamai位列其中。NVIDIA电信业务全球副总裁Chris Penrose评价，Akamai正通过运营AI Grid连接生成式AI、AI Agent与物理AI，将智能直接推送至数据所在位置。Akamai正式发布业界首个全球规模落地的NVIDIA AI Grid参考架构，深度集成NVIDIA AI Enterprise软件栈、Blackwell GPU及BlueField DPU加速网络，成为首家将AI Grid从概念推进至运营级的厂商。

针对实际部署，Akamai指出并非所有推理均需H100。其部署的RTX PRO 6000 Blackwell Server Edition定价2.50美元/小时全包，每美元Token产出为同类方案2.1倍；具备96GB GDDR7显存与4000 TOPS FP4算力，在NVFP4精度下推理吞吐量较H100高60%以上，较RTX 4000 Ada提升19倍；原生支持112–132路视频编解码，风冷设计适配边缘机房空间与功耗约束。Shawn Michels强调未来推理基础设施必为混合架构，不同GPU匹配不同工作负载。Egress费用被指为隐性杀手，Akamai出站流量定价0.005美元/GB，显著低于三大云厂商。其AI编排器（Orchestrator）超越传统负载均衡，综合模型亲和性、GPU显存占用、KV Cache状态等AI特有维度进行实时路由决策；演示中推理请求从巴黎节点无缝切换至加州节点，用户无感知。当前Blackwell GPU节点已覆盖欧、亚、美共19个区域，配合4400余个边缘入网点协同运行，东京、新加坡、孟买、雅加达等亚太节点对出海团队具现实价值。

Akamai转型路径体现互联网基础设施演进切面：依托已运行近三十年的全球分布式网络构建AI推理底座，而非从零建设数据中心。该路径成效取决于其适配AI硬件迭代速度的能力，以及边缘推理市场需求的实际爆发强度。对中国出海AI创业者而言，全球化推理部署正从‘以后再说’转为‘现在就得解决’。合规（数据主权、不出境）、延迟（用户体验硬门槛）、成本（egress与GPU租用真实账单）构成三重现实约束。Akamai边缘推理平台提供第三种选择：无需自建全球基础设施，亦不必完全依赖超大规模云厂商，可借力已覆盖130余国的分布式网络，实现推理服务离用户最近部署。

免责声明：本文内容由开放的智能模型自动生成，仅供参考。