黄仁勋在GTC 2026大会上提出AI‘推理拐点’已至,将Tokenomics重新定义为AI推理经济学,核心指标为Tokens per Watt,并预测Blackwell与Vera Rubin芯片订单量将于2027年达1万亿美元。OpenAI数据显示,企业客户过去一年推理token消耗量增长约320倍。需求侧爆发的同时,供给侧面临物理瓶颈:光速限制导致集中式数据中心难以满足实时推理的低延迟要求。伦敦至美东往返延迟约56毫秒,东京至美东超134毫秒,而F1个性化直播、游戏NPC响应、实时广告插入等场景要求端到端延迟分别控制在百毫秒甚至50毫秒内。
Akamai在GTC上系统阐述AI推理必须走向分布式的原因。该公司拥有全球超4400个边缘入网点,覆盖130多个国家,承载近三分之一互联网流量。其CTO Office SVP Andy Champagne以‘个人AI导播’为例说明:数百万路差异化4K视频流无法由单一数据中心统一生成与分发。产品管理VP Shawn Michels指出,实时广告链路全流程预算仅100毫秒,其边缘节点‘就近处理’能力构成结构性优势。物理定律决定,集中式部署下1GW算力需75 Tbit/s出口带宽(Blackwell),下一代Vera Rubin更达135 Tbit/s;而分布至20节点后,单点仅需3.75 Tbit/s。Comcast AI与边缘计算负责人基于排队论分析表明,仅14毫秒往返延迟差异即导致GPU利用率相差约30%,该差距无法通过batching或提升tokens/s弥补。
Akamai将AI发展类比互联网MySpace阶段,普及率当前约7%,远低于互联网95%水平。其逻辑延续近三十年基础设施演进路径:从分发网页、视频,转向分发AI推理。公司提出‘AI工厂创造智能,AI Grid分发智能’,并强调‘没有分布式推理的AI,就像没有CDN的互联网’。GTC期间,NVIDIA官方将Akamai Cloud与AWS并列为首批提供RTX PRO Blackwell Server Edition实例的云服务商,黄仁勋keynote合作伙伴logo墙中Akamai位列其中。NVIDIA电信业务全球副总裁Chris Penrose评价,Akamai正通过运营AI Grid连接生成式AI、AI Agent与物理AI,将智能直接推送至数据所在位置。Akamai正式发布业界首个全球规模落地的NVIDIA AI Grid参考架构,深度集成NVIDIA AI Enterprise软件栈、Blackwell GPU及BlueField DPU加速网络,成为首家将AI Grid从概念推进至运营级的厂商。
针对实际部署,Akamai指出并非所有推理均需H100。其部署的RTX PRO 6000 Blackwell Server Edition定价2.50美元/小时全包,每美元Token产出为同类方案2.1倍;具备96GB GDDR7显存与4000 TOPS FP4算力,在NVFP4精度下推理吞吐量较H100高60%以上,较RTX 4000 Ada提升19倍;原生支持112–132路视频编解码,风冷设计适配边缘机房空间与功耗约束。Shawn Michels强调未来推理基础设施必为混合架构,不同GPU匹配不同工作负载。Egress费用被指为隐性杀手,Akamai出站流量定价0.005美元/GB,显著低于三大云厂商。其AI编排器(Orchestrator)超越传统负载均衡,综合模型亲和性、GPU显存占用、KV Cache状态等AI特有维度进行实时路由决策;演示中推理请求从巴黎节点无缝切换至加州节点,用户无感知。当前Blackwell GPU节点已覆盖欧、亚、美共19个区域,配合4400余个边缘入网点协同运行,东京、新加坡、孟买、雅加达等亚太节点对出海团队具现实价值。
Akamai转型路径体现互联网基础设施演进切面:依托已运行近三十年的全球分布式网络构建AI推理底座,而非从零建设数据中心。该路径成效取决于其适配AI硬件迭代速度的能力,以及边缘推理市场需求的实际爆发强度。对中国出海AI创业者而言,全球化推理部署正从‘以后再说’转为‘现在就得解决’。合规(数据主权、不出境)、延迟(用户体验硬门槛)、成本(egress与GPU租用真实账单)构成三重现实约束。Akamai边缘推理平台提供第三种选择:无需自建全球基础设施,亦不必完全依赖超大规模云厂商,可借力已覆盖130余国的分布式网络,实现推理服务离用户最近部署。
免责声明:本文内容由开放的智能模型自动生成,仅供参考。



