AI算力的军备竞赛正进入深水区,但一个逐渐清晰的共识是:堆算力不等于提生产力。
从英伟达的产品推出节奏就不难看出,GPU迭代周期已从过去的3-5年压缩至12-15个月,算力硬件的更新节奏远超企业资产折旧周期。企业面临的真正挑战,不再是“有没有算力”,而是“怎么把算力变成生产力”。
5月25日,F5在北京举办媒体发布会,在公司成立30周年之际,集中展示了应用交付与安全平台(ADSP)的全面进化、本地化基于词元(Token)的负载均衡解决方案(TBLB),并宣布成立F5 AI应用工程部。围绕AI时代的算力效率与经济转化,F5给出了自己的答案。
“AI工厂”
F5亚太区首席技术官Mohan Veloo在主题演讲中提出了一个直观的模型:将AI基础设施理解为“AI工厂”——以电力为输入,以算力为输出,而算力的“产出”可以用Token来衡量。

F5亚太区首席技术官Mohan Veloo
一句提问经过系统处理,可拆分为约13个输入Token、生成约27个输出Token。Token本质上是度量输入、输出及其对应成本的基本单位。随着全球每日Token生成量突破百万亿,它已从单纯的技术指标,演变为衡量成本与价值的经济单位。
围绕Token的优化,F5归纳了五个关键维度:
Token吞吐量(Tokens per Second):衡量系统处理能力与整体吞吐效率;
首Token响应时间(Time to First Token):直接影响用户体验;
单Token成本(Cost per Token):决定业务的盈利空间;
端到端延迟(End-to-End Latency):体现应用整体响应效率;
每瓦Token数(Tokens per Watt):反映能源利用效率与能耗约束。
Mohan Veloo指出,能源正逐步成为最核心的约束因素。如果缺乏有效优化,不仅会造成资源浪费,还将直接侵蚀企业的利润空间。
企业困局
F5中国区产品及解决方案总经理陈亮在演讲中拆解了中国市场的三个核心痛点。“当前中国企业面临的核心挑战是异构算力和快速迭代。”陈亮表示。
首先是算力异构。企业在不同时间采购的GPU性能存在差异,不同厂商之间也存在性能差距。国际芯片与国产芯片共同构成的混合算力体系,使底层算力能力不均衡,构建算力集群时难以统一调度。
其次是模型与算力适配问题。不同模型与不同算力架构之间并非天然匹配,在异构芯片上部署推理引擎可能因兼容性不足造成性能损耗。
第三是推理请求分配的效率问题。传统负载均衡机制虽具备横向扩展能力,但调度时并不感知后端算力的实时状态,仅进行简单分发,容易导致算力使用不均,加剧资源浪费。陈亮指出,不同类型的推理请求——代码重构、视频生成、图像生成、文档总结——对后端算力的消耗差异显著。如果前端调度仍采用传统的粗粒度方式,当部分节点已接近饱和而其他节点仅处于低利用率时,系统仍会出现响应延迟。这不仅导致用户侧体验下降,也造成企业侧算力资源的实际浪费。
破局路径
针对上述问题,F5中国在Solution Day上正式推出了基于词元(Token)的负载均衡解决方案(TBLB)。
该方案的核心逻辑是从“按请求分发”升级为“按Token成本调度”。在推理请求进入时,系统实时感知其对后端算力的影响,结合Token感知与GPU动态压力自适应机制,动态调整后续请求的分配策略,实现对不同节点算力状态的精细化调度。
F5的负载均衡技术可兼容AMD、英伟达及各类国产GPU的多品牌、多版本硬件环境,最大化盘活存量算力资源。实测数据印证了这一路径的有效性。
在某汽车行业客户场景中,算力资源由6块NVIDIA A40与8块L20构成,在未增加额外算力成本的前提下,通过TBLB优化调度,Token生成速度提升30.3%,端到端响应速度提升48%。
在某运营商场景中,客户采用华为Ascend 910B算力资源,引入F5能力后,并发用户数提升至少75%,Token生成速度提升达99%。
在金融行业客户场景中,算力集群由阿里平头哥PPU与NVIDIA H20混合构建,优化后Token生成速度提升42%,数据传输流畅度提升7.1%。
据了解,TBLB支持跨品牌、跨代际GPU的统一调度与协同使用,在保证高效性的同时最大化现有资产价值。F5北亚区区域副总裁张振伦补充称:“TBLB方案能显著提升业务部署弹性,实测可将GPU利用率提升60%。”对于单台采购成本高昂的高端GPU而言,利用率的提升意味着企业可以大幅减少硬件采购支出。
安全
“无安全则无可持续的AI落地应用。”F5北亚区总裁黄彦文在发布会上强调。
安全是Token经济的底线,也是AI规模化落地的前提。AI时代出现了新型攻击形态,比如在数字人带货平台中,用户输入特定提示词可能“劫持”模型行为,导致系统持续输出无关内容;在文档处理环节,以人眼不可见方式嵌入的恶意指令,可能在模型解析时被执行,触发数据泄露风险。
这类攻击不再依赖固定代码特征,而是基于语义和上下文动态生成,传统基于特征码的安全机制难以覆盖。
F5的应对思路是以AI对抗AI。通过AI红队主动挖掘模型漏洞,通过AI护栏在模型前端对输入与输出进行实时语义分析与拦截,F5每月可生成约1万个新的AI特征码,并构建了全球规模领先的AI攻击数据集之一。通过“发现—防护—修复”的闭环体系,安全策略能够随攻击演进动态更新,无需依赖人工介入。此外,Mohan Veloo在演讲中提及“量子末日”议题——当前全球多家机构已开始批量收集各类加密数据,待量子计算技术成熟后即可快速完成解密。F5已搭建专属的加密参数管理体系,可在加密体系受到冲击时快速完成参数迭代。
漏洞修复的效率同样成为安全防护的核心。“过去企业每周仅需修复百余项漏洞,如今每周可达上万项,漏洞快速修复已从可选工作变为企业刚需。”Mohan Veloo表示。这要求企业从静态防御转向动态运行时防御,在漏洞曝光前提前做好防护预案。
结语
Token经济的本质不是算力竞赛,而是效率与治理能力的竞争。
Mohan Veloo将AI工作流程归纳为三个关键控制点:统一入口、编排调度、模型推理。企业对软件体系的精细化管理能力,将决定其在智能经济中的竞争位势。
从算力投入到Token产出,从粗放调度到精细化治理——AI推理时代的经济学命题,答案或许不在更多的硬件里,而在对每一个控制点的精准掌控中。



