落子“三算盘”,华为押注Token经济时代

内容/山南

在AI应用遍地开花的2025年,AI推理这一细分赛道也因行业急速发展而规模膨胀。

“现在所需的推理计算量已经比大型语言模型刚开始出现时增加了100倍,而这仅仅是个开始。”英伟达首席执行官黄仁勋在今年2月时公开表示。

无独有偶,摩根士丹利分析师也预估,未来几年美国超过75%的电力和计算需求将用于推理。

推理算力需求百倍增长的背后,是触及到了企业AI应用落地的核心逻辑:推理性能直接决定了用户体验的优劣与商业模式的可行性。正因如此,AI推理这块蛋糕,成为了基建企业势在必得之利。

华为近期发布的UCM推理记忆数据管理器,被业界誉为AI推理技术的一次重大革命。然而,华为落子AI推理的真正意图,远不止于押注单一技术的工具增益,而在于构筑一盘AI生态的大棋局。

Part.1

AI步入深水区

推理成增长奇点

AI浪潮席卷之下,产业链上下游机遇与挑战并存,AI推理首当其冲,成为重要战场与增长爆点。

中信建投最新白皮书揭示显著趋势,随着AI算力消耗从训练向推理的结构性转变,国内算力消耗正快速增长。以字节跳动为例,其Token消耗量每三个月近乎翻倍,5月底已达16.4万亿Token。按此增速,主流云服务商将很快感受到算力紧张,出现算力缺口——单次Agent任务平均消耗Token量级已攀升至10万量级。

然而,新兴市场的定价逻辑往往异于常理,并不完全由需求决定价格。面对大模型蓝海,巨头、创企、运营商…各类企业蜂拥而入,ToB市场也没能逃脱卷价格的魔咒。

自去年5月先是阿里云打响大模型降价第一枪,后百度旋即宣布文心两大主力模型ERNIE Speed和ERNIE Lite全面免费,再至今年6月,豆包大模型1.6发布并进一步降低价格门槛压至2.6元/百万Tokens。

价格厮杀背后,Token的处理成本和质量成为大模型行业竞争的关键要素,AI推理能力则成为撬动增长的关键奇点。MiniMax创始人、CEO闫俊杰断言:“在接下来一两年之内,最好模型的推理成本可能还能再降低一个数量级。”

但技术差距不容忽视。据华为数据显示,目前国外主要大模型(OpenAI O3-mini、Google Gemini等)服务的单用户输出速度已达200 tokens/s区间(时延5ms),而国内普遍低于60 tokens/s(时延50—100ms)。

OpenAI O3 mini每秒输出的Token数约为国内某开源大模型的10倍,用户体验差异立现,直接感受到OpenAI的回答速度比国内大模型要快很多。由此可见,中国AI推理市场还有很大的上升空间。

正如华为公司副总裁、数据存储产品线总裁周跃峰所言:“AI时代,模型训练、推理效率与体验的量纲都以Token数为表征,Token经济已经到来”。

抢占Token时代先机,是华为布局AI推理最显性的战略落子,这是华为的第一个算盘。

Part.2

华为UCM

AI推理能力横向剖析

聚焦华为最新推出的AI推理技术UCM,其核心竞争力与市场定位究竟如何?

华为UCM是一款以KV Cache(键值缓存)为中心的推理加速套件,融合多类型缓存加速算法工具,可以分级管理推理过程中产生的KV Cache记忆数据,扩大推理上下文窗口,以实现高吞吐、低时延的推理体验,从而降低每个Token的推理成本。

通易而言,华为UCM就像是厨房的智能调度系统,可以把厨师做菜时需要的各种食材清单(KV Cache),用不同大小的白板、活页夹和文件柜(多级缓存)分门别类存放,再搭配各种记忆管理工具(缓存算法工具),使大厨能轻松记住超长的菜单(扩大上下文),从而出菜更快(低延迟),能够服务更多客人(高吞吐),同时还更省人力(降低每个Token的成本)。最终,顾客(使用AI)的体验就是上菜快、服务好、价格实惠。

和业界相比,华为UCM的差异化优势体现在从单点算力模组转向系统级优化。华为数据存储产品线AI存储首席架构师李国杰表示,业界有很多开源方案有类似的方向,有的是做了其中某一层或某一些组件,但是并未看到可商用的端到端完整方案,而UCM是第一个全流程、全场景且可演进的系统性方案。

这也标志着,AI推理引擎从依赖单点算力模组,向整体系统效能优化的战略转变。

此外UCM也是封锁之下的应对之策。美国自2025年1月2日起全面禁止向中国出口HBM2E及以上级别高带宽内存。这对依赖先进硬件的AI发展构成发展障碍。

与普通内存(DDR)相比,HBM的传送带宽度是其10倍以上,并且能实现数千条微型通道并行传输,但弊端就是费用十分高昂。在AI服务器中,HBM的成本占比约为20%至30%。

而UCM可根据记忆热度在HBM、DRAM、SSD等存储介质中实现按需流动,同时融合多种稀疏注意力算法实现存算深度协同,使长序列场景下TPS(每秒处理Token数)提升2至22倍,从而降低每个Token的推理成本。

外媒TEKEDIA报道指出,UCM的“核心诉求”和服务卖点很明确:如果软件能更充分地挖掘普通内存的性能潜力,那么中国的供应商(如华为等厂商)就能在不那么依赖稀缺且昂贵的高带宽内存(HBM)的情况下,依然提供有竞争力的AI推理服务。

“这一点至关重要。因为全球HBM市场正在迅猛增长——今年规模约340亿美元,预计到2030年将达980亿美元——而其供应基本被SK海力士、三星和美光这三家非中国企业垄断,完全不受中国控制。”

可见UCM的意义远不止在于提升AI推理效率,其更深层的战略意图是为华为在内的厂商,减少对HBM内存的依赖,构建一条降低关键硬件对外依存度、增强供应链韧性与自主可控能力的技术路径。

这是华为在复杂国际环境下的第二个算盘。

Part.3

开源筑基

“产业帝国”轮廓初显

“大多数初创公司在早期阶段依赖于最先进的模型,这些模型通常都是封闭的生态系统,拥有自己的推理机制,但今后会有越来越多的企业开始寻找替代方案,例如训练自己的模型,或者使用开源模型来缓解部分经济压力。目前市面上已经有很多强大的开源模型,未来还会有更多。”Nebius首席技术官Danila Shtan表示。

华为宣布计划于今年9月正式开源UCM,届时将在魔擎社区首发,后续逐步贡献给业界主流推理引擎社区,并共享给业内所有Share Everything(共享架构)存储厂商和生态伙伴。

这一开源举措,将吸引更多的开发者和企业参与到AI推理生态的建设中来,促进框架、存储、GPU厂商共建和成熟化整套机制,激发创新活力,加速技术的迭代和优化。

不过,UCM开源也绝非赔钱“搞慈善”,当中国乃至全球的存储厂商、云服务商甚至竞争对手都跑在广泛采用UCM时,一个基于华为技术栈、自主可控的AI推理基础设施层将强势崛起。届时,一张由华为主导、覆盖算力硬件、推理框架、应用落地全栈的超级生态网络将浮出水面,新的“产业帝国”已初见轮廓。

据不完全统计,围绕UCM展开的AI推理生态“关键盟友”包括但不限于:算力硬件层的拓维信息、神州数码、华海诚科、软通动力、恒为科技等;推理框架层的格灵深瞳、寒武纪、澜起科技等;应用落地层的润达医疗、赛意信息、云鼎科技和高澜股份等。

开源亦是生态投资。通过赋能伙伴、壮大生态,华为将收获更广泛的应用场景反馈、更强大的标准话语权以及更稳固的市场基础。这种“以商业成功反哺技术进化”的良性循环,何尝不是一种“以战养战”的智慧?而这也是华为押注AI推理的第三个算盘。

技术革新的车轮滚滚向前,模型的“思考”与推理能力只会愈发强大。华为押注AI推理的“三个算盘”,即抢占Token经济先机、突破HBM封锁、构建自主生态已清晰落子。而对于其他AI厂商而言,构建自主、强大且开放的生态,同样是不容迟疑的战略任务。

留给中国企业的窗口期正在收窄,构建核心竞争力的战役,已然打响。

特别声明:本文为合作媒体授权DoNews专栏转载,文章版权归原作者及原出处所有。文章系作者个人观点,不代表DoNews专栏的立场,转载请联系原作者及原出处获取授权。(有任何疑问都请联系idonews@donews.com)

标签: 互联网
落子“三算盘”,华为押注Token经济时代
扫描二维码查看原文
分享自DoNews
Copyright © DoNews 2000-2025 All Rights Reserved
蜀ICP备2024059877号-1