中国市场正展现出推动AI从“思考”迈向“行动”的独特加速度,这一趋势在12月初豆包与努比亚联合推出的努比亚M153上集中体现。该设备首次赋予AI助手系统级执行权限,使其能够调起外卖App、规划出行路线、整理文件、拆解任务并自主调度多个应用,真正代替用户完成跨应用操作。
在全球智能终端市场中,具备类似系统级自治执行能力的产品几乎无先例可循。产品发布仅两天,便在行业和用户层面引发广泛讨论。其核心意义在于,一个长期存在于产业叙事中的抽象概念——AI Agent——被首次具象化呈现:AI开始从提供建议转向直接执行任务。
过去两年,围绕AI Agent的讨论持续不断,模型公司、终端厂商和应用平台均强调其将重写数字经济逻辑,但用户缺乏实质性体验。豆包手机打破了这种距离感。如果说ChatGPT让人们首次感受到AI会“思考”,那么手机端Agent的出现,则标志着AI开始介入行动本身。
“思考”型AI正面临商业天花板。OpenAI的财务数据显示,2025年Q3其推理成本达36.5亿美元,收入仅为20.6亿美元,每赚1美元需支出1.8美元算力成本。这种失衡源于模型迭代带来的指数级算力开支与线性增长营收之间的矛盾。UBS研究报告显示,2024至2025年间AI基础设施投资从150亿美元激增至1250亿美元,但企业利润未同步提升。
以“思考”为主的AI虽能创造价值,却难以参与价值结算。当前主流收费模式为Token计价或调用次数计费,本质仍是API生意,单位价值有限且高度可替代。资本与产业已意识到,AI下一个价值点不在“思考”,而在“行动”。
在传统数字经济中,“行动权”集中于操作系统/终端厂商和超级应用/平台公司两类主体。前者掌握设备权限、系统入口、通知展示;后者控制服务入口、交易链路及用户关系。AI时代,Agent作为新技术载体,逐渐演化为跨应用、跨服务的调度中枢。谁能占据这一层,谁就有机会重新定义收费方式与价值分配逻辑。
手机成为验证AI商业价值的首要试验场。中国成年用户日均使用手机约6.2小时,完成超120次数字动作。支付、地图、出行、即时通讯等95%的高频任务发生于手机,是用户“行动密度”最高的终端。手机操作系统天然掌握应用安装、调用权限、前后台调度、身份认证、支付接口和系统通知等功能,构成AI“行动链路”的基础设施。
三类势力正争夺AI“行动权”。第一类是以阿里、百度、腾讯为代表的基础模型服务商。阿里千问等选择“模型+自家生态”路径,在统一AI入口整合多模态、写作、代码与生活服务,并打通云服务、电商与本地生活场景。内容可进入钉钉,购物建议跳转淘系交易,形成单一App内闭环。优势在于模型强、生态协同高,可在可控环境中尝试执行任务,但权限止步于App外,无法调度系统资源。
第二类是终端厂商。OPPO、小米、vivo、荣耀几乎同时将“大模型+系统级助手”定为核心方向。OPPO ColorOS提出“Agent Matrix”,小米澎湃OS重构“超级小爱”,目标均为让AI在系统层拆解任务、编排流程并跨应用执行。终端厂商掌握通知管理、前后台调度、悬浮窗、无障碍接口等关键权限,但承担维护生态稳定的责任,多采取渐进策略,谨慎扩大自动执行边界。
第三类是豆包等原生AI厂商。这类玩家无操作系统亦无平台生态,核心资产仅为模型能力。若不能切入行动层,或将仅停留在API供应商位置。因此,豆包选择更激进路径:直接争夺系统层行动入口。不同于单纯做App,豆包与中兴在OS层深度合作,使大模型以虚拟用户方式操作手机界面。在M153工程机上,已呈现接近真实Agent的形态。
然而,系统级Agent迅速触碰现实阻力。当其具备自主操作能力,应用方本能防御,通过权限、协议和风控策略限制自动行为,背后既有合规需求,也有对既有流量结构和商业模式被重构的警惕。
三条路径勾勒出当前Agent竞争图景:模型厂商有智力缺权限,终端厂商有权限但受限于生态稳定,原生AI厂商野心最大也最易遇阻。表面比拼模型与交互,实则考验谁能不打破秩序前提下为AI争取足够行动空间。目前规则未重构前,Agent行动幅度注定有限,探索仍被限制在各自生态边界内。
豆包手机暴露了更深层体系矛盾。既有数字体系中,操作权限绑定人类用户。当非人类智能体规模化发起操作,默认前提失效。谁界定AI能做什么、不能做什么?当Agent完成支付、下单、修改信息乃至参与交易时,权限边界不再清晰,授权逻辑松动。
商业模式面临挑战。依赖人类注意力的广告与推荐闭环,在决策者变为Agent后失效。没有点击与停留,价值衡量与收益分配缺乏可复制答案。责任机制亦缺位。当AI出错造成损失,责任由平台、模型、用户还是Agent承担?法律与制度尚未完善前,此问题无法回避。
根本原因在于基础设施缺失。大量应用仍为人类操作设计,缺乏标准化动作接口与可验证结果能力,生态未为AI“动起来”准备。AI Agent的核心挑战非技术不足,而是体系滞后。旧规则失效而新主体入场,冲突不可避免。
这些冲突正倒逼产业链各方加速入场。智谱推出的AutoGLM不仅是对话系统,更是具备“Phone Use”能力的智能体,可根据指令自动完成打开APP、下单、支付等复杂操作,被视为全球首个具备此类手机操作能力的开源代理模型。一些SaaS与B端服务也在弱化复杂UI,提供更清晰、可预测的指令化接口,为Agent预留入口。
越来越多参与者围绕“如何让AI真正动起来”重构自身能力,Agent时代逐步具备现实发生条件。可预见的并非简单“替代”,而是一轮结构性迁移。Agent不会使推荐流或信息流广告迅速消亡,搜索、内容分发、商品推荐在任务执行前仍需参考排序结果,但服务对象正从“人”转向“Agent”。
这一转变将引发UI价值重估。长期看,“对人友好”的UI将持续贬值,尤其在B端场景;动作语义清晰、接口稳定、结果可预期、可验证的服务将获得更高调用权重。“对Agent友好”正成为新基础能力。
不同市场适应速度不同。全球大模型在参数规模、推理能力、多模态表现上进步迅速。2023–2024年间,主流模型在MMLU、GSM8K等基准正确率提升普遍超20个百分点,多模态能力不断刷新。模型进化周期已从“以年计”压缩至“以月计”。
各国科技公司在技术路径上快速趋同,能力差距拉平。但落地层面分化显现。AI Agent成立不仅依赖模型智能,还需可执行、可协同、可规模化的环境。理想市场需具备:密集且标准化的服务场景、完整线上线下闭环、用户对自动化高度接受、产业链快速协同能力、推动标准统一的治理体系。
美国用户月均使用App约40–45个,中国约25–30个;中国前五大超级App(微信、支付宝、抖音等)占总使用时长60%,美国同类占比不足35%。许多海外市场服务结构分散,应用碎片化、线上线下割裂、权限敏感,使AI难过渡为执行者。
中国市场近乎天然具备AI Agent运行条件。高密度、可自动化的生活与商业服务将现实行为压缩为标准流程。外卖、出行、零售、政务、金融等领域高度平台化,任务具备清晰接口。支付、履约、调度体系全面数字化,线上指令可撬动线下结果。长期产品演进提高用户对自动化与代理行为的接受度。
中国市场在模型、终端、App与服务平台间具备快速联动与对齐能力。这非单一企业所致,而是整个数字生态长期积累的结果。多重因素叠加,使AI Agent不仅理论上可行,更能实际运行。
豆包手机所代表的Agent形态率先出现在中国并非偶然,是市场条件成熟后的自然显现。当权限体系、服务接口、用户习惯与产业协同到位,AI Agent首次以“可日常使用”形态出现。中国市场正提供极具价值的试验田,用于验证AI Agent是否具备真正规模化运行可能。能在该环境中跑通的厂商,未来输出全球的将不只是模型参数或单一产品,而是一整套围绕AI行动重构的新AGI操作系统。豆包手机,正是打响的第一枪。
免责声明:本文内容由开放的智能模型自动生成,仅供参考。



