林俊旸在离开阿里巴巴Qwen团队后发布英文长文《From "Reasoning" Thinking to "Agentic" Thinking》,系统阐述AI技术演进新阶段的核心判断。文章指出,当前AI发展正经历从“推理式思考”向“智能体式思考”的根本性切换,其本质是模型从内部独白式 deliberation 转向“通过行动进行推理”。该观点基于其主导Qwen系列大模型训练的直接实践,以及对OpenAI、Anthropic、DeepSeek、智谱等前沿实验室技术路径的横向比较。
他明确界定:Agentic thinking is a model that reasons through action(智能体式思考指一个通过行动来推理的模型)。这一能力要求模型在与环境持续交互中制定计划、调用工具、感知反馈、修正策略,并在长时间尺度上推进任务闭环。与传统推理模型聚焦于“思考质量”不同,智能体式思考的核心优化目标是“能否持续推进任务”,其关键行为包括:适时终止思考并行动、选择并编排工具调用顺序、处理噪声与不完整观测、失败后动态重规划、维持多轮交互连贯性。
文章剖析了Qwen团队在融合thinking与instruct模式过程中的实际困境。尽管Qwen3提出“混合思考模式”及四阶段后训练流程,但因两类模式数据分布与行为目标存在本质冲突——instruct模型追求直接、简洁、低延迟与高吞吐,thinking模型则需消耗更多token、维持结构化中间推理并提升最终正确率——导致融合易陷于“两头都不够好”:thinking侧变得嘈杂低效,instruct侧丧失商业所需的干脆与可控。2025年后Qwen2507系列转而发布独立Instruct与Thinking版本,印证“分开做”在工程落地层面仍具现实合理性。
相较而言,Anthropic在Claude 3.7及4系列中推行的集成式路径被林俊旸视为一次有价值的纠偏。其核心在于强调“思考应为具体工作目标服务”:先识别任务类型,再匹配对应思考强度与工具调用策略。Claude 4更实现推理与工具调用的交错执行,将编码、长时程任务与agent工作流作为主攻方向。该路径揭示关键洞见:更长的推理痕迹不等于更优智能;缺乏目标导向的冗长思考,实为资源分配失当的表现。
由此,技术重心发生位移:从“训练模型”时代,进入“训练智能体”时代,并将进一步迈向“训练系统”时代。智能体不再被视为模型的应用形态,而成为最核心的智能系统本体;模型反而是其中可替换的组件。训练对象已由单一参数化模型,转变为“模型+环境”构成的完整系统,即智能体及其所依赖的执行框架——包含工具服务器、浏览器、终端、API层、记忆系统与orchestration framework等。
这一转变带来基础设施级挑战。面向智能体的强化学习(agentic RL)要求训练与推理彻底解耦:若编码智能体需将生成代码送入真实测试框架执行,推理端将因等待反馈而停滞,训练端则因轨迹未完成而“断粮”,GPU利用率大幅下降。叠加工具延迟、部分可观测性与有状态环境,实验效率急剧恶化。因此,环境本身升格为一等研究对象——其稳定性、真实性、覆盖度、难度梯度、状态空间丰富性、反馈信息量及抗exploit能力,与SFT时代对数据多样性的重视同等关键。
林俊旸明确指出,“环境构建正在从一个顺手搭的实验配件,变成一个独立的创业赛道”。若智能体最终需在类生产环境中运行,则该环境即为核心能力栈的组成部分。他进一步预警reward hacking在智能体时代的加剧风险:具备工具访问权的模型可能通过搜索直接查答案、利用代码仓库未来信息、滥用日志或发现评估捷径实现虚假优化。这使环境设计、评估器鲁棒性、反作弊协议及policy与真实世界接口的设计,成为下一阶段严肃的研究瓶颈。
执行框架工程(harness engineering)重要性同步跃升。未来智能将更多源于智能体组织方式:由负责任务规划与路由的orchestrator、扮演领域专家的专用智能体及执行窄任务的sub-agents构成多层协作系统,以控制上下文污染、维持推理层级隔离。技术演进路线被概括为三级跳:训练模型→训练智能体→训练系统。
文章结论强调,推理浪潮第一阶段已证实:当反馈信号可靠、基础设施完备时,强化学习可在语言模型上引发质变认知提升;但更深层的范式转移在于,从“思考更久”转向“为了行动而思考”。训练核心对象变更,直接重塑研究资产权重:模型架构与训练数据仍重要,但环境设计、rollout基础设施、评估器鲁棒性及多智能体协作接口的重要性已不亚于前者。竞争优势来源亦随之迁移——推理时代胜在算法、反馈信号与训练流水线扩展性;智能体时代胜在环境质量、训练—服务一体化深度、执行框架工程能力,以及将模型决策与真实后果闭环连接的能力。
免责声明:本文内容由开放的智能模型自动生成,仅供参考。



