林俊旸提出“智能体式思考”范式：训练核心转向模型与环境构成的系统- DoNews

林俊旸在离开阿里巴巴Qwen团队后发布英文长文《From "Reasoning" Thinking to "Agentic" Thinking》，系统阐述AI技术演进新阶段的核心判断。文章指出，当前AI发展正经历从“推理式思考”向“智能体式思考”的根本性切换，其本质是模型从内部独白式 deliberation 转向“通过行动进行推理”。该观点基于其主导Qwen系列大模型训练的直接实践，以及对OpenAI、Anthropic、DeepSeek、智谱等前沿实验室技术路径的横向比较。

他明确界定：Agentic thinking is a model that reasons through action（智能体式思考指一个通过行动来推理的模型）。这一能力要求模型在与环境持续交互中制定计划、调用工具、感知反馈、修正策略，并在长时间尺度上推进任务闭环。与传统推理模型聚焦于“思考质量”不同，智能体式思考的核心优化目标是“能否持续推进任务”，其关键行为包括：适时终止思考并行动、选择并编排工具调用顺序、处理噪声与不完整观测、失败后动态重规划、维持多轮交互连贯性。

文章剖析了Qwen团队在融合thinking与instruct模式过程中的实际困境。尽管Qwen3提出“混合思考模式”及四阶段后训练流程，但因两类模式数据分布与行为目标存在本质冲突——instruct模型追求直接、简洁、低延迟与高吞吐，thinking模型则需消耗更多token、维持结构化中间推理并提升最终正确率——导致融合易陷于“两头都不够好”：thinking侧变得嘈杂低效，instruct侧丧失商业所需的干脆与可控。2025年后Qwen2507系列转而发布独立Instruct与Thinking版本，印证“分开做”在工程落地层面仍具现实合理性。

相较而言，Anthropic在Claude 3.7及4系列中推行的集成式路径被林俊旸视为一次有价值的纠偏。其核心在于强调“思考应为具体工作目标服务”：先识别任务类型，再匹配对应思考强度与工具调用策略。Claude 4更实现推理与工具调用的交错执行，将编码、长时程任务与agent工作流作为主攻方向。该路径揭示关键洞见：更长的推理痕迹不等于更优智能；缺乏目标导向的冗长思考，实为资源分配失当的表现。

由此，技术重心发生位移：从“训练模型”时代，进入“训练智能体”时代，并将进一步迈向“训练系统”时代。智能体不再被视为模型的应用形态，而成为最核心的智能系统本体；模型反而是其中可替换的组件。训练对象已由单一参数化模型，转变为“模型＋环境”构成的完整系统，即智能体及其所依赖的执行框架——包含工具服务器、浏览器、终端、API层、记忆系统与orchestration framework等。

这一转变带来基础设施级挑战。面向智能体的强化学习（agentic RL）要求训练与推理彻底解耦：若编码智能体需将生成代码送入真实测试框架执行，推理端将因等待反馈而停滞，训练端则因轨迹未完成而“断粮”，GPU利用率大幅下降。叠加工具延迟、部分可观测性与有状态环境，实验效率急剧恶化。因此，环境本身升格为一等研究对象——其稳定性、真实性、覆盖度、难度梯度、状态空间丰富性、反馈信息量及抗exploit能力，与SFT时代对数据多样性的重视同等关键。

林俊旸明确指出，“环境构建正在从一个顺手搭的实验配件，变成一个独立的创业赛道”。若智能体最终需在类生产环境中运行，则该环境即为核心能力栈的组成部分。他进一步预警reward hacking在智能体时代的加剧风险：具备工具访问权的模型可能通过搜索直接查答案、利用代码仓库未来信息、滥用日志或发现评估捷径实现虚假优化。这使环境设计、评估器鲁棒性、反作弊协议及policy与真实世界接口的设计，成为下一阶段严肃的研究瓶颈。

执行框架工程（harness engineering）重要性同步跃升。未来智能将更多源于智能体组织方式：由负责任务规划与路由的orchestrator、扮演领域专家的专用智能体及执行窄任务的sub-agents构成多层协作系统，以控制上下文污染、维持推理层级隔离。技术演进路线被概括为三级跳：训练模型→训练智能体→训练系统。

文章结论强调，推理浪潮第一阶段已证实：当反馈信号可靠、基础设施完备时，强化学习可在语言模型上引发质变认知提升；但更深层的范式转移在于，从“思考更久”转向“为了行动而思考”。训练核心对象变更，直接重塑研究资产权重：模型架构与训练数据仍重要，但环境设计、rollout基础设施、评估器鲁棒性及多智能体协作接口的重要性已不亚于前者。竞争优势来源亦随之迁移——推理时代胜在算法、反馈信号与训练流水线扩展性；智能体时代胜在环境质量、训练—服务一体化深度、执行框架工程能力，以及将模型决策与真实后果闭环连接的能力。

免责声明：本文内容由开放的智能模型自动生成，仅供参考。