15句话，总结姚顺雨第一次肉身亮相- DoNews专栏

在6月5日的腾讯云AI下半场大会上，腾讯集团高级执行副总裁汤道生，和腾讯首席AI科学家姚顺雨做了个对话。

此次谈话围绕腾讯如何理解AI下半场展开：当大模型的方法论逐渐成熟，竞争重点正在从单点模型能力，转向真实场景、产品反馈、上下文网络和Agent工程化落地。

汤道生与姚顺雨的对话，也透露出腾讯内部，正在用模型与产品Co-Design对内部进行重组。

我们整理了两人的所有谈话，并将其归纳为了15个核心观点。

关于AI下半场

1. “下半场”被滥用了，姚顺雨加入腾讯的原因是腾讯“有问题”，有真正的AI需要的好问题

姚顺雨表示，“AI下半场”这个概念有些被滥用。他认为，过去几十年AI更重要的是寻找好方法，比如为了围棋做AlphaGo，为了翻译做特定模型。但在预训练和后训练成熟后，大模型变成了一把“万能的锤子”，可以解决各种问题。于是，真正稀缺的开始变成“好问题”。模型能力具备通用性之后，企业需要判断应该把它用在哪里，解决什么问题，产生什么价值。

这也是姚顺雨加入腾讯一个很重要的原因。“腾讯有很多好的问题，有很多很多产品。”姚顺雨说，好的产品能够解决第一个问题，就是做了好的预训练和后训练之后，到底要把它应用在什么样的场景，它的价值在哪里。

2. 环境很重要，context更重要，竞争壁垒有时来自于有没有最原始的输入

姚顺雨强调了环境的重要性。没有好的环境，Agent就没有办法去做各种各样的事情。如果你没有一个点外卖的tool，那你就没有办法去点外卖。

但最重要的是context。姚顺雨说，无论企业还是个人，越来越重要的事情是context。因为模型越来越擅长把一个非常复杂的输入变成一个输出，很多时候你的竞争壁垒就来自于你有没有那个最原始的输入。你知不知道这个人他在干什么，你知不知道这个企业的各种各样的信息。这一点，腾讯有非常强的优势。

3. 在AI下半场最重要的目标是在中国建立长期的、基于AGI的组织

姚顺雨个人的目标是，在中国建立一个长期的、基于AGI的组织。他提到，今天的AI主要有三个部分。

首先是foundation的部分，怎么样去把预训练和后训练这些最基础的东西做得非常solid。

第二部分是产品，怎么去把这样的技术真正为人和社会产生价值。

第三就是frontier，怎么去探索新的研究范式，探索新的机会。

最重要的是，要构建一个非常均衡的、像三角形一样的组织。对于做foundation来说，第一最重要的是有充足资源，第二就是需要正确的做事的方式。对于产品来说，有好的产品的sense，有这种做产品的人是至关重要的。第三个，在中国今天所做的前沿探索不够多，所以姚顺雨希望能把frontier exploration的精神能更多地注入到组织中。

4. 腾讯追求模型与产品Co-Design，但姚顺雨认为一切的前提依然是模型

谈到腾讯内部高频提到的Co-Design，姚顺雨认为，第一前提是模型本身要做得扎实。预训练是相对product-agnostic的事情，它提供可泛化的foundation，能够让各种下游任务持续受益。

后训练方面，最重要的是设立好正确的eval。姚顺雨吐槽，国内可能有一个不太好的倾向，就是比较喜欢刷榜。但更应该关心的是，如何实事求是地基于产品、基于真正的应用去构造更加真实的eval。实用性的价值是大于刷榜价值的。

这一点上，腾讯做了大量工作，跟各种各样的产品进行了深度的Co-Design。姚顺雨说，Co-Design很关键的一点是要产生相互的信任，这一点腾讯做了大量工作去取得互信。怎么把产品的数据用好，怎么把这种回流用好，怎么把eval做好，这里有很多细节。

5. 真实产品反馈能发现benchmark看不到的问题

姚顺雨也不否认benchmark的价值，但相比之下，真实世界的数据至少有三类价值。

第一，发现榜单无法暴露的底线问题。姚顺雨说，腾讯想要发一个preview模型，最重要的目的之一，就是希望能获得真实世界的反馈，修复各种榜单中没法发现的底线问题。这一点会在正式版上有非常大的改进。

第二，理解真实用户的prompt distribution。因为现实用户的问题往往模糊、短促、多轮追问，而benchmark题目通常更精确、更单轮。比如benchmark上面的题目可能都是非常精确的，有非常长的concrete description，而且一般来说是一个单轮问题。但是在现实场景中，大家问的问题可能都是比较模糊的，可能就一两句话，然后他会不停追问。这些setup上的difference，就可以启发怎么去更好地做这样的训练。

第三，产品本身还可能启发新的评测方向，推动尚未被很好定义的能力领域。姚顺雨说，甚至可以在这些产品上获得一些灵感，去推进现在还没有的榜单，或者还没有被很好定义的领域。比如腾讯最近做了很多Context learning的工作，包括元宝的反馈也给了很大的启发和帮助。

关于模型泛化

6. 以模型之名，腾讯的不同产品终于有了点“互相流通”

姚顺雨指出，LLM时代与过去AI的根本差异是泛化性。过去做翻译模型，只需要翻译数据。做围棋程序，只需要围棋数据。但今天即便只做Coding Agent，也需要聊天、搜索、指令遵循、推理等多种能力。

因此，拥有多个产品场景的公司会具备体系化优势。姚顺雨说，和元宝的Co-Design可以使模型产生很强的聊天和搜索能力。但这样的能力又可以被迁移到ima、WorkBuddy等其他产品。所以这些产品能够提供不同的数据，而这些数据之间又可以相互扩散、相互迁移，形成一个像网络一样的体系。这一点的价值会越来越重要。

此前，腾讯的打法被外界形容为“赛马”。不同业务做相同方向的产品，彼此竞争，很少有形成合力的感觉，现在似乎以AI之名开始有所改变。

7. Hy3的核心变化是重建基础设施、重做数据，并依赖大量taste-driven的决策

对于Hy3 Preview，姚顺雨说“大模型没有什么秘密”。要把infrastructure做好，把数据做好，算法部分反而相对简单。

他提到，混元3主要做了几方面改变。一是重建了预训练和强化学习基础设施。二是对数据做了很大改变，包括定义更真实的问题、丰富data taxonomy、提高数据质量，这是一个永无止境的追求。三是许多关键决策没有清晰公式，需要在招人、模型节奏、资源取舍中不断做trade-off，本质上是一个很taste-driven的过程。

8. 元宝与混元的合作，最难的部分不是技术，而是信任

姚顺雨透露，元宝早期阶段，混元曾派出很强的算法骨干，帮助元宝先把DeepSeek的后训练做好。彼时混元自己的预训练模型还没有ready，不少算法同学一开始不理解。

但姚顺雨认为，维护元宝这样的产品和DAU，对后续做模型和长期合作都很重要。所以当时其实很多同学也不理解，然后他需要去很努力地解释。但现在看起来，这些努力都是pay off。这样的一个动作，让产品和模型的同学意识到，模型的同学是真的在为产品着想。这个对于之后的合作，包括混元在元宝上成功的上线，起到了非常重要的作用。

姚顺雨说，做模型的目标和产品的目标有很多align的部分，也有很多不align的部分。模型的人希望能力越强越好，但产品的人希望用户的需求满足得越好。所以天然有很多不align的部分。很重要的一点就是要换位思考的能力。当然有很多技术的部分可以探讨，但可能最难的部分其实反而是怎么样去建立信任，怎么样换位思考。

9. AI时代做产品的范式变了，从“预制菜”变成开放式服务

汤道生认为，做产品的第一性原理没有变，最终还是奔着用户到底有什么需求，怎么去解决他的痛点，怎么给用户或者客户创造价值。在不同的时代，甚至不同的行业，做一个产品还是需要能够给用户带来价值，他才会买单，才会使用。

但是确实，在PC互联网、移动互联网时代做产品，跟今天在AI时代做产品，还是有蛮多不一样的地方。首先从范式的角度来看，在AI时代以前，做产品很多时候想的是通过功能来满足用户的需求。作为一个产品提供方、服务提供方，要想清楚提供怎样的能力，让用户可能通过界面、通过某些菜单去选择。这有点像预制菜，用户只能在里面点一样。

但是在AI时代做产品，它这种开放式的服务形态会带来很不一样的要求和挑战。用户通过简单的交互方式，可能是自然语言，可能是语音。作为产品方，你也不知道用户会问什么，所以要充分利用模型能力去理解用户的需求。然后，通过今天大模型的推理能力、调用工具的能力，产品给模型提供各种各样可以使用的工具，来应对这种开放式的需求。

汤道生说，今天AI时代做产品，对能力的要求更全面，也更难了。尤其今年，大部分代码都由AI生成。工程师可能会花更多时间去做设计、做架构设计，把写代码的工作交给AI，然后定期去指导一下、修正一下。测试也要左移，更前置地想清楚，针对各种案例、环境，以及对于开放式答案的一些要求，甚至alignment，怎么对齐用户所需要的风格。

10. 姚顺雨的博士论文在2019年就预见了今天，但他觉得自己“想的还是不够大”

姚顺雨透露，他重新读了自己的博士论文，感觉又回到了一个很远古的时代。他的博士论文的title叫做《Language Agent：from Next Token Prediction to Digital Automation》（语言智能体：从预测下一个Token到数字自动化）。那是2019年，七年前，那是GPT-2的时候，它当时只能做Next Token Prediction，而且它产生的可能一段话还不太连续，或者还有很多毛刺。所以当时人们是很难想象到，它会有一天成为一个改变世界的力量。

当时姚顺雨的想象力比较狂野。他觉得GPT是一个非常优美的东西，吐下一个token是一个非常极简且非常通用的事情。他觉得它有一天潜力不仅仅是在于吐下一个token，而是在于把这个世界上所有的事情全部automate。他当时想的是digital automation，但是现在看起来也有可能是digital and physical automation。

姚顺雨的博士期间主要做两部分。第一，如何建立一个Agent的方法论。如何把一个Next Token Prediction的机器变成一个Agent，变成一个自动化的机器。最重要的一篇工作可能是React。

他还记得22年7月份的时候，某一天晚上，当他第一次把当时是Palm 2的API和自己手写的一个Wikipedia的API连在一起，然后它第一次可以基于这个网页回答问题，并且多轮的交互的时候，他当时感觉就像微弱的电灯丝突然亮了的感觉一样。据他所知，可能这是第一次人类把LLM和真正的互联网连在一起，并且去做这种多轮的交互。

他当时的感觉这个可能在5年或者10年会改变这个世界。但是可能比想象中还要更快。包括当时第一次提出SWE-bench的时候，他觉得如果这个事情能做到，那很显然它会带来巨大的价值。当时可能是几百亿上千亿，但现在可能是数万亿，数十万亿，可能想的还是太小了。

第二，怎么去定义Digital Automation的任务。比如说WebShop是第一个基于互联网的Web Agent的task。然后包括InterCode和SWE-bench是最早的Coding Agent这样的任务。现在看起来Agent的基础最重要的两个部分，确实是Web的Agent和Coding的Agent。

姚顺雨说，他看博士论文的结尾，就是他在2024年的时候写的future work，第一个是train models for agent，第二个是safety and robust deployment，第三个是scientific discovery，第四个是怎么样去help human。他很感慨，说现在很幸运，确实在做当时列的future direction。可能想的还是不够大，当时已经觉得自己想的够大了，但可能还是不够大。

关于Agent

11. Agent与Coding Agent已成为模型公司的基础能力

姚顺雨认为，今天Agent，尤其Coding Agent，有点像预训练一样，是每家模型公司都不得不做的基础能力。Coding Agent之所以本质，是因为当模型能控制file system、拥有container时，它就接近一个complete system。

但他也强调，做好Coding Agent需要远远超过coding数据本身，还需要聊天、搜索、推理等综合能力。因为大模型最重要的点是泛化性。腾讯的做法会更强调体系全面化、线上回流，以及对新范式的探索。

姚顺雨提到，即使可能今天Coding Agent也是最重要的事情，但腾讯还是会强调体系的全面化。他始终认为，真的要把Coding Agent做好，其实需要的远远不止Coding Agent的数据。也需要聊天、指令遵循、推理，各种各样不同的东西。

第二，产品的作用越来越重要。如何利用好线上的回流，是一个每一个模型厂商都在应对和思考的问题。这里腾讯积累了很多Co-Design的这些经验会变得非常重要。

第三，还需要更多想象力。无论是技术的演进，还是产品的演进，还是甚至下一个范式的演进，腾讯还是需要做一些探索性的，甚至不确定性的工作。

12. 性价比的核心是performance，一次把简单任务做对比模型架构更重要

汤道生提到，从产品侧来看，大家越来越多有token焦虑的声音，token成本持续爆发式增长。很多客户，甚至用户，包括身边同事，也在紧盯积分消耗或者token消耗。怎么可以让模型在解决某个问题、完成某一个任务时，token效率最高？

姚顺雨认为，现在中国大家讨论性价比，可能更多讨论的是模型架构。但它其实是一个很复杂的体系。最重要的事情首先是performance。很多人跟他说，用一个更强的模型，有时候比用一个更弱的模型最后更省钱，因为你更快地把这个事情做对了，也省了人的精力。所以最重要的事情是performance。如果你的performance好，其实它就是性价比最关键的事情。

尤其今年，很多简单任务的鲁棒性会变得更加重要。如何一次把很多相对简单的任务做对，这可能是性价比更关键的部分，而不仅仅是模型架构。

第二部分是成本。成本本身也是性价比的一部分。第一是“性”，如果性能不好，性价比就很难成立。第二是“价”，也就是成本。成本上，中国其实是领先于世界的，腾讯做了大量工作去优化成本。

成本里，可能最重要的事情是，怎么用一个更小的模型，把更高价值的任务做好。在这个基础上，当然架构创新、长文管理、脚手架都有很多需要做的事情。但姚顺雨个人看法是，如果能做一个相对较小的模型，同时又能够比肩大模型的性能，而且在大部分任务上做到很强的robustness，这可能在很多长程的上面提升一两个点的提升，可能在今天的中国更有价值。

13. 不同场景的Agent需要不同的context，这是腾讯的优势

汤道生说，腾讯做的Agent，针对不同场景有不同的产品形态。在Agent设计上面，很大程度是发挥好模型能力，当然模型在迭代它能力越强Agent需要做的工作越来越少。腾讯好几个产品在过去这段时间是随着模型能力加强，可以把产品，把Agent做的更简化，更多的给模型提供更多不同的工具，创造更多的skills，来让模型能够更高效的去完成任务。

给模型提供更多的所谓记忆，用户过去使用一些习惯，能提取出来的一些用户preference的信息作为上下文。在Coding环境有相关的context给到模型，在Workbuddy里边办公协作，做个PPT，可能大家关注的内容或者该给到模型的context也会不一样。

所以在做不同的Agent，汤道生觉得更重要是了解场景下什么内容，什么信息，是重要的，比较relevant的，能够跟模型配合好，让模型有它需要的信息，同时也发挥它的能力。

14. AI时代的产品组织要更扁平化，每个工程师都是产品经理

汤道生透露，他前阵子在帮Workbuddy做一个组织发文，看了一下他们那个非常扁平化的组织，跟过去的其他产品组织架构有很大差异。更多小团队三个人五个人，可能围绕某一个领域来做攻坚，而且有很多试验在里面，还要支持Infra做实验，让不同的小分队可以去探索然后再验证。因为试验大部分拿不到正向反馈，也要包容团队去试错，这种通过大量试验去提炼出对于用户流程，对于想要的这个结果有正向帮助，这个是今天做Agent，做原生AI产品，这个组织形态要能够比较好去支撑。

另外，原来可能有很多工程师有很多时间花写代码，但是今天毫无疑问他们这些工作可以交给AI了。所以会看到更多角色的融合，大家都是产品经理，都要去了解透彻用户需求，以及设计出想要的产品形态。每一个工程师更像一个有想法的leader，驱动多个Coding Agent，针对想要的产品需求去做研发、开发。同时要参与评测、测试，比较前置，也用好AI能力，把这些质量保证工作，对齐工作要做到前面来。

15. 回应“腾讯AI慢了”，下半场刚刚开始，AI会是长期且多元的游戏

对于外界“腾讯慢了”的讨论，姚顺雨给出两个判断。

第一，AI是长期游戏，而不是短期游戏。在硅谷大家蔓延很多情绪，说两年后所有人都要失业，AI要取代所有人的工作，要赶快赚两年钱退休。但很显然腾讯的判断AI是一个长期游戏，其实AI刚开始，下半场才刚刚开始。姚顺雨不认为ChatGPT和Claude Code会是唯一的super App，他觉得那是一个非常灰暗的世界，肯定会有源源不断新的机会诞生。可能今天就像是70年代PC刚刚产生的时候，还有很多很多事情需要做。

第二，AI会变得更多元，而不是沿着单一主线前进。因为确实过去几年大家能看到的是Pre-training、post training，然后Agent，Coding Agent，似乎有一个非常清晰的主线，这个主线是所有人都在做一样的事情，都在copy，这也是非常灰暗的事情。但到底未来变得更单一还是更多元？姚顺雨个人看法会变得更多元，毫无疑问Coding Agent生产力会变得更加重要，但这个世界还有很多空间没有被填满，多模态、具身智能，很多很多新的事情都在发生，或者刚刚发生。

所以从这个角度来说，如果认为下半场刚刚开始，可能确实不是完了。过去模型、产品做了很多探索，走很多弯路，姚顺雨觉得这是正常的，如果没有做过一个事情，第一次做肯定有曲折。但可能更重要的事情是能不能诚实面对自己，能不能Be Real，能不能够去看到feedback然后去改变，能不能够保持耐心，这个事情是下半场最重要的事情。

汤道生也回应说，大家对于腾讯经常喜欢挑某一个点来批评，当然腾讯也很欢迎大家给更高的要求。腾讯是一个非常多业态的公司，有很多产品分布在很多的赛道，同时也有很多的团队在推进不同的项目、事情。所以毫无疑问，在这样一个复杂的组织里面有一些地方可能做得快了，有的地方做得慢了，有一些地方可能会做失败，在探索。所以这些提醒都非常好，确实有一些地方可以做得更好。

但就像姚顺雨说的，这是一个长跑，这是一个马拉松，腾讯还是有非常丰富的场景。就姚顺雨一开始提到选择腾讯，因为AI需要Context，模型需要很多的这些上下文，其实腾讯在过去多年不同产品，在不同赛道的这些积累，其实都是可以针对每一个场景去为模型提供有用的信息，提供这些Context来发挥价值。

在这样一个长跑，汤道生相信模型会不断迭代，用户的需求也在不断变化，也会有新的产品形态出现。比如说今年年初对Agent这一波热潮也反应比较快。同时也有像WorkBuddy这样的智能体产品，其实也是几年前开始做的产品，沿着原来做Coding、CodeBuddy，慢慢看到非程序员也有很强的需求，也能比较快去应对，今天也听到很多客户对于不同产品怎么去组合起来有非常高的期待。

特别声明：本文为合作媒体授权DoNews专栏转载，文章版权归原作者及原出处所有。文章系作者个人观点，不代表DoNews专栏的立场，转载请联系原作者及原出处获取授权。(有任何疑问都请联系idonews@donews.com)