15句话,总结姚顺雨第一次肉身亮相

在6月5日的腾讯云AI下半场大会上,腾讯集团高级执行副总裁汤道生,和腾讯首席AI科学家姚顺雨做了个对话。

此次谈话围绕腾讯如何理解AI下半场展开:当大模型的方法论逐渐成熟,竞争重点正在从单点模型能力,转向真实场景、产品反馈、上下文网络和Agent工程化落地。

汤道生与姚顺雨的对话,也透露出腾讯内部,正在用模型与产品Co-Design对内部进行重组。

我们整理了两人的所有谈话,并将其归纳为了15个核心观点。

A

关于AI下半场

1. “下半场”被滥用了,姚顺雨加入腾讯的原因是腾讯“有问题”,有真正的AI需要的好问题

姚顺雨表示,“AI下半场”这个概念有些被滥用。他认为,过去几十年AI更重要的是寻找好方法,比如为了围棋做AlphaGo,为了翻译做特定模型。但在预训练和后训练成熟后,大模型变成了一把“万能的锤子”,可以解决各种问题。于是,真正稀缺的开始变成“好问题”。模型能力具备通用性之后,企业需要判断应该把它用在哪里,解决什么问题,产生什么价值。

这也是姚顺雨加入腾讯一个很重要的原因。“腾讯有很多好的问题,有很多很多产品。”姚顺雨说,好的产品能够解决第一个问题,就是做了好的预训练和后训练之后,到底要把它应用在什么样的场景,它的价值在哪里。

2. 环境很重要,context更重要,竞争壁垒有时来自于有没有最原始的输入

姚顺雨强调了环境的重要性。没有好的环境,Agent就没有办法去做各种各样的事情。如果你没有一个点外卖的tool,那你就没有办法去点外卖。

但最重要的是context。姚顺雨说,无论企业还是个人,越来越重要的事情是context。因为模型越来越擅长把一个非常复杂的输入变成一个输出,很多时候你的竞争壁垒就来自于你有没有那个最原始的输入。你知不知道这个人他在干什么,你知不知道这个企业的各种各样的信息。这一点,腾讯有非常强的优势。

3. 在AI下半场最重要的目标是在中国建立长期的、基于AGI的组织

姚顺雨个人的目标是,在中国建立一个长期的、基于AGI的组织。他提到,今天的AI主要有三个部分。

首先是foundation的部分,怎么样去把预训练和后训练这些最基础的东西做得非常solid。

第二部分是产品,怎么去把这样的技术真正为人和社会产生价值。

第三就是frontier,怎么去探索新的研究范式,探索新的机会。

最重要的是,要构建一个非常均衡的、像三角形一样的组织。对于做foundation来说,第一最重要的是有充足资源,第二就是需要正确的做事的方式。对于产品来说,有好的产品的sense,有这种做产品的人是至关重要的。第三个,在中国今天所做的前沿探索不够多,所以姚顺雨希望能把frontier exploration的精神能更多地注入到组织中。

4. 腾讯追求模型与产品Co-Design,但姚顺雨认为一切的前提依然是模型

谈到腾讯内部高频提到的Co-Design,姚顺雨认为,第一前提是模型本身要做得扎实。预训练是相对product-agnostic的事情,它提供可泛化的foundation,能够让各种下游任务持续受益。

后训练方面,最重要的是设立好正确的eval。姚顺雨吐槽,国内可能有一个不太好的倾向,就是比较喜欢刷榜。但更应该关心的是,如何实事求是地基于产品、基于真正的应用去构造更加真实的eval。实用性的价值是大于刷榜价值的。

这一点上,腾讯做了大量工作,跟各种各样的产品进行了深度的Co-Design。姚顺雨说,Co-Design很关键的一点是要产生相互的信任,这一点腾讯做了大量工作去取得互信。怎么把产品的数据用好,怎么把这种回流用好,怎么把eval做好,这里有很多细节。

5. 真实产品反馈能发现benchmark看不到的问题

姚顺雨也不否认benchmark的价值,但相比之下,真实世界的数据至少有三类价值。

第一,发现榜单无法暴露的底线问题。姚顺雨说,腾讯想要发一个preview模型,最重要的目的之一,就是希望能获得真实世界的反馈,修复各种榜单中没法发现的底线问题。这一点会在正式版上有非常大的改进。

第二,理解真实用户的prompt distribution。因为现实用户的问题往往模糊、短促、多轮追问,而benchmark题目通常更精确、更单轮。比如benchmark上面的题目可能都是非常精确的,有非常长的concrete description,而且一般来说是一个单轮问题。但是在现实场景中,大家问的问题可能都是比较模糊的,可能就一两句话,然后他会不停追问。这些setup上的difference,就可以启发怎么去更好地做这样的训练。

第三,产品本身还可能启发新的评测方向,推动尚未被很好定义的能力领域。姚顺雨说,甚至可以在这些产品上获得一些灵感,去推进现在还没有的榜单,或者还没有被很好定义的领域。比如腾讯最近做了很多Context learning的工作,包括元宝的反馈也给了很大的启发和帮助。

B

关于模型泛化

6. 以模型之名,腾讯的不同产品终于有了点“互相流通”

姚顺雨指出,LLM时代与过去AI的根本差异是泛化性。过去做翻译模型,只需要翻译数据。做围棋程序,只需要围棋数据。但今天即便只做Coding Agent,也需要聊天、搜索、指令遵循、推理等多种能力。

因此,拥有多个产品场景的公司会具备体系化优势。姚顺雨说,和元宝的Co-Design可以使模型产生很强的聊天和搜索能力。但这样的能力又可以被迁移到ima、WorkBuddy等其他产品。所以这些产品能够提供不同的数据,而这些数据之间又可以相互扩散、相互迁移,形成一个像网络一样的体系。这一点的价值会越来越重要。

此前,腾讯的打法被外界形容为“赛马”。不同业务做相同方向的产品,彼此竞争,很少有形成合力的感觉,现在似乎以AI之名开始有所改变。

7. Hy3的核心变化是重建基础设施、重做数据,并依赖大量taste-driven的决策

对于Hy3 Preview,姚顺雨说“大模型没有什么秘密”。要把infrastructure做好,把数据做好,算法部分反而相对简单。

他提到,混元3主要做了几方面改变。一是重建了预训练和强化学习基础设施。二是对数据做了很大改变,包括定义更真实的问题、丰富data taxonomy、提高数据质量,这是一个永无止境的追求。三是许多关键决策没有清晰公式,需要在招人、模型节奏、资源取舍中不断做trade-off,本质上是一个很taste-driven的过程。

8. 元宝与混元的合作,最难的部分不是技术,而是信任

姚顺雨透露,元宝早期阶段,混元曾派出很强的算法骨干,帮助元宝先把DeepSeek的后训练做好。彼时混元自己的预训练模型还没有ready,不少算法同学一开始不理解。

但姚顺雨认为,维护元宝这样的产品和DAU,对后续做模型和长期合作都很重要。所以当时其实很多同学也不理解,然后他需要去很努力地解释。但现在看起来,这些努力都是pay off。这样的一个动作,让产品和模型的同学意识到,模型的同学是真的在为产品着想。这个对于之后的合作,包括混元在元宝上成功的上线,起到了非常重要的作用。

姚顺雨说,做模型的目标和产品的目标有很多align的部分,也有很多不align的部分。模型的人希望能力越强越好,但产品的人希望用户的需求满足得越好。所以天然有很多不align的部分。很重要的一点就是要换位思考的能力。当然有很多技术的部分可以探讨,但可能最难的部分其实反而是怎么样去建立信任,怎么样换位思考。

9. AI时代做产品的范式变了,从“预制菜”变成开放式服务

汤道生认为,做产品的第一性原理没有变,最终还是奔着用户到底有什么需求,怎么去解决他的痛点,怎么给用户或者客户创造价值。在不同的时代,甚至不同的行业,做一个产品还是需要能够给用户带来价值,他才会买单,才会使用。

但是确实,在PC互联网、移动互联网时代做产品,跟今天在AI时代做产品,还是有蛮多不一样的地方。首先从范式的角度来看,在AI时代以前,做产品很多时候想的是通过功能来满足用户的需求。作为一个产品提供方、服务提供方,要想清楚提供怎样的能力,让用户可能通过界面、通过某些菜单去选择。这有点像预制菜,用户只能在里面点一样。

但是在AI时代做产品,它这种开放式的服务形态会带来很不一样的要求和挑战。用户通过简单的交互方式,可能是自然语言,可能是语音。作为产品方,你也不知道用户会问什么,所以要充分利用模型能力去理解用户的需求。然后,通过今天大模型的推理能力、调用工具的能力,产品给模型提供各种各样可以使用的工具,来应对这种开放式的需求。

汤道生说,今天AI时代做产品,对能力的要求更全面,也更难了。尤其今年,大部分代码都由AI生成。工程师可能会花更多时间去做设计、做架构设计,把写代码的工作交给AI,然后定期去指导一下、修正一下。测试也要左移,更前置地想清楚,针对各种案例、环境,以及对于开放式答案的一些要求,甚至alignment,怎么对齐用户所需要的风格。

10. 姚顺雨的博士论文在2019年就预见了今天,但他觉得自己“想的还是不够大”

姚顺雨透露,他重新读了自己的博士论文,感觉又回到了一个很远古的时代。他的博士论文的title叫做《Language Agent:from Next Token Prediction to Digital Automation》(语言智能体:从预测下一个Token到数字自动化)。那是2019年,七年前,那是GPT-2的时候,它当时只能做Next Token Prediction,而且它产生的可能一段话还不太连续,或者还有很多毛刺。所以当时人们是很难想象到,它会有一天成为一个改变世界的力量。

当时姚顺雨的想象力比较狂野。他觉得GPT是一个非常优美的东西,吐下一个token是一个非常极简且非常通用的事情。他觉得它有一天潜力不仅仅是在于吐下一个token,而是在于把这个世界上所有的事情全部automate。他当时想的是digital automation,但是现在看起来也有可能是digital and physical automation。

姚顺雨的博士期间主要做两部分。第一,如何建立一个Agent的方法论。如何把一个Next Token Prediction的机器变成一个Agent,变成一个自动化的机器。最重要的一篇工作可能是React。

他还记得22年7月份的时候,某一天晚上,当他第一次把当时是Palm 2的API和自己手写的一个Wikipedia的API连在一起,然后它第一次可以基于这个网页回答问题,并且多轮的交互的时候,他当时感觉就像微弱的电灯丝突然亮了的感觉一样。据他所知,可能这是第一次人类把LLM和真正的互联网连在一起,并且去做这种多轮的交互。

他当时的感觉这个可能在5年或者10年会改变这个世界。但是可能比想象中还要更快。包括当时第一次提出SWE-bench的时候,他觉得如果这个事情能做到,那很显然它会带来巨大的价值。当时可能是几百亿上千亿,但现在可能是数万亿,数十万亿,可能想的还是太小了。

第二,怎么去定义Digital Automation的任务。比如说WebShop是第一个基于互联网的Web Agent的task。然后包括InterCode和SWE-bench是最早的Coding Agent这样的任务。现在看起来Agent的基础最重要的两个部分,确实是Web的Agent和Coding的Agent。

姚顺雨说,他看博士论文的结尾,就是他在2024年的时候写的future work,第一个是train models for agent,第二个是safety and robust deployment,第三个是scientific discovery,第四个是怎么样去help human。他很感慨,说现在很幸运,确实在做当时列的future direction。可能想的还是不够大,当时已经觉得自己想的够大了,但可能还是不够大。

C

关于Agent

11. Agent与Coding Agent已成为模型公司的基础能力

姚顺雨认为,今天Agent,尤其Coding Agent,有点像预训练一样,是每家模型公司都不得不做的基础能力。Coding Agent之所以本质,是因为当模型能控制file system、拥有container时,它就接近一个complete system。

但他也强调,做好Coding Agent需要远远超过coding数据本身,还需要聊天、搜索、推理等综合能力。因为大模型最重要的点是泛化性。腾讯的做法会更强调体系全面化、线上回流,以及对新范式的探索。

姚顺雨提到,即使可能今天Coding Agent也是最重要的事情,但腾讯还是会强调体系的全面化。他始终认为,真的要把Coding Agent做好,其实需要的远远不止Coding Agent的数据。也需要聊天、指令遵循、推理,各种各样不同的东西。

第二,产品的作用越来越重要。如何利用好线上的回流,是一个每一个模型厂商都在应对和思考的问题。这里腾讯积累了很多Co-Design的这些经验会变得非常重要。

第三,还需要更多想象力。无论是技术的演进,还是产品的演进,还是甚至下一个范式的演进,腾讯还是需要做一些探索性的,甚至不确定性的工作。

12. 性价比的核心是performance,一次把简单任务做对比模型架构更重要

汤道生提到,从产品侧来看,大家越来越多有token焦虑的声音,token成本持续爆发式增长。很多客户,甚至用户,包括身边同事,也在紧盯积分消耗或者token消耗。怎么可以让模型在解决某个问题、完成某一个任务时,token效率最高?

姚顺雨认为,现在中国大家讨论性价比,可能更多讨论的是模型架构。但它其实是一个很复杂的体系。最重要的事情首先是performance。很多人跟他说,用一个更强的模型,有时候比用一个更弱的模型最后更省钱,因为你更快地把这个事情做对了,也省了人的精力。所以最重要的事情是performance。如果你的performance好,其实它就是性价比最关键的事情。

尤其今年,很多简单任务的鲁棒性会变得更加重要。如何一次把很多相对简单的任务做对,这可能是性价比更关键的部分,而不仅仅是模型架构。

第二部分是成本。成本本身也是性价比的一部分。第一是“性”,如果性能不好,性价比就很难成立。第二是“价”,也就是成本。成本上,中国其实是领先于世界的,腾讯做了大量工作去优化成本。

成本里,可能最重要的事情是,怎么用一个更小的模型,把更高价值的任务做好。在这个基础上,当然架构创新、长文管理、脚手架都有很多需要做的事情。但姚顺雨个人看法是,如果能做一个相对较小的模型,同时又能够比肩大模型的性能,而且在大部分任务上做到很强的robustness,这可能在很多长程的上面提升一两个点的提升,可能在今天的中国更有价值。

13. 不同场景的Agent需要不同的context,这是腾讯的优势

汤道生说,腾讯做的Agent,针对不同场景有不同的产品形态。在Agent设计上面,很大程度是发挥好模型能力,当然模型在迭代它能力越强Agent需要做的工作越来越少。腾讯好几个产品在过去这段时间是随着模型能力加强,可以把产品,把Agent做的更简化,更多的给模型提供更多不同的工具,创造更多的skills,来让模型能够更高效的去完成任务。

给模型提供更多的所谓记忆,用户过去使用一些习惯,能提取出来的一些用户preference的信息作为上下文。在Coding环境有相关的context给到模型,在Workbuddy里边办公协作,做个PPT,可能大家关注的内容或者该给到模型的context也会不一样。

所以在做不同的Agent,汤道生觉得更重要是了解场景下什么内容,什么信息,是重要的,比较relevant的,能够跟模型配合好,让模型有它需要的信息,同时也发挥它的能力。

14. AI时代的产品组织要更扁平化,每个工程师都是产品经理

汤道生透露,他前阵子在帮Workbuddy做一个组织发文,看了一下他们那个非常扁平化的组织,跟过去的其他产品组织架构有很大差异。更多小团队三个人五个人,可能围绕某一个领域来做攻坚,而且有很多试验在里面,还要支持Infra做实验,让不同的小分队可以去探索然后再验证。因为试验大部分拿不到正向反馈,也要包容团队去试错,这种通过大量试验去提炼出对于用户流程,对于想要的这个结果有正向帮助,这个是今天做Agent,做原生AI产品,这个组织形态要能够比较好去支撑。

另外,原来可能有很多工程师有很多时间花写代码,但是今天毫无疑问他们这些工作可以交给AI了。所以会看到更多角色的融合,大家都是产品经理,都要去了解透彻用户需求,以及设计出想要的产品形态。每一个工程师更像一个有想法的leader,驱动多个Coding Agent,针对想要的产品需求去做研发、开发。同时要参与评测、测试,比较前置,也用好AI能力,把这些质量保证工作,对齐工作要做到前面来。

15. 回应“腾讯AI慢了”,下半场刚刚开始,AI会是长期且多元的游戏

对于外界“腾讯慢了”的讨论,姚顺雨给出两个判断。

第一,AI是长期游戏,而不是短期游戏。在硅谷大家蔓延很多情绪,说两年后所有人都要失业,AI要取代所有人的工作,要赶快赚两年钱退休。但很显然腾讯的判断AI是一个长期游戏,其实AI刚开始,下半场才刚刚开始。姚顺雨不认为ChatGPT和Claude Code会是唯一的super App,他觉得那是一个非常灰暗的世界,肯定会有源源不断新的机会诞生。可能今天就像是70年代PC刚刚产生的时候,还有很多很多事情需要做。

第二,AI会变得更多元,而不是沿着单一主线前进。因为确实过去几年大家能看到的是Pre-training、post training,然后Agent,Coding Agent,似乎有一个非常清晰的主线,这个主线是所有人都在做一样的事情,都在copy,这也是非常灰暗的事情。但到底未来变得更单一还是更多元?姚顺雨个人看法会变得更多元,毫无疑问Coding Agent生产力会变得更加重要,但这个世界还有很多空间没有被填满,多模态、具身智能,很多很多新的事情都在发生,或者刚刚发生。

所以从这个角度来说,如果认为下半场刚刚开始,可能确实不是完了。过去模型、产品做了很多探索,走很多弯路,姚顺雨觉得这是正常的,如果没有做过一个事情,第一次做肯定有曲折。但可能更重要的事情是能不能诚实面对自己,能不能Be Real,能不能够去看到feedback然后去改变,能不能够保持耐心,这个事情是下半场最重要的事情。

汤道生也回应说,大家对于腾讯经常喜欢挑某一个点来批评,当然腾讯也很欢迎大家给更高的要求。腾讯是一个非常多业态的公司,有很多产品分布在很多的赛道,同时也有很多的团队在推进不同的项目、事情。所以毫无疑问,在这样一个复杂的组织里面有一些地方可能做得快了,有的地方做得慢了,有一些地方可能会做失败,在探索。所以这些提醒都非常好,确实有一些地方可以做得更好。

但就像姚顺雨说的,这是一个长跑,这是一个马拉松,腾讯还是有非常丰富的场景。就姚顺雨一开始提到选择腾讯,因为AI需要Context,模型需要很多的这些上下文,其实腾讯在过去多年不同产品,在不同赛道的这些积累,其实都是可以针对每一个场景去为模型提供有用的信息,提供这些Context来发挥价值。

在这样一个长跑,汤道生相信模型会不断迭代,用户的需求也在不断变化,也会有新的产品形态出现。比如说今年年初对Agent这一波热潮也反应比较快。同时也有像WorkBuddy这样的智能体产品,其实也是几年前开始做的产品,沿着原来做Coding、CodeBuddy,慢慢看到非程序员也有很强的需求,也能比较快去应对,今天也听到很多客户对于不同产品怎么去组合起来有非常高的期待。

特别声明:本文为合作媒体授权DoNews专栏转载,文章版权归原作者及原出处所有。文章系作者个人观点,不代表DoNews专栏的立场,转载请联系原作者及原出处获取授权。(有任何疑问都请联系idonews@donews.com)

Copyright © DoNews 2000-2026 All Rights Reserved
京ICP备2025120072号