撰文 | 雁 秋
编辑 | 李信马
题图 | 腾讯
前两年,关于具身智能的声音寥寥无几,大模型还处在“百模大战”的阶段。而今年的世界人工智能大会(WAIC)上,各种「张牙舞爪」的机器人被观众围得水泄不通,大模型也呈现出一条非常清晰的产业路径:聚焦深度落地。
如果说过去谈的是怎么训练、怎么降本、怎么提速,那么,接下来谁能先把大模型真正装进用户的日常里,谁才是赢家。
作为连续八年参加WAIC的老牌大厂,腾讯发布了混元3D世界模型、具身智能开放平台Tairos(钛螺丝)等AI最新成果,并带来了智能体开发平台等产品的全新升级。
这是腾讯首次向外界展示以「1+3+N」架构建立的AI应用全景图:
这套“1+3+N”全景体系,以腾讯自研混元大模型为核心引擎,构建了涵盖平台能力与多元应用的完整架构,覆盖从面向B、C端的智能体开发平台,到面向机器人领域的腾讯具身智能开放平台,以及分布在多个行业场景中的丰富AI应用与智能体产品矩阵。
腾讯目的是打造“好用的AI”,让AI真正“触手可及”——不仅服务于B端企业的效率提升,更成为C端用户的“数字好友”。
01、一句话、一张图生成3D世界模型
自2023年9月首次发布以来,目前腾讯混元大模型已经从语言模型迅速扩展到多模态、具身智能。
在WAIC2025,混元多模态AI模型矩阵集中亮相。另外,DoNews记者看到有各个年龄段的观众体验腾讯元宝视频聊天、选择两个关键词就能创作三维模,数字飞行模拟舱的门前总是围满了小朋友。
腾讯发布并开源的混元3D世界模型1.0成为焦点,该模型加入了全景视觉生成与分层3D重建等技术,一句话或一张图就能生成可360°漫游、交互、仿真的虚拟世界。
官方展示了几个例子,比如,上传一张画着一棵树、一艘船以及几栋建筑的原始图片,就能够快速生成一个包含小树、大海、蓝天白云、城镇等丰富要素的海滨小镇。
DoNews记者尝试体验了一把,比如输入「全息广告牌映照着湿漉漉的街道,远处巨大的数字鲸鱼在游动」, 就会生成如下效果如。无论是作为主体的广告牌、鲸鱼,还是周围的光线、环境等元素,构筑得都较为完整。
360°全景效果图
若输入「金红色的枫叶飘落在镜面般的湖水上,倒映着远处的雪山」,一张包括雪山、湖水、枫叶元素的效果图就出来了:
360°全景效果图
按照腾讯官方的说法,混元3D世界模型能实现上述效果,核心在于其创新的「语意层次化3D场景表征及生成算法」。就算你是不会建模的普通用户,也可用混元3D创作引擎快速生成360°沉浸式视觉空间,然后直接导入主流的VR虚拟头显设备内,能大幅缩短内容生产周期。
据介绍,目前,腾讯混元大模型已实现图像、视频、3D、文本等在内的全模态开源,图像、视频衍生模型数量分别达到1400个和1600个,混元3D系列模型社区下载量超过230万,已成为全球最受欢迎的3D开源模型。
02、国内首个“模块化”具身智能平台
“你能不能把笔记本递到我手里?”
“抱歉,我现在的双手是假的,是一幅手套,无法帮您完成这个任务。”
“晚上我们能不能一起喝一杯,庆祝一下?”
“我晚上还要加班呢,不聊不聊!”
在2015WAIC腾讯论坛上,腾讯首席科学家、Robotics X实验室主任张正友和宇树机器人G1的对话引起现场观众阵阵欢笑。最直观的感觉是,台上这位机器人可以自然流畅地向人一样地说话、交流,甚至还有自己的想法。
据了解,G1的回答是即兴生成,并非预设程序。原因在于其搭载了腾讯Robotics X最新发布的具身智能平台Tairos(钛螺丝),有语音对话、环境感知和行动决策能力。
除了宇树机器人之外,越疆科技、乐聚机器人、帕西尼感知科技等也成为首批接入Tairos的厂商。在本次WAIC,DoNews看到宇树人形机器人G1可以给到场观众当“导游”;人居环境机器人“小五”不仅可以听懂人类的语言,还能跟现场观众拥抱;越疆的机械臂X-Trainer通“动动嘴就让机器人给你做好饭”。
据了解,腾讯从2024年年底开始规划Tairos,团队认真调研了行业,接触过60多家机器人企业后发现,中国大量的机器人企业可以把硬件做得很好,但在软件能力上还需要补齐。
市场需求让腾讯看到了机会,这也是Tairos诞生的初衷。Tairos成为了国内首个以模块化的方式提供大模型、开发工具和数据服务的具身智能软件平台。
所谓模块化,即可以根据自身需求,选用感知模型模块或规划大模型。换句话理解,Tairos对于机器人就如同手机对于鸿蒙,开发者可以在这个平台上自由组合创新。
腾讯对Tairos的定位是,为机器人本体开发商与应用开发商补齐关键的软件能力。腾讯希望成为所有机器人厂商的合作伙伴,而不是取而代之做硬件。
03、智能体与大模型并非“非此即彼”
随着基础大模型“推理能力”的质变,今年年初起,Agent(智能体)从概念空降到产业。
相比依赖单一的模型,越来越多的企业更偏向构建拥有多种能力的智能体,一个模型不仅能够生成文本,还能理解图像,甚至生成图像,或者处理音频等。
到目前为止,打造一个Agent对于很多头部科技公司已经不是问题,但要打造出一个既实用又能高效解决业务流中问题的智能体,依旧需要深入探讨。
在平台工具与生态建设上,腾讯选择了覆盖B端与C端的“双平台”智能体体系。
腾讯云副总裁、腾讯云智能负责人、腾讯优图实验室负责人吴运声接受采访时表示,B端需要企业级的保障,会更严谨,C端则更注重用户生态搭建,“这两套产品虽面向不同人群,但底层共享同一个平台能力栈,实现了开发、运行、分发的一体化协同。”
面向B端企业,“腾讯云智能体开发平台”支持零代码构建与数据库对接,实现多Agent协同执行。面向C端用户,“腾讯元器”也做出了升级,可接入公众号、微信生态与文档资源,支持矩阵号分发。
鹅厂的企业级AI产品体系正在变得越来越完整,这些更新也意味着腾讯的产品能力被进一步补齐。
不过,智能体以极快的速度成为标配,大模型的风头似乎要被取代。针对外界关注的“智能体是否会取代行业大模型”这一问题,吴运声在接受采访时明确表示,技术的演进并非“非此即彼”的替代关系,而是服务于产业需求的持续迭代与深化。
比起智能体数量的增长,腾讯更关注的是如何将大模型、智能体技术真正融入企业的业务流程,以满足企业的真实业务需求。