从3D创作到具身智能Tairos，鹅厂瞄准AI“全家桶”- DoNews

撰文 | 雁秋

编辑 | 李信马

题图 | 腾讯

前两年，关于具身智能的声音寥寥无几，大模型还处在“百模大战”的阶段。而今年的世界人工智能大会（WAIC）上，各种「张牙舞爪」的机器人被观众围得水泄不通，大模型也呈现出一条非常清晰的产业路径：聚焦深度落地。

如果说过去谈的是怎么训练、怎么降本、怎么提速，那么，接下来谁能先把大模型真正装进用户的日常里，谁才是赢家。

作为连续八年参加WAIC的老牌大厂，腾讯发布了混元3D世界模型、具身智能开放平台Tairos（钛螺丝）等AI最新成果，并带来了智能体开发平台等产品的全新升级。

这是腾讯首次向外界展示以「1+3+N」架构建立的AI应用全景图：

这套“1+3+N”全景体系，以腾讯自研混元大模型为核心引擎，构建了涵盖平台能力与多元应用的完整架构，覆盖从面向B、C端的智能体开发平台，到面向机器人领域的腾讯具身智能开放平台，以及分布在多个行业场景中的丰富AI应用与智能体产品矩阵。

腾讯目的是打造“好用的AI”，让AI真正“触手可及”——不仅服务于B端企业的效率提升，更成为C端用户的“数字好友”。

01、一句话、一张图生成3D世界模型

自2023年9月首次发布以来，目前腾讯混元大模型已经从语言模型迅速扩展到多模态、具身智能。

在WAIC2025，混元多模态AI模型矩阵集中亮相。另外，DoNews记者看到有各个年龄段的观众体验腾讯元宝视频聊天、选择两个关键词就能创作三维模，数字飞行模拟舱的门前总是围满了小朋友。

腾讯发布并开源的混元3D世界模型1.0成为焦点，该模型加入了全景视觉生成与分层3D重建等技术，一句话或一张图就能生成可360°漫游、交互、仿真的虚拟世界。

官方展示了几个例子，比如，上传一张画着一棵树、一艘船以及几栋建筑的原始图片，就能够快速生成一个包含小树、大海、蓝天白云、城镇等丰富要素的海滨小镇。

DoNews记者尝试体验了一把，比如输入「全息广告牌映照着湿漉漉的街道，远处巨大的数字鲸鱼在游动」，就会生成如下效果如。无论是作为主体的广告牌、鲸鱼，还是周围的光线、环境等元素，构筑得都较为完整。

360°全景效果图

若输入「金红色的枫叶飘落在镜面般的湖水上，倒映着远处的雪山」，一张包括雪山、湖水、枫叶元素的效果图就出来了：

360°全景效果图

按照腾讯官方的说法，混元3D世界模型能实现上述效果，核心在于其创新的「语意层次化3D场景表征及生成算法」。就算你是不会建模的普通用户，也可用混元3D创作引擎快速生成360°沉浸式视觉空间，然后直接导入主流的VR虚拟头显设备内，能大幅缩短内容生产周期。

据介绍，目前，腾讯混元大模型已实现图像、视频、3D、文本等在内的全模态开源，图像、视频衍生模型数量分别达到1400个和1600个，混元3D系列模型社区下载量超过230万，已成为全球最受欢迎的3D开源模型。

02、国内首个“模块化”具身智能平台

“你能不能把笔记本递到我手里？”

“抱歉，我现在的双手是假的，是一幅手套，无法帮您完成这个任务。”

“晚上我们能不能一起喝一杯，庆祝一下？”

“我晚上还要加班呢，不聊不聊！”

在2015WAIC腾讯论坛上，腾讯首席科学家、Robotics X实验室主任张正友和宇树机器人G1的对话引起现场观众阵阵欢笑。最直观的感觉是，台上这位机器人可以自然流畅地向人一样地说话、交流，甚至还有自己的想法。

据了解，G1的回答是即兴生成，并非预设程序。原因在于其搭载了腾讯Robotics X最新发布的具身智能平台Tairos（钛螺丝），有语音对话、环境感知和行动决策能力。

除了宇树机器人之外，越疆科技、乐聚机器人、帕西尼感知科技等也成为首批接入Tairos的厂商。在本次WAIC，DoNews看到宇树人形机器人G1可以给到场观众当“导游”；人居环境机器人“小五”不仅可以听懂人类的语言，还能跟现场观众拥抱；越疆的机械臂X-Trainer通“动动嘴就让机器人给你做好饭”。

据了解，腾讯从2024年年底开始规划Tairos，团队认真调研了行业，接触过60多家机器人企业后发现，中国大量的机器人企业可以把硬件做得很好，但在软件能力上还需要补齐。

市场需求让腾讯看到了机会，这也是Tairos诞生的初衷。Tairos成为了国内首个以模块化的方式提供大模型、开发工具和数据服务的具身智能软件平台。

所谓模块化，即可以根据自身需求，选用感知模型模块或规划大模型。换句话理解，Tairos对于机器人就如同手机对于鸿蒙，开发者可以在这个平台上自由组合创新。

腾讯对Tairos的定位是，为机器人本体开发商与应用开发商补齐关键的软件能力。腾讯希望成为所有机器人厂商的合作伙伴，而不是取而代之做硬件。

03、智能体与大模型并非“非此即彼”

随着基础大模型“推理能力”的质变，今年年初起，Agent（智能体）从概念空降到产业。

相比依赖单一的模型，越来越多的企业更偏向构建拥有多种能力的智能体，一个模型不仅能够生成文本，还能理解图像，甚至生成图像，或者处理音频等。

到目前为止，打造一个Agent对于很多头部科技公司已经不是问题，但要打造出一个既实用又能高效解决业务流中问题的智能体，依旧需要深入探讨。

在平台工具与生态建设上，腾讯选择了覆盖B端与C端的“双平台”智能体体系。

腾讯云副总裁、腾讯云智能负责人、腾讯优图实验室负责人吴运声接受采访时表示，B端需要企业级的保障，会更严谨，C端则更注重用户生态搭建，“这两套产品虽面向不同人群，但底层共享同一个平台能力栈，实现了开发、运行、分发的一体化协同。”

面向B端企业，“腾讯云智能体开发平台”支持零代码构建与数据库对接，实现多Agent协同执行。面向C端用户，“腾讯元器”也做出了升级，可接入公众号、微信生态与文档资源，支持矩阵号分发。

鹅厂的企业级AI产品体系正在变得越来越完整，这些更新也意味着腾讯的产品能力被进一步补齐。

不过，智能体以极快的速度成为标配，大模型的风头似乎要被取代。针对外界关注的“智能体是否会取代行业大模型”这一问题，吴运声在接受采访时明确表示，技术的演进并非“非此即彼”的替代关系，而是服务于产业需求的持续迭代与深化。

比起智能体数量的增长，腾讯更关注的是如何将大模型、智能体技术真正融入企业的业务流程，以满足企业的真实业务需求。