“家里的扫地机器人每天都在画地图,却还是会撞翻客厅的花架”—— 这是很多家庭都遇到过的日常场景,看似是小问题,实则暴露了当前 AI 行业的核心短板:绝大多数 AI 工具仅具备 2D 感知能力,缺乏对 3D 空间结构、物理关系的认知与推演能力。近日,群核科技在首届 TechDay 上发布其空间大模型最新成果,正是要为 AI 补上 “3D 认知” 这一课,从根源上解决这类行业痛点。
据了解,群核科技本次发布的空间大模型主要包含:新一代空间语言模型SpatialLM 1.5与空间生成模型SpatialGen。作为业界首个专注于3D室内场景认知与生成的大模型体系,群核空间大模型在真实感全息漫游、结构化可交互以及复杂室内场景处理方面展现出显著优势。
在传统 AI 体系中,无论是文生图工具还是视频生成工具,都依赖 2D 图像或视频数据训练,无法理解 “物体在三维空间中的真实位置与关系”。比如,AI 生成室内场景图时,可能会出现 “沙发飘在半空”“餐桌穿透墙体” 的逻辑错误。这些问题的本质,是 AI 没有 “三维因果引擎”,无法像人类一样理解空间规律。解决这一问题的关键在于赋予AI真正的空间理解和认知能力,并且在此基础上具备交互行为。
群核科技此次发布的SpatialLM 1.5是一款基于大语言模型训练的空间语言模型,支持用户通过对话交互系统SpatialLM-Chat进行可交互场景的端到端生成。相比于传统大语言模型对物理世界几何与空间关系的理解局限,SpatialLM 1.5不仅能理解文本指令,还能输出包含空间结构、物体关系、物理参数的“空间语言”。这些物理正确的可交互三维场景,是训练AI“理解空间”的关键,可有效用于机器人训练场景。
图说:空间语言模型SpatialLM1.5能力示意图
现场,群核科技首席科学家周子寒演示了机器人养老场景的应用,当输入“去客厅餐桌拿药”这一指令后,该模型不仅通过模型理解老人房间的布局和相关物体对象,还调用工具自动规划出最优行动路径,展示了机器人在复杂家庭环境中执行任务的潜力。
图说:群核科技首席科学家,周子寒分享 摄影人/黄航
值得一提的是,其前代版本 SpatialLM 1.0 今年3月开源后,迅速登上Hugging Face趋势榜前三,目前已有初创企业基于其代码和架构训练出自有模型,验证了开源模式的技术辐射力。
不止于模型,群核科技也在持续开源数据集,今年7月份,群核科技还曾开源3D高斯语义数据集InteriorGS和3D数据集InteriorAgent,其中InteriorGS是全球首个适用于智能体自由运动的大规模3D数据集,发布后登上HuggingFace数据集趋势榜榜首。群核科技联合创始人兼董事长黄晓煌表示,“开源是我们战略的重要关键词之一。我们希望通过开源推动全球空间智能技术快速前进,成为全球空间智能服务提供商,推动属于空间大模型的‘DeepSeek时刻’尽快来临。”
声明:本站转载此文目的在于传递更多信息,并不代表赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题,请在30日内与本网联系,我们将在第一时间删除内容,本网站对此声明具有最终解释权。



