杭州群核科技发布空间大模型突破技术壁垒- DoNews

杭州群核科技近日发布空间大模型，聚焦室内场景，突破行业核心痛点“空间一致性”。

近期3D内容生成模型快速发展，包括谷歌Genie 3、World Labs、混元、昆仑等纷纷推出世界模型。群核科技作为杭州“六小龙”之一，选择了一条与众不同的路径——深耕室内场景，并直指行业核心痛点「空间一致性」。

当前视频生成到AI短剧过程中，令人出戏的空间穿帮、扭曲视角和断裂逻辑屡见不鲜，往往需要反复调教才能勉强可用。空间一致性已成为横亘在虚拟世界与现实世界之间的最大技术壁垒。

主流技术路线分为两类：一类是以Genie 3为代表的“视频生成派”，虽能生成动态交互内容，但本质仍是二维序列的仿真，难以从根本上保证三维空间的视角与结构一致性；另一类则是以World Labs、混元为代表的“3D场景生成派”，虽能实现360度漫游，却受限于高质量3D数据的匮乏，时常在视角切换中出现场景崩坏、内容穿帮问题。

群核的空间大模型致力于突破当前模型遇到的这些挑战。它不仅在三维空间的视角一致性上表现可靠，其漫游自由度和真实感上也更具优势。

空间大模型是AI从数字世界走向物理世界的关键。李飞飞曾将空间智能的理论框架分为四个维度：空间认知理解、空间推理、空间交互行为与空间生成。当前大模型主要局限于文本、图像等二维交互领域，但在三维空间操作方面仍有距离。

群核科技的空间大模型具备三个特点：真实感全息漫游场景、可交互性以及复杂空间处理能力。此次开源的两个子模型——空间语言模型SpatialLM1.5和空间生成模型SpatialGen是最佳例证。

SpatialGen基于扩散模型架构，可根据文字描述、参考图像和3D空间布局生成具有时空一致性的多视角图像，采用全新3D高斯重建技术还原3D场景。用户可以四处走动，仿佛置身其中。

SpatialLM1.5首次定义了空间语言这一概念。传统自然语言模型用自然语言描述图中内容，而空间语言则用坐标轴描述每个物体的空间位置、形状、姿态及物理属性等，使模型既能支持精准的空间生成与编辑，又能为机器人处理复杂任务提供支持。

测试表明，GPT-5在理解空间信息后生成家具摆放仍存在明显问题，而SpatialLM1.5能基于自然语言生成符合“适合老人居住”要求的三维空间家具布局。

群核坦言，空间大模型仍处于较早期阶段，相当于GPT-2阶段。当前面临三大挑战：数据稀缺性与获取成本高企，场景复杂度高导致空间语义理解难度大，以及交互需求复杂导致任务泛化能力不足。

为应对挑战，群核提出「三位一体」技术战略，包括空间编辑工具、空间合成数据和空间大模型，形成正向循环闭环。公司打造了全球最大空间设计平台COOHOM及InteriorNet数据集，包含超过4.41亿个3D模型和超过5亿个结构化3D空间场景。

基于此技术飞轮，群核解决了空间一致性问题、机器人训练问题，并构建了全新可控视频生成工具，基于SpatialGen、自研渲染引擎KooEngine与DIT架构视频生成模型深度融合。

空间智能领域正处“前爆发期”，群核代表的原生空间智能路线深耕三维空间，尤其是室内场景，致力于构建具有精确几何、物理属性和语义关系的数字孪生空间。

尽管方向各异，整个领域仍面临共通挑战：室内数据稀缺与高成本、场景语义理解复杂性、开放交互任务泛化能力不足。群核选择将模型开源，吸引研究者、开发者参与，共同应对行业挑战。

群核今年3月开源的SpatialLM 1.0版本迅速登上Hugging Face趋势榜前三，已有初创企业基于其代码和架构训练出自有模型。通过开源，群核将带动行业构建以“空间语言”为核心的标准和生态，加速空间智能演进。

作为“杭州六小龙”之一，群核科技正在打造一个面向空间智能开发和落地的平台，与宇树科技、DeepSeek等其他技术驱动平台型公司共同推动产业发展。

免责声明：本文内容由开放的智能模型自动生成，仅供参考。