杭州群核科技近日发布空间大模型,聚焦室内场景,突破行业核心痛点“空间一致性”。
近期3D内容生成模型快速发展,包括谷歌Genie 3、World Labs、混元、昆仑等纷纷推出世界模型。群核科技作为杭州“六小龙”之一,选择了一条与众不同的路径——深耕室内场景,并直指行业核心痛点「空间一致性」。
当前视频生成到AI短剧过程中,令人出戏的空间穿帮、扭曲视角和断裂逻辑屡见不鲜,往往需要反复调教才能勉强可用。空间一致性已成为横亘在虚拟世界与现实世界之间的最大技术壁垒。
主流技术路线分为两类:一类是以Genie 3为代表的“视频生成派”,虽能生成动态交互内容,但本质仍是二维序列的仿真,难以从根本上保证三维空间的视角与结构一致性;另一类则是以World Labs、混元为代表的“3D场景生成派”,虽能实现360度漫游,却受限于高质量3D数据的匮乏,时常在视角切换中出现场景崩坏、内容穿帮问题。
群核的空间大模型致力于突破当前模型遇到的这些挑战。它不仅在三维空间的视角一致性上表现可靠,其漫游自由度和真实感上也更具优势。
空间大模型是AI从数字世界走向物理世界的关键。李飞飞曾将空间智能的理论框架分为四个维度:空间认知理解、空间推理、空间交互行为与空间生成。当前大模型主要局限于文本、图像等二维交互领域,但在三维空间操作方面仍有距离。
群核科技的空间大模型具备三个特点:真实感全息漫游场景、可交互性以及复杂空间处理能力。此次开源的两个子模型——空间语言模型SpatialLM1.5和空间生成模型SpatialGen是最佳例证。
SpatialGen基于扩散模型架构,可根据文字描述、参考图像和3D空间布局生成具有时空一致性的多视角图像,采用全新3D高斯重建技术还原3D场景。用户可以四处走动,仿佛置身其中。
SpatialLM1.5首次定义了空间语言这一概念。传统自然语言模型用自然语言描述图中内容,而空间语言则用坐标轴描述每个物体的空间位置、形状、姿态及物理属性等,使模型既能支持精准的空间生成与编辑,又能为机器人处理复杂任务提供支持。
测试表明,GPT-5在理解空间信息后生成家具摆放仍存在明显问题,而SpatialLM1.5能基于自然语言生成符合“适合老人居住”要求的三维空间家具布局。
群核坦言,空间大模型仍处于较早期阶段,相当于GPT-2阶段。当前面临三大挑战:数据稀缺性与获取成本高企,场景复杂度高导致空间语义理解难度大,以及交互需求复杂导致任务泛化能力不足。
为应对挑战,群核提出「三位一体」技术战略,包括空间编辑工具、空间合成数据和空间大模型,形成正向循环闭环。公司打造了全球最大空间设计平台COOHOM及InteriorNet数据集,包含超过4.41亿个3D模型和超过5亿个结构化3D空间场景。
基于此技术飞轮,群核解决了空间一致性问题、机器人训练问题,并构建了全新可控视频生成工具,基于SpatialGen、自研渲染引擎KooEngine与DIT架构视频生成模型深度融合。
空间智能领域正处“前爆发期”,群核代表的原生空间智能路线深耕三维空间,尤其是室内场景,致力于构建具有精确几何、物理属性和语义关系的数字孪生空间。
尽管方向各异,整个领域仍面临共通挑战:室内数据稀缺与高成本、场景语义理解复杂性、开放交互任务泛化能力不足。群核选择将模型开源,吸引研究者、开发者参与,共同应对行业挑战。
群核今年3月开源的SpatialLM 1.0版本迅速登上Hugging Face趋势榜前三,已有初创企业基于其代码和架构训练出自有模型。通过开源,群核将带动行业构建以“空间语言”为核心的标准和生态,加速空间智能演进。
作为“杭州六小龙”之一,群核科技正在打造一个面向空间智能开发和落地的平台,与宇树科技、DeepSeek等其他技术驱动平台型公司共同推动产业发展。
免责声明:本文内容由开放的智能模型自动生成,仅供参考。