Meta联合推出Multi-SpatialMLLM模型,突破多模态空间理解瓶颈

Meta公司与香港中文大学合作,近日推出Multi-SpatialMLLM模型,通过整合深度感知、视觉对应和动态感知三大组件,显著提升了多模态大语言模型(MLLMs)的空间理解能力。该模型依托超过2700万样本的MultiSPA数据集,涵盖多样化的3D和4D场景,并利用GPT-4o生成任务模板,有效解决了传统模型在动态信息处理上的局限。

测试数据显示,Multi-SpatialMLLM在MultiSPA基准测试中性能平均提升36%,部分任务准确率达80-90%。此外,在BLINK基准测试中,其准确率接近90%,远超专有系统。该模型在提升空间推理能力的同时,保持了原有视觉问答任务的性能,展现出强大的通用性。

最新文章
Copyright © DoNews 2000-2025 All Rights Reserved
蜀ICP备2024059877号-1