苹果开源SlowFast-LLaVA-1.5模型,刷新多项视频理解纪录

苹果研究团队近日开源了SlowFast-LLaVA-1.5长视频多模态大语言模型,该模型在1B至7B参数规模下,均刷新了LongVideoBench和MLVU等多项基准测试的最高纪录。

当前视频理解模型普遍存在依赖长上下文窗口、训练复杂及图像理解能力弱等局限。苹果采用创新双流架构,通过“慢流”捕捉细节、“快流”追踪动态,显著提升了处理效率。该模型支持128帧灵活配置,在降低计算需求的同时,兼顾了视频与图像的通用理解能力。

项目基于公开数据集训练,已在GitHub和Hugging Face开放下载,为学术与产业应用提供了可靠基础。

最新文章
Copyright © DoNews 2000-2026 All Rights Reserved
蜀ICP备2024059877号-1