苹果研究团队开发出适配版 SlowFast-LLaVA 模型,在长视频分析理解任务上表现优异。
该模型采用双流架构优化视频处理效率,慢流以低帧率捕捉场景细节,快流以高帧率追踪动作变化,有效减少信息冗余并缓解上下文窗口溢出问题。其 10 亿、30 亿和 70 亿参数版本在 LongVideoBench 等长视频基准测试中取得领先成绩,其中 10 亿参数模型在 General VideoQA 任务中得分 56.6,70 亿参数模型在 Long-Form Video Understanding 任务中得分 71.5,并在图像理解任务如知识推理、OCR 等方面展现优势。
当前模型输入帧长限制为 128 帧,可能影响部分关键帧识别。团队表示将研究内存优化技术以提升模型性能。该模型基于公开数据集训练并开源。
免责声明:本文内容由开放的智能模型自动生成,仅供参考。