面壁智能开源MiniCPM-V 4.5,首个多模态“高刷”视频理解模型问世

面壁智能近日发布开源多模态模型MiniCPM-V 4.5,成为业内首个具备“高刷”视频理解能力的多模态大模型。该模型通过3D-Resampler结构提升视频帧处理密度,相较传统1fps抽帧方式,可接收6倍帧数,实现96倍视觉压缩率。

MiniCPM-V 4.5在MotionBench、FavorBench等榜单中达到同尺寸SOTA水平,性能超越Qwen2.5-VL 72B。在OpenCompass测评中,其图像理解能力领先GPT-4o、Gemini-2.0-Pro等模型。视频理解方面,MiniCPM-V 4.5在LVBench、LongVideoBench等榜单表现优异,文档解析能力也在OmniDocBench中取得同级最佳。此外,模型支持常规与深度思考两种模式,兼顾性能与推理效率。

最新文章
Copyright © DoNews 2000-2025 All Rights Reserved
蜀ICP备2024059877号-1