阿里通义千问今日宣布,正式开源其最新的视觉理解模型Qwen2.5-VL,推出3B、7B和72B三个版本。作为Qwen模型家族的旗舰产品,Qwen2.5-VL在多个领域展现出卓越性能。
该模型不仅能够识别常见物体如花、鸟、鱼和昆虫,还能分析图像中的文本、图表、图标、图形和布局。此外,Qwen2.5-VL具备作为视觉Agent的能力,可推理并动态使用工具,初步实现电脑和手机操作。它还能够理解长视频,并通过精准定位相关片段捕捉事件。
Qwen2.5-VL支持结构化输出,适用于发票、表单等数据处理,特别适合金融和商业领域。测试结果显示,Qwen2.5-VL-72B-Instruct在大学水平问题、数学、文档理解、视觉问答等多个基准测试中表现出色,而较小的7B和3B版本也在多项任务中超越了同类模型。
官方表示,Qwen2.5-VL增强了时间和空间感知能力,简化网络结构以提高效率,未来将整合更多模态,向综合全能模型迈进。
免责声明:本文内容由开放的智能模型自动生成,仅供参考。