阿里通义千问发布Qwen2.5-VL：多尺寸视觉语言模型开源- DoNews

DoNews > 公司新闻 > 阿里通义千问发布Qwen2.5-VL：多尺寸视觉语言模型开源

阿里通义千问发布Qwen2.5-VL：多尺寸视觉语言模型开源

2025-01-28 07:58:01

阿里通义千问今日宣布，正式开源其最新的视觉理解模型Qwen2.5-VL，推出3B、7B和72B三个版本。作为Qwen模型家族的旗舰产品，Qwen2.5-VL在多个领域展现出卓越性能。

该模型不仅能够识别常见物体如花、鸟、鱼和昆虫，还能分析图像中的文本、图表、图标、图形和布局。此外，Qwen2.5-VL具备作为视觉Agent的能力，可推理并动态使用工具，初步实现电脑和手机操作。它还能够理解长视频，并通过精准定位相关片段捕捉事件。

Qwen2.5-VL支持结构化输出，适用于发票、表单等数据处理，特别适合金融和商业领域。测试结果显示，Qwen2.5-VL-72B-Instruct在大学水平问题、数学、文档理解、视觉问答等多个基准测试中表现出色，而较小的7B和3B版本也在多项任务中超越了同类模型。

官方表示，Qwen2.5-VL增强了时间和空间感知能力，简化网络结构以提高效率，未来将整合更多模态，向综合全能模型迈进。

免责声明：本文内容由开放的智能模型自动生成，仅供参考。

《以法之名》，以声破局｜董晴的「张文菁时刻」十年沉淀，演员董晴的坡垒时刻。

投诉不断、课程质量存疑，十方融海被“抛弃”？其面临严峻挑战。

荣耀 Earbuds开放式耳机图赏：国补到手价594.15元荣耀发布Earbuds开放式耳机，重7.9g，支持双低音算法与降噪，售价594元起，续航达22小时，功能丰富。

荣耀手表 5 Ultra图赏：15天续航，国补到手1699.2元荣耀手表 5 Ultra采用一块1.5英寸466×466圆形OLED屏幕（支持AOD），提供指挥官、纵横家、极速者三种风格款式

黄仁勋链博会致辞：中国开源AI是推动全球进步的催化剂黄仁勋表示AI正重塑供应链及生产方式，中国开源AI推动全球进步，未来十年AI与机器人将驱动工厂智能化。

马斯克旗下企业推出AI女友，月费30美元 Grok推出AI伴侣功能，提供个性角色互动体验。

抖音加码酒旅投入亿级补贴推订房优惠抖音生活服务投入亿级补贴，推出酒店日历房团购、直播特惠券等活动，联合多家酒店集团提供6折起优惠及会员权益叠加。

传深圳众擎机器人停产？官方回应众擎机器人回应生产停滞传闻，称正加速产能爬坡，招聘全面展开，并将定期公开进展。

关于我们| 电子协议| 合作联系| 蜀ICP备2024059877号-1

网站信息

Copyright © DoNews 2000-2025 All Rights Reserved
蜀ICP备2024059877号-1
联系地址：北京市海淀区宝盛东路兴华绿色产业楼3层307室（东升地区）
邮箱：jubao@infinities.com.cn
网上有害信息举报专区: www.12377.cn

Copyright © DoNews 2000-2025 All Rights Reserved
蜀ICP备2024059877号-1

京公网安备11010802023059号