阿里云Qwen 2.5-Max大模型在国际盲测中名列前茅- DoNews快讯

DoNews > 快讯 > 阿里云Qwen 2.5-Max大模型在国际盲测中名列前茅

阿里云Qwen 2.5-Max大模型在国际盲测中名列前茅

2025-02-05 18:55:02

317681

1月29日新年之际，阿里云发布了其最新的通义千问 Qwen 2.5-Max 超大规模 MoE 模型。该模型在多个基准测试中表现卓越，特别是在 Chatbot Arena 大模型盲测中，以1332分位列全球第七名，成为非推理类中国大模型的冠军。

Qwen 2.5-Max 在数学和编程等单项能力上排名第一，在硬提示（Hard prompts）方面排名第二。此外，在 Arena-Hard、LiveBench、LiveCodeBench、GPQA-Diamond 及 MMLU-Pro 等主流基准测试中，Qwen 2.5-Max 的表现比肩甚至超越了 GPT-4o、DeepSeek-V3 和 Llama-3.1-405B 等竞品。

Chatbot Arena 是由 LMSYS Org 推出的大模型性能测试平台，集成190多种模型，采用匿名方式让用户进行盲测并投票，因此被视为业界最公正、最权威的榜单之一。阿里云此次的成绩彰显了其在大模型领域的技术实力和创新能力。

免责声明：本文内容由开放的智能模型自动生成，仅供参考。

古偶编剧“厕点”频出，谁在背锅谁在隐身？话语权为0的古偶编剧，是最大“背锅侠”吗？

大麦娱乐MSCI ESG评级跃升至AAA级，为全球媒体娱乐行业最高评级连续四年评级跃升

苹果回应少数 iPhone 意外呼出电话情况，iOS 26.3 已修复苹果承认iOS 26双SIM机型存在意外呼出电话缺陷，系未选SIM卡且设备闲置所致，已在iOS 26.3修复，建议用户升级。

亚盛医药-B双引擎驱动高增长，耐立克销售同比大增81% 亚盛医药2025年营收5.74亿元，耐立克销售额4.35亿元（+81%），利生妥上市5个月售7058万元；两大产品驱动增长，多项III期临床获美欧监管许可。

菜鸟计划在欧洲开设多个专业品类仓，德国电池专仓已投入运营菜鸟在德国曼海姆启用欧洲首个电池专用仓，满足中国储能电池等‘新三样’出海的合规仓储与全链路物流需求。

腾势汽车领航博鳌亚洲论坛2026年年会以科技豪华赋能国际盛事腾势汽车领航博鳌亚洲论坛2026年年会以科技豪华赋能国际盛事

索尼本田合作的 AFEELA 电动汽车项目胎死腹中本田与索尼合资的SHM终止AFEELA 1及第二款车型开发，因电动化战略调整及市场变化，正评估整体业务方向。

消息称Meta正进行新一轮裁员，数百人受影响 Meta新一轮裁员波及招聘、社交、销售及Reality Labs等部门，规模数百人；公司聚焦AI基建，拟投1350亿美元建数据中心，并持续收缩元宇宙业务。

关于我们| 电子协议| 合作联系| 蜀ICP备2024059877号-1

网站信息

Copyright © DoNews 2000-2026 All Rights Reserved
蜀ICP备2024059877号-1
联系地址：北京市海淀区宝盛东路兴华绿色产业楼3层307室（东升地区）
邮箱：jubao@infinities.com.cn
网上有害信息举报专区: www.12377.cn

Copyright © DoNews 2000-2026 All Rights Reserved
蜀ICP备2024059877号-1

京公网安备11010802023059号