阿里云Qwen 2.5-Max大模型在国际盲测中名列前茅

1月29日新年之际,阿里云发布了其最新的通义千问 Qwen 2.5-Max 超大规模 MoE 模型。该模型在多个基准测试中表现卓越,特别是在 Chatbot Arena 大模型盲测中,以1332分位列全球第七名,成为非推理类中国大模型的冠军。

Qwen 2.5-Max 在数学和编程等单项能力上排名第一,在硬提示(Hard prompts)方面排名第二。此外,在 Arena-Hard、LiveBench、LiveCodeBench、GPQA-Diamond 及 MMLU-Pro 等主流基准测试中,Qwen 2.5-Max 的表现比肩甚至超越了 GPT-4o、DeepSeek-V3 和 Llama-3.1-405B 等竞品。

Chatbot Arena 是由 LMSYS Org 推出的大模型性能测试平台,集成190多种模型,采用匿名方式让用户进行盲测并投票,因此被视为业界最公正、最权威的榜单之一。阿里云此次的成绩彰显了其在大模型领域的技术实力和创新能力。

免责声明:本文内容由开放的智能模型自动生成,仅供参考。

Copyright © DoNews 2000-2025 All Rights Reserved
蜀ICP备2024059877号-1