霸主归来 | 最强旗舰模型—Qwen2.5-Max

原创迷三张 2025-02-08

209

引言

AI的飞速发展，目前Top前几的语言模型竞争激烈。阿里的Qwen 2.5 Max和DeepSeek V3 (R1) 是中国 AI 大模型的代表力量，下面主要看下Qwen 2.5 Max的基准情况。

Chatbot Arena测评

近日Chatbot Arena 公布了最新的大模型盲测榜单，通义千问Qwen2.5-Max 凭借1332分的成绩，位列全球第七，并成为非推理类中国大模型的冠军。

Chatbot Arena 是由 LMSYS Org 推出的大模型性能测试平台，目前集成了190多种模型。该榜单采用匿名方式将大模型两两组队，交给用户进行盲测，用户根据真实对话体验对模型能力进行投票。因此，Chatbot Arena LLM Leaderboard 成为业界公认的最公正、最权威榜单之一，也是全球顶级大模型的最重要竞技场。

Chatbot Arena 官方评价称：阿里巴巴的 Qwen2.5-Max 在多个领域表现强劲，特别是专业技术向的（编程、数学、硬提示等）。

全球榜单：数学和编程项目

同时，Qwen2.5-Max 在数学和编程等单项能力上排名第一，在硬提示（Hard prompts）方面排名第二。简直是程序员们的福音~~~~

LiveBench测评

权威模型评测榜单 LiveBench 最近也发布了最新一期排名，Qwen2.5-Max 成功超越 Gemini-2.0-Flash、Deepseek-V3 等模型，位列全球第九。

在本次评测中，Qwen2.5-Max 不仅闯进了全球前十，也是非推理类模型中性能表现最好的中国模型。这是继 Chatbot Arena LLM Leaderboard 全球第七之后，Qwen2.5-Max 再次获得国际主流评测的认可。

LiveBench 是由图灵奖得主、Meta 首席 AI 科学家杨立昆（Yann LeCun）联合 Abacus.AI、纽约大学等机构推出的第三方评测榜单。它以权威性和客观性著称，是当前 AIGC 领域最具公信力的评测之一。

与传统榜单不同，LiveBench 的题目每月更新，基于最新的 arXiv 论文、新闻文章、IMDb 电影概要等动态生成问题，避免了数据污染问题。因此，它被称为「全球首个无法被操纵的 LLM 基准测试。

总结

Qwen2.5-Max 是阿里云通义团队约一周前发布的最新 MoE 模型，展现出极强劲的性能。

在 Arena-Hard、LiveBench、LiveCodeBench、GPQA-Diamond及 MMLU-Pro 等主流基准测试中，Qwen2.5-Max 比肩 Claude-3.5-Sonnet，并几乎全面超越了 GPT-4o、DeepSeek-V3 及 Llama-3.1-405B。

有从业者在惊叹新模型强大性能的同时，也兴奋地表示：“我们可以告别 ChatGPT 了！”。

小建议：

如果你准备跑一些在线运行的编程类问题，一定要勾选下面这个“Artifacts”功能。

体验

网页端：
https://chat.qwenlm.ai/

API 调用：

在阿里云百炼平台上可以直接调用 API 服务

欢迎微信扫描二维码，关注我的公众号~~

探索 AGI 的路上并不孤单，期望中国AI模型 DeepSeek 和 Qwen 携手并进，逐日摘星。

ai模型 qwen

最后修改时间：2025-02-17 12:52:12

文章转载自迷三张，如果涉嫌侵权，请发送邮件至：contact@modb.pro进行举报，并提供相关证据，一经查实，墨天轮将立刻删除相关内容。

霸主归来 | 最强旗舰模型—Qwen2.5-Max

引言

Chatbot Arena测评

全球榜单：数学和编程项目

总结

体验

评论