沙利文：2024年中国大模型评测报告.pdf

445

24页

1次

2024-05-12

10墨值下载

⼤模型评测 | 2024/03

报告提供的任何内容（包括但不限于数据、⽂字、图表、图像等）均系头豹研究院独有的⾼度机密性⽂件（在报告中另

⾏标明出处者除外）。未经头豹研究院事先书⾯许可，任何⼈不得以任何⽅式擅⾃复制、再造、传播、出版、引⽤、改

编、汇编本报告内容，若有违反上述约定的⾏为发⽣，头豹研究院保留采取法律措施、追究相关⼈员责任的权利。头豹

研究院开展的所有商业活动均使⽤“头豹研究院”或“头豹”的商号、商标，头豹研究院⽆任何前述名称之外的其他分⽀机构

，也未授权或聘⽤其他任何第三⽅代表头豹研究院开展商业活动。

头豹研究院

2024年中国⼤模型能⼒评测

AI变⾰⾏业创新发展

（摘要版）

2024 China Large Language Model Evaluatoin Analysis Result

⼈⼯智能

系列研究

评测 |

OPPORTUNITY GROWTH INVESTMENT INSIGHTS

⼤模型评测 | 2024/03

随着AI⼤模型底层技术的不断进步，其对市场的影响⼒⽇益增强，引发了持续的热潮。截⾄2024年2⽉，中国

已经涌现出上百个的AI⼤模型，其中优质的基础⼤模型数量也已达到数⼗个，标志着“百模⼤战”时代的正式来

临。在这⼀背景下，本次评测致⼒于全⾯梳理当前产业的最新发展态势和模型的竞争格局，深⼊探索⼤模型的

能⼒边界，为社会各界提供更清晰的认知，以了解⼤模型的巨⼤潜⼒及其在实际应⽤中的价值体现。

研究区域范围：中国

研究周期：2023-2024年

研究主题：⼤模型评测

此研究将会回答的关键问题：

① 产业发展现状：中国⼤模型产业发展现状

② 评测结果：中国⼤模型的综合表现排名

③ 模型能⼒：中国⼤模型在不同能⼒维度的表现

本次评测以⽤户使⽤体验和实际使⽤价值为衡量标准，通过五⼤细分维度——数理科学、语⾔能⼒、道

德责任、⾏业能⼒及综合能⼒，深⼊探索了⼤模型的能⼒边界。为确保评估的全⾯性和精准性，本次评

测进⼀步将五⼤维度细化为⻛险信息识别、逻辑推理、类⽐迁移、⻆⾊扮演等多个⼆级维度，构建了⼀

个科学⽽全⾯的评估体系。评测不仅关注⼤模型的通⽤基础能⼒，即AI⾃然语⾔处理的基⽯，更重视其

专业应⽤能⼒在实际使⽤场景中的表现。这两⼤核⼼能⼒的结合，为⽤户提供坚实可靠的应⽤体验基础。

⾃2022年12⽉GPT3.5发布以来，⼤模型在全球范围内引发了前所未有的关注与热潮。其所展现出的巨⼤

潜⼒，不仅推动了⼈⼯智能从学术研究向实际应⽤领域的跨越，更引领了⾏业的⾰新与变⾰。截⾄2024

年2⽉，全球范围内已有超百款⼤模型问世，涵盖开源、闭源、⼆次开发及微调等多种类型，且发布机

构遍布各⼤互联⽹科技巨头、云计算领军企业、综合⼈⼯智能公司、智能设备制造商以及数字基础设施

提供商等。

根据2024年⼤模型的综合评测数据分析，当前国际领先的⼤模型在性能指标上依然占据优势，相较于中

国的⼤模型有⼀定的领先地位。然⽽，值得⼀提的是，中国在⼤模型研发领域的实⼒正稳步增强，与国

际先进⽔平之间的差距正逐渐缩⼩。近年来，得益于国家对⼈⼯智能领域的⾼度重视和持续投⼊，中国

在⼤模型的技术创新、算法优化以及数据处理能⼒等⽅⾯均取得了令⼈瞩⽬的成果。在本次评测中，部

分中国⼤模型的表现已经超越了国际⼤模型的平均⽔平，与半年前相⽐，与业界领先的GPT-4、Gemini

等模型的性能差距已⼤幅缩减，展现出了中国⼤模型强劲的发展势头。

当前中国领先⼤模型能⼒略逊于国际，但差距在逐步缩⼩

本次评测通过两⼤衡量标准和五⼤细分维度全⾯探索⼤模型的能⼒边界

⼤模型热度持续攀升，中国进⼊“百模争锋”的时代

研究⽬的与摘要

本次评测的核⼼⽬标在于深⼊剖析⼤模型产业的当前发展状况及其对社会产⽣的综合性影响。评测范围

覆盖了市场上对公众开放的所有国际及中国领先的商业⼤模型。为确保评测结果的客观性与公正性，本

次评测采⽤了经过严格筛选的题库以及专业的评测⽅法，对⼤模型的能⼒范围进⾏了全⾯⽽深⼊的探索。

本次评测涵盖国际和中国领先且率先对公众开放的⼤模型

of 24

10墨值下载

reports

关注

评论