gemini技术报告_中文版_LangugeX.docx

Aubrey

77页

2次

2023-12-11

免费下载

双子座：一系列高能力多模态模型

 团队，

本报告介绍了一种新的多模态模型家族 ，它在图像、音频、视频和文本理解方面具有卓

越的能力。 系列包括 、 和  三种尺寸，适用于从复杂的推理任务到设备

内存受限的应用场景。对广泛的基准测试的评估表明，我们最有能力的  模型在

 个基准测试中的  个中提高了最先进的水平特别是第一个在经过充分研究的考试基准测试

 上实现人类专家性能的模型，并在我们检查的  个多模态基准测试中的每一个中提高了

最先进的水平。我们相信  模型在跨模态推理和语言理解方面的新能力将能够实现各种用

例，并且我们讨论了我们负责任地向用户部署它们的方法。

1. 介绍

我们在  开发了一系列高性能的多模态模型 。我们通过图像、音频、视频和文本数

据共同训练了 ，目的是构建一个在各个模态中具有强大的通用能力以及在各个领域中具有

尖端的理解和推理性能的模型。

，我们的第一个版本，有三种尺寸： 适用于高度复杂的任务， 提供增强

性能和可扩展性，适用于大规模部署， 适用于设备上的应用程序。每个尺寸都经过特别设计

以满足不同的计算限制和应用要求。我们对  模型在广泛的语言、编码、推理和多模态任

务上进行了全面的内部和外部基准测试。

 推进了大规模语言建模的最新技术（ 等，

 年； ，；!"#" 等人，$! 等人， 年），

图像理解（%& 等人， 年'( 等人 年)*+*,% 等人。从中学和高中数学

竞赛（-. 基准）中抽取的难度增加的数学问题中观察到类似的积极趋势，  模型

表现优于所有竞争对手模型，在 / 次提示下达到 0的准确率。 年于等人， 年）

通过改进架构和模型优化，实现了稳定的大规模训练和在  的 .*&***

上进行优化推理。1，音频处理（!"#" 等人， 的  年；张等人，

年），以及视频理解（%& 等人， 年'( 等人 年。它还基于序列模型的工作

（23*,+ 等人）。/ 年，基于神经网络的深度学习有着悠久的历史（4'3 等人）。此

外，  可以直接从通用语音模型（ 2- ）（ 5( 等人， '("(% 等

人， 0 ）中以 6,7 的音频信号进行输入。 "83% 等人。 9)

），使大规模培训成为可能。

我们最强大的模型  在我们报告的  个基准测试中，在  个基准测试中取得了

最新的最先进结果，其中包括  个流行的文本和推理基准测试中的  个，$ 个图像理解基准测

试中的 $ 个，6 个视频理解基准测试中的 6 个，以及 0 个语音识别和语音翻译基准测试中的 0

个。  是第一个在 --4 上实现人类专家水平表现的模型（ "%&,* 等

人）。  ） : 通过一系列考试测试知识和推理的突出基准 : 得分超过 $ 。除了文

本， 在具有挑战性的多模态推理任务方面取得了显着进展。例如，在最近的

--- 基准（;3 等人， 年），其中包括关于多学科任务上的图像的问题，需要大学水平

的学科知识

请参阅贡献和致谢部分以获取完整的作者列表。请发送信件至 ::<&

Gemini:

Family

Highly

Capable

Multimodal

Models

通过知识和深思熟虑的推理， 实现了 6/的最新技术水平，超过了之前最佳模型

超过 0 个百分点。它为视频问答和音频理解基准测试提供了统一的性能提升。

定性评估展示了令人印象深刻的跨模态推理能力，使模型能够原生地理解和推理音频、图像和

文本的输入序列（见图 0 和表 ）。以图  所示的教育环境为例。一位老师画了一个物理问题，

描述了一个滑雪者下坡的情景，而一位学生已经解决了这个问题。通过双子座的多模态推理能

力，该模型能够理解混乱的手写文字，正确理解问题的表述，将问题和解决方案转换为数学排

版，识别学生在解决问题时出错的具体推理步骤，然后给出一个经过正确求解的问题的解答。这

为令人兴奋的教育可能性打开了大门，我们相信  模型的新的多模态和推理能力在许多领

域具有重大应用。

图 验证学生对物理问题的解决方案。该模型能够正确识别所有手写内容并验证推理。除了理解

图像中的文本外，它还需要理解问题的设置并正确遵循指示以生成 4.>?。

大型语言模型的推理能力显示出在构建能够解决更复杂的多步问题的通用代理方面的潜

力。('" 团队构建了 ('"（48" 等人， 年），这是一个新的基于

 的代理程序，它将  的推理能力与搜索和工具使用相结合，以在解决竞争性编程问

题方面表现出色。('" 在 '"#&* 竞技编程平台上排名前 0％的参赛者中，相比

于排名前 0％的最新技术前身有了很大的改进（4 等人） 年）。

of 77

免费下载

关注

评论