双子座:一系列高能力多模态模型
团队,
本报告介绍了一种新的多模态模型家族 ,它在图像、音频、视频和文本理解方面具有卓
越的能力。 系列包括 、 和 三种尺寸,适用于从复杂的推理任务到设备
内存受限的应用场景。对广泛的基准测试的评估表明,我们最有能力的 模型在
个基准测试中的 个中提高了最先进的水平特别是第一个在经过充分研究的考试基准测试
上实现人类专家性能的模型,并在我们检查的 个多模态基准测试中的每一个中提高了
最先进的水平。我们相信 模型在跨模态推理和语言理解方面的新能力将能够实现各种用
例,并且我们讨论了我们负责任地向用户部署它们的方法。
1. 介绍
我们在 开发了一系列高性能的多模态模型 。我们通过图像、音频、视频和文本数
据共同训练了 ,目的是构建一个在各个模态中具有强大的通用能力以及在各个领域中具有
尖端的理解和推理性能的模型。
,我们的第一个版本,有三种尺寸: 适用于高度复杂的任务, 提供增强
性能和可扩展性,适用于大规模部署, 适用于设备上的应用程序。每个尺寸都经过特别设计
以满足不同的计算限制和应用要求。我们对 模型在广泛的语言、编码、推理和多模态任
务上进行了全面的内部和外部基准测试。
推进了大规模语言建模的最新技术( 等,
年; ,;!"#" 等人,$! 等人, 年),
图像理解(%& 等人, 年'( 等人 年)*+*,% 等人。从中学和高中数学
竞赛(-. 基准)中抽取的难度增加的数学问题中观察到类似的积极趋势, 模型
表现优于所有竞争对手模型,在 / 次提示下达到 0的准确率。 年于等人, 年)
通过改进架构和模型优化,实现了稳定的大规模训练和在 的 .*&***
上进行优化推理。1,音频处理(!"#" 等人, 的 年;张等人,
年),以及视频理解(%& 等人, 年'( 等人 年。它还基于序列模型的工作
(23*,+ 等人)。/ 年,基于神经网络的深度学习有着悠久的历史(4'3 等人)。此
外 , 可 以 直 接 从 通 用 语 音 模 型 ( 2- ) ( 5( 等 人 , '("(% 等
人 , 0 ) 中 以 6,7 的 音 频 信 号 进 行 输 入 。 "83% 等 人 。 9)
),使大规模培训成为可能。
我们最强大的模型 在我们报告的 个基准测试中,在 个基准测试中取得了
最新的最先进结果,其中包括 个流行的文本和推理基准测试中的 个,$ 个图像理解基准测
试中的 $ 个,6 个视频理解基准测试中的 6 个,以及 0 个语音识别和语音翻译基准测试中的 0
个 。 是 第 一 个 在 --4 上 实 现 人 类 专 家 水 平 表 现 的 模 型 ( "%&,* 等
人 ) 。 ) : 通 过 一 系 列 考 试 测 试 知 识 和 推 理 的 突 出 基 准 : 得 分 超 过 $ 。 除 了 文
本, 在具有挑战性的多模态推理任务方面取得了显着进展。例如,在最近的
--- 基准(;3 等人, 年),其中包括关于多学科任务上的图像的问题,需要大学水平
的学科知识
请参阅贡献和致谢部分以获取完整的作者列表。请发送信件至 ::<&
=版权所有
评论