谷歌首席科学家：机器学习激动人心趋势

Andy730 2024-07-23

摘要

本讲座将聚焦人工智能和机器学习领域的几大前沿趋势。得益于算法的不断改进以及机器学习专用硬件的显著效率提升，如今我们能够构建功能更加强大、应用更加广泛的机器学习系统。作为例证，我将介绍Gemini系列多模态模型及其强大功能。这些新模型和方法为将机器学习应用于现实世界问题打开了广阔空间，我将重点探讨其在科学、工程和医疗保健领域的应用前景。本讲座将涵盖谷歌众多团队的最新研究成果。

时间：2024年2月13日

链接：https://events.rice.edu/event/356364-jeff-dean-google-exciting-trends-in-machine-learning

趋势：更强的计算力显著提升模型性能。深度学习正在改变我们设计计算机的方式。
机器学习优化硬件更加高效，每代产品都有重大改进，在降低经济和能源成本的同时支持更大规模的模型。神经网络的两大核心特性：可承受的低精度计算能力，以及根植于线性代数运算的架构，共同推动了专用硬件的发展。
十五年语言模型的进步之路。语言处理技术在近年来经历了从简单N-gram模型到复杂神经网络的飞跃性发展，关键突破包括分布式词表示、序列到序列学习、Transformer架构的创新，以及大规模语言模型如GPT、PaLM和Gemini。
不仅在训练方面有所突破，还在如何向模型提问方面取得了进展，通过"思维链提示"（Chain-of-Thought Prompting）等创新技术成功提升了模型的推理能力和准确性。
基于大型Transformer的语言模型能够生成令人惊讶的连贯对话
趋势：通过进一步优化通用模型可以开发出令人惊叹的专业领域模型
趋势：机器学习正变得更加贴近个人和社会需求，造福大众
趋势：机器学习将在工程、科学、健康和可持续发展等领域发挥越来越大的作用
对机器学习的理解正在变得更加深入和广泛

个人简介

Jeff Dean于1999年加入谷歌，现任谷歌首席科学家，致力于推动谷歌DeepMind和谷歌研究在人工智能领域的进展。他的研究方向包括机器学习和人工智能，以及如何将人工智能应用于解决关乎亿万人生计的社会难题。其工作对谷歌搜索引擎的历代版本、早期广告投放系统、分布式计算基础设施（如BigTable和MapReduce）、开源机器学习系统TensorFlow以及众多库和开发者工具的开发都起到了至关重要的作用。

-----

我将与大家探讨机器学习领域中的一些激动人心的趋势。这次讲座的范围将非常广泛；虽然我们不会深入探讨某个特定领域，但了解当前的现状和令人兴奋的进展是非常重要的。此外，我们还需要认识到这些技术的发展机遇及在推广这些技术时需要注意的问题。我会展示谷歌团队的多个项目，其中包括一些我作为合著者参与的工作，以及我认为值得关注的重要成果。

让我们从一些观察开始。近年来，机器学习确实改变了我们对计算机能力的预期。回顾十到十五年前，语音识别虽然有所进展，但效果并不完美，错误频频。计算机当时无法真正理解图像的像素级内容。语言处理也处于初期阶段，尽管有大量自然语言处理的研究，但对语言概念和多语言数据的深刻理解还不够成熟。我们已经从那个阶段转变为现在，计算机能够以比十年前更好的方式感知和理解我们周围的世界。这为几乎每个领域的人类活动带来了令人惊叹的机遇。就像动物进化出眼睛一样，我们在计算领域也处于类似的阶段。现在我们拥有了能够“看”和“感知”的计算机，这是一场彻底的变革。

另一个观察是规模的扩大：计算资源的使用规模增加，以及专用计算的出现。更大、更有趣和更丰富的数据集，以及更大规模的机器学习模型。扩大这些因素通常能带来更好的结果，这在过去十到十五年里一直如此。每次我们扩大规模，事情就会变得更好。新的能力突然出现，或者某些问题的准确性达到一个阈值，之前这些问题是无法处理的，现在却变得可行，从而使新的应用成为可能。我们需要的计算量，与传统的手写C++代码（许多基本CPU设计时所针对的代码）相比，已经发生了很大变化。我们需要不同类型的硬件来更高效地运行这些计算。从某种意义上说，我们可以专注于计算机执行的一小部分任务，极其高效地完成这些任务，然后利用不断扩大的规模实现更多的可能性。

在过去十年中，计算机的能力取得了令人惊叹的进展。例如，从图像的原始像素到可能的1000个不同类别中的一个分类标签。十年前计算机还无法做到这一点，但现在可以了。从音频波形中识别出5秒音频中的所说内容，这就是语音识别，我们在这方面取得了巨大的进步。翻译：“Hello, how are you?” 到 “Bonjour”。将一种人类语言翻译成另一种语言，对计算机帮助我们来说是一项非常有用的能力。我们甚至能够将“这是一个在吉普车上的猎豹的照片”转化为描述。不仅仅是像“猎豹”这样的分类标签，而是描述场景中的实际情况的简短句子。这真是令人惊叹，我们在这方面取得了巨大的进展。

更令人惊奇的是，近年来我们已经能够逆转许多这些功能。例如，从“猎豹”这样的分类标签生成50或100张不同的猎豹图像，或者从“外面有多冷？”生成音频波形，这就是文本到语音。虽然这种技术已经存在一段时间，但它有了显著改进。翻译的逆向应用虽然不那么令人惊讶，但也在不断进步。现在我们甚至可以从图像的简短描述生成图像，或者生成简短的视频片段，甚至根据描述生成音频剪辑。这些能力正在逐渐出现，令人对我们现在能够用计算机构建的东西充满期待，相比十年前，这一切变得更加可能。

让我们回顾过去十年的改进水平。斯坦福大学开发了一个名为ImageNet的基准测试。这个基准测试的基本流程是：从训练数据开始，比如一堆彩色图像和标签，然后用这些数据训练系统，数据量大约是百万张图像。之后，系统会被给定一批之前从未见过的图像，你需要预测这些新图像的实际标签。许多机器学习的工作就是如何将从数据中观察到的内容推广到新环境、新图像上。

在2011年，这个竞赛第一次举行时，获胜者的准确率为50.9%。在随后的竞赛中，Alex Krizhevsky、Ilya Sutskever和Geoffrey Hinton撰写的一篇著名论文，即AlexNet，实现了巨大的飞跃，准确率提高了约133%。这一改进非常显著。当时约28个参赛者中只有一个使用了神经网络，这一进展显然是重大突破。次年，几乎所有参赛者都开始使用神经网络，因为这种方法的革命性改进明显展示了从原始数据中学习的主要优势，而不是依赖手工设计特征来识别猎豹。例如，如何手动设计特征来判断一只动物是猎豹还是长颈鹿或汽车？这是一件非常困难的事情，但从数据中学习使得这一切成为可能。

这是一个巨大的进步，但同样也容易忽视自那以后发生的改进。我们的准确率已经从63%提升到91%，这实际上非常令人惊讶。我们知道，在这个任务上人类的准确率实际上略低于这个水平，因为这非常困难：有一千个类别，包括40种不同的犬种，人们在看照片时并不总是能准确判断是哪种犬。这真是令人惊叹。在大约十年的时间里，这一进步彻底改变了计算机视觉领域。

对于语音识别，这是一个流行的开源基准，用于测量语音识别的准确性。这里测量的是字词错误率，即错误单词的百分比，目标是数值越低越好。我们已经从13.25%降到了2.5%。这段时间非常短——仅仅五年左右。基本上，我们从每六七个单词中有一个错误，变成了每40个单词中有一个错误。这大大提升了这些系统的可用性。突然之间，你可以依赖这些系统开始编写电子邮件，系统能大部分时间正确识别内容。这真是非常棒的进展。

我提到过，扩大模型规模实际上会提高其质量，因此我们需要更高效的硬件来支持这种扩展。如何在相同的计算硬件成本或能源消耗下，获得更高质量的模型？这实际上正在改变我们设计计算的方式。

针对机器学习优化的硬件更加高效，每一代的改进都显著，这使得这些大规模模型可以以更低的经济和能源成本实现。

神经网络具备两个非常有利的特性，使得这种机器学习模型现在被广泛使用。

第一个特性是降低精度是可以接受的。如果在机器学习模型的计算中，精度只有一到两位小数而不是六位小数，这也是可以的。很多时候，优化算法实际上会引入显式的噪声来提升模型的学习效果。因此，将降低精度看作是向学习过程中引入噪声的一种方式，有时反而能获得更好的效果。

另一个特性是所有计算和算法，其实只是不同线性代数操作的组合，例如矩阵乘法和各种向量运算。这些算法不断重复应用各种线性代数原语。

因此，如果你能制造一台在低精度线性代数计算上表现卓越的计算机，那正是我们想要的，它可以以较低的计算成本或能源成本来学习这些高质量模型。

谷歌在这方面已经进行了相当长时间的工作。我们发现系统中确实需要构建这样的硬件系统。最初版本的Tensor Processing Unit（TPU）实际上是专为低精度线性代数设计的架构。我们构建的第一代TPU是用于推理，即在训练好的机器学习模型基础上进行生产环境应用。需要进行大量计算来识别图像中的内容或理解音频中的语音。因此，我们构建了第一代TPU V1，这实际上只是一个单卡系统，配有一个加速器。这一代TPU在能源效率和计算性能方面，相比当时的CPU提高了大约30到80倍。

接下来，我们谈谈TPU的后续版本，这些版本专注于由多个芯片组成的大规模系统，旨在进行训练和推理。这里展示的是TPU V2板，配备了四个这样的芯片。TPU V3板与TPU V2板非常相似，但我们增加了水冷系统，这意味着水流经过芯片表面以帮助降温。TPU V4板则添加了炫酷的颜色设计。

后三代TPU被设计成可以组装成更大的系统，我们称之为“Pod”。这些Pod的规模不断扩展。第一代Pod具有非常简单但高带宽的网络结构。在第一代中，每个芯片通过二维网格与其四个邻居连接。这些机架中的芯片排列成16x16网格，每个芯片通过线缆与邻近芯片连接。这意味着无需复杂的网络路由，就能实现非常高的带宽和低成本的连接，因为数据只需在相邻的芯片之间传输。下一代扩展到1024个芯片，分布在八个机架上。再下一代使用了64个机架，每个机架包含64个芯片，总计4096个芯片，提供1.1 exaFLOPS的低精度浮点计算能力。

最近的一代是V5系列，我们在去年底公开了它。它有两个变体：一个用于推理，包含256个芯片的Pod，另一个是V5P，具有更多的每芯片内存、更高的芯片间带宽以及更大的内存带宽。每个芯片接近拥有半个petaFLOP的16位浮点性能，整数性能则为其两倍。这些Pod的规模也更大，接近9000个芯片，提供exFLOPS级别的计算能力。

接下来我们来讨论语言模型。之前我们已经讨论了图像识别和语音识别的进展，但语言处理实际上是计算机能力发生最显著变化的领域之一。

早在神经网络出现之前，我就对语言模型充满了热情。我曾与谷歌翻译团队的一些成员合作。他们有一个非常强大的系统，能提供高质量的翻译，但这个系统是为研究竞赛设计的，只需要在两周内翻译50个句子，然后提交你的成果。因此，它需要为每个要翻译的句子查找20万个N-gram。我告诉他们：“如果你们已经有高质量的翻译，那么将这些应用到实际中才更有意义。”于是我们构建了一个服务于N-gram模型的系统。基本上，它保留了在两万亿个token中每五个词序列出现的频率，提供了大约3000亿个独特的5-gram。我们将这些数据存储在一组机器的内存中，并并行查找10万个需要翻译的句子。

我们提出了一种创新的算法，称为“Stupid Backoff”，它跳过了复杂的数学方法，采用了更简单的处理方式。当你查找5-gram但没有数据时，你可以查找它的前缀4-gram，如果有就使用它。如果4-gram也没有，就查找3-gram，以此类推。这种方法比复杂的Witten-Bell平滑算法效果更好，因为后者虽然理论上更适合，但计算上较为困难。

从这个经验中得到的一个教训是，面对大量数据时，应用简单的技术非常有效。这是我职业生涯中的一项重要经验，实际上，简单的方法在处理大数据时也能取得非常好的效果。

随后，我的同事Tomas Mikolov对分布式表示产生了兴趣。因此，我们将词表示为高维向量，而不是离散的表示。我们用不同的100维向量来表示不同的词，并通过训练过程使得出现在相似上下文中的词尽可能接近，而出现在不同上下文中的词则被推远。如果你在大量数据上进行训练，使用相对简单的训练目标，即“如果这些词出现在相似的上下文中，就把它们推得更近；如果它们出现在不同的上下文中，就把它们推得更远”，并在万亿个token上进行训练，你会得到非常好的结果。在这个100维空间中，尽管100维空间难以直观理解，但相似的事物会彼此靠近。例如，“山”、“丘”和“悬崖”会在这个高维空间中彼此接近。空间中的点很有趣，但更有趣的是方向在这个高维空间中也有意义，因为你可以在100维空间中选择许多不同的方向。例如，从“国王”到“女王”的方向可以通过计算“国王”减去“女王”的向量得到，这个方向与从“男人”到“女人”的方向相似。因此，方向具有意义，不同的方向代表不同的含义。将动词的现在时转变为过去时是一个不同的方向，不论动词是什么。这表明分布式表示具有巨大的潜力，它们在100维向量中编码了多种不同的信息。

接下来，我的同事Ilya Sutskever、Oriol Vinyals和Quoc Le开发了一种名为序列到序列学习（Sequence-to-sequence learning）的模型。这个模型主要利用了神经网络，其中输入是一个序列。例如，在翻译任务中，你逐字输入一个英文句子，系统会根据当前状态和新输入的词来构建表示并更新状态。类似于单词的分布式表示，现在你可以为整个句子构建一个分布式表示，并使用一种叫做长短期记忆（LSTM）的递归神经网络来更新它。当遇到句子结束token时，你可以训练模型输出该句子的正确翻译。我们有大量的训练数据，比如英文句子及其对应的法文句子，通过这种配对数据来训练模型，使其在遇到英文句子时能够输出相应的法文句子。通过在大量配对数据上重复这一过程，你可以利用神经编码器来初始化状态，从而进入“我已经理解了输入句子，现在要逐字解码”的模式，以获得正确的翻译。将这一方法规模化应用，可以显著提升翻译准确率。

随后，Oriol和Quoc发表了一篇论文，展示了除了翻译外，还可以利用上下文处理多轮对话。基本上，就是你与某个人或实体的互动序列，以及计算机模型的回应，然后对方再作出回应，这些构成了上下文，即之前的多轮互动。你可以训练模型在这些多轮互动的上下文中生成合适的回复。基本上，这还是同一个序列到序列模型，但现在序列是由所有对话回合的上下文初始化的，从而可以使用神经语言模型进行有效的多轮对话，这一点非常巧妙。

接着，谷歌的一些研究人员和一名实习生提出了一个称为Transformer的模型。之前提到的模型是递归模型。在这种模型中，有一个状态，接收下一个token，对其进行处理以更新状态，然后继续处理下一个token。这是一个非常顺序的过程，因为处理第三个词需要先处理第二个词，而处理第二个词又需要先处理第一个词。这种顺序处理并不理想；在计算机中，我们希望尽可能并行处理任务，而不是顺序处理。因此，这个模型提出了一种方法，即并行处理所有输入中的单词，并对这些单词的不同部分进行注意，而不是尝试用一个单一的状态顺序更新所有词。

该模型的核心思想是不将状态强行压缩为单一的分布式表示。相反，可以保留所有已看到token或单词的表示，然后对其进行注意——比如在翻译句子的某一部分时，集中关注对该部分有用的信息。这种方法在减少计算量的同时，能够提高准确率。正如我之前提到的计算硬件的改进和专业硬件带来的显著提升，这些算法上的进步与硬件改进相结合，使得训练更大规模和更强大的模型成为可能。

一组研究人员决定使用Transformer模型而非递归模型来扩展对话风格的数据训练，取得了相当不错的结果。特别是，这种方法不仅能在响应时保持合理性，还能做到具体明确。你不希望聊天机器人回应过于模糊，比如仅仅说“嗯，很好”。你希望它能够针对互动内容给出有意义的回答，从而提升其吸引力和实用性。

我已经讨论了一些这方面的内容，但神经语言模型的发展以及神经聊天机器人的进展也非常显著。

比如神经对话模型：Meena、OpenAI的ChatGPT、Google去年发布的Bard（现在已更名为Gemini），以及一系列神经语言模型的演进。

例如，序列到序列模型，OpenAI的GPT-2（2019年的模型有15亿参数）、Google的T5（拥有110亿参数，非常强大）。Transformer模型作为这些模型的基础，已经实现了计算量提升10到100倍，成为这些大规模语言模型的核心基础。GPT-3、DeepMind的Gopher、Google Research的PaLM、DeepMind的Chinchilla、Google Research的PaLM-2，以及OpenAI的GPT-4，最后是我与同事Oriol Vinyals共同领导的Gemini项目。

我们有一个大规模的团队在多个研究办公室，致力于构建强大的多模态模型。我们的目标是从单一的文本模型发展到可以同时处理多种模态的模型。因此，你可以将文本与图像或音频与文本一起输入，模型能够流畅而连贯地处理所有给定的模态。我们在一年前启动这个项目时，目标是训练出世界上最优秀的多模态模型，并将其应用于Google的各个产品中。

Gemini从一开始就是多模态的。不仅处理文本，还处理图像、视频和音频，并将这些数据转换为一系列标记，然后在Transformer模型上进行训练。它有几种不同的解码路径：一种是生成文本标记，另一种是用Transformer学到的状态初始化解码器，然后从该状态生成图像的完整像素。

Gemini支持这些文本序列的交错输入。不仅可以单独输入IM文本和图像，还可以交错输入。例如，可以先输入视频帧和描述该帧的文本，然后再输入另一个视频帧和文本，或者是音频的字幕，然后让Transformer利用在训练中接触到的所有模态信息，构建跨模态的共同表示。

Gemini有几种不同的规模。Gemini的V1代有三种不同的规模：Ultra是最大和最强大的模型；Pro适合在数据中心运行，我们在很多产品上下文中使用这个模型。例如，Gemini正在使用Pro模型或Ultra模型。Nano模型则更适合在小型设备如手机或笔记本电脑上运行，它非常高效，适合这类设备。可以对这些模型进行量化，使它们更小。

我们训练基础设施的一个特点是，我们希望拥有一个非常可扩展的系统，可以处理——你指定一个高级别的计算描述，然后系统会将这个计算映射到你拥有的硬件上。我提到过我们有这些计算集群。例如，你可以描述你的计算需求为“我关心这两个部分，但不关心它们的具体位置”，然后让我们构建的Pathways软件系统决定将它们放在哪里。系统可能会将一个部分放在一个集群上，另一个部分放在另一个集群上，并了解芯片的位置、拓扑结构和带宽。当一个芯片需要与另一个芯片通信时，它会使用之前提到的高速网络。当需要在模型的不同部分之间进行通信时，它会通过数据中心网络，这个网络的带宽较低来传输数据。但是这一切都非常无缝，机器学习研究人员或开发者无需从这个角度担忧，只需了解不同的性能特性即可。

在训练大规模模型时，随着规模的扩大，故障的发生是不可避免的。机器可能会损坏，TPU芯片可能会过热并开始出现故障。因此，最小化故障非常重要。有些故障几乎可以被视为人为因素。例如，我们曾经使用一种全面升级机器内核的方法，这种方法在机器彼此独立计算时是完全可以的。然而，如果这些机器都参与到同一个千台机器的计算中，你其实更希望暂停所有机器，同时升级所有千台机器的内核，然后再重新启动，而不是在升级过程中不断发生故障。因此，我们对一些修复和升级过程进行了优化。此外，一旦发生故障，我们还需要尽可能缩短恢复时间，因为恢复得越快，模型就能更快地进行有效的前进。我们有一个指标叫做“有效吞吐量”（goodput），它衡量模型训练过程中实际产生有用进展的时间比率，而不是恢复检查点或等待系统其他部分启动的时间。

我们的一种方法是从其他机器的内存中快速恢复模型状态，而不是从分布式文件系统中恢复检查点。这使得恢复时间缩短到几秒钟，而不是几分钟。

在训练数据方面，我们希望这个模型具备多模态能力，因此我们计划在大量的网络文档、各种书籍、不同编程语言的代码、图像、音频和视频数据上进行训练。我们对这些数据集进行了一些启发式过滤。部分启发式方法是手动制定的，一些则是基于模型的分类器，用来判断这些数据是否为高质量文档。最终的训练数据混合方案是通过对较小模型的消融实验确定的。我们会运行不同混合比例的小规模模型，比如使用32%的代码还是27%的代码，然后在广泛的指标上评估其性能，以更好地理解效果。我们还进行了一些调整，例如在训练结束时增加领域相关数据的权重，最终希望通过更多的多语言数据来提高模型的多语言能力。

我认为数据质量是一个非常有趣且重要的研究领域。我们已经看到，高质量的数据在模型性能上的影响巨大。在某种意义上，这可能与使用的模型架构同等重要，甚至在某些情况下更重要。我认为这是未来研究的一个重要领域。自动学习课程的能力、识别高质量和低质量示例等问题显得尤为重要。

除了训练这些模型外，还有很多进展在于如何挖掘模型的最佳性能。如何以更有效的方式提问，使模型能够更好地回答问题？例如，要求模型展示其工作过程可以提高模型的准确性和可解释性。

我的一些同事提出了一种叫做“思维链提示”（Chain of Thought prompting）的技术。如果你还记得三年级数学课，老师总是鼓励你展示你的解题过程。他们这样做的原因既是为了看到你得出答案的思考过程，也是为了鼓励你思考下一步应该怎么做，如何将复杂的问题分解成更小的步骤。如果你给模型一个例子，展示一个问题和实际的答案，然后再给它一个新问题并要求它回答，你会发现模型表现得更好。

例如，给模型一个问题，并且教它如何展示解题过程，模型会更准确地回答问题。比如你可以问：“Sean开始时有5个玩具。如果他每次得到2个玩具，那么他总共得到了多少个玩具？”如果模型回答：“Sean开始时有5个玩具，每次得到2个玩具，所以得到的总数是5加4等于9。”这种方式比单纯的给出答案更符合我们小学数学老师的期望。而且，更重要的是，如果模型按照这种方式进行，它会逐步进行解题，更长时间地思考步骤，从而更准确地得出正确答案。

这实际上是一个非常显著的效果。这两条曲线代表了在不同规模下的相同基础模型。我们看到，这里有两个不同数学方向的基准测试：右侧是八年级数学问题，而左侧则是一些算术问题。你会发现，当仅使用标准提示时，模型的响应质量相当差，但一旦模型规模足够大，当你使用“思维链提示”时，模型的准确率会突然大幅提升。这表明，如何以一种更具解释性并且更可能给出正确答案的方式提问，是一种非常有趣的科学。

让我们来讨论一下Gemini模型的多模态推理。一个好的例子可以帮助我们理解这个模型的能力。假设有一个物理问题的学生解答，以及一张问题的图片和学生手写的答案。接下来，提示信息是让模型一步步推理问题。这就是“思维链提示”的风格。问题是学生是否得到了正确的答案？如果不正确，请解释哪里出错了并解决问题。确保使用LaTeX格式表示数学公式，并将最终答案四舍五入到小数点后两位。这就是输入，包括手写的图像、下坡的滑雪图和能量守恒等内容。模型的输出是：学生没有得到正确答案。学生在计算坡道起始位置的势能时出现了错误。起始位置的势能应由公式MGH给出。学生在计算中使用了坡道的长度（假设是斜边），而不是高度。正确的解决方案是，将数值代入公式，结果是9。我们将公式用LaTeX表示，便于阅读。通过这种方式，模型将问题解决到小数点后两位。

想想这意味着什么。突然间，我们可以给模型输入多模态信息，如复杂的白板图片和问题，并要求它执行任务，它能做到。这虽然不是总能正确完成，但确实能够完成。这可以成为一个很棒的教育工具。设想一下，学生尝试自己解决问题，并拍摄解决方案的照片，系统则帮助他们找出错误。我们知道，一对一的个性化辅导在教育中效果是传统课堂的两倍标准差。所以，是否有可能在个性化辅导方面达到这种效果？我认为，这种可能性在我们共同努力下是可以实现的。

评估方面，这是一个关于Gemini能力的定性示例，但还需要看看它在各种特性上的表现。评价帮助我们识别模型的优缺点，并了解训练是否顺利进行。因此，我们在训练模型时会不断评估这些指标。这有助于我们决定是否需要更改某些内容，比如数学性能是否低于预期，是否应该在训练数据中加入更多数学相关的数据。但这会对多语言性能产生什么影响？有很多复杂的权衡，一些是在训练开始时做出的决定，有些则是在线监控中进行的原则性或即兴决策。同时，这也帮助我们将模型与其他系统进行比较。

总体总结是，我们在32个学术基准测试中，Gemini Ultra模型在32个测试中的30个上超过了现有的最先进水平。如果我们深入分析这些测试，涉及到文本导向、一般推理或数学导向的基准测试。如果将Gemini Ultra与GPT-4（通常是这些问题的现有最先进水平）进行比较，可以看到，蓝色的部分代表了最先进水平。我们在八个基准测试中达到了七个的最先进水平。90%的MLU（多语言理解）是有趣的，因为这是57个不同学科的问题——化学、数学、国际法、哲学等。该基准测试组测得的专家水平表现为89.6%或89.8%。因此，我们在这57个类别中超越了人类专家水平，这非常令人满意。接下来还有一些编码相关和数学导向的基准测试。

图像理解基准测试，这些测试现在涉及到模型的多模态能力。我们在所有八个基准测试中都达到了最先进水平。其中一个好处是，这个基准测试在我们发布论文前一周才公布，我们之前从未见过。因此，我们的验证团队迅速将其添加到验证集中，并发现我们超越了现有的最先进水平，并且差距相当大，这非常令人高兴。因为面对从未见过的基准测试并且表现出色总是令人振奋的，因为我们总是担心测试训练数据泄漏到测试集中。

在视频理解方面，这个模型的多模态能力真正展现了光芒。在六个基准测试中，我们在六个上都达到了最先进水平，包括重要的英语烹饪视频字幕生成基准和视频问答等。至于音频，我们在四个不同的公共语音识别基准测试和一个语音翻译基准测试中的词错误率也都达到了最先进水平。我们的多语言能力表现也相当不错，我们在五个测试中的四个上达到了最先进水平。

首先，我希望你能认识到我们的评估团队所做的工作，因为评估这些模型并深入理解其能力是非常庞大的工作，这真是太了不起了。这确实让我们对Gemini模型的能力有了明确的认识。我们在论文中也提供了优缺点的测量数据。

大规模的Transformer模型实际上可以生成令人惊讶的连贯对话，这就是神经对话模型的演变以及基于Transformer的版本的进展。

几个月前我们还在使用Gemini模型时，我提到过将“HotChips”和“Tensor Processing Units”反向拼写。这样可以展示这些模型的能力。结果显示：“好的，反向字符串是……”很棒。但接着它还说：“我还可以为你用Python做这个。这里是代码。”定义了一个“反向字符串”函数，然后打印了该字符串的反向形式。模型还解释道：“这个代码首先定义了一个名为‘反向字符串’的函数，该函数将一个字符串作为输入。反向字符串函数通过遍历字符串来工作。代码然后打印反向结果，这总是有帮助的。还有其他我可以帮忙的吗？”这真是太令人惊讶了。有人提出了一个问题，模型不仅回答了问题，还提供了一个名为编程的东西和一些Python代码，并且展示了如何编写代码来实现这一点。这真的很酷。

更重要的是，它提供了一个真实的教育机会。“还有什么我可以帮忙的吗？”“当然，请告诉我更多关于TPU的事。”模型具备了相当的世界知识。它知道TPU基本上是——我告诉过你很多这些内容——是Google开发的专用硬件处理器，用于加速机器学习。它们可以帮助提高效率和性能。这里是一些好处：更快的训练推理。希望这些信息对你有帮助。

有一个名为Lmsys的公共网站可以评估不同的聊天代理，因为现在世界上有很多不同的聊天机器人。它们的做法是让用户写出自己的提示。然后选择两个随机配置的聊天机器人，将查询和提示发送给它们，并展示匿名化的输出。用户只需选择左边还是右边哪个更好。然后根据这些选择计算ELO分数。ELO是一位匈牙利数学家试图开发排名棋手的方法。在比赛中，击败一个对手会获得更多的ELO积分。在比赛设置中，你可以计算ELO分数。大致上，ELO分数高100分意味着更强的竞争者在64%的情况下会获胜，400分则意味着10比1的优势。

Gemini Pro模型实际上在这个排名中达到了第二高的ELO分数。大约有30个不同的模型，我展示的是排行榜的前几名，这非常令人印象深刻。这是一个免费的服务，而其他一些则不是。

我在推特上提到过这个，之后有一个我之前从未见过的人说：“实际上真的很不错。看看这个例子。”我们有一种方式让人们分享他们喜欢并希望公开的Bard互动。这位用户决定这样做。当你点击时，互动内容涉及询问：“请估算以下国家每百万居民的公司数量：美国、英国、韩国、台湾和新加坡。请以表格形式展示你的数据。”Gemini的回答是：“绝对可以，这里是一个表格显示……”，然后表格展示了每百万居民的公司数量。英国的数量最高，其次是美国、韩国、台湾和新加坡。需要注意的是，这些都是估算值；实际数量可能因来源和定义不同而有所变化。希望这对你有帮助。如果有其他问题，请告诉我。随后，用户询问：“你是从哪里找到这些公司数量的？”Gemini回答道：“我为没有提供来源而感到抱歉。透明地说明信息来源是很重要的。我使用的公司数量数据来自不同的来源。对于美国，我使用了邓白氏数据库。对于英国，我使用了国家统计办公室的数据，等等。请注意，这些来源有不同的定义。”它理解了不同定义的细微差别，比如什么构成公司，并知道在哪里找到各种数据来源。它虽然没有记住这些信息，但能够灵活使用这些数据。

另一个重要的趋势是，通过进一步精炼这些通用模型，可以创建出令人惊叹的领域专用模型。

我的一些同事将我们早期的PaLM模型以及PaLM 2模型——这些都是在通用文本上训练的通用模型——进行了扩展和进一步训练，专门用于医疗数据，包括医疗问题和医疗文章。他们发现，第一个Med-PaLM模型实际上超越了医学委员会的考试通过标准。然后，六个月后，他们基于PaLM 2模型创建了Med-PaLM 2，并在这一特定任务上取得了专家级的表现。虽然这不是一个全通用的设置，而是一系列医疗问题，但它确实展示了将一个功能强大的通用模型通过领域专用的方式进行特定问题训练的能力。

接下来，我将快速介绍生成模型在图像和视频生成方面的应用。你可能已经看到这是一个世界范围内的趋势。我们有几个不同的研究项目，如Parti和Imagen。一个有趣的方面是，你可以输入描述你想要的视觉图像的提示，然后模型生成这些图像，这些图像受到句子编码表示的约束，然后基于这个编码生成图像的像素。例如，“一列蒸汽火车穿过一座宏伟的图书馆，风格为伦勃朗的油画。”再如，“一条由玉米、煎饼、寿司或沙拉构成的巨大眼镜蛇——你最喜欢哪一种？”我个人喜欢那条看起来很凶猛的生菜蛇，但玉米蛇也相当不错。“一张白色沙发和壁炉的客厅照片，墙上挂着一幅抽象画，窗外阳光明媚。”如果你需要这样的图片用于演示文稿或其他用途，可以生成这样的图片，并且描述可以非常详细。例如，“一张高对比度的照片，一只熊猫骑在马背上；熊猫戴着巫师帽，读着一本书；马站在街道上，背景是灰色混凝土墙；有五颜六色的花朵和‘和平’这个字。单反相机拍摄，白天的光线。”这是一个很有可能的解释，但至少你可以得到一个符合要求的示例。

伊利诺伊州的K-12政府学校机构对能够创建其吉祥物Hyperlink the Hedgehog的图像感到非常兴奋。这里是Hyperlink在冲浪，骑在这波AI浪潮上。还有一个人对“一个人在伦敦的Costa Coffee买咖啡”的提示非常兴奋。Costa Coffee是一家非常受欢迎的咖啡连锁店。这些模型常常面临的一个问题是文本的保真度——即将你请求的文本正确地呈现为真实的字体等。这里你可以看到它做得相当不错。

基本上，你输入一个提示，它会在分布式向量表示设置中给出这个句子的表示。然后，基于这个表示，模型首先生成一个小规模的图像，再用另一个旨在提高图像分辨率的模型，结合低分辨率图像和文本嵌入，进行处理。最后，我们将这个过程应用于较大的图像和文本嵌入，以生成全尺度的24x24图像。

你可以真正看到规模的效果。如果我们训练四个不同的模型，参数从3.5亿到200亿不等，然后给它们相同的提示——“一张穿着橙色连帽衫和蓝色太阳镜的袋鼠的肖像照片，站在悉尼歌剧院前的草地上，胸前拿着写着‘欢迎朋友’的标牌”——你会看到，在最小的规模下，你能看到袋鼠的样子，但其他的细节很少。有标牌，但对文本的处理存在困难。随着规模的增加，袋鼠的形象稍微好了一些；它现在对悉尼歌剧院有了更多了解，但细节仍然较少，标牌接近‘欢迎朋友’，但可能是‘蔬菜我’，不确定。随着规模的进一步增大，你将获得一张相当不错的悉尼歌剧院、袋鼠以及带有正确文本的橙色连帽衫的图像。因此，规模是一个重要方面。这就是为什么你在过去十年中看到这些进展的原因：规模以及更好的训练方法和算法有助于提高结果的质量。这个图表实际上传达了相同的信息，但我觉得袋鼠说得更好。

重要的是要认识到，许多机器学习技术在不同的方面悄然帮助人们，特别是在手机上。

现代智能手机中的许多相机功能通过计算摄影方法和机器学习方法的结合，在这些年中取得了显著进展。肖像模式可以将背景模糊化，让你在前景中显得更具魅力，这是一种很好的肖像风格照片技术。夜视模式可以在光线非常微弱的条件下拍摄，通过从传感器获取大量读数并在软件中整合，创造出比实际拍摄条件下更高的光线条件。这也有助于拍摄更好的天文摄影。肖像模糊和色彩增强有时也是很有用的功能。Magic Eraser（魔术橡皮）：如果你理解图像并指向一个电线杆，要求“把这些去掉”，系统可以做到这一点。也许你的瀑布照片前面有其他游客，而你不希望他们出现在照片中，你可以将他们抹去。这样，他们就消失了。

手机上有许多功能，其中很多功能涉及如何将一种模态转化为另一种模态。例如，有时你可能想要筛选电话，这时你可以让计算机生成的语音来接听电话，询问来电者的目的，然后将他们的话语转换成文本记录。这样，你就可以决定是否接听这个电话。功能如“为我保持”可以在你打电话给客户支持时代替你等待，避免你自己在电话上等待。实时字幕功能可以对你手机上播放的任何视频进行音频监听，并提供字幕。如果你在类似讲座厅这样的场合观看视频，又不希望音频打扰他人，这些功能就会很有帮助。许多这样的酷炫功能都在用户的手机上运行，而他们可能并不一定意识到或考虑到这些技术的存在。

这些技术对有限识字环境中的人们具有令人惊叹的进展。你可以将摄像头对准某物，系统能够读取你指向的内容，或者如果你不懂某种语言，你可以让它读取并翻译给你。我将快速跳过这一部分，但其中确实有很多令人惊艳的进展。

材料科学是一个相当有趣的领域，机器学习正在开始影响科学的许多方面，包括通过自动化探索科学假设空间的有趣部分，或者通过创建非常快速的模拟器，这些模拟器是通过学习得出的，而不是传统的大规模高性能计算（HPC）方式。在某些领域，你可以学习到一种功能上等同于手动编写的模拟器的模拟器，但速度快了10万倍。这意味着你可以在1000万种可能的化学品或材料中进行搜索，识别出有趣且有前景的材料，并具备某些特性，而这些通常需要更多的计算能力。我的一些DeepMind同事在寻找有趣的方式来搜索可能的材料空间，以发现那些具有有趣特性的材料。他们有一个结构化的流程，可以将潜在材料表示为图形神经网络，并且一个组合流程可以将已知的结构变异成有趣且相邻的结构，然后利用现有的材料数据库来输出能量模型和一些稳定且有趣的可能化合物。这种自动化发现2.2百万种新晶体结构的方法，为实验室实际合成提供了许多有趣的候选材料，以观察它们的性质。

机器学习在医疗保健的各个方面都有巨大的潜力。我们在医学影像和诊断领域已经做了大量工作，这些问题范围从二维图像到三维体积图像（如MRI或其他类型的三维CT扫描），再到仅有单一视图的图像，以及有多个视图和大尺寸高分辨率图像的病理学图像等。我将简要介绍其中两个领域。

我们在这一领域工作的时间最长的一个领域是糖尿病视网膜病变。糖尿病视网膜病变是一种退行性眼病，如果及时发现，可以得到很好的治疗，否则可能导致完全或部分视力丧失。风险人群包括所有糖尿病或前期糖尿病患者，他们应该每年进行筛查，但在许多地方，眼科医生的数量远远不足以进行这些筛查。受过视网膜图像解读训练的医生也很少。机器学习在这里可以发挥很大作用，因为你可以基于受过训练的眼科医生对图像的标注来训练模型，例如，“这是1级、这是3级、这是2级、这是5级”。如果你在经过认证的眼科医生上进行训练，你实际上可以训练出一个与认证眼科医生同样有效的模型。如果再用更多经验丰富的视网膜专家对相同的训练数据进行标注，你可以训练出一个与视网膜专家水平相当的模型，这种专家是这个领域的黄金标准。虽然世界上这样的专家非常少，但你可以使用笔记本电脑上的GPU来实现与视网膜专家相当的筛查质量。

我们与印度的组织、印度眼科医院网络、泰国政府、以及法国和德国的合作伙伴建立了合作关系，每年进行大量的筛查工作。接下来是皮肤科。皮肤科的特点是你不需要特殊设备就能获取用于诊断皮肤疾病的数据。我们现在部署了一种系统，你可以拍摄某物的照片，如视频中所示，系统将提供该物可能的性质，以及在皮肤病数据库中类似的其他图像。这可以帮助你判断这个问题是否非常严重，或者是否相对无害。

最后，深入和广泛理解机器学习方法在全球范围内的应用是非常重要的。从进行基础的机器学习研究，到在我们所有产品中广泛应用，我们开始思考一套原则，用于考虑使用机器学习的影响。在应用机器学习的各种方式中，我们应考虑哪些因素？2018年，我们发布了一套原则，旨在帮助教育我们内部团队有关机器学习的知识，以及在应用这些技术解决问题时需要考虑的事项。

例如，避免创建或加剧不公平的偏见。通常，当你训练这些模型时，它们是基于现实世界的数据进行训练的，这往往是现实世界的真实情况，而不是我们希望的世界。部署机器学习模型时，至关重要的是不要在偏见不公平的数据上进行训练，然后加速这种偏见，因为现在可以更迅速地自动化这些决策。可以应用一些算法技术来去除某些类型的偏见。我们努力应用当前已知的最佳技术，同时进行研究以推进这些领域的前沿。

例如，对人负责：我们认为让模型具有可解释性是重要的方面。在适用的环境中，敏感地处理隐私问题，并确保其具有社会效益。这些都是积极的研究领域。过去五六年间，我们发布了大约200篇关于公平性、偏见、隐私或安全性的论文。

总的来说，现在是计算领域激动人心的时刻。我们正经历从手动编写的软件系统到通过学习进行交互的系统的变革，这些系统可以以各种有趣的方式与世界互动，并以有趣的方式与人交流。计算机现在能够处理、理解和生成的模态正在不断增长，这将使计算机的使用变得更加自然和无缝。我们常常限制自己只通过键盘输入，但现在我们能够以非常自然的方式与计算系统对话。系统将理解我们说的话，并能够以自然的声音作出回应，或者根据我们的要求生成漂亮的图像。这是非常令人兴奋的。尽管机会巨大，但责任也很重。

-----

问题：更多的数据是否会让你的模型变得更好？如果数据量翻倍，模型的性能是否也会翻倍？

回答：这是一个很好的问题，但答案并不简单。我们已经看到，更多高质量的数据确实会让模型在拥有足够训练能力的情况下表现更好。需要考虑模型的容量。有时候，当你拥有更多的训练数据时，也需要增加模型的规模。我们发现，如果获得大量低质量的数据，可能会降低模型解决数学问题等任务的能力。这是一个复杂的问题，但一般来说，更多的高质量数据以及模型的更大容量会让模型表现更好。

问题：在高质量训练数据几乎耗尽的情况下，LLM的未来是什么？你如何看待这个问题？

回答：我对这个说法有些不同意。我认为我们还没有真正开始对视频数据进行大量训练。我们做过一些视频训练，但世界上还有大量的视频数据。通过视觉和音频数据来理解世界将与依赖大量语言数据训练有所不同。你会希望同时进行这两方面的工作，但我认为我们还没有真正耗尽全球的训练数据。

问题：你在演讲中强调了多模态模型。它们在所有领域的表现是否都优于单独针对每个领域的模型？或者你可以换个方式回答这个问题。

回答：在某些情况下，它们确实能达到更好的性能。问题在于，当你增加更多模态时，是否会提升其他模态的表现。通常我们确实会看到一些这样的效果。但如果你有一个狭窄的问题，并且收集了一个专门针对这个问题的数据集，通常会在这个问题上获得很好的性能。但是如果你面临一个复杂的问题，或者很难收集到非常专业化的数据，你会希望拥有一个对世界上很多不同事物有广泛知识的模型，包括语言、图像和音频，然后将这个模型应用到你关心的问题上。如果你对你关心的问题只有少量数据，那么你可能需要从这个基础模型开始，然后进行微调或上下文学习，以便达到良好的性能。

问题：也许可以继续提一个相关的问题。当前，训练大型模型的成本使得小型初创公司很难产生影响。那些资源有限的个人可以从事什么样的项目？你愿意对此发表评论吗？

回答：在机器学习领域有一系列非常广泛的问题。我会从一个角度来讨论，即在没有大型计算数据中心资源的情况下，个人可以从事哪些有趣的研究。这里有很多开放的方向。我提到的数据质量、自动评估数据质量、在线课程学习或优化方法。这些领域中的很多问题可以在一台GPU或几台GPU上进行实验，并且能够取得相当显著和创新的进展。Transformer的工作是使用了8个GPU，我认为序列到序列模型也是使用了8个GPU。我认为，通过巧妙的想法、良好的评估以及在小规模上展示这些想法，仍然可以取得进展。

问题：LLM是否是万能的？Transformer是否是万能的？还有什么其他的东西吗？我们是否应该研究其他类型的模型？对LLM的强调是否抑制了机器学习领域的其他研究？

回答：这是一个值得担忧的问题。我们是否排挤了那些可能还没有得到充分开发的创新想法，因此它们看起来不如一些已经被深入探索的技术那么出色？我们正处于探索哪些方法有效的过程中，也许某些不同的方法可能会非常有效。我认为，展示某个其他想法即使在小规模上也非常有趣，可以通过适量的实验证据来实现，这是一个重要的研究方向。我个人倾向于不单纯使用LLM这个术语，因为我认为我们正在迈向一个多模态的世界。我认为，多模态不仅仅包括视觉、音频和语言这些人类的模态，还包括其他重要的模态，比如来自心率传感器的时间序列数据用于医疗应用。可能有50到100种数据模态需要处理。

--【本文完】---

近期受欢迎的文章：

Google Cloud面向AI/ML的存储解决方案
Google Fellow解读：分布式计算的第五个时代
【Google Fellow】重塑计算：需求如何引领下一代基础设施变革
Google Cloud AI平台及其基础设施
使用Gemini管理大规模Google Cloud Storage

更多交流，可添加本人微信

（请附姓名/单位/关注领域）

机器学习自然语言处理高性能计算谷歌趋势文本分类

文章转载自Andy730，如果涉嫌侵权，请发送邮件至：contact@modb.pro进行举报，并提供相关证据，一经查实，墨天轮将立刻删除相关内容。