斯坦福联合Meta提出多模态模型RA-CM3，检索增强机制或成文本图像领域新制胜法宝

将门创投 2022-12-19

603

论文链接：
https://arxiv.org/abs/2211.12561

相信目前很多AI大模型研究者都会遇到一个非常困难的问题，那就是很难控制的模型参数和容量，由于参与模型训练的数据量非常庞大，如果模型参数太少会导致过拟合，参数量过大又会影响实用性。最近比较热门的很多多模态模型，例如DALL-E和CM3等文本图像生成模型，都有类似的问题，这些模型将从海量数据中学习到的知识（往往是物体的外观信息）存储在模型参数中，这无疑都增加了模型后期的扩展和部署成本。除此之外，目前AI生成领域另一个非常棘手的问题是，当模型在面对一个非常具体、但是在训练阶段从未见到过的文本提示时，生成效果可能不够精确，例如给定模型一段文字“French flag waving on the moon’s surface（法国国旗在月球表面飘扬）”，使用CM3和Stable Diffusion生成的效果如下：

很滑稽，模型居然把硬生生的把法国国旗换成了美国国旗，这是一个非常典型的zero-shot生成错误现象。为了解决这些问题，来自斯坦福大学，Meta AI和华盛顿大学的研究者们提出了一个非常巧妙的方案。他们提出了一种基于检索增强的（Retrieval-Augmented）多模态模型RA-CM3，其包含了一个信息检索框架来从外部存储库中获取知识，具体来说，作者首先使用预训练的CLIP模型来实现一个检索器（retriever），然后使用CM3 Transformer架构来构成一个生成器（generator），其中检索器用来辅助模型从外部存储库中搜索有关于当前提示文本中的精确信息，然后将该信息连同文本送入到生成器中进行图像合成，这样设计的模型就不会出现上面这种非常低级的错误了，下面展示了使用本文提出的RA-CM3生成的效果：

除了展示最终的生成效果之外，作者还将RA-CM3检索到的法国国旗信息一并展示。作者经过一系列的实验证明，RA-CM3在图像和文本生成任务上明显优于目前其他先进的多模态模型，如DALL-E和CM3，（在MSCOCO上提高了12FID和17CIDEr），同时其所需的训练计算量和计算代价也有大幅度降低（小于DALL-E的30%）。

一、引言

作者首先调研了其他图像文本合成方面的多模态模型，例如DALL-E[1]和Parti[2]，这些模型的训练往往需要超大规模的训练数据量（1-10B图像）和可学习参数量（10-80B）来涵盖更丰富的知识。但这其实也是这些大模型目前所遇到的一个性能瓶颈，如果希望这些模型能够随着训练的不断进行而达到一种终生学习的效果，那考虑在模型中加入访问外部存储库应该是目前一个比较明智的做法。并且这种做法对于涉及独特实体知识的任务时会更有用，例如上面所列举的“法国国旗在月球表面飘扬”的例子，参考外部知识库可以帮助模型提高生成的准确性和可解释性。

此外，本文作者在设计模型时还加入了检索增强技术，该技术其实在自然语言理解领域已有应用，例如给定一段输入文本，模型可以使用一个检索器，从外部知识库中检索相关文件，并让生成器使用检索到的文件来进行更好的预测。然而，这些检索增强的方法主要是针对文本研究的，将它们扩展到多模态环境仍然是一个具有挑战性的开放性问题。作者调研了一些在多模态领域研究数据检索增强的方法，但是这些工作的生成器都局限于单一的模式，要么是文本生成，要么是图像生成，如下表所示：

在本文中，作者提出了目前第一个利用检索增强技术的多模态模型RA-CM3，它可以同时检索和生成文本和图像。RA-CM3的输入数据和外部存储器由一组多模态文件组成，其中包含图像和文本的混合数据。为了应对这些输入数据，作者使用预训练的CLIP作为多模态编码器，然后基于CM3架构[3]设计了检索增强的生成器，其本质上是一个能够同时生成文本和图像的Transformer序列模型。在模型的具体操作中，作者将检索到的文件作为主输入文件的上下文信息，并通过联合优化主文件和检索到的文件的token预测损失来训练生成器。

二、本文方法

RA-CM3模型主要由三个核心模块构成：检索器（retriever），外部存储（memory）和生成器（generator）。整体框架图如下图所示。RA-CM3是一种可以同时检索和生成文本和图像混合模态的新架构。给定模型一个输入的多模态文件，RA-CM3先使用检索器从外部存储器中检索相关的多模态文件，送入生成器中来对输入文件进行预测。作者将多模态检索器设计成一个密集的、具有混合模态编码特性的检索器，可以对文本和图像的混合文件进行编码。随后基于CM3 Transformer架构构建了一个检索增强的生成器用来合成准确的图像。下面我们将详细介绍这些模块的主要技术细节。

2.1 预定义

RA-CM3框架由检索器模块和生成器模块组成。其中检索模块将输入序列和外部存储器中的文档作为输入，并返回检索目标文档列表。随后生成器将输入序列和检索到的文档合并作为输入，并返回生成目标，其中是传统语言建模任务中单独文本生成的延续。

2.2 多模态检索

上文提到，RA-CM3的检索器设计为密集编码型检索器，在实际操作时，检索器首先从外部存储中获取查询（例如，输入序列）和相关文档，并返回相关性分数，操作过程可以形式化表示如下：

其中，查询编码器和存储编码器分别为查询和存储文件产生密集向量（如下图所示）。由于这里的输入和存储数据均为多模态文件，因此和必须是混合模态编码器，才可以对文本和图像同时进行混合编码。作者通过实验表明，这里直接采用CLIP作为混合编码器可以获得非常好的效果。

具体来说，给定一个多模态文档，首先将其分成文本部分和图像部分，用预训练的CLIP文本和图像编码器分别对这两部分进行编码，然后对这两部分进行融合并执行规范化，作为文档的向量表示。随后在存储模块中执行最大内积搜索并按照相关性得分对候选文档列表进行排序，最终从这个列表中选取个最接近的检索文档。此外作者还发现保证检索文档的多样性对最终的生成效果至关重要。如果简单地根据相关性得分从文档列表中抽样或取前个文件可能会得到重复或高度相似的图像或文本，从而导致生成器性能不佳。因此在获取文档时还需要将其与已检索到的文档计算相似性来排除冗余的文件。

2.3 多模态生成

RA-CM3的生成器遵循CM3 Transformer架构，为了将检索到的文档合理的送入到生成器中，作者将它们添加到主输入序列 之前，得到一个整体输入序列，我们可以将其理解为：检索到的文档 是主输入序列 的上下文示例，如下图所示：

为了训练生成器，作者迭代优化下面的目标函数：

其中和分别是主输入序列和检索到的文档的CM3 token预测损失。相比之前方法只优化主序列，这里作者同时优化主序列和检索序列的token，有效提高了模型的训练效率。

三、实验结果

为了验证本文提出的RA-CM3模型，作者先在LAION多模态数据集上训练模型，随后在MS-COCO上进行图像文本合成任务评估，评估任务主要包括文本到图像生成（Caption-to-image）、图像到文本生成（Image-to-caption）和图像填充和编辑（Image infilling and editing）。

3.1 文本到图像生成

下表显示了RA-CM3在文本到图像生成任务上的性能对比。评价指标选用FID，一般来说，FID越低图像生成质量越好。本文的RA-CM3在没有微调的情况下获得了16的FID分数，显着优于无检索机制的基线CM3模型（FID 29）和其他模型，例如参数规模比RA-CM3大3倍的DALL-E（FID 28）。这表明检索增强机制可以有效提升模型在图像生成方面的性能。

为了同时考虑训练效率，作者在下图中可视化了RA-CM3模型与其他基线模型的图像生成训练性能对比，其中y轴表示图像合成质量的FID分数，x轴表示模型训练中使用的计算量。可以发现，RA-CM3明显位于其他模型关系线的下方，这表明，RA-CM3可以使用更少的训练计算量来获得更好的FID分数，其拥有更好的训练效率。

3.2 图像到文本生成

下表显示了RA-CM3在没有微调的情况下在图像到文本生成任务上的性能对比。评价指标选用CIDEr分数，该分数越高表示生成效果越好。RA-CM3的CIDEr得分为89，显着优于无检索机制的基线CM3模型（CIDEr 72）。此外，RA-CM3还明显优于其他参数量更庞大的对比模型。这些结果证实RA-CM3可以很好地执行图像到文本生成任务，可以完成较为统一的多模态生成任务。

3.3 图像填充和编辑

因为RA-CM3模型建立在CM3之上，因此其天然可以执行图像填充和编辑任务，下图显示了RA-CM3的图像填充效果，因为填充图像需要高层次语义的目标知识。例如，要恢复下图中图像mask块，模型就需要了解滑雪的知识。借助检索增强机制，RA-CM3可以准确获得滑雪板的外观信息，因而可以较为准确地恢复图中运动员的腿和滑雪板。

此外，RA-CM3还可以通过手动指定上下文来进行图像编辑。例如在下图中，我们可以设置上下文指示图片，其中有一个穿红色夹克的人，RA-CM3可以将原始图像中运动员的黑色夹克编辑为红色。

四、总结

在这项工作中，作者直面目前文本图像合成领域中的痛点问题，提出了一个更加智能的AI大模型RA-CM3。RA-CM3在原有预训练大模型的基础上引入了检索增强机制，以便于模型从外部存储库中检索和引用新知识参与到新图像的合成中。这种设计赋予了模型可以同时对图像和文本混合数据进行编码的能力，同时也大大降低了模型的训练成本和参数容量。此外，RA-CM3在一些精确度要求较高的图像合成场景中会有更好的可信度和可解释性。从另一个角度来看，RA-CM3的提出为社区提供了一种全新通用的、模块化的检索增强多模态框架，相信其能够为这一领域开辟更多有趣的研究途径。

参考

[1] Ramesh, A., Pavlov, M., Goh, G., Gray, S., Voss, C., Radford, A., Chen, M., and Sutskever, I. Zero-shot text to-image generation. In International Conference on Machine Learning (ICML), 2021.

[2] Yu, J., Xu, Y., Koh, J. Y., Luong, T., Baid, G., Wang, Z., Vasudevan, V., Ku, A., Yang, Y., Ayan, B. K., et al. Scaling autoregressive models for content-rich text-to-image generation. arXiv preprint arXiv:2206.10789, 2022.

[3] Aghajanyan, A., Huang, B., Ross, C., Karpukhin, V., Xu, H., Goyal, N., Okhonko, D., Joshi, M., Ghosh, G., Lewis, M., and Zettlemoyer, L. CM3: A causal masked multimodal model of the internet. arXiv preprint arXiv:2201.07520, 2022.