阿里多模态RAG新框架，快速提升图文检索准确率

AI 搜索引擎 2024-11-28

672

今天分享的是阿里的一篇论文：

Benchmarking Multimodal Retrieval Augmented Generation with Dynamic VQA Dataset and Self-adaptive Planning Agent.

多模态检索增强生成的基准测试与动态VQA数据集及自适应规划代理

这篇文章目前在ICLR2025审稿中。

论文链接：https://arxiv.org/pdf/2411.02937

代码链接：https://github.com/Alibaba-NLP/OmniSearch

摘要

本文研究了一种多模态检索增强生成技术 (mRAG)，该技术对于减少多模态大型语言模型 (MLLMs) 中固有的“虚构”问题具有重要作用。然而，现有的启发式mRAG通常预设了固定的检索过程，导致非自适应检索查询和检索查询过载两大问题。

为了解决这个问题，作者构建了一个新的动态视觉问答 (VQA) 数据集——Dyn-VQA，其中包含三种类型的动态问题，这些问题需要复杂且变化的知识检索策略。接着，作者提出了一种首个自适应检索规划代理——OmniSearch，它能够模仿人类解题过程中的动态分解复杂多模态问题为子问题链并执行检索操作。通过大量实验验证了OmniSearch的有效性，并为改进mRAG提供了方向。

主要工作

Dyn-VQA数据集：解决动态知识检索问题

Dyn-VQA数据集 是为评估mRAG方法在处理动态知识检索任务中的表现而构建的，包含 1,452 个问题，主要针对以下几类情况：

实时变化的答案：如体育赛事结果、股票价格等，要求模型能够根据实时更新的数据进行推理并提供准确答案。
多模态知识检索：例如“这张照片中的人是谁？”，模型不仅需要理解图像，还要结合文本信息进行推理。
多跳推理问题：例如“这张照片中的人是做什么工作的？”需要通过多步推理，从识别图像中的对象到检索相关文本信息，最终得出结论。

数据集构建流程

构建Dyn-VQA数据集时，分为三个步骤：

文本问题写作：根据问题类型（如是否需要多模态知识、推理步骤等）进行分类，并编写相应的文本问题。
多模态改写：将文本问题转换为多模态问题，结合图像或其他视觉元素。
中英文翻译与校对：确保问题在中英文之间的翻译准确性。

数据集覆盖领域

Dyn-VQA涵盖了体育、娱乐、公司、产品、交通、政治、科技、艺术、自然等9个领域，确保了问题类型的广泛性，包括动态问题、多模态问题和多跳推理问题。

OmniSearch：提升动态知识检索能力

OmniSearch是一个自适应的检索agent，专为解决mRAG方法在动态知识检索中的问题而设计。它模拟人类解决复杂问题的方式，将问题分解为子问题并逐一检索答案。

框架结构

OmniSearch由三个模块组成：

规划agent：核心模块，负责理解问题、生成子问题、选择检索工具并动态调整检索策略。
检索器：执行具体的检索操作，支持文本搜索、图像搜索等。
子问题求解器：根据检索结果解答子问题，并向规划agent提供反馈。

规划agent动作

每个动作包括四个关键部分：

自我思考 (ST)：根据问题和检索内容进行思考，决定下一步的行动。
子问题 (SQ)：生成与原始问题相关的子问题，可以通过检索操作解答。
检索API (R)：选择合适的检索工具，如文本搜索、图像搜索等。
API查询 (Q)：生成查询内容，在检索工具中查找相关信息。

OmniSearch工作流程

接收问题：规划agent获取到输入问题。
自我思考并生成子问题：规划agent进行推理并生成与问题相关的子问题。
选择检索工具并查询：规划agent选择检索工具并生成查询内容。
执行检索并返回结果：检索器进行检索并返回结果。
求解子问题并反馈：子问题求解器解答子问题并反馈给规划agent。
循环迭代：规划agent根据反馈调整思考，生成新的子问题，直到得到最终答案。

OmniSearch优势

自适应性：根据问题的具体内容和检索结果，动态调整检索策略。
多模态：支持从多种模态（文本、图像等）中检索知识。
可扩展性：可以与各种MLLM模型配合使用，并根据计算资源调整子问题求解器的规模。

总结

这篇文章研究了多模态检索增强生成 (mRAG) 技术，旨在解决多模态大型语言模型 (MLLMs) 固有的“幻觉”问题。文章指出，现有的启发式mRAG方法存在检索过程固定、缺乏适应性等问题，而现有的VQA数据集无法充分反映这些问题。

为此，文章构建了Dyn-VQA数据集，包含三种需要动态知识检索的“动态”问题，并提出了自适应性检索agent OmniSearch，能够根据问题解决状态和检索内容动态调整检索策略，有效提升MLLMs的多模态问答能力。

实验结果表明，OmniSearch在Dyn-VQA数据集上取得了显著的效果，为mRAG研究提供了新的思路和方法。

编者介绍

李剑楠：华东师范大学硕士研究生，研究方向为向量检索。曾作为核心研发工程师参与向量数据库、RAG 等产品研发，代表公司参加 DTCC、WAIM 等会议进行主题分享。

自适应动态

文章转载自AI 搜索引擎，如果涉嫌侵权，请发送邮件至：contact@modb.pro进行举报，并提供相关证据，一经查实，墨天轮将立刻删除相关内容。