今天分享的是阿里的一篇论文:

论文链接:https://arxiv.org/pdf/2411.02937

01
摘要
为了解决这个问题,作者构建了一个新的动态视觉问答 (VQA) 数据集——Dyn-VQA,其中包含三种类型的动态问题,这些问题需要复杂且变化的知识检索策略。接着,作者提出了一种首个自适应检索规划代理——OmniSearch,它能够模仿人类解题过程中的动态分解复杂多模态问题为子问题链并执行检索操作。通过大量实验验证了OmniSearch的有效性,并为改进mRAG提供了方向。

02
主要工作
Dyn-VQA数据集:解决动态知识检索问题
实时变化的答案:如体育赛事结果、股票价格等,要求模型能够根据实时更新的数据进行推理并提供准确答案。 多模态知识检索:例如“这张照片中的人是谁?”,模型不仅需要理解图像,还要结合文本信息进行推理。 多跳推理问题:例如“这张照片中的人是做什么工作的?”需要通过多步推理,从识别图像中的对象到检索相关文本信息,最终得出结论。

数据集构建流程
文本问题写作:根据问题类型(如是否需要多模态知识、推理步骤等)进行分类,并编写相应的文本问题。 多模态改写:将文本问题转换为多模态问题,结合图像或其他视觉元素。 中英文翻译与校对:确保问题在中英文之间的翻译准确性。
数据集覆盖领域

OmniSearch:提升动态知识检索能力
框架结构

规划agent:核心模块,负责理解问题、生成子问题、选择检索工具并动态调整检索策略。 检索器:执行具体的检索操作,支持文本搜索、图像搜索等。 子问题求解器:根据检索结果解答子问题,并向规划agent提供反馈。
规划agent动作
自我思考 (ST):根据问题和检索内容进行思考,决定下一步的行动。 子问题 (SQ):生成与原始问题相关的子问题,可以通过检索操作解答。 检索API (R):选择合适的检索工具,如文本搜索、图像搜索等。 API查询 (Q):生成查询内容,在检索工具中查找相关信息。
OmniSearch工作流程
接收问题:规划agent获取到输入问题。 自我思考并生成子问题:规划agent进行推理并生成与问题相关的子问题。 选择检索工具并查询:规划agent选择检索工具并生成查询内容。 执行检索并返回结果:检索器进行检索并返回结果。 求解子问题并反馈:子问题求解器解答子问题并反馈给规划agent。 循环迭代:规划agent根据反馈调整思考,生成新的子问题,直到得到最终答案。
OmniSearch优势
自适应性:根据问题的具体内容和检索结果,动态调整检索策略。 多模态:支持从多种模态(文本、图像等)中检索知识。 可扩展性:可以与各种MLLM模型配合使用,并根据计算资源调整子问题求解器的规模。

03
总结
这篇文章研究了多模态检索增强生成 (mRAG) 技术,旨在解决多模态大型语言模型 (MLLMs) 固有的“幻觉”问题。文章指出,现有的启发式mRAG方法存在检索过程固定、缺乏适应性等问题,而现有的VQA数据集无法充分反映这些问题。
实验结果表明,OmniSearch在Dyn-VQA数据集上取得了显著的效果,为mRAG研究提供了新的思路和方法。

04
编者介绍
李剑楠:华东师范大学硕士研究生,研究方向为向量检索。曾作为核心研发工程师参与向量数据库、RAG 等产品研发,代表公司参加 DTCC、WAIM 等会议进行主题分享。
文章转载自AI 搜索引擎,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。




