暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

RARE:突破性推理增强方法,让大语言模型精准应对复杂任务

AI 搜索引擎 2024-12-19
273

今天分享的是一种检索增强推理方法:RARE。

论文链接:https://arxiv.org/pdf/2412.02830

01

简介

随着大型语言模型 (LLMs) 在问答领域的广泛应用,其在处理复杂、知识密集型任务(如医学问答)时,面临着推理准确性和事实可靠性方面的挑战。虽然现有的推理方法(如思维链)在一定程度上提高了推理能力,但它们通常依赖于单一类型的操作,限制了探索的多样性和解决方案的有效性。此外,由于缺乏专门的数据集和评估指标,评估医学问答推理步骤的事实准确性仍然是一个难题。为了解决这些问题,本文提出了检索增强推理增强 (RARE) 方法。RARE 在相互推理框架(rStar)的基础上,引入了两种新的检索增强操作,并使用检索增强事实性评分器 (RAFS) 来评估推理路径的事实性。实验结果表明,RARE 能够显著提高 LLM 在医学问答和常识推理任务上的准确性。

02

框架



RARE 框架旨在通过检索增强和事实性评分来提高大型语言模型 (LLMs) 的推理准确性和事实可靠性。
如上图所示,RARE分为两个主要阶段:1. 使用Retrieval-Augmented Generator生成候选轨迹。2. 使用Retrieval-Augmented Factuality Scorer评估每个候选轨迹的事实可靠性,事实得分最高的轨迹被选择为最终答案。
下面详细介绍每个组件:
1. 检索增强生成器(Retrieval-Augmented Generator):
RARE在rStar生成器的基础上引入了两种新的检索增强操作,形成检索增强生成器:
rStar生成器
rStar生成器是一个基于蒙特卡洛树搜索(MCTS)的框架,它通过引入多样化的推理行动来增强 LLM 的推理能力。rStar生成器的主要特点如下:
  • 基于 MCTSrStar 利用 MCTS 算法来探索不同的推理路径,并选择最优路径。MCTS 是一种用于复杂决策过程的决策算法,例如游戏。它通过构建搜索树并模拟结果来估计潜在行动的价值。MCTS 主要包含四个阶段:
    • 选择从根节点开始,根据 UCT 等策略遍历子节点,直到达到叶节点。
    • 扩展在叶节点,如果它不表示终端状态,则添加一个或多个可行子节点,以表示潜在的后续行动。
    • 模拟(评估)从新添加的节点之一开始,通过随机选择行动直到达到终端状态,从而估计节点的潜在价值,进行随机模拟。
    • 反向传播模拟完成后,结果(胜利、失败或平局)通过遍历的节点传播回溯,更新统计数据(如奖励或访问次数),以指导未来的决策。
  • 推理行动rStar 引入了五种推理行动,包括:
    • A1提出一步思维:根据前一步骤生成下一个推理步骤。
    • A2提出剩余的思考步骤:一次性生成所有剩余的推理步骤。
    • A3生成下一个子问题并回答:将问题分解为子问题,逐一解决。
    • A4重新回答子问题:重新回答之前生成的子问题,以提高准确性。
    • A5重新表述问题/子问题:重新表述问题或子问题,以澄清条件和减少误解。
新增两种检索增强操作:
  • A6搜索查询生成和信息检索:根据初始问题生成搜索查询,并进行信息检索,将检索到的文档作为上下文,以丰富推理轨迹并支持生成更全面和相关的最终答案。其过程如下图所示:
  • A7子问题检索和重新回答:针对通过操作 A3 生成的子问题进行细化,为每个子问题检索特定信息,并使用检索到的信息重新回答子问题,从而提高中间推理步骤的准确性,并确保整个推理轨迹的一致性和事实可靠性。其过程如下图所示:
通过这两种检索增强操作,生成器可以探索更广泛的解决方案空间,生成逻辑一致且富含外部知识的推理路径。
2. 检索增强事实性评分器 (Retrieval-Augmented Factuality Scorer,RAFS):
RAFS 评估每个候选推理路径的事实性可靠性,确保推理步骤与外部知识的对齐。如上图所示,RAFS 评估过程包含四个步骤:
1. 分割成语句(Split into sentences)将推理轨迹分解成独立的语句,以便单独验证每个推理步骤的事实准确性。
2. 生成检索查询(Generate retrieval queries)为每个语句使用 LLM 生成多个检索查询,以检索与每个语句内容相关的证据。
3. 检索信息(Retrieve information)检索系统收集与每个生成查询相对应的文档或信息。这些证据为评估每个推理步骤的一致性提供了事实基础。

4. 使用检索信息进行评分(Rate using retrieved information)每个语句都与检索到的证据进行比较,并根据其与信息的对齐程度标记为“支持”或“不支持”。推理路径的整体事实得分是支持语句的比例,表示轨迹的事实可靠性。

03

总结

RARE方法为了应对复杂的知识密集型任务中的推理挑战,首先在rStar生成器中引入了两项创新的检索增强操作,使模型能够实时集成上下文相关的信息,从而提升推理的准确性和相关性。随后,提出了检索增强事实评分器(RAFS),用于评估和排序推理路径,确保在推理过程中保持逻辑一致性和事实的可靠性。这些创新显著提升了大语言模型(LLMs)在医学和常识问答等任务中的推理精度和事实完整性,尤其在处理需要多步推理和领域特定知识的复杂任务时,表现出显著的性能提升。

▎往期推荐
智能故障分析:IR-based GraphRAG显著提升汽车故障分析效率
ERRR:基于参数知识的查询优化框架,增强RAG系统的准确性
FastRAG:高效半结构化数据处理新范式,轻松提升检索生成效率
对 AI 搜索、向量检索、RAG、Agent 等技术方向感兴趣的伙伴们,如想加入「向量检索实验室」技术交流群,可添加微信 15650753618,进行申请 ~

文章转载自AI 搜索引擎,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论