RAT: 将RAG与CoT结合，有效提升模型性能

AI 搜索引擎 2024-10-09

999

今天分享的论文来自于北京大学。

题目是RAT: Retrieval Augmented Thoughts Elicit Context-Aware Reasoning in Long-Horizon Generation.

RAT：检索增强思维链在长周期生成中的上下文感知推理

文章链接：https://arxiv.org/pdf/2403.05313

demo链接：https://craftjarvis.github.io/RAT

摘要

这篇文章主要关注的是如何提高大语言模型在需要长序列推理(Long-Horizon Reasoning，指的是在处理需要跨越较长时间跨度或包含多个连续决策步骤的任务)和生成任务中的表现。研究人员发现，通过引入一种称为“检索增强型思维链”（RAT）的技术，可以有效地改进模型的性能。这种方法的核心思想是在模型生成初步的思考链之后，利用RAG来逐步校正和完善这一链条，确保每一步都基于与当前任务最相关的信息进行修正。

主要方法

对于RAG+CoT的结合，其实思路是都很朴素。无论是迭代式的纠正思维链的内容还是递进的根据检索内容来继续生成思维链都是一些实战中常规的思路。但在这套体系中仍然还是两个核心问题分别是什么是要检索的相关信息、如何用相关的事实信息有效地纠正推理步骤。

本文的核心方法可以用一张流程图来总结。

CoT生成初步思维步骤：

首先，给定一个任务提示（Prompt），让LLM生成一系列初步的思维链，这些思维步骤可能是不完整的或者包含错误信息（如幻觉）。

RAG增强的思维步骤修正：

对于每一个生成的思维步骤，将其与任务提示以及之前已修正的思维步骤一起转换成一个查询，这个查询可以用来从检索系统中获取相关文档。
使用检索到的相关文档来修正当前的思维步骤，生成一个新的修正后的思维步骤。

最终响应生成：

当所有的思维步骤都被修正后，这些修正后的思维步骤可以作为最终的模型响应输出。
对于某些任务，比如代码生成或创意写作，LLM还会根据修正后的思维步骤进一步生成完整的响应。

方案优势

信息利用更有效：通过查看所有生成的思维步骤以及任务提示，可以提供更多的线索来进行更有效的检索。
中间问题更容易解决：对于复杂的推理问题，直接检索最终答案相关的全部信息可能会很困难，但检索与中间问题相关的较简单信息则更容易实现。
针对性修正幻觉：逐一修正每一个思维步骤可以避免在整个思维链上应用RAG时可能引入的新错误，从而使得修正更加可靠。

RAT的场景分析

文章中作者通过这两个例子，展示了RAT如何通过持续地检索和修正来改善模型的生成质量。

我的世界游戏中的规划任务

在这个场景中，RAT 的优势在于它能够通过针对特定任务步骤的持续检索和修正，来改进初始思维链（CoT）生成的结果。具体表现在以下几个方面：

知识密集型任务：Minecraft中的长序列规划任务需要考虑多种物品才能完成任务，这是一项知识密集型的工作。
互联网知识碎片化：由于互联网上的Minecraft知识分散在各个地方，单靠一个来源无法完成任务。
CoT 存在的不足：尽管像ChatGPT这样的语言模型可以通过零样本CoT推理识别必要的物品，但它们在程序步骤上常会出现不准确的情况。例如，ChatGPT 错误地认为制作工作台需要4个木块，而实际上需要4块木板。
传统RAG算法的局限性：传统的RAG算法通过问题作为查询来检索知识，主要关注最终目标物品，但未能充分检索中间物品，导致任务改进有限。
RAT 的优势：RAT 改进了CoT的初始答案，通过有针对性的检索不断修正思维步骤，与任务进度和相关物品知识紧密对齐。这种方法显著增强了规划的有效性，确保了对计划中所有物品的全面理解和检索。

开放式创意写作任务

对于开放式的创意写作任务，评估通常侧重于完整性和准确性。以“根据时间线总结美国内战”为例：

CoT 和 DIRECT 提示下的局限性：在这种提示下，语言模型经常产生严重的幻觉。例如，错误地将美国内战开始的时间标记为1860年而不是正确的1861年。
直接网络查询的局限性：对于此类任务，直接从互联网查询往往只能检索到有限的事件，经常忽略战争的确切开始日期（1861年4月12日）。
传统RAG方法的不足：即使是RAG-1或RAG-5，它们倾向于总结搜索结果中的内容，但也经常错过这个关键事件。
RAT 的优势：RAT 基于语言模型的草稿答案进行搜索，发现幻觉通常发生在具体细节上，如特定日期，但这并不妨碍搜索引擎识别相关的信息（如美国内战开始日期）。RAT 利用检索到的内容来识别并纠正草稿答案中的错误，而不仅仅是总结检索到的内容。因此，RAT 可以通过推理实现完整的生成，并通过利用检索到的知识来提高答案的准确性和可信度。

总结

本文提出了一个RAG+CoT的实现思路。笔者认为这确实是目前主流的落地应用最普遍也是最实用的思路。当然技术路径并不局限于论文中实现的方案。在哪个阶段进行检索以及用什么文本进行检索是需要结合应用场景去设计的。每一步都检索和反思也容易带来更多的噪音数据和资源开销。

编者简介

李剑楠：华东师范大学硕士研究生，研究方向为向量检索。作为核心研发工程师参与向量数据库、RAG等产品的研发。代表公司参加DTCC、WAIM等会议进行主题分享。

cot

文章转载自AI 搜索引擎，如果涉嫌侵权，请发送邮件至：contact@modb.pro进行举报，并提供相关证据，一经查实，墨天轮将立刻删除相关内容。