Reflexion: 利用反思方式提升Agent决策能力的新框架

向量检索实验室 2024-09-20

2075

Reflexion: Language Agents with Verbal Reinforcement Learning

本文是由Northeastern University, Massachusetts Institute of Technology, Princeton University联合发表，主要通过反思的形式来提升 Agent 的决策能力。

论文地址：https://arxiv.org/pdf/2303.11366

代码链接：https://github.com/noahshinn/reflexion

1 摘要

这篇文本介绍了一种名为Reflexion的新框架，它旨在通过语言反馈而非权重更新的方式来强化大型语言模型（LLM）的性能。Reflexion 代理会口头反思任务反馈信号，并将这些反射文本保存在情景记忆缓冲区中，以便在后续的尝试中做出更好的决策。这种方法具有很高的灵活性，能够处理各种类型的反馈信号，并在多种任务上显示出比基线代理更好的性能。

2 核心内容

Reflexion 方法主要由三个独立但相互协作的模块构成：首先是 Actor 模块，记作，负责生成文本和动作；其次是 Evaluator 模块，标记为，它的作用是对 Actor 模块的输出进行评估；最后是 Self-Reflective 模块，简写为，它提供语言增强信号用来促进 Actor 模块的自我优化。

2.1 Actor

Actor 是基于大型语言模型构建的，它能够根据状态观察来生成必要的文本和执行动作。这与经典的基于策略的强化学习场景相似，作者在t时刻从当前策略中选取一个动作或生成，同时从环境中获取一个观察。作者研究了包括 Chain of Thought 和 ReAct 在内的多种执行者模型。这些多样化的生成模型使他们在 Reflexion框架下探究文本和动作生成起到了指导性作用。

2.2 Evaluator

在 Reflexion框架内，Evaluator 扮演着至关重要的角色，其核心任务是评定 Actor 产出成果的品质。Evaluator 接收 Actor 产出的路径作为数据输入，并据此计算出一个奖励值，这个值旨在量化其在特定任务环境中的表现水平。为了使 Evaluator 的表现更好，作者根据任务类型的不同，设置了不同的奖励函数。如在推理任务，作者基于完全匹配（EM）评分的奖励函数，确保生成的输出与预期解决方案紧密对齐。在决策制定任务中，作者采用针对特定评估标准的预定义启发式函数，以确保决策过程能够高效地产生符合既定目标和约束的解决方案。

2.3 Self-reflection

Self-evaluation 机制，作为大型语言模型（LLM）的一个应用实例，在 Reflexion 架构中扮演着核心角色。它通过产出口头化的自我审视内容，为后续的尝试和改进提供宝贵的反馈信息。具体的，当 Self-reflection LLM 接受到一个稀疏的奖励信号，例如二进制成功状态（成功/失败）以及存储在mem中的轨迹历史后，Self-reflection LLM 会生成细致而具体的反馈。

2.4 Memory

在 Reflexion框架中，Memory 扮演着至关重要的角色，它涵盖了短期记忆和长期记忆这两种类型。在进行逻辑推理时，Actor 会依据这两种记忆来做出选择，这与人类在保持对近期细节的记忆的同时，也能够回忆起长期记忆中的关键信息相似。在强化学习（RL）的环境中，轨迹历史记录充当短期记忆的角色，而自我反思模型（Self-Reflection model）的成果则被保存在长期记忆中。这两种记忆系统共同构建了一个特定的上下文环境，这个环境受到多轮实验中获得的经验的影响。这种上下文环境的构建是 Reflexion 框架在与其他大型语言模型（LLM）的行为选择策略相比时的一个显著优势。

2.5 The Reflexion process

在算法1中，Reflexion被定义为一个重复的优化过程。在初始阶段，Actor 通过与环境相互作用生成初始轨迹。随后，Evaluator 计算出一个分数，该分数表示为，这个分数是针对试验t的标量奖励，并且随着任务表现的提升而增加。在第一次试验之后，为了将扩展为一种能够促进LLM改进的反馈形式，Reflexion架构会分析包含和的集合，并生成一个摘要，这个摘要被存储在内存mem中。是对试验t的口头经验反馈。Actor，Evaluator 和 Reflexion模型通过连续的试验协作，直至 Evaluator 确认是准确的。Reflexion的记忆组件对其性能至关重要。每次试验t结束后，会被添加到mem中。在实际操作中，mem的大小通过限制存储经验的最大数量（通常设置为1-3）来控制，以符合LLM的最大上下文限制。

3 总结

Reflexion是一种创新的机器学习框架，它专注于通过文本强化学习来提升智能代理（Agent）的决策能力。这种方法的核心在于利用语言的力量，使代理能够从历史的错误中吸取教训，并在未来的决策中避免重蹈覆辙。Reflexion的设计理念是将反思机制融入到学习过程中，这意味着代理不仅能够执行任务，还能够在完成任务后进行自我评估，分析其行为的合理性和效果。

在实验中，Reflexion的表现显著优于传统的决策方法。这表明，通过引入反思和自我评估的机制，智能代理能够更加有效地从经验中学习，并且能够更快地适应新的环境和挑战。这种学习方式不仅提高了代理的决策质量，还增强了其在复杂任务中的适应性和鲁棒性。

Reflexion的成功展示了文本强化学习在智能代理训练中的潜力，为未来智能系统的发展提供了新的思路。通过这种方法，我们可以期待开发出更加智能、自适应和高效的人工智能代理，它们能够在各种复杂环境中做出更加合理和有效的决策。

actor 决策能力框架

文章转载自向量检索实验室，如果涉嫌侵权，请发送邮件至：contact@modb.pro进行举报，并提供相关证据，一经查实，墨天轮将立刻删除相关内容。