暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

Reflexion: 利用反思方式提升Agent决策能力的新框架

2022
Reflexion: Language Agents with Verbal Reinforcement Learning
本文是由Northeastern University, Massachusetts Institute of Technology, Princeton University联合发表,主要通过反思的形式来提升 Agent 的决策能力。

论文地址:https://arxiv.org/pdf/2303.11366

代码链接:https://github.com/noahshinn/reflexion

1 摘要

这篇文本介绍了一种名为Reflexion的新框架,它旨在通过语言反馈而非权重更新的方式来强化大型语言模型(LLM)的性能。Reflexion 代理会口头反思任务反馈信号,并将这些反射文本保存在情景记忆缓冲区中,以便在后续的尝试中做出更好的决策。这种方法具有很高的灵活性,能够处理各种类型的反馈信号,并在多种任务上显示出比基线代理更好的性能。

2 核心内容

Reflexion 方法主要由三个独立但相互协作的模块构成:首先是 Actor 模块,记作 ,负责生成文本和动作;其次是 Evaluator 模块,标记为 ,它的作用是对 Actor 模块的输出进行评估;最后是 Self-Reflective 模块,简写为 ,它提供语言增强信号用来促进 Actor 模块的自我优化。

2.1 Actor

Actor 是基于大型语言模型构建的,它能够根据状态观察来生成必要的文本和执行动作。这与经典的基于策略的强化学习场景相似,作者在t时刻从当前策略 中选取一个动作或生成,同时从环境中获取一个观察。作者研究了包括 Chain of Thought 和 ReAct 在内的多种执行者模型。这些多样化的生成模型使他们在 Reflexion框架下探究文本和动作生成起到了指导性作用。

2.2 Evaluator

在 Reflexion框架内,Evaluator 扮演着至关重要的角色,其核心任务是评定 Actor 产出成果的品质。Evaluator 接收 Actor 产出的路径作为数据输入,并据此计算出一个奖励值,这个值旨在量化其在特定任务环境中的表现水平。为了使 Evaluator 的表现更好,作者根据任务类型的不同,设置了不同的奖励函数。如在推理任务,作者基于完全匹配(EM)评分的奖励函数,确保生成的输出与预期解决方案紧密对齐。在决策制定任务中,作者采用针对特定评估标准的预定义启发式函数,以确保决策过程能够高效地产生符合既定目标和约束的解决方案。

2.3 Self-reflection

Self-evaluation 机制,作为大型语言模型(LLM)的一个应用实例,在 Reflexion 架构中扮演着核心角色。它通过产出口头化的自我审视内容,为后续的尝试和改进提供宝贵的反馈信息。具体的,当 Self-reflection LLM 接受到一个稀疏的奖励信号,例如二进制成功状态(成功/失败)以及存储在mem中的轨迹历史后,Self-reflection LLM 会生成细致而具体的反馈。

2.4 Memory

在 Reflexion框架中,Memory 扮演着至关重要的角色,它涵盖了短期记忆和长期记忆这两种类型。在进行逻辑推理时,Actor 会依据这两种记忆来做出选择,这与人类在保持对近期细节的记忆的同时,也能够回忆起长期记忆中的关键信息相似。在强化学习(RL)的环境中,轨迹历史记录充当短期记忆的角色,而自我反思模型(Self-Reflection model)的成果则被保存在长期记忆中。这两种记忆系统共同构建了一个特定的上下文环境,这个环境受到多轮实验中获得的经验的影响。这种上下文环境的构建是 Reflexion 框架在与其他大型语言模型(LLM)的行为选择策略相比时的一个显著优势。

2.5 The Reflexion process

在算法1中,Reflexion被定义为一个重复的优化过程。在初始阶段,Actor 通过与环境相互作用生成初始轨迹τ。随后,Evaluator 计算出一个分数,该分数表示为τ,这个分数是针对试验t的标量奖励,并且随着任务表现的提升而增加。在第一次试验之后,为了将扩展为一种能够促进LLM改进的反馈形式,Reflexion架构会分析包含τ的集合,并生成一个摘要,这个摘要被存储在内存mem中。是对试验t的口头经验反馈。Actor,Evaluator 和 Reflexion模型通过连续的试验协作,直至 Evaluator 确认τ是准确的。Reflexion的记忆组件对其性能至关重要。每次试验t结束后,会被添加到mem中。在实际操作中,mem的大小通过限制存储经验的最大数量(通常设置为1-3)来控制,以符合LLM的最大上下文限制。

3 总结

Reflexion是一种创新的机器学习框架,它专注于通过文本强化学习来提升智能代理(Agent)的决策能力。这种方法的核心在于利用语言的力量,使代理能够从历史的错误中吸取教训,并在未来的决策中避免重蹈覆辙。Reflexion的设计理念是将反思机制融入到学习过程中,这意味着代理不仅能够执行任务,还能够在完成任务后进行自我评估,分析其行为的合理性和效果。
在实验中,Reflexion的表现显著优于传统的决策方法。这表明,通过引入反思和自我评估的机制,智能代理能够更加有效地从经验中学习,并且能够更快地适应新的环境和挑战。这种学习方式不仅提高了代理的决策质量,还增强了其在复杂任务中的适应性和鲁棒性。

Reflexion的成功展示了文本强化学习在智能代理训练中的潜力,为未来智能系统的发展提供了新的思路。通过这种方法,我们可以期待开发出更加智能、自适应和高效的人工智能代理,它们能够在各种复杂环境中做出更加合理和有效的决策。

文章转载自向量检索实验室,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论