暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

Agent Memory 深度解析: 从"失忆症"到六大架构流派之争

OpenCurve 2026-06-08
22
大模型天生"失忆"——每次调用都从零开始。Agent Memory 就是给这个健忘的大脑装上"记忆器官"的工程。本文从技术起源、痛点剖析、演进脉络,一路讲到 2026 年最火热的六大架构流派与基准之争,帮你在客户面前讲清楚:记忆为什么重要、该怎么选。

目录 · 逐层递进

01
起源:为什么 Agent 必须有记忆
02
六大痛点:没有记忆的 Agent 是"临时工"
03
认知科学框架:四类记忆的行业通用语言
04
演进脉络:从拼接历史到自组织记忆
05
六大架构流派深度横评(含 SVG 架构图)
06
基准评测之争:LOCOMO 上的"罗生门"
07
一张总表:六方案选型决策矩阵
08
未来方向与可以继续追问的方向

起源 · The Origin

一、为什么 Agent 必须有记忆:技术起源

Agent Memory 这个技术方向的诞生,不是因为"有人觉得该加个功能",而是被一连串工程失败逼出来的。

1.1 种子:ReAct 的"边想边做"理想

2022 年,ReAct 论文提出了"让模型交替推理和行动"的范式——模型先想一步、产出一个动作、看到结果、再想下一步。这是 Agent 循环的概念原型。但论文只解决了"怎么想和做交替",完全没有回答一个关键问题:当任务越来越长,模型怎么记住之前想过什么、做过什么?

1.2 蛮荒时代的集体翻车

2023 年上半年,AutoGPT、BabyAGI 等第一批"全自动 Agent"刷屏。它们有循环、有工具,但几乎没有像样的记忆系统。结果是灾难性的:Agent 陷入死循环反复执行同样的操作、中途忘了最初目标、在已经解决的问题上继续叠加错误、烧光 token 预算却一事无成。这次集体翻车,让业界第一次明确意识到——光有模型和一个 while 循环远远不够,Agent 需要一个"记忆器官"。

1.3 根因:LLM 的"先天失忆症"

为什么必须有记忆?因为 LLM 的底层架构决定了它是一个纯函数(pure function)——每次 API 调用都是独立的,模型不"记得"上一句说了什么。它能"接着聊",纯粹是因为你把历史又喂了一遍。这带来三个结构性矛盾:

结构性矛盾
本质原因
记忆系统要解决什么
无状态

Stateless
Transformer 架构天然是 one-shot inference,不维护跨调用状态
提供跨调用的持久状态存储
有界窗口

Bounded Context
注意力机制的计算复杂度是 O(n²),窗口不可能无限大
用外存+检索突破窗口硬上限
成本线性增长

Linear Cost
为"记住"只能每轮重喂全部历史,token 成本随对话长度线性飙升
用压缩+按需检索替代全量重喂

一句话本质:LLM 被训练成"在给定文本上预测下一个词"的函数,而不是"在真实世界里持续完成目标"的主体。记忆系统,就是在模型的能力之外,用工程手段补齐"持久状态"这个它学不到的部分。

痛点 · Pain Points

二、六大痛点:没有记忆的 Agent 就是"每次都要重新培训的临时工"

记忆不是锦上添花的功能,而是把 Agent 从"一次性问答工具"变成"能长期协作的工作者"的必需品。每个痛点都直接对应商业价值:

痛点
没有记忆会怎样
商业代价
① 跨会话健忘
每次开新会话从零开始,用户反复交代背景
体验割裂、用户流失;等于每天换一个失忆新员工
② 窗口装不下
几个月的对话、整个知识库塞不进有限窗口
无法支撑长周期、知识密集型业务
③ 成本失控
每轮全部重喂历史,token 成本线性飙升
规模化后 API 账单失控、响应变慢
④ 个性化缺失
记不住用户偏好、项目背景、历史决策
产品同质化、粘性低、无法差异化服务
⑤ 长程断点
多步任务中途"忘了最初目标",前功尽弃
复杂自动化(多日审批、长链路排障)无法交付
⑥ 不会成长
犯过的错下次照犯,纠正过的偏好转头就忘
Agent 永远停在"实习生"水平,无法沉淀组织 know-how

售前话术:跟客户讲价值时可以这样收口——"模型决定 Agent 有多聪明,记忆决定它能不能长期、低成本、个性化地为你工作。没有记忆的 Agent,是一个每次都要重新培训、还记不住公司规矩的临时工。"

框架 · Taxonomy

三、认知科学框架:四类记忆——行业通用的讨论语言

客户技术同学张口就会提的,是这套借自人类认知科学的四分法。它已经成为讨论 Agent Memory 的"通用语言",务必记牢:

记忆类型
人类类比
Agent 实现
代表技术
工作记忆
Working
此刻意识里的内容
上下文窗口里的活跃 token
System Prompt + 对话历史
情景记忆
Episodic
"上周三我们决定用方案X"
带时间戳的交互/事件记录
每日 journal、对话回放
语义记忆
Semantic
事实知识("地球绕太阳转")
抽取出的事实条目、知识图谱
Mem0、Zep/Graphiti
程序记忆
Procedural
技能与规则(骑车、流程)
系统提示、行为规则、技能包
AGENTS.md、Skills

注意一个常被忽视的点:Skills AGENTS.md 本质上就是"程序记忆"。很多人以为 Memory 只指"记住事实",其实"记住怎么做事"(Procedural) 同样是记忆的一支。这也是为什么在 Harness 架构中,"指令层"和"记忆层"彼此渗透。

演进 · Evolution

四、演进脉络:从拼接历史到自组织记忆

Agent Memory 的技术演进,可以清晰地划分为五个阶段。每个阶段都在解决上一代遗留的核心缺陷:

AGENT MEMORY 技术演进 · 五代路线2022-2023H1 · 第一代原始拼接 · Raw History Concatenation把全部对话历史直接拼进 prompt,简单粗暴缺陷:窗口爆满、成本线性增长、无个性化2023H2 · 第二代摘要压缩 · Summarization Buffer用 LLM 把早期历史总结成摘要,腾出窗口空间缺陷:有损压缩丢关键细节、摘要质量不稳定2024 · 第三代向量检索 · RAG-based Memory对话切块→embedding→向量库→语义相似度检索缺陷:丢失关系结构、检索噪声、无法表达事实变化2025 · 第四代结构化记忆 · Structured Memory Layer自动抽取事实→知识图谱/时序图谱→结构化检索代表:Mem0(向量抽取) · Zep/Graphiti(时序图谱) · Letta(OS式分页)2025-2026 · 第五代自组织记忆 · Self-Organizing Agentic MemoryAgent 自己管理记忆:自动索引、巩固、反思、遗忘代表:A-MEM(NeurIPS 2025) · Anthropic Agentic Memory · Manus

图1 · Agent Memory 五代演进路线

一条主线贯穿始终:每当模型变强,人们先用它去挑战更长、更复杂的任务,而这些任务对记忆的要求只会更高。从"把历史全塞进去"到"让 Agent 自己管理记忆",这条线的方向是确定的——记忆系统越来越像人类的记忆机制。

核心 · Architecture Deep Dive

五、六大架构流派深度横评

截至 2026 年中,Agent Memory 领域形成了六大主流架构流派。每种流派解决的核心问题不同,适用场景也不同。下面逐个拆解。

流派一:自动记忆抽取层 · 代表 Mem0

Mem0 · ECAI 2025 论文(arXiv:2504.19413) · GitHub 40K+ stars

核心思想:在对话流上插一个"自动抽取层",用 LLM 实时判断"什么值得记",把事实条目抽出来存进向量库+图数据库,下次需要时按语义相似度检索回来。

工作流程:

Step1
对话流经 Mem0 层,LLM 自动抽取事实("用户偏好 Python"、"项目在 us-east-1")
Step2
事实去重、合并冲突(新事实覆盖旧事实)后存入向量库 + 图数据库双存储
Step3
下次对话时,按当前上下文语义检索相关记忆,注入 prompt

关键数据(ECAI 2025 论文):在 LOCOMO 基准上,Mem0 相比 RAG-only 方案实现了 91% 更低的 p95 延迟和显著提升的准确率。token 消耗大幅降低——因为不再每轮重喂全部历史,只注入检索到的相关记忆。

优势

· 即插即用,集成成本最低(几行代码)
· 开源社区最活跃(40K+ stars)
· 向量+图双存储兼顾灵活性和关系表达
· 支持 user/agent/session 三级记忆隔离
· 已有云服务,开箱即用

劣势

· 抽取质量依赖 LLM 能力(小模型效果打折)
· 向量检索丢失时序和因果关系
· 记忆冲突消解相对简单(覆盖为主)
· 不适合"事实随时间演变"的强时序场景
· 抽取过程本身消耗额外 token

适用场景:通用对话记忆、客服机器人、个人助手、快速 POC 验证。

流派二:时序知识图谱 · 代表 Zep Graphiti

Zep · arXiv:2501.13956 · 基于 Neo4j · Graphiti 开源

核心思想:用知识图谱(而非向量库)作为记忆底座。每条事实是一个"节点",实体之间是"边",关键创新是给每条事实加上"有效时间区间"(valid_at invalid_at),让记忆能表达"事实会随时间变化"这个现实。

Graphiti 的核心机制:

实体节点
对话中出现的每个实体(人、公司、产品、概念)自动提取为图谱节点
关系边
实体之间的关系自动抽取为有向边("用户→使用→Python"、"公司→部署→AWS")
时序标注
每条边/节点标注 valid_at/invalid_at,支持"他2024年搬到上海,2025年又去了北京"
混合检索
同时用向量相似度 + 图遍历 + BM25 三路检索,结果融合排序

优势

· 天然表达实体关系和时序变化
· 支持多跳推理("A 的老板的公司用了什么云")
· 事实冲突消解能力强(用时序覆盖旧事实)
· 企业级场景友好(金融、医疗、CRM)
· 基于 Neo4j,成熟生态

劣势

· 部署复杂(需要 Neo4j 实例)
· 图谱构建的 LLM 调用成本高
· 学习曲线陡峭
· 简单对话场景"杀鸡用牛刀"
· LOCOMO 基准分数存在争议(详见第六节)

适用场景:事实强时效性、实体关系复杂的场景——金融投顾、医疗病历、CRM 客户关系管理、法务文档。

流派三:OS 式虚拟记忆 · 代表 Letta(原 MemGPT)

Letta · MemGPT 论文(arXiv:2310.08560) · Andrew Ng DeepLearning.AI 合作课程

核心思想:借鉴操作系统的虚拟内存管理——把 LLM 当 CPU,上下文窗口当 RAM,外部存储当硬盘。Agent 自己负责在"主存"和"外存"之间做分页调度(page in page out),就像一个操作系统管理内存那样。

核心概念——Memory Blocks:

Core Blocks
始终在上下文窗口里的结构化记忆(人设、用户画像、核心规则),Agent 可直接编辑
Recall Memory
完整对话历史,存在窗口外,Agent 可用 search 工具按需检索
Archival Memory
无限容量的外部知识库,Agent 主动写入和检索,类似"长期笔记本"

关键创新在于:记忆的管理权交给了 Agent 自己。不是开发者写死"什么该存什么该取",而是给 Agent 一组 memory editing tools(core_memory_append、core_memory_replace、archival_memory_insert、archival_memory_search),让它自己决定何时读写。

优势

· 思想深度最强("LLM as OS"理论源头)
· Agent 自主管理记忆,无需开发者手写规则
· 完全可控、可审计(所有操作是显式 tool call)
· 支持自托管,数据不出域
· 有 Andrew Ng 背书的课程,学习资源丰富

劣势

· 自编辑记忆的可靠性依赖模型能力(小模型易出错)
· 每次"分页"都是额外 LLM 调用,延迟和成本不低
· 框架较重,简单场景 overkill
· 产品化程度不如 Mem0(更偏研究/框架层)
· 记忆质量波动——Agent 可能"记错笔记"

适用场景:需要完全可控的自托管 Agent 状态管理、研究型长对话、对记忆操作透明性要求高的企业场景。

流派四:自组织记忆 · 代表 A-MEM

A-MEM · NeurIPS 2025 · arXiv:2502.12110 · 动态索引+自我巩固

核心思想:让记忆系统像人脑一样"自组织"——不只是被动存取,而是会主动索引(Indexing)、巩固(Consolidation)、演化(Evolution)。这是目前学术界最前沿的 Agent Memory 架构之一。

三大核心机制:

索引
基于 Zettelkasten 笔记法,每条记忆自动建立"链接"指向相关记忆,形成动态网络而非平坦列表
巩固
类似人类睡眠时的记忆巩固——周期性合并相关记忆、提炼出更高层的洞察、淘汰冗余
演化
记忆结构随新信息动态重组——旧记忆被新证据更新,关联关系自动调整

优势

· 最接近人类记忆机制的设计
· 记忆质量随时间提升(巩固效应)
· 自动发现记忆间的隐含关联
· 在 token 效率上表现优异(85-93% 效率)

劣势

· 仍处学术阶段,产品化程度低
· 巩固过程需要额外 LLM 调用,成本较高
· 过度巩固可能丢失有价值的细节
· 实现复杂度高,调参门槛高

适用场景:需要长期积累和知识演化的场景——研究助手、知识管理、组织级知识沉淀。

流派五:结构化笔记 · 代表 Anthropic Claude Code

Anthropic《Effective context engineering for AI agents》· Claude Code · QoderWork

核心思想:最"工程化"的路线——不做复杂的自动抽取或图谱构建,而是让 Agent 自己把关键信息写到上下文窗口之外的文件里(如 MEMORY.md、NOTES.md),需要时再读回来。本质是"给 Agent 一个笔记本"。

Anthropic 提出的两个核心打法:

结构化笔记
Agent 主动把关键事实、决策、待办写到外部文件。这是"程序化"的记忆——格式由开发者定义(如 MEMORY.md 分 user/memory/daily 三层)
上下文编辑
自动清除窗口里陈旧的工具结果(十步前读过的文件),给新信息腾地方。配合 compaction 压缩历史。

Manus 的实践补充:2025 年 Manus Agent 公开了其上下文工程经验——核心也是"让 Agent 把记忆写到文件里"。关键设计是可恢复的快照机制:Agent 周期性地把当前工作状态序列化到文件,任务中断后可以从快照恢复,避免长任务的"失忆"问题。

优势

· 工程化程度最高,已在 Claude Code/QoderWork 大规模验证
· 记忆格式透明可控(就是 Markdown 文件)
· 成本极低(不需要额外的向量库或图数据库)
· 开发者易理解、易调试
· token 预算可精确管理(如 MEMORY.md 的 byte 预算条)

劣势

· 记忆质量完全依赖 Agent 的"笔记能力"
· 缺乏自动化的抽取和去重机制
· 不适合海量记忆的检索场景
· 跨用户共享记忆困难(每个 Agent 笔记风格不同)
· 记忆格式与具体产品强绑定

适用场景:编码 Agent、桌面助手、任务型 Agent、需要记忆透明可控的场景。

流派六:经验学习记忆 · 代表 Hindsight

Hindsight · arXiv:2512.12818 · Vectorize.io · 2025-2026 新兴

核心思想:不只是"记住事实",更要"从经验中学习"。Hindsight 把 Agent 的历史交互视为一种可回放的"经验流",记忆系统负责从中提取可复用的模式和教训(而非单纯的事实条目),并在未来类似场景中主动提示。

与 Mem0 的"抽取事实"不同,Hindsight 更强调"记住做过什么、学到了什么、下次该怎么做"。这更接近人类的"经验记忆"——你不只记得"那个 bug 在 line 42",更记得"遇到类似报错时应该先检查依赖版本"。

优势

· 从经验中提取可复用模式,Agent 越用越聪明
· 天然适配编码/运维等"踩坑-修复"场景
· 支持"事后反思"(retrospective)机制

劣势

· 较新,生态和社区尚不成熟
· 经验抽取的质量高度依赖 LLM 的反思能力
· 在通用对话记忆场景优势不明显

适用场景:编码 Agent、运维自动化、任何需要从"踩坑经验"中持续学习的场景。

全景 · Architecture Landscape

六大架构流派全景对比图

AGENT MEMORY 六大架构流派 · 定位图记忆结构化程度 →(从非结构化到强结构化)Agent 自主管理程度 →(从被动到自主)Mem0向量抽取层即插即用·社区最大Zep/Graphiti时序知识图谱强时序·强关系LettaOS 式虚拟记忆LLM as OSA-MEM自组织记忆索引·巩固·演化Anthropic结构化笔记工程化·透明可控Hindsight经验学习记忆踩坑→学习→复用简单集成区强表达力区轻量自主区前沿探索区

图2 · 六大架构流派定位图(横轴=结构化程度,纵轴=自主管理程度)

评测 · Benchmarks

六、基准评测之争:LOCOMO 上的"罗生门"

谈 Agent Memory 就绕不开评测基准。目前最主流的基准是 LOCOMO(Long Conversation Memory)和 LongMemEval。但围绕 LOCOMO 分数的争议,恰恰揭示了当前评测体系的深层问题。

6.1 LOCOMO 基准简介

LOCOMO 是 2024 年发布的 Agent Memory 评测基准,用长对话(平均 9K 轮、300K+ token)生成后提问,测试 Agent 对多类型信息的记忆能力。它覆盖五类问题:单跳事实、多跳推理、时序判断、对话摘要、和模糊查询。

6.2 各家声称的分数与实际争议

系统
声称分数
争议/修正
第三方复现
Zep
论文声称 84%
被 Mem0 CTO 指出评估方法存在偏差,修正后约 58.44%(GitHub issue #5
Memori Labs 复现: 79.43 (单跳) 69.16 (多跳)
Mem0
ECAI 论文中报告显著提升
重点报告了延迟和 token 效率(p95 降低 91%),而非绝对分数
研究页面可查: token 效率基准 90+%
MemMachine
声称 0.9169 总分
较新系统,社区验证中
待验证
MemPalace
声称 100% 满分
被 Vectorize.io 质疑"benchmark gaming"
社区普遍存疑

售前必知的"评测陷阱":Agent Memory 领域的 LOCOMO 分数目前不可直接横向比较。各家使用的评测配置(模型、prompt、检索策略)差异很大,且基准本身存在"短对话题准确率虚高"的问题。建议跟客户沟通时,不要只看一个数字,而是关注具体场景下的实测结果

6.3 比分数更重要的三个维度

维度
为什么重要
谁表现好
Token 效率
同样记住一件事,消耗多少 token——直接影响 API 成本
Mem0(压缩算法优势明显)
检索延迟 p95
长尾延迟决定用户体验的下限
Mem0(91% 更低的 p95)
冲突消解能力
事实变化后,旧记忆能否被正确更新而非残留
Zep/Graphiti(时序标注天然解决)

选型 · Decision Matrix

七、一张总表:六方案选型决策矩阵

这是你可以直接拿去跟客户对话的选型总表。核心决策变量是"你的记忆要不要表达时间变化和实体关系"——要,就往图谱走;不要,向量抽取层就够。

维度
Mem0
Zep/Graphiti
Letta
A-MEM
Anthropic
Hindsight
存储底座
向量库+图DB
Neo4j图谱
文件+向量
动态索引网络
Markdown文件
向量库+经验库
时序支持
强(核心卖点)
集成难度
部署方式
云/自托管
云/自托管
自托管为主
开源/研究
产品内建
开源
额外 LLM 成本
中(抽取)
高(图谱构建)
中(分页调度)
高(巩固/演化)
中(反思)
社区/生态
最大(40K+ stars)
中等
中等
学术阶段
生态锁定
早期
最佳场景
通用对话
快速POC
金融/医疗
CRM
可控Agent
研究型对话
知识管理
长期积累
编码Agent
任务型Agent
运维/编码
经验学习

售前选型速记口诀:"快速 POC 找 Mem0,时序关系上 Zep,完全可控选 Letta,长期沉淀看 A-MEM,编码任务 Anthropic 自带,踩坑学习 Hindsight。先问客户——'你的记忆要不要表达时间变化和实体关系?'要,往图谱走;不要,向量抽取就够。"

未来 · Future Directions

八、未来方向

8.1 五个值得关注的演进方向

方向
核心趋势
代表信号
混合架构融合
向量+图谱+结构化笔记不再互斥,而是分层组合。Mem0 已在引入图存储,Zep 也在加向量检索
Mem0 的 graph memory 模块;Graphiti 的混合检索
记忆成为基础设施
Memory 从"应用层功能"下沉为"基础设施层服务"——像数据库一样独立部署、标准化接口
MCP 协议对记忆工具的支持;LangMem SDK 的标准化接口
模型×记忆协同训练
用 RL 专门训练模型"更好地使用记忆工具"——知道何时写、何时读、何时遗忘
Anthropic 对 Claude 的 memory tool 专项训练
多 Agent 共享记忆
多 Agent 协作场景下的记忆共享、隔离与冲突消解成为新课题
NeurIPS 2025 G-Memory(多Agent层级记忆追踪)
原生记忆能力内化
部分记忆功能从外挂系统移进模型本身——ChatGPT 的 history referencing 是第一步
OpenAI 2025.4 起 ChatGPT 可引用全部历史对话

主要参考:Mem0 ECAI 2025 论文 (arXiv:2504.19413) · Zep/Graphiti 时序知识图谱 (arXiv:2501.13956) · MemGPT/Letta "LLM as OS" (arXiv:2310.08560) · A-MEM 自组织记忆 (NeurIPS 2025, arXiv:2502.12110) · Hindsight 经验学习记忆 (arXiv:2512.12818) · Anthropic《Effective context engineering for AI agents》· Manus 上下文工程实践 · LOCOMO / LongMemEval 评测基准 · EVOLVE-MEM 自适应层级记忆 (NeurIPS 2025) · G-Memory 多Agent层级记忆追踪 (NeurIPS 2025) · MemMachine 基准评测 (arXiv:2604.04853) · LangMem SDK (LangChain 2025)。具体数字与版本以各厂商官方最新文档为准。

Agent Harness: 把一个"会说话的大脑"变成能干活的 Agent

文章转载自OpenCurve,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论