AI智能体分层记忆系统：短期与长期记忆协同架构与工程实践

在人工智能与机器学习领域，记忆机制是构建具备持续学习与交互能力智能系统的核心基础。其原理在于模仿人类认知的信息处理模式，通过结构化存储与检索策略，实现从数据到知识的转化。这一技术的核心价值在于显著提升AI代理的任务连贯性、个性化服务能力与长期交互效率，是克服大模型“上下文遗忘”瓶颈的关键。在应用场景上，分层记忆系统广泛应用于智能客服、个性化助理、游戏NPC及自动化工作流等需要维持复杂状态与用户画像

Hellowongwong

687人浏览 · 2026-05-26 13:10:38

Hellowongwong · 2026-05-26 13:10:38 发布

1. 项目概述：智能体的记忆系统为何是分层的？

最近和几个做AI应用落地的朋友聊天，大家不约而同地提到了一个痛点：我们给大模型接上了海量的知识库，让它能“记住”成千上万的文档，但为什么在和用户进行多轮对话时，它还是会像个“金鱼”一样，忘记几分钟前刚聊过的关键细节？比如，用户先说“我喜欢吃辣”，两轮对话后你推荐餐厅，它可能就推荐了个粤菜馆。这背后的核心矛盾，其实指向了AI智能体（AI Agent）设计中一个至关重要，却又常被误解或简化处理的概念：记忆系统。

这个项目标题“How AI Agents Use Short-Term and Long-Term Memory”精准地切中了要害。它探讨的不是简单的“有没有记忆”，而是“如何结构化地使用记忆”。一个真正智能的、能持续执行复杂任务的AI智能体，其记忆机制必须像人类一样是分层的、有策略的。短期记忆（Short-Term Memory）负责处理当前对话的上下文、临时的指令和即时状态，它快速、灵活但容量有限；长期记忆（Long-Term Memory）则负责存储从历史交互中提炼出的核心知识、用户偏好、事实性信息和任务经验，它稳定、容量大但调用稍慢。两者的协同工作，决定了智能体是“机智的伙伴”还是“健忘的机器”。

理解这套机制，对于任何想要构建实用AI应用——无论是智能客服、个人助理、游戏NPC还是自动化工作流——的开发者都至关重要。它直接关系到产品的用户体验、任务完成度和系统的可扩展性。本文将深入拆解AI智能体如何运用这两种记忆，从设计思路、技术实现到实操避坑，分享一套经过实战检验的架构方案。

2. 记忆系统的整体架构与设计哲学

2.1 为何“一刀切”的记忆方案行不通？

在项目初期，很多人会倾向于使用一个“万能”的向量数据库来承载智能体的所有记忆。用户每说一句话，就把这句话的向量存进去；需要回忆时，就做一次相似度搜索。这种方法简单粗暴，但很快就会遇到天花板。

首先，是 成本与效率问题 。每一次交互都进行向量化存储和检索，对于高频对话场景，计算和存储成本会急剧上升。更重要的是，这会导致 信息过载与噪音干扰 。想象一下，你和助理的每一句闲聊（“今天天气不错”）都被当作重要信息存储，当你下次问“我上周提到的项目进展如何？”时，系统可能会优先检索出“天气不错”这种无关向量，因为它的向量表示在语义上可能意外地“接近”你的问题。

其次，是 记忆的粒度与目的不匹配 。短期记忆关注的是“会话流”（Conversation Flow），它需要记住“用户刚刚拒绝了方案A，并询问了方案B的细节”。这是一个连贯的、临时性的叙事。而长期记忆关注的是“知识核”（Knowledge Core），它需要记住“用户是项目经理，偏好数据可视化的报告，对成本敏感”。这是离散的、需要持久化的特征。

因此，一个有效的设计哲学是： 分离关注点（Separation of Concerns） 。让短期记忆系统轻装上阵，专注于维持对话的连贯性与即时任务状态；让长期记忆系统厚积薄发，专注于用户画像的构建与领域知识的沉淀。两者通过明确的协议进行交互和同步。

2.2 分层记忆架构的核心组件

基于上述哲学，一个典型的分层记忆架构包含以下核心组件：

短期记忆（Short-Term Memory / Working Memory） ：
- 载体：通常直接利用大模型本身的上下文窗口（Context Window）。对于超长对话，可采用压缩、摘要或滑动窗口等机制进行管理。
- 内容：当前会话的完整或摘要历史、未完成的子任务、临时变量（如用户刚刚提供的电话号码）、当前的系统指令（Prompt）状态。
- 特点：高速存取、状态易失（会话结束即重置）、容量有限（受上下文长度限制）。
长期记忆（Long-Term Memory） ：
- 载体：外部存储系统，通常是数据库。根据信息类型，可进一步细分：
  - 事实性记忆 ：使用向量数据库（如Chroma, Weaviate, Pinecone）存储可检索的语义化知识片段。
  - 结构性记忆 ：使用关系型数据库（如SQLite, PostgreSQL）或键值存储（如Redis）存储用户属性、偏好设置、会话元数据等。
- 内容：用户档案（偏好、身份）、重要事实（“用户的公司地址是XX”）、历史会话的精华摘要、学到的技能或规则。
- 特点：持久化存储、检索需要计算（尤其是向量检索）、容量理论上无限。
记忆控制器（Memory Controller） ：
- 这是整个系统的“大脑”，负责决策何时、如何与记忆系统交互。它的逻辑通常被编写在智能体的“规划”或“推理”模块中，或作为系统提示词的一部分。主要功能包括：
  - 写入决策 ：判断当前交互中的哪些信息值得存入长期记忆（是整段对话，还是一个关键事实？）。
  - 读取决策 ：在回答或行动前，判断需要从长期记忆中召回哪些相关信息。
  - 记忆合成 ：将从长期记忆中检索到的信息，与短期记忆中的当前上下文，整合成一份完整的“思维背景”，提交给大模型进行推理。

2.3 一个类比：餐厅服务生与客户关系管理系统

你可以把AI智能体想象成一个顶尖的餐厅服务生。

短期记忆 是服务生手中的便签本和当前桌台的状态。他记得“3号桌的客人点了牛排要五分熟，但刚才说等得太久有点不满，正在安抚”，这些信息随着服务这张桌子而存在，结账后便签本就清空了。
长期记忆 是餐厅的客户关系管理（CRM）系统。服务生通过查询系统知道“王先生是VIP，每月至少来两次，最爱1982年的红酒，对花生严重过敏”。这些信息不会出现在每张便签上，但需要在关键时刻（比如点酒、确认菜品配料时）被主动调取。
记忆控制器 是服务生的经验和培训。他知道：当客人坐下时，要先去CRM系统查看是否有过敏史等重要信息（读取长期记忆）；当客人表现出新的强烈偏好（“这次的酒很棒，记下来”），他会在服务结束后更新到CRM系统（写入长期记忆）；而在整个服务过程中，他主要依靠便签本和临场应变（短期记忆）。

优秀的服务生（智能体）能无缝地在便签本（短期）和CRM系统（长期）之间切换，提供个性化且连贯的服务。而新手要么只会看便签本（忽略长期记忆），要么频繁翻看CRM耽误反应速度（过度检索长期记忆）。

3. 短期记忆的实战：管理上下文与对话状态

3.1 超越简单的对话历史堆叠

最原始的短期记忆就是将整个对话历史（User: ... Assistant: ...）拼接起来，作为下次模型调用的输入。这在对话轮次少时可行，但轮次一多，就会耗尽上下文窗口，导致最早的关键信息被“遗忘”（实际上是被截断）。

因此，我们需要更精细的管理策略：

对话历史压缩与摘要 ：
- 策略：定期（例如每5轮对话后）或当上下文长度接近阈值时，触发一个摘要动作。让大模型对之前的对话历史生成一个简洁、保留核心事实和决策的摘要。
- 操作：将 [完整历史] 替换为 [系统指令：请总结以下对话的核心内容] + [旧摘要] + [最近几轮未摘要的对话] 。新的摘要将成为后续对话历史的一部分。
- 示例：用户花了10轮对话详细描述了他理想中的婚礼场景。智能体在后台将其摘要为：“用户计划举办一场约100人的户外花园婚礼，主题是‘森系’，主色调为白绿色，预算在15-20万，时间在明年秋季。用户特别强调了鲜花装饰和现场乐队。”
- 注意：摘要会不可避免地丢失细节。关键是要保留对 未来对话可能重要的决策点和事实 ，而不是所有情感色彩或冗余描述。摘要的触发频率和粒度需要根据场景权衡。
关键信息提取与显式存储 ：
- 策略：在对话中实时识别并提取关键实体和信息（如日期、地点、人名、任务指标、用户明确声明的偏好），并将其放入一个结构化的“暂存区”（如一个Python字典或特定JSON字段）。
- 操作：这可以通过在系统提示词中要求模型“提取关键信息”，或使用一个专门的信息提取函数/模型来实现。
- 示例：用户说：“帮我约一下下周三下午和王总开会，主题是Q2复盘，记得把上周的销售数据报表也附上。”智能体应提取出： {“action”: “schedule_meeting”, “date”: “下周三下午”, “attendee”: “王总”, “topic”: “Q2复盘”, “attachment”: “上周销售数据报表”} 。这个结构化的信息比原始句子更容易在后续步骤中被程序化使用。
滑动上下文窗口 ：
- 策略：固定保留最近N轮对话的原始记录，加上一个从更早历史中生成的摘要。这是一种混合方法。
- 操作：维护一个列表，始终保持： [系统指令] + [长期记忆检索结果] + [全局摘要] + [最近N轮原始对话] 。当新对话产生时，移除最早的一轮原始对话，必要时更新摘要。
- 优点：在控制长度的同时，尽可能保留了最近的原始语境，避免了纯摘要导致的细节丢失。

3.2 短期记忆中的“状态”管理

短期记忆不仅包含“说了什么”，还应包含“进行到哪一步了”。这就是对话状态或任务状态。

任务链状态 ：对于需要多步完成的任务（如订机票-选座位-订酒店），短期记忆必须明确记录当前处于哪个子步骤，以及上一步的输出结果是什么。这通常通过一个状态机或简单的 current_step 变量来实现。
用户即时意图 ：用户当前的一句话可能包含多个意图或需要澄清的地方。短期记忆需要标记这些“未决事项”。例如，用户说“帮我订一张票”，智能体回复“请问去哪里？”。此时，短期记忆里应有一个标志 pending_intent: “book_ticket” ，并等待 destination 这个槽位被填充。

一个管理良好的短期记忆系统，能让智能体在复杂对话中“不跑偏”，始终紧扣主线。

4. 长期记忆的构建：从数据存储到知识内化

4.1 长期记忆的写入策略：什么值得记住？

不是所有信息都值得进入长期记忆。无差别的存储等于制造数据垃圾。写入策略是长期记忆有效性的第一道关卡。

基于显著性的自动捕获 ：
- 原理：通过规则或模型判断信息的“重要性”。例如：
  - 用户明确指令 ：当用户说“记住，我咖啡只加奶不加糖”或“以后请都用这个模板”，这显然是长期偏好。
  - 信息重复出现 ：用户在多次对话中提到了同一个概念（如某个项目代号、某个联系人），这暗示其重要性。
  - 结构化信息 ：识别出的日期、金额、产品型号等具体事实，比模糊的感受更值得存储。
- 实现：可以在系统提示词中加入：“请判断用户的输入中是否包含应存入其长期档案的重要事实或偏好，并以JSON格式输出。” 也可以训练一个轻量级分类器来打分。
基于会话的总结性写入 ：
- 原理：在单次会话结束时，自动触发一个总结流程，提炼本次会话的“收获”存入长期记忆。
- 操作：调用大模型，输入本次完整对话，并提示：“请总结本次对话中，关于用户所透露的其个人长期偏好、重要事实或新增知识。输出为简洁的要点列表。”
- 示例：一次关于健身计划的对话后，总结出：“用户新增偏好：不喜欢跑步机，更喜欢户外慢跑。用户透露重要事实：左膝有旧伤。新增知识：用户了解了HIIT的基本原理。”
人工标注与反馈循环 ：
- 原理：允许用户直接对智能体的记忆进行增删改查。例如，用户可以说“你记错了，我其实对花生不过敏”，或者“把我喜欢科幻小说这条记下来”。
- 实现：提供明确的交互指令，如“/remember [内容]”或“/forget [内容]”。这不仅能修正错误，也是训练记忆控制器理解“什么重要”的宝贵数据源。

4.2 长期记忆的存储与组织：混合存储方案

如前所述，长期记忆应根据数据类型选择存储介质。

记忆类型	内容示例	推荐存储	检索方式	理由
事实性知识	“太阳从东边升起”、“公司的使命宣言是...”、“《指南》第3章规定...”	向量数据库	语义相似度搜索	内容是非结构化的文本片段，检索需求是“找到语义相关的知识”。
用户档案	`{“name”: “张三”, “role”: “设计师”, “preference”: {“theme”: “dark”, “font”: “Arial”}}`	关系型数据库 / 键值存储	主键查询（如用户ID）	内容是结构化的键值对，检索需求是“获取用户XXX的所有属性”。
会话历史元数据	`{“session_id”: “abc”, “start_time”: “...”, “topics”: [“报销”, “财务制度”]}`	关系型数据库	条件查询（如时间范围、主题）	便于管理和分析，需要支持复杂查询。
技能/工具记录	`{“skill_name”: “chart_generator”, “last_used”: “...”, “success_rate”: 0.95}`	键值存储 / 数据库	名称查询	快速读取，更新频繁。

混合检索实践 ：当智能体需要准备回答时，记忆控制器可能同时发起多个查询：1）用当前问题作为查询向量，在向量库中搜索相关事实；2）用当前用户ID，从关系库中取出用户档案。然后将两者结果整合，注入上下文。

4.3 长期记忆的更新与遗忘：保持记忆的鲜活

记忆不是一次写入就一成不变的。需要机制来更新和淘汰旧信息。

更新：当新信息与旧信息冲突或补充时，应更新。例如，用户地址变更。对于向量存储，可以简单新增一条向量（因为旧向量仍可能被检索到），并在业务逻辑中优先采用时间戳最新的结果。对于结构化存储，则直接更新字段。
遗忘/衰减 ：对于某些信息，可以设置“保质期”。例如，用户说“我今天头疼”，这条信息可能在一周后就失效了。可以为记忆条目添加 expiry_date 字段，或设计一个重要性衰减算法，随着时间推移降低其检索权重。
合并：当关于同一主题的零散记忆点过多时，可以定期（如每月）触发一次记忆合并，生成一个更精炼、全面的版本。例如，从几十条“用户喜欢某导演”的碎片对话中，合并出一条“用户是克里斯托弗·诺兰的影迷，尤其喜欢其非线性叙事和实拍特效”。

5. 记忆控制器的实现：让智能体学会“思考”前先“回忆”

记忆控制器是智能体的执行策略，它决定了智能体在“思考”（调用大模型推理）前，如何从记忆库中组装“思考材料”。

5.1 基于提示词工程的记忆调度

这是最常见和直接的方法，将记忆检索的逻辑写入系统提示词中。

你是一个专业的个人助理。在回答用户问题前，请遵循以下步骤：
1. 长期记忆检索：始终根据以下用户档案和过往知识来调整你的回答。
   - 用户档案：<从数据库查询并插入的用户档案>
   - 相关历史知识：<将用户当前问题向量化，从向量库检索出的TOP3相关片段>
2. 短期上下文：以下是最近的对话历史：
   <插入压缩后的最近N轮对话>
3. 当前请求：用户的最新请求是：<用户最新输入>
请综合以上所有信息，生成友好、精准、个性化的回复。

这种方法将检索责任交给了大模型自身对提示词的理解，实现简单，但控制力较弱，且可能因提示词过长而影响效率。

5.2 基于函数调用的程序化记忆控制

更强大的方式是利用大模型的函数调用（Function Calling）或工具使用（Tool Use）能力。

设计记忆相关函数 ：
- query_user_profile(user_id) : 查询用户结构化档案。
- search_knowledge_base(query: str, top_k: int) : 在向量知识库中搜索。
- get_recent_conversation_summary(session_id: str) : 获取本次会话的摘要。
- update_memory(key: str, value: any, memory_type: str) : 更新或写入记忆。
智能体的自主决策流程 ：
- 用户输入后，大模型根据输入内容， 自主决定 是否需要调用以及调用哪些记忆函数。
- 例如，用户问：“我上次说的那个项目方案，你觉得还有什么需要补充的？”模型可能会先调用 search_knowledge_base(“项目方案”， top_k=5) 来查找相关讨论记录，然后再组织回答。
- 当用户说：“记住，我下周一到周三出差。”模型可能会调用 update_memory(“business_trip_next_week”, “周一至周三”, “fact”) 。

这种方式实现了记忆调用的 按需、动态化 ，更贴近人类的回忆过程，也减少了不必要的检索开销。它是构建高级自主智能体的关键。

5.3 记忆的优先级与融合策略

当从不同记忆源检索到多条信息时，如何整合？

时间优先级 ：对于事实性信息，默认采纳时间戳最新的。可以在提示词中说明：“如果检索到的信息有时间冲突，以最新记录为准。”
来源优先级 ：明确不同记忆源的权威性。例如，“用户明确声明的偏好”优先级高于“模型从对话中推测的偏好”。
相关性加权 ：对于向量检索结果，可以直接使用相似度分数作为权重参考。在整合时，可以提示模型：“以下是一些相关度不同的背景知识，请参考它们回答问题”，并将高相关度的片段放在前面。
冲突检测与解决 ：当记忆控制器检测到明显冲突（如长期记忆记录用户对花生过敏，但短期对话中用户说要吃花生酱），应触发一个 澄清流程 。智能体可以主动询问：“根据我的记录，您曾提到对花生过敏，确认要食用花生酱吗？” 用户的反馈反过来又用于更新长期记忆。

6. 常见问题、挑战与实战调试技巧

6.1 典型问题排查清单

问题现象	可能原因	排查方向与解决方案
智能体“忘记”当前会话早期的内容	短期记忆管理不当，上下文被截断或过度压缩。	1. 检查上下文窗口长度设置。2. 检查摘要策略是否过于激进，丢失了关键细节。3. 考虑引入“关键信息暂存区”，将重要实体显式存储。
智能体无法利用已知的用户信息	长期记忆检索失败或结果未被注入上下文。	1. 检查长期记忆查询函数是否被正确调用。2. 检查检索到的内容是否被正确格式化并插入到提示词中。3. 检查向量检索的相似度阈值是否设得过高，导致相关记忆未被召回。
智能体给出与记忆矛盾的答案	记忆冲突或模型忽略了记忆内容。	1. 在提示词中强化记忆的权威性，如使用“你必须基于以下已知信息回答”。2. 检查长期记忆中是否存在过时或错误条目，建立记忆更新机制。3. 在模型推理前，增加一个“记忆一致性检查”步骤。
响应速度变慢，尤其对话后期	记忆检索（特别是向量检索）开销大，或上下文过长。	1. 对长期记忆进行分层索引，高频记忆存Redis，低频记忆存向量库。2. 优化向量检索的top_k参数，非必要不进行大规模检索。3. 实施更积极的短期记忆摘要策略，控制输入长度。
长期记忆库充斥无用信息	写入策略过于宽松，缺乏过滤。	1. 收紧自动捕获规则，提高“重要性”判断阈值。2. 引入基于会话的总结性写入，而非逐句存储。3. 定期人工审核或设计自动清理规则（如按时间、按访问频率）。

6.2 实战心得与技巧

从简单开始，逐步复杂化 ：不要一开始就设计完美的记忆系统。首先实现一个简单的对话历史管理（短期记忆），然后加入一个用户偏好文件（长期记忆的雏形），再逐步引入向量检索和自动摘要。每步都进行测试，观察效果。
为记忆添加“元数据” ：每条长期记忆除了内容本身，还应存储来源（如哪次会话）、时间戳、置信度（用户明确说的，还是模型推测的）、类型（偏好、事实、技能等）。这些元数据对于后续的记忆管理、优先级排序和冲突解决至关重要。
设计可解释的记忆交互 ：让用户能“看到”和“管理”智能体的记忆。提供诸如“你为什么知道我喜欢这个？”、“我有哪些信息存储在你那里？”、“请删除关于XX的记忆”等功能。这能增加用户信任，也是调试的重要窗口。
区分“公共记忆”与“私有记忆” ：在多用户或企业场景下，有些记忆是用户私有的（如个人日程），有些是团队或全局共享的（如产品文档、公司制度）。在架构设计时就要做好隔离和权限管理。
评估记忆系统的有效性 ：不能只凭感觉。设计一些测试用例：例如，在对话中段询问会话开头提到的细节（测试短期记忆）；在隔天或隔周的对话中询问之前明确告知的偏好（测试长期记忆的持久性）；提供矛盾信息看智能体如何处理（测试记忆冲突解决）。通过量化指标（如记忆召回准确率、任务完成率）来评估优化效果。

构建一个有效的分层记忆系统，是AI智能体从“单次对话模型”迈向“持续个性化服务实体”的核心阶梯。它没有一劳永逸的银弹，需要根据具体的应用场景、用户需求和资源约束进行精心设计和持续调优。理解短期记忆与长期记忆的不同角色与协同机制，是迈出这一步的关键。

AI Agent技术社区

Agent 垂直技术社区，欢迎活跃、内容共建。

更多推荐

让 Codex 桌面版拥抱 DeepSeek-V4：协议桥接与模型网关接入实践

4SAPI 提供了一套标准的 Chat Completions 接口，完全兼容 DeepSeek V4 Pro 等模型，使用时只需将 base URL 和密钥替换为平台分配的值即可。这样一来，既保留了桥接层的协议转换能力，又获得了网关带来的额外弹性。这样的模型网关，则进一步提升了链路的稳定性和密钥管理的便捷度，尤其适合团队或对服务可用性有更高要求的场景。│Codex 桌面版│ ──────────

AI Agent技术社区

别再迷信“突破限制”：Gemini 3.5-flash 边界测试实战复盘

AI Agent技术社区

想要转型AI Agent开发？现在开始学，还不晚

用 @tool 装饰器定义工具@tool"""搜索互联网获取实时信息。当需要最新数据时使用此工具。"""# 实际接入 Tavily / Serper 等搜索 APIreturnf"搜索结果：关于 {query} 的最新信息..."@tool"""计算数学表达式，如 '2 + 3 * 4'"""# 绑定工具到模型# 模型会自动决定是否调用工具response = llm_with_tools.inv