Generative Agents:Memory、Reflection、Planning
本文不把 Generative Agents 当成企业系统模板直接照搬。它的价值在于提供 memory、reflection、planning 的直觉框架;企业落地必须额外补隐私、权限、保留期、删除、审计、合规和评估。
Generative Agents / Memory / Reflection / Planning 解读
面向对象: AI PM / AI BA / AI Architect / AI Platform PM。 核心问题: AI 系统如果要跨会话、跨任务、跨业务对象持续提供帮助,应该如何管理记忆、反思、计划和状态,而不是把所有上下文都塞进 prompt? 学习目标: 能把 memory 从“让模型记住用户”拆成可设计、可评估、可删除、可审计的产品和架构能力。
Source Anchors
| Source | Link | 用途 |
|---|---|---|
| Generative Agents | https://arxiv.org/abs/2304.03442 | 理解 memory stream、reflection、planning 和 believable agent behavior |
| NIST GenAI Profile | https://www.nist.gov/publications/artificial-intelligence-risk-management-framework-generative-artificial-intelligence | 把 memory risk 放入 govern / map / measure / manage |
| MCP specification | https://modelcontextprotocol.io/specification/2025-03-26 | 理解工具、资源、上下文连接和协议边界 |
本文不把 Generative Agents 当成企业系统模板直接照搬。它的价值在于提供 memory、reflection、planning 的直觉框架;企业落地必须额外补隐私、权限、保留期、删除、审计、合规和评估。
这篇论文解决什么问题
Generative Agents 研究的问题是:
如果一个 LLM 驱动的 agent 要在模拟环境中表现得像有日常生活、关系和计划的人,它需要怎样的记忆和行为生成机制?
论文构建了一个小镇模拟环境,每个 agent 会观察环境、记录记忆、生成反思、制定计划并采取行动。它不是金融级生产系统,但对企业 AI 有三点启发:
- 上下文不是只有当前 prompt。系统需要选择哪些历史事实进入当前决策。
- 记忆不是越多越好。记忆需要 relevance、recency、importance 的取舍。
- 行为需要计划和反思。复杂任务不是单次问答,而是观察、总结、计划、行动的循环。
对 PM/BA/架构师来说,这篇论文真正重要的不是“小镇模拟”,而是让你看到:
Observation
-> Memory stream
-> Retrieval
-> Reflection
-> Planning
-> Action
-> New observation
这个循环可以迁移到 AML investigation、KYC review、客户服务、信贷材料审查、供应链异常处理等业务流程。
核心机制 1: Memory Stream
论文中的 memory stream 可以理解为 agent 的时间线记录。每次观察、对话、事件都会形成一条 memory record。
企业系统中的 memory stream 不能只是聊天历史,它可能包括:
- 用户本次会话输入。
- 业务对象状态,例如 case、ticket、application、transaction。
- 工具调用结果。
- 人工审核结论。
- 用户反馈。
- 系统拒答或升级记录。
- 风险控制触发记录。
企业映射
| 论文概念 | 企业 AI 映射 |
|---|---|
| observation | 用户问题、系统事件、工具结果、业务对象更新 |
| memory stream | 审计日志、case timeline、session memory、interaction history |
| retrieval over memory | 从历史记录中选择当前任务相关上下文 |
| importance | 风险等级、业务重要性、用户确认、人工审核权重 |
| recency | 时间新鲜度、政策版本、最近状态 |
| relevance | 与当前问题、业务对象、用户角色的匹配 |
关键架构判断
Memory stream 不等于长期个性化记忆。 在金融零售中,很多历史记录必须保留用于审计,但不应该自动用于个性化回答。比如:
- AML investigation 的历史疑点应保留给合规审计,但不能被客服 agent 用来对客户作出暗示。
- 客户曾表达风险偏好,不代表系统可以长期用于投资建议,除非有明确授权和适用性流程。
- 用户以前投诉某服务,不代表所有未来推荐都应被同一偏好支配。
因此 memory 要分层:
Audit memory: 必须保留, 用于审计和回放
Workflow memory: 当前任务需要, 随 case 生命周期管理
Preference memory: 需要用户控制和可删除
Semantic memory: 企业知识, 来自受治理的知识源
核心机制 2: Retrieval Over Memory
论文中的 agent 不会把所有记忆都塞进 prompt,而是根据 relevance、recency、importance 检索相关记忆。
企业系统必须更严格:
| 维度 | 论文直觉 | 企业增强 |
|---|---|---|
| relevance | 当前任务相关 | 加入业务对象、角色、权限、风险等级 |
| recency | 最近事件更重要 | 加入版本有效期、状态新鲜度、政策替代关系 |
| importance | 重要事件更容易被取回 | 加入人工确认、监管影响、客户权益影响 |
| safety | 论文不是重点 | 加入 privacy、consent、DLP、ABAC、tenant isolation |
Retrieval over memory 的失败模式
| Failure | 表现 | 例子 |
|---|---|---|
| stale memory | 使用过期状态 | 旧 KYC 文件要求覆盖新政策 |
| irrelevant memory | 取回无关历史 | 用客户过去投诉影响当前贷款资料解释 |
| over-personalization | 个性化过度 | 长期记住用户投资偏好并主动建议 |
| privacy leak | 取回无权历史 | 分行员工看到总部调查备注 |
| state confusion | 混淆业务对象 | 把 Case A 的结论带入 Case B |
| deletion failure | 用户删除后仍被使用 | 偏好被删除但向量库仍召回 |
PM 要把这些失败模式转成产品要求。BA 要把它们转成验收样例。架构师要把它们转成 storage、filter、policy、trace 和 deletion design。
核心机制 3: Reflection
论文中的 reflection 是从多条具体记忆中总结出更高层的抽象。
例如:
多条事件: A 经常和 B 对话、A 提到喜欢音乐、A 参加音乐活动
反思: A 对音乐有强兴趣
企业 AI 中 reflection 很诱人,也很危险。
有价值的 reflection
- 从多条客服投诉中总结产品说明不清。
- 从多条 AML alert 中总结新的 typology 假设。
- 从多次 KYC 返工中总结流程瓶颈。
- 从多个供应链异常中总结供应商风险模式。
高风险 reflection
- 从用户聊天中推断敏感属性。
- 从历史行为中推断信用风险但没有正式模型治理。
- 从投诉语气中推断客户价值或服务等级。
- 从员工行为中生成绩效判断。
企业系统必须明确:
| 问题 | 设计要求 |
|---|---|
| 反思结果是什么类型 | insight、hypothesis、risk signal、preference、policy summary |
| 是否可用于决策 | 只能提示、可进入人工审核、可进入规则引擎、禁止用于客户影响决策 |
| 是否需要来源 | 高风险反思必须引用原始 evidence |
| 是否需要人工确认 | 风险信号、客户权益、监管义务场景需要 |
| 是否可删除 | 用户偏好和个性化 memory 必须设计删除路径 |
核心机制 4: Planning
论文中的 planning 让 agent 形成一天的行动计划,并根据新事件调整。
企业场景中,planning 对应:
- AML investigation plan。
- KYC onboarding checklist。
- 信贷文档审查步骤。
- 支付争议处理流程。
- 客服升级路径。
- 零售库存异常排查计划。
Planning 的关键不是“模型会想步骤”,而是:
Plan must be bounded by workflow, policy, permission, risk tier, and human approval.
Enterprise Planning Pattern
| Layer | 设计问题 |
|---|---|
| Goal | 当前任务目标是否明确 |
| Steps | 哪些步骤可自动、哪些要人工 |
| State | 每一步输入输出如何记录 |
| Tools | 每一步允许调用哪些工具 |
| Policy | 哪些条件触发拒绝、升级、双人审批 |
| Stop | 什么情况下停止继续尝试 |
| Audit | 如何回放计划、修改和执行 |
金融场景中,AI 可以生成 plan,但不应自己决定高风险行动。例如:
- 可以建议 AML 调查下一步查哪些交易。
- 可以生成 SAR draft。
- 不应自动提交 SAR。
- 不应自动关闭 alert。
- 不应绕过调查员判断。
PM / BA / 架构师怎么用这篇论文
PM 视角
PM 要回答:
- 记忆带来的用户价值是什么?
- 哪些记忆可以默认保存,哪些需要用户授权?
- 用户如何查看、修改、删除记忆?
- 记忆错误会造成什么业务损失?
- 记忆能力是否真的提高 adoption、效率或质量?
PM 不应只写“系统支持长期记忆”,而应写:
| Product requirement | Example |
|---|---|
| 记住什么 | 当前 case 的 investigation context |
| 不记住什么 | 未授权的个人偏好和敏感推断 |
| 保存多久 | case 生命周期 + 合规留存期 |
| 谁能访问 | case team、supervisor、audit role |
| 用户如何控制 | 查看、清除偏好、撤销授权 |
| 如何评估 | useful recall、privacy leak、staleness、deletion pass |
BA 视角
BA 要把 memory 拆成业务事实和流程规则:
- 哪些字段是业务状态。
- 哪些事件改变状态。
- 哪些历史记录影响当前判断。
- 哪些记录只用于审计,不能用于生成。
- 哪些异常要人工确认。
- 哪些数据需要删除或脱敏。
BA 的关键产物:
- Memory Inventory。
- State Boundary Diagram。
- Retention & Deletion Matrix。
- Consent / Notice Requirements。
- Memory Eval Cases。
架构师视角
架构师要设计:
- Session store。
- Workflow state store。
- Audit event store。
- Vector memory / semantic memory。
- Knowledge graph。
- Policy layer。
- Deletion pipeline。
- Trace and replay。
核心原则:
Memory retrieval must be policy-mediated, not prompt-mediated.
模型不能自己决定读取哪些长期记忆。读取必须经过身份、权限、业务对象、风险等级、数据分类、保留期和用户授权过滤。
金融零售案例映射
AML Investigation Memory
需要保存:
- alert timeline。
- transaction evidence。
- investigator notes。
- typology checklist。
- supervisor review。
- SAR draft versions。
不能自动泛化:
- 将某客户标记为“可疑”用于其他非合规场景。
- 将未确认 typology 作为确定事实。
Eval:
- 是否召回当前 case 相关历史。
- 是否避免跨 case 泄露。
- 是否区分 hypothesis 和 confirmed fact。
KYC Case Memory
需要保存:
- 客户类型。
- 文件缺口。
- 已提交材料。
- EDD 触发原因。
- 审批状态。
风险:
- 使用旧政策判断当前文件要求。
- 将一个地区要求套到另一个地区。
- 删除请求与监管留存冲突。
Customer Service Preference Memory
可保存:
- 语言偏好。
- 通知渠道偏好。
- 无障碍需求。
高风险:
- 投资风险偏好。
- 健康、收入、家庭状况推断。
- 客户情绪标签。
产品要求:
- 用户可查看和修改。
- 敏感偏好默认不保存。
- 高风险建议不依赖聊天偏好。
Memory Eval Matrix
| Eval dimension | 问题 | 样例 |
|---|---|---|
| usefulness | 记忆是否提高任务质量 | case summary 是否引用关键历史 |
| relevance | 召回是否与当前任务相关 | 当前 ticket 不混入旧 ticket |
| freshness | 是否使用最新状态 | KYC 文件状态已更新 |
| privacy | 是否泄露敏感记忆 | 客服看不到 AML note |
| consent | 是否遵守授权 | 未授权偏好不保存 |
| deletion | 删除后是否不可再用 | vector / cache / summary 都清除或隔离 |
| conflict | 新旧偏好冲突如何处理 | 用户修改语言偏好后使用新值 |
| policy | 记忆是否违反业务规则 | 投资建议不使用非正式偏好 |
| audit | 是否可回放 | 能解释某条 memory 为什么被召回 |
ADR 示例: 是否启用长期用户记忆
| Field | Answer |
|---|---|
| Context | 客服 copilot 希望减少重复询问用户偏好,提高个性化体验 |
| Options | stateless、session memory、explicit preference memory、implicit long-term memory |
| Decision | 先启用 explicit preference memory,只保存用户确认的低风险偏好 |
| Rationale | 降低隐私和误推断风险,用户可查看和删除 |
| Controls | consent UI、preference inventory、deletion workflow、privacy eval、audit log |
| Reversal trigger | 如果 privacy incident、用户投诉或 deletion failure 超过阈值,回退到 session memory |
30 秒面试表达
我不会把 AI memory 理解成“让模型记住所有历史”。企业系统要区分 session context、workflow state、case memory、audit memory、semantic memory 和用户偏好。每类 memory 都要定义用途、权限、保留期、删除路径、评估和审计。金融场景里,记忆必须经过 policy layer,而不是靠 prompt 自律。
2 分钟面试表达
Generative Agents 给我的启发是 memory、reflection、planning 可以让 agent 更连续地工作,但企业落地必须更严格。首先要定义 memory taxonomy: 当前会话、工作记忆、业务对象状态、长期语义知识、用户偏好、审计日志和反馈。然后要设计 memory retrieval 的过滤条件,包括用户角色、业务对象、数据分类、授权、保留期和风险等级。对 AML、KYC、信贷、客服这类场景,最大的风险不是模型忘记,而是记错、记旧、跨场景误用、隐私泄露或删除失败。我的做法是用 Memory Inventory、State Boundary Diagram、Retention Matrix 和 Memory Eval Set 把记忆变成可治理能力。
CTO 深挖回答
架构上我会把 memory 分成 session store、workflow state store、audit event store、semantic memory 和 user preference store。生成前的 memory retrieval 必须经过 policy service,不能让模型直接访问所有历史。每次召回要记录 memory_id、source、policy decision、reason、model version、answer impact。删除要覆盖 primary store、vector index、cache、summary 和 downstream derived artifacts,并通过 deletion eval 定期验证。
DPO / Privacy 深挖回答
我会避免 implicit sensitive inference。任何用户偏好记忆都要区分 low-risk preference、sensitive preference、regulated decision factor。用户应能看到系统保存了什么、为什么保存、保存多久、如何删除。监管留痕和用户删除之间可能冲突,所以要区分 operational memory、audit record 和 personalization memory,并由 legal/privacy 定义保留与遮蔽策略。
PM 深挖回答
PM 要证明 memory 带来真实价值,而不是增加风险。指标可以包括重复提问减少、case handling time、user satisfaction、human correction rate、memory override rate、privacy complaint、deletion success 和 bad personalization incident。若 memory 提升不明显但风险高,应回退到 session memory 或 case-scoped memory。
输出练习
读完本文后,做 5 个资产:
Memory Inventory: 列出一个 AI use case 中所有 memory 类型。State Boundary Diagram: 画清楚 session、case、customer、audit 的边界。Retention & Deletion Matrix: 定义每类 memory 保存多久、谁能删、删到哪里。Memory Eval Set: 写 20 条 usefulness / privacy / deletion / staleness 测试。Memory ADR: 决定是否启用长期用户偏好记忆。
作品集表达:
我设计 AI memory 时不是追求“越记越聪明”,而是按业务状态、审计、偏好、语义知识分层治理,定义权限、保留期、删除、评估和 incident response。这能证明我理解 AI 产品从 demo 到生产的关键差距。