Reflexion / Self-Refine:Agent Feedback Loops
核心观点:
Reflexion / Self-Refine / Agent Feedback Loops 解读
面向对象: AI PM / AI BA / AI Architect / Agent Platform PM / EvalOps。 核心问题: Agent 失败后能否从反馈中改进下一次尝试?这种“反思”如何转成受控系统,而不是无限自我循环? 学习目标: 理解 Reflexion、Self-Refine 等方法如何影响 agent memory、retry、human feedback、self-correction 和生产级控制。
Source Anchors
| Source | Link | 用途 |
|---|---|---|
| Reflexion: Language Agents with Verbal Reinforcement Learning | https://arxiv.org/abs/2303.11366 | 理解 verbal feedback、episodic memory、trial-level improvement |
| Self-Refine: Iterative Refinement with Self-Feedback | https://arxiv.org/abs/2303.17651 | 理解 generate -> feedback -> refine 的迭代结构 |
| ReAct | https://arxiv.org/abs/2210.03629 | 连接 reasoning/action/observation loop |
| Tree of Thoughts | https://arxiv.org/abs/2305.10601 | 对比 planning search 和 reflection refinement |
核心观点:
反思式 agent 的价值不是“模型自己检查自己所以一定更准”,而是把失败、反馈、修订和记忆组织成可评测的改进循环。
1. Reflexion 的基本思路
Reflexion 让 agent 在任务失败或完成后生成 verbal reflection,并把它放入 memory,影响下一次尝试。
Task attempt
-> Action / answer
-> Feedback / score
-> Reflection
-> Memory
-> Next attempt with reflection
这类似人类复盘:
- 我刚才哪里做错了。
- 下次应该注意什么。
- 哪个策略有效。
- 哪个工具调用不该用。
2. Self-Refine 的基本思路
Self-Refine 是迭代式:
Initial output
-> Self-feedback
-> Refined output
-> Repeat until stop
适合:
- 文案改写。
- 结构化摘要。
- 代码修正。
- 答案完整性提升。
- 草稿质量提升。
不适合直接用于:
- 高风险自动决策。
- 无外部事实校验的合规判断。
- 需要真实世界行动的任务。
3. 为什么 Self-Feedback 不等于可靠
模型自我反馈有局限:
| 风险 | 说明 |
|---|---|
| Same-model bias | 生成者和评审者可能共享盲点 |
| Confident correction | 错误被改得更像真的 |
| No new evidence | 没有外部证据时只是重写 |
| Infinite loop | 一直修改但不收敛 |
| Safety erosion | 为了满足用户而弱化安全约束 |
| Cost growth | 多轮 refinement 增加成本和延迟 |
企业要把 self-refine 放进有边界的工作流。
4. 生产级 Feedback Loop 架构
Output
-> Critic
-> Rule checks
-> Retrieval grounding checks
-> LLM judge
-> Human review sample
-> Feedback object
-> Refinement policy
-> auto refine
-> ask user
-> retrieve more evidence
-> escalate
-> stop/refuse
-> Versioned output
-> Trace / Eval / Memory
Feedback Object
| Field | Example |
|---|---|
| failure_type | missing evidence / unsupported claim / policy violation |
| severity | low / medium / high / critical |
| evidence | source ids / tool results / reviewer notes |
| recommended_fix | add citation / remove claim / escalate |
| allowed_auto_refine | true/false |
| memory_update | whether reflection can be stored |
5. PM 视角: 什么能自动修,什么不能
| Output issue | Auto refine? | Reason |
|---|---|---|
| 格式不符合模板 | 可以 | 低风险 |
| 摘要缺少一个字段 | 可以,但要基于证据 | 中风险 |
| 引用不支持结论 | 先检索或转人工 | 高风险 |
| 投资建议越界 | 不自动修成建议,必须拒答/升级 | 高风险 |
| 信贷拒绝理由不合规 | 人工和合规复核 | 高风险 |
| SAR 草稿事实不完整 | investigator review | 高风险 |
PM 要定义 refinement scope,不是让模型自由修改。
6. BA 视角: Feedback Taxonomy
BA 要建立业务可理解的失败分类。
AML Copilot Failure Taxonomy
| Failure | Definition | Fix |
|---|---|---|
| missing red flag | 漏掉关键 suspicious pattern | retrieve evidence + reviewer check |
| unsupported narrative | narrative claim 没有交易证据 | remove or cite |
| wrong typology | typology 与事实不符 | reclassify |
| premature conclusion | 太早建议关闭 alert | escalate |
| policy mismatch | 不符合 SAR drafting guidance | compliance review |
Customer Service Failure Taxonomy
| Failure | Definition | Fix |
|---|---|---|
| unsupported fee waiver | 承诺免除费用无依据 | remove promise |
| missing disclosure | 缺必要披露 | add approved disclosure |
| personalization risk | 给个性化投资建议 | refuse/escalate |
| outdated policy | 使用旧政策 | retrieve active source |
7. 架构师视角: Reflection Memory
Reflection 是否进入 memory 是重要决策。
| Memory type | Example | Control |
|---|---|---|
| Session reflection | 本次对话中避免重复错误 | session end delete |
| Workflow reflection | 某类 case 的处理经验 | SME approved |
| User preference | 用户喜欢短答案 | consent and edit |
| System improvement | eval failure pattern | aggregate, no PII |
| Unsafe reflection | “下次绕过限制” | block |
Reflection memory 要有:
- owner。
- retention。
- deletion。
- source。
- approval。
- eval impact。
- privacy review。
8. 金融零售案例
8.1 Payment Dispute Assistant
Self-refine 可以:
- 补齐交易字段。
- 调整 dispute note 格式。
- 添加网络规则引用。
不能:
- 承诺退款。
- 修改事实。
- 自动提交 dispute。
8.2 KYC Document Checker
Reflexion 可以记录:
- 上次漏看地址证明。
- 下次检查地区政策。
但必须区分:
- 个人用户数据不可长期进入全局 memory。
- 汇总失败模式可以进入 eval backlog。
8.3 AML Alert Triage
Reflection 可以:
- 记录某类 alert 常漏掉 prior SAR。
- 改进 investigation checklist。
必须控制:
- 不让模型形成“尽量关闭 alert”的偏置。
- 不保存真实客户敏感信息到不受控记忆。
9. Eval 设计
| Eval | 目标 |
|---|---|
| refinement success | 修订后是否更好 |
| regression risk | 是否引入新错误 |
| evidence preservation | 是否保留事实和引用 |
| safety preservation | 是否削弱安全边界 |
| cost per improvement | 多轮 refinement 是否值得 |
| human acceptance | reviewer 是否接受修订 |
Stop Rules
- critical policy violation: stop and escalate。
- no new evidence after retry: refuse/escalate。
- max refinement rounds reached: stop。
- confidence worsens or conflict appears: human review。
10. 与现有体系连接
| Existing asset | 连接 |
|---|---|
AI_MEMORY_CONTEXT_STATE_PLAYBOOK.md | reflection memory 必须受 memory governance 约束 |
AI_HUMAN_OVERSIGHT_HITL_PLAYBOOK.md | 高风险 refinement 触发人工复核 |
AI_SYNTHETIC_EVAL_DATA_PLAYBOOK.md | feedback taxonomy 可生成 synthetic failure cases |
AI_OBSERVABILITY_COST_SLO_PLAYBOOK.md | refinement 增加 cost/latency,要进 SLO |
AI_AUDIT_EVIDENCE_BINDER_PLAYBOOK.md | feedback、refinement、approval 进入 evidence binder |
11. 作品集输出
| Artifact | 内容 |
|---|---|
| Feedback Taxonomy | 业务失败类型和修复策略 |
| Refinement Policy | 哪些错误可自动修,哪些必须人工 |
| Reflection Memory ADR | 什么 reflection 可保存、多久、谁批准 |
| Eval Report | refinement 前后质量、安全、成本变化 |
| Incident Scenario | self-refine 引入风险时如何处理 |
12. 面试表达
30 秒版本
Reflexion 和 Self-Refine 的价值是把输出、反馈、修订和记忆变成循环。但企业里不能让模型无限自我修改。必须定义失败分类、修复权限、停止条件、人工复核、memory governance 和 eval。
2 分钟版本
Reflexion 让 agent 把任务反馈写成 verbal reflection 放入 memory,影响下一次尝试。Self-Refine 通过 generate、feedback、refine 多轮改进输出。金融场景中,我会把它们做成受控 feedback loop: critic 生成 failure object,refinement policy 决定自动修、检索更多证据、问用户、拒答还是升级。比如 payment dispute note 缺字段可以自动补,但承诺退款、信贷拒绝理由、SAR 草稿事实问题必须人工复核。Reflection memory 也要区分 session、workflow、user preference 和 system improvement,受隐私、保留和审批约束。
CTO 深挖
我会把 refinement trace 记录下来: 原输出、feedback object、修订动作、模型版本、证据、最终结果和人工审批。这样可以做 regression、cost analysis 和 incident review。
13. 复习问题
- Reflexion 和 Self-Refine 的差异是什么?
- 为什么 self-feedback 不等于可靠?
- 什么错误可以自动修,什么必须人工复核?
- Reflection memory 如何避免隐私和偏置风险?
- 如何评估 refinement 是否真的让系统变好?
- 如何防止 self-refine 削弱安全边界?
- 金融零售场景中最适合 feedback loop 的任务是什么?