返回 Papers
AI 底层逻辑 / 经典论文

Reflexion / Self-Refine:Agent Feedback Loops

核心观点:

298ai-foundations/papers/25-reflexion-self-refine-agent-feedback-loops.md

Reflexion / Self-Refine / Agent Feedback Loops 解读

面向对象: AI PM / AI BA / AI Architect / Agent Platform PM / EvalOps。 核心问题: Agent 失败后能否从反馈中改进下一次尝试?这种“反思”如何转成受控系统,而不是无限自我循环? 学习目标: 理解 Reflexion、Self-Refine 等方法如何影响 agent memory、retry、human feedback、self-correction 和生产级控制。


Source Anchors

SourceLink用途
Reflexion: Language Agents with Verbal Reinforcement Learninghttps://arxiv.org/abs/2303.11366理解 verbal feedback、episodic memory、trial-level improvement
Self-Refine: Iterative Refinement with Self-Feedbackhttps://arxiv.org/abs/2303.17651理解 generate -> feedback -> refine 的迭代结构
ReActhttps://arxiv.org/abs/2210.03629连接 reasoning/action/observation loop
Tree of Thoughtshttps://arxiv.org/abs/2305.10601对比 planning search 和 reflection refinement

核心观点:

反思式 agent 的价值不是“模型自己检查自己所以一定更准”,而是把失败、反馈、修订和记忆组织成可评测的改进循环。


1. Reflexion 的基本思路

Reflexion 让 agent 在任务失败或完成后生成 verbal reflection,并把它放入 memory,影响下一次尝试。

Task attempt
  -> Action / answer
  -> Feedback / score
  -> Reflection
  -> Memory
  -> Next attempt with reflection

这类似人类复盘:

  • 我刚才哪里做错了。
  • 下次应该注意什么。
  • 哪个策略有效。
  • 哪个工具调用不该用。

2. Self-Refine 的基本思路

Self-Refine 是迭代式:

Initial output
  -> Self-feedback
  -> Refined output
  -> Repeat until stop

适合:

  • 文案改写。
  • 结构化摘要。
  • 代码修正。
  • 答案完整性提升。
  • 草稿质量提升。

不适合直接用于:

  • 高风险自动决策。
  • 无外部事实校验的合规判断。
  • 需要真实世界行动的任务。

3. 为什么 Self-Feedback 不等于可靠

模型自我反馈有局限:

风险说明
Same-model bias生成者和评审者可能共享盲点
Confident correction错误被改得更像真的
No new evidence没有外部证据时只是重写
Infinite loop一直修改但不收敛
Safety erosion为了满足用户而弱化安全约束
Cost growth多轮 refinement 增加成本和延迟

企业要把 self-refine 放进有边界的工作流。


4. 生产级 Feedback Loop 架构

Output
  -> Critic
      -> Rule checks
      -> Retrieval grounding checks
      -> LLM judge
      -> Human review sample
  -> Feedback object
  -> Refinement policy
      -> auto refine
      -> ask user
      -> retrieve more evidence
      -> escalate
      -> stop/refuse
  -> Versioned output
  -> Trace / Eval / Memory

Feedback Object

FieldExample
failure_typemissing evidence / unsupported claim / policy violation
severitylow / medium / high / critical
evidencesource ids / tool results / reviewer notes
recommended_fixadd citation / remove claim / escalate
allowed_auto_refinetrue/false
memory_updatewhether reflection can be stored

5. PM 视角: 什么能自动修,什么不能

Output issueAuto refine?Reason
格式不符合模板可以低风险
摘要缺少一个字段可以,但要基于证据中风险
引用不支持结论先检索或转人工高风险
投资建议越界不自动修成建议,必须拒答/升级高风险
信贷拒绝理由不合规人工和合规复核高风险
SAR 草稿事实不完整investigator review高风险

PM 要定义 refinement scope,不是让模型自由修改。


6. BA 视角: Feedback Taxonomy

BA 要建立业务可理解的失败分类。

AML Copilot Failure Taxonomy

FailureDefinitionFix
missing red flag漏掉关键 suspicious patternretrieve evidence + reviewer check
unsupported narrativenarrative claim 没有交易证据remove or cite
wrong typologytypology 与事实不符reclassify
premature conclusion太早建议关闭 alertescalate
policy mismatch不符合 SAR drafting guidancecompliance review

Customer Service Failure Taxonomy

FailureDefinitionFix
unsupported fee waiver承诺免除费用无依据remove promise
missing disclosure缺必要披露add approved disclosure
personalization risk给个性化投资建议refuse/escalate
outdated policy使用旧政策retrieve active source

7. 架构师视角: Reflection Memory

Reflection 是否进入 memory 是重要决策。

Memory typeExampleControl
Session reflection本次对话中避免重复错误session end delete
Workflow reflection某类 case 的处理经验SME approved
User preference用户喜欢短答案consent and edit
System improvementeval failure patternaggregate, no PII
Unsafe reflection“下次绕过限制”block

Reflection memory 要有:

  • owner。
  • retention。
  • deletion。
  • source。
  • approval。
  • eval impact。
  • privacy review。

8. 金融零售案例

8.1 Payment Dispute Assistant

Self-refine 可以:

  • 补齐交易字段。
  • 调整 dispute note 格式。
  • 添加网络规则引用。

不能:

  • 承诺退款。
  • 修改事实。
  • 自动提交 dispute。

8.2 KYC Document Checker

Reflexion 可以记录:

  • 上次漏看地址证明。
  • 下次检查地区政策。

但必须区分:

  • 个人用户数据不可长期进入全局 memory。
  • 汇总失败模式可以进入 eval backlog。

8.3 AML Alert Triage

Reflection 可以:

  • 记录某类 alert 常漏掉 prior SAR。
  • 改进 investigation checklist。

必须控制:

  • 不让模型形成“尽量关闭 alert”的偏置。
  • 不保存真实客户敏感信息到不受控记忆。

9. Eval 设计

Eval目标
refinement success修订后是否更好
regression risk是否引入新错误
evidence preservation是否保留事实和引用
safety preservation是否削弱安全边界
cost per improvement多轮 refinement 是否值得
human acceptancereviewer 是否接受修订

Stop Rules

  • critical policy violation: stop and escalate。
  • no new evidence after retry: refuse/escalate。
  • max refinement rounds reached: stop。
  • confidence worsens or conflict appears: human review。

10. 与现有体系连接

Existing asset连接
AI_MEMORY_CONTEXT_STATE_PLAYBOOK.mdreflection memory 必须受 memory governance 约束
AI_HUMAN_OVERSIGHT_HITL_PLAYBOOK.md高风险 refinement 触发人工复核
AI_SYNTHETIC_EVAL_DATA_PLAYBOOK.mdfeedback taxonomy 可生成 synthetic failure cases
AI_OBSERVABILITY_COST_SLO_PLAYBOOK.mdrefinement 增加 cost/latency,要进 SLO
AI_AUDIT_EVIDENCE_BINDER_PLAYBOOK.mdfeedback、refinement、approval 进入 evidence binder

11. 作品集输出

Artifact内容
Feedback Taxonomy业务失败类型和修复策略
Refinement Policy哪些错误可自动修,哪些必须人工
Reflection Memory ADR什么 reflection 可保存、多久、谁批准
Eval Reportrefinement 前后质量、安全、成本变化
Incident Scenarioself-refine 引入风险时如何处理

12. 面试表达

30 秒版本

Reflexion 和 Self-Refine 的价值是把输出、反馈、修订和记忆变成循环。但企业里不能让模型无限自我修改。必须定义失败分类、修复权限、停止条件、人工复核、memory governance 和 eval。

2 分钟版本

Reflexion 让 agent 把任务反馈写成 verbal reflection 放入 memory,影响下一次尝试。Self-Refine 通过 generate、feedback、refine 多轮改进输出。金融场景中,我会把它们做成受控 feedback loop: critic 生成 failure object,refinement policy 决定自动修、检索更多证据、问用户、拒答还是升级。比如 payment dispute note 缺字段可以自动补,但承诺退款、信贷拒绝理由、SAR 草稿事实问题必须人工复核。Reflection memory 也要区分 session、workflow、user preference 和 system improvement,受隐私、保留和审批约束。

CTO 深挖

我会把 refinement trace 记录下来: 原输出、feedback object、修订动作、模型版本、证据、最终结果和人工审批。这样可以做 regression、cost analysis 和 incident review。


13. 复习问题

  1. Reflexion 和 Self-Refine 的差异是什么?
  2. 为什么 self-feedback 不等于可靠?
  3. 什么错误可以自动修,什么必须人工复核?
  4. Reflection memory 如何避免隐私和偏置风险?
  5. 如何评估 refinement 是否真的让系统变好?
  6. 如何防止 self-refine 削弱安全边界?
  7. 金融零售场景中最适合 feedback loop 的任务是什么?