AI 底层逻辑 / 经典论文

Reflexion / Self-Refine：Agent Feedback Loops

核心观点:

298 行ai-foundations/papers/25-reflexion-self-refine-agent-feedback-loops.md

Reflexion / Self-Refine / Agent Feedback Loops 解读

面向对象: AI PM / AI BA / AI Architect / Agent Platform PM / EvalOps。核心问题: Agent 失败后能否从反馈中改进下一次尝试？这种“反思”如何转成受控系统，而不是无限自我循环？学习目标: 理解 Reflexion、Self-Refine 等方法如何影响 agent memory、retry、human feedback、self-correction 和生产级控制。

Source Anchors

Source	Link	用途
Reflexion: Language Agents with Verbal Reinforcement Learning	https://arxiv.org/abs/2303.11366	理解 verbal feedback、episodic memory、trial-level improvement
Self-Refine: Iterative Refinement with Self-Feedback	https://arxiv.org/abs/2303.17651	理解 generate -> feedback -> refine 的迭代结构
ReAct	https://arxiv.org/abs/2210.03629	连接 reasoning/action/observation loop
Tree of Thoughts	https://arxiv.org/abs/2305.10601	对比 planning search 和 reflection refinement

核心观点:

反思式 agent 的价值不是“模型自己检查自己所以一定更准”，而是把失败、反馈、修订和记忆组织成可评测的改进循环。

1. Reflexion 的基本思路

Reflexion 让 agent 在任务失败或完成后生成 verbal reflection，并把它放入 memory，影响下一次尝试。

Task attempt
  -> Action / answer
  -> Feedback / score
  -> Reflection
  -> Memory
  -> Next attempt with reflection

这类似人类复盘:

我刚才哪里做错了。
下次应该注意什么。
哪个策略有效。
哪个工具调用不该用。

2. Self-Refine 的基本思路

Self-Refine 是迭代式:

Initial output
  -> Self-feedback
  -> Refined output
  -> Repeat until stop

适合:

文案改写。
结构化摘要。
代码修正。
答案完整性提升。
草稿质量提升。

不适合直接用于:

高风险自动决策。
无外部事实校验的合规判断。
需要真实世界行动的任务。

3. 为什么 Self-Feedback 不等于可靠

模型自我反馈有局限:

风险	说明
Same-model bias	生成者和评审者可能共享盲点
Confident correction	错误被改得更像真的
No new evidence	没有外部证据时只是重写
Infinite loop	一直修改但不收敛
Safety erosion	为了满足用户而弱化安全约束
Cost growth	多轮 refinement 增加成本和延迟

企业要把 self-refine 放进有边界的工作流。

4. 生产级 Feedback Loop 架构

Output
  -> Critic
      -> Rule checks
      -> Retrieval grounding checks
      -> LLM judge
      -> Human review sample
  -> Feedback object
  -> Refinement policy
      -> auto refine
      -> ask user
      -> retrieve more evidence
      -> escalate
      -> stop/refuse
  -> Versioned output
  -> Trace / Eval / Memory

Feedback Object

Field	Example
failure_type	missing evidence / unsupported claim / policy violation
severity	low / medium / high / critical
evidence	source ids / tool results / reviewer notes
recommended_fix	add citation / remove claim / escalate
allowed_auto_refine	true/false
memory_update	whether reflection can be stored

5. PM 视角: 什么能自动修，什么不能

Output issue	Auto refine?	Reason
格式不符合模板	可以	低风险
摘要缺少一个字段	可以，但要基于证据	中风险
引用不支持结论	先检索或转人工	高风险
投资建议越界	不自动修成建议，必须拒答/升级	高风险
信贷拒绝理由不合规	人工和合规复核	高风险
SAR 草稿事实不完整	investigator review	高风险

PM 要定义 refinement scope，不是让模型自由修改。

6. BA 视角: Feedback Taxonomy

BA 要建立业务可理解的失败分类。

AML Copilot Failure Taxonomy

Failure	Definition	Fix
missing red flag	漏掉关键 suspicious pattern	retrieve evidence + reviewer check
unsupported narrative	narrative claim 没有交易证据	remove or cite
wrong typology	typology 与事实不符	reclassify
premature conclusion	太早建议关闭 alert	escalate
policy mismatch	不符合 SAR drafting guidance	compliance review

Customer Service Failure Taxonomy

Failure	Definition	Fix
unsupported fee waiver	承诺免除费用无依据	remove promise
missing disclosure	缺必要披露	add approved disclosure
personalization risk	给个性化投资建议	refuse/escalate
outdated policy	使用旧政策	retrieve active source

7. 架构师视角: Reflection Memory

Reflection 是否进入 memory 是重要决策。

Memory type	Example	Control
Session reflection	本次对话中避免重复错误	session end delete
Workflow reflection	某类 case 的处理经验	SME approved
User preference	用户喜欢短答案	consent and edit
System improvement	eval failure pattern	aggregate, no PII
Unsafe reflection	“下次绕过限制”	block

Reflection memory 要有:

owner。
retention。
deletion。
source。
approval。
eval impact。
privacy review。

8. 金融零售案例

8.1 Payment Dispute Assistant

Self-refine 可以:

补齐交易字段。
调整 dispute note 格式。
添加网络规则引用。

不能:

承诺退款。
修改事实。
自动提交 dispute。

8.2 KYC Document Checker

Reflexion 可以记录:

上次漏看地址证明。
下次检查地区政策。

但必须区分:

个人用户数据不可长期进入全局 memory。
汇总失败模式可以进入 eval backlog。

8.3 AML Alert Triage

Reflection 可以:

记录某类 alert 常漏掉 prior SAR。
改进 investigation checklist。

必须控制:

不让模型形成“尽量关闭 alert”的偏置。
不保存真实客户敏感信息到不受控记忆。

9. Eval 设计

Eval	目标
refinement success	修订后是否更好
regression risk	是否引入新错误
evidence preservation	是否保留事实和引用
safety preservation	是否削弱安全边界
cost per improvement	多轮 refinement 是否值得
human acceptance	reviewer 是否接受修订

Stop Rules

critical policy violation: stop and escalate。
no new evidence after retry: refuse/escalate。
max refinement rounds reached: stop。
confidence worsens or conflict appears: human review。

10. 与现有体系连接

Existing asset	连接
`AI_MEMORY_CONTEXT_STATE_PLAYBOOK.md`	reflection memory 必须受 memory governance 约束
`AI_HUMAN_OVERSIGHT_HITL_PLAYBOOK.md`	高风险 refinement 触发人工复核
`AI_SYNTHETIC_EVAL_DATA_PLAYBOOK.md`	feedback taxonomy 可生成 synthetic failure cases
`AI_OBSERVABILITY_COST_SLO_PLAYBOOK.md`	refinement 增加 cost/latency，要进 SLO
`AI_AUDIT_EVIDENCE_BINDER_PLAYBOOK.md`	feedback、refinement、approval 进入 evidence binder

11. 作品集输出

Artifact	内容
Feedback Taxonomy	业务失败类型和修复策略
Refinement Policy	哪些错误可自动修，哪些必须人工
Reflection Memory ADR	什么 reflection 可保存、多久、谁批准
Eval Report	refinement 前后质量、安全、成本变化
Incident Scenario	self-refine 引入风险时如何处理

12. 面试表达

30 秒版本

Reflexion 和 Self-Refine 的价值是把输出、反馈、修订和记忆变成循环。但企业里不能让模型无限自我修改。必须定义失败分类、修复权限、停止条件、人工复核、memory governance 和 eval。

2 分钟版本

Reflexion 让 agent 把任务反馈写成 verbal reflection 放入 memory，影响下一次尝试。Self-Refine 通过 generate、feedback、refine 多轮改进输出。金融场景中，我会把它们做成受控 feedback loop: critic 生成 failure object，refinement policy 决定自动修、检索更多证据、问用户、拒答还是升级。比如 payment dispute note 缺字段可以自动补，但承诺退款、信贷拒绝理由、SAR 草稿事实问题必须人工复核。Reflection memory 也要区分 session、workflow、user preference 和 system improvement，受隐私、保留和审批约束。

CTO 深挖

我会把 refinement trace 记录下来: 原输出、feedback object、修订动作、模型版本、证据、最终结果和人工审批。这样可以做 regression、cost analysis 和 incident review。

13. 复习问题

Reflexion 和 Self-Refine 的差异是什么？
为什么 self-feedback 不等于可靠？
什么错误可以自动修，什么必须人工复核？
Reflection memory 如何避免隐私和偏置风险？
如何评估 refinement 是否真的让系统变好？
如何防止 self-refine 削弱安全边界？
金融零售场景中最适合 feedback loop 的任务是什么？