返回 Papers
AI 底层逻辑 / 经典论文

Process Supervision:Step-by-Step Verification

Process supervision 的核心:

308ai-foundations/papers/26-process-supervision-step-by-step-verification.md

Process Supervision / Step-by-Step Verification 解读

面向对象: AI PM / AI BA / AI Architect / EvalOps / Model Risk。 核心问题: 对复杂推理任务,只看最终答案是否正确够不够?什么时候需要评估中间步骤? 学习目标: 理解 process supervision、outcome supervision、step-level verification 和 reasoning eval 对企业 AI 的意义。


Source Anchors

SourceLink用途
Let's Verify Step by Stephttps://arxiv.org/abs/2305.20050理解 process supervision 相比 outcome supervision 的价值
Chain-of-Thought Promptinghttps://arxiv.org/abs/2201.11903理解中间推理步骤对复杂任务的影响
Self-Consistencyhttps://arxiv.org/abs/2203.11171理解多路径推理和选择
Tree of Thoughtshttps://arxiv.org/abs/2305.10601理解搜索式推理和中间状态评估

Process supervision 的核心:

不只评价最终答案,还评价通向答案的每一步是否合理、被证据支持、符合规则。


1. Outcome Supervision vs Process Supervision

维度Outcome SupervisionProcess Supervision
评估对象最终答案中间步骤和最终答案
优点标注更简单能定位错误路径
缺点不知道哪里错标注成本高
适合简单分类、明确答案多步推理、合规判断、复杂流程
企业价值快速质量指标可解释、可审计、可调试

金融零售里,很多任务不能只看最终输出:

  • 信贷建议。
  • AML narrative。
  • 投诉处理。
  • 支付争议。
  • 合规报告。

因为错误可能隐藏在推理中间。


2. 为什么最终答案正确仍然可能不安全

例子:

信贷助手给出“需要人工复核”的最终建议。

最终建议可能正确,但中间理由可能错误:

  • 使用了不允许的敏感属性。
  • 忽略了政策例外。
  • 引用了过期政策。
  • 混淆客户身份。
  • 编造证据。

这意味着:

结果对,不代表过程可接受。


3. Step-Level Verification

将推理拆成步骤:

Step 1: identify task
Step 2: gather relevant evidence
Step 3: apply policy
Step 4: check exceptions
Step 5: decide output boundary
Step 6: generate final answer

每一步都可以评估:

StepVerification question
task identification是否识别正确任务和风险等级
evidence gathering是否使用正确来源
policy application是否引用 active policy
exception check是否覆盖例外
boundary decision是否触发 HITL/refusal/escalation
final output是否清晰、完整、合规

4. PM 视角: 什么时候值得做过程监督

过程监督成本高,不是所有任务都需要。

TaskNeed process supervision?Reason
FAQ 改写结果易判定
客服政策问答需要引用和话术边界
信贷文件总结影响客户和合规
AML 调查摘要证据链和监管风险
支付争议处理SLA、规则、客户影响
代码生成中高过程可用测试覆盖部分替代

PM 要用 risk tier 决定评测深度。


5. BA 视角: 流程步骤就是评测步骤

BA 的流程建模可以直接变成 process eval。

Payment Dispute Example

Business process stepEval question
确认交易是否提取金额、时间、商户、渠道
确认客户 claim是否区分 fraud / non-fraud dispute
查网络规则是否引用正确 rule
检查 SLA是否识别 deadline
判断证据缺口是否列出 missing evidence
生成草稿是否避免承诺退款

AML Example

Business process stepEval question
识别 alert typology是否匹配交易模式
聚合 KYC是否使用 current profile
查看历史 alert是否检查 previous disposition
证据分析是否区分事实和推断
结论边界是否避免过早关闭
草稿生成是否有 evidence citation

6. 架构师视角: Process Eval Pipeline

Workflow Spec
  -> Step Schema
  -> Golden Cases
  -> Step Labeling
  -> Model Output Trace
  -> Step Verifier
      -> rules
      -> retrieval checks
      -> LLM judge
      -> SME review
  -> Error Localization
  -> Release Gate

Step Schema

FieldExample
step_idapply_policy
required_inputpolicy_source, customer_segment
expected_behaviorapply active policy, cite source
forbidden_behavioruse expired policy
evidence_requiredsource id + section
risk_tierhigh
verifierrule + SME sample

7. Process Reward Model vs Rule Verifier

Research 中的 process reward model 用模型学习判断步骤好坏。

企业落地可以混合:

Verifier适合
rule verifier硬规则、权限、字段、格式
retrieval verifiercitation、source、freshness
LLM judge语义完整性、rationale quality
SME review高风险样本和 calibration
system tests工具调用、状态、API 行为

不要把所有 step verification 都交给 LLM judge。


8. 与 Chain-of-Thought 展示的边界

过程监督不等于向最终用户展示完整 chain-of-thought。

更适合展示:

  • evidence summary。
  • decision checklist。
  • policy applied。
  • missing information。
  • confidence factors。
  • human approval status。

不建议展示:

  • 原始长推理。
  • 未校验 speculation。
  • 敏感内部策略。
  • 可以被攻击者利用的安全规则细节。

9. 金融零售案例

9.1 Credit Underwriting

过程监督步骤:

  1. 识别申请类型。
  2. 提取收入/负债/抵押物。
  3. 应用 policy。
  4. 检查 exception。
  5. 识别 adverse action risk。
  6. 生成 underwriter memo。

关键 gate:

  • 不使用 prohibited basis。
  • 所有 policy claim 有来源。
  • 高风险输出人工审批。

9.2 Compliance Report Assistant

过程监督步骤:

  1. 明确报告周期。
  2. 拉取正确数据。
  3. 应用监管模板。
  4. 标注缺失数据。
  5. 生成草稿。
  6. 合规复核。

关键 gate:

  • 不把估算当事实。
  • 不漏报异常。
  • 保留数据 lineage。

10. Eval 数据设计

Dataset type内容
full correct trace每一步都正确
early wrong trace第一步识别错任务
evidence wrong trace用错来源
policy wrong trace应用旧政策
exception missing trace漏例外
boundary wrong trace未触发 HITL
final answer wrong过程对但输出错

Metrics

MetricDefinition
step accuracy每步正确率
critical step pass rate高风险步骤通过率
error localization rate能否定位错误步骤
final correctness最终答案正确
process-final consistency过程和结论一致
human review agreement与 SME 一致

11. 作品集输出

Artifact内容
Process Eval Map把 BPMN/流程步骤转成 eval steps
Step Schema Library每步输入、行为、证据、风险、verifier
Golden Trace Set正确和错误过程样本
Release Gatecritical step threshold
Audit Evidence Note为什么过程可接受

12. 面试表达

30 秒版本

Process supervision 不只看最终答案,而是评估中间步骤是否正确、被证据支持、符合业务规则。金融高风险任务里,结果对但过程用了错误政策或敏感属性也不能接受。

2 分钟版本

Outcome supervision 只评价最终答案,标注简单但难定位错误。Process supervision 会把任务拆成步骤,比如识别任务、收集证据、应用政策、检查例外、决定是否升级、生成最终输出。每一步都有 verifier,可以是规则、检索检查、LLM judge 或 SME review。对 AML、信贷、支付争议和合规报告,这能把 BA 的流程模型直接变成 eval 和 audit evidence。上线门禁不只看最终 accuracy,还看 critical step pass rate、error localization、policy compliance 和 human review agreement。

CTO 深挖

我会把 process eval 绑定 trace schema。系统需要记录任务分类、检索来源、工具调用、policy gate、HITL decision 和最终输出。这样才能定位错误在 retrieval、reasoning、policy、tool 还是 UX。


13. 复习问题

  1. outcome supervision 和 process supervision 的区别是什么?
  2. 为什么最终答案正确仍然可能不可接受?
  3. BA 流程模型如何转成 step-level eval?
  4. 哪些 verifier 适合硬规则,哪些适合语义质量?
  5. 为什么不应该把完整 chain-of-thought 展示给最终用户?
  6. Process supervision 如何支持审计和模型风险管理?
  7. 在金融零售中,哪些任务必须做 critical step gate?