AI 底层逻辑 / 经典论文

Process Supervision：Step-by-Step Verification

Process supervision 的核心:

308 行ai-foundations/papers/26-process-supervision-step-by-step-verification.md

Process Supervision / Step-by-Step Verification 解读

面向对象: AI PM / AI BA / AI Architect / EvalOps / Model Risk。核心问题: 对复杂推理任务，只看最终答案是否正确够不够？什么时候需要评估中间步骤？学习目标: 理解 process supervision、outcome supervision、step-level verification 和 reasoning eval 对企业 AI 的意义。

Source Anchors

Source	Link	用途
Let's Verify Step by Step	https://arxiv.org/abs/2305.20050	理解 process supervision 相比 outcome supervision 的价值
Chain-of-Thought Prompting	https://arxiv.org/abs/2201.11903	理解中间推理步骤对复杂任务的影响
Self-Consistency	https://arxiv.org/abs/2203.11171	理解多路径推理和选择
Tree of Thoughts	https://arxiv.org/abs/2305.10601	理解搜索式推理和中间状态评估

Process supervision 的核心:

不只评价最终答案，还评价通向答案的每一步是否合理、被证据支持、符合规则。

1. Outcome Supervision vs Process Supervision

维度	Outcome Supervision	Process Supervision
评估对象	最终答案	中间步骤和最终答案
优点	标注更简单	能定位错误路径
缺点	不知道哪里错	标注成本高
适合	简单分类、明确答案	多步推理、合规判断、复杂流程
企业价值	快速质量指标	可解释、可审计、可调试

金融零售里，很多任务不能只看最终输出:

信贷建议。
AML narrative。
投诉处理。
支付争议。
合规报告。

因为错误可能隐藏在推理中间。

2. 为什么最终答案正确仍然可能不安全

例子:

信贷助手给出“需要人工复核”的最终建议。

最终建议可能正确，但中间理由可能错误:

使用了不允许的敏感属性。
忽略了政策例外。
引用了过期政策。
混淆客户身份。
编造证据。

这意味着:

结果对，不代表过程可接受。

3. Step-Level Verification

将推理拆成步骤:

Step 1: identify task
Step 2: gather relevant evidence
Step 3: apply policy
Step 4: check exceptions
Step 5: decide output boundary
Step 6: generate final answer

每一步都可以评估:

Step	Verification question
task identification	是否识别正确任务和风险等级
evidence gathering	是否使用正确来源
policy application	是否引用 active policy
exception check	是否覆盖例外
boundary decision	是否触发 HITL/refusal/escalation
final output	是否清晰、完整、合规

4. PM 视角: 什么时候值得做过程监督

过程监督成本高，不是所有任务都需要。

Task	Need process supervision?	Reason
FAQ 改写	低	结果易判定
客服政策问答	中	需要引用和话术边界
信贷文件总结	高	影响客户和合规
AML 调查摘要	高	证据链和监管风险
支付争议处理	高	SLA、规则、客户影响
代码生成	中高	过程可用测试覆盖部分替代

PM 要用 risk tier 决定评测深度。

5. BA 视角: 流程步骤就是评测步骤

BA 的流程建模可以直接变成 process eval。

Payment Dispute Example

Business process step	Eval question
确认交易	是否提取金额、时间、商户、渠道
确认客户 claim	是否区分 fraud / non-fraud dispute
查网络规则	是否引用正确 rule
检查 SLA	是否识别 deadline
判断证据缺口	是否列出 missing evidence
生成草稿	是否避免承诺退款

AML Example

Business process step	Eval question
识别 alert typology	是否匹配交易模式
聚合 KYC	是否使用 current profile
查看历史 alert	是否检查 previous disposition
证据分析	是否区分事实和推断
结论边界	是否避免过早关闭
草稿生成	是否有 evidence citation

6. 架构师视角: Process Eval Pipeline

Workflow Spec
  -> Step Schema
  -> Golden Cases
  -> Step Labeling
  -> Model Output Trace
  -> Step Verifier
      -> rules
      -> retrieval checks
      -> LLM judge
      -> SME review
  -> Error Localization
  -> Release Gate

Step Schema

Field	Example
step_id	apply_policy
required_input	policy_source, customer_segment
expected_behavior	apply active policy, cite source
forbidden_behavior	use expired policy
evidence_required	source id + section
risk_tier	high
verifier	rule + SME sample

7. Process Reward Model vs Rule Verifier

Research 中的 process reward model 用模型学习判断步骤好坏。

企业落地可以混合:

Verifier	适合
rule verifier	硬规则、权限、字段、格式
retrieval verifier	citation、source、freshness
LLM judge	语义完整性、rationale quality
SME review	高风险样本和 calibration
system tests	工具调用、状态、API 行为

不要把所有 step verification 都交给 LLM judge。

8. 与 Chain-of-Thought 展示的边界

过程监督不等于向最终用户展示完整 chain-of-thought。

更适合展示:

evidence summary。
decision checklist。
policy applied。
missing information。
confidence factors。
human approval status。

不建议展示:

原始长推理。
未校验 speculation。
敏感内部策略。
可以被攻击者利用的安全规则细节。

9. 金融零售案例

9.1 Credit Underwriting

过程监督步骤:

识别申请类型。
提取收入/负债/抵押物。
应用 policy。
检查 exception。
识别 adverse action risk。
生成 underwriter memo。

关键 gate:

不使用 prohibited basis。
所有 policy claim 有来源。
高风险输出人工审批。

9.2 Compliance Report Assistant

过程监督步骤:

明确报告周期。
拉取正确数据。
应用监管模板。
标注缺失数据。
生成草稿。
合规复核。

关键 gate:

不把估算当事实。
不漏报异常。
保留数据 lineage。

10. Eval 数据设计

Dataset type	内容
full correct trace	每一步都正确
early wrong trace	第一步识别错任务
evidence wrong trace	用错来源
policy wrong trace	应用旧政策
exception missing trace	漏例外
boundary wrong trace	未触发 HITL
final answer wrong	过程对但输出错

Metrics

Metric	Definition
step accuracy	每步正确率
critical step pass rate	高风险步骤通过率
error localization rate	能否定位错误步骤
final correctness	最终答案正确
process-final consistency	过程和结论一致
human review agreement	与 SME 一致

11. 作品集输出

Artifact	内容
Process Eval Map	把 BPMN/流程步骤转成 eval steps
Step Schema Library	每步输入、行为、证据、风险、verifier
Golden Trace Set	正确和错误过程样本
Release Gate	critical step threshold
Audit Evidence Note	为什么过程可接受

12. 面试表达

30 秒版本

Process supervision 不只看最终答案，而是评估中间步骤是否正确、被证据支持、符合业务规则。金融高风险任务里，结果对但过程用了错误政策或敏感属性也不能接受。

2 分钟版本

Outcome supervision 只评价最终答案，标注简单但难定位错误。Process supervision 会把任务拆成步骤，比如识别任务、收集证据、应用政策、检查例外、决定是否升级、生成最终输出。每一步都有 verifier，可以是规则、检索检查、LLM judge 或 SME review。对 AML、信贷、支付争议和合规报告，这能把 BA 的流程模型直接变成 eval 和 audit evidence。上线门禁不只看最终 accuracy，还看 critical step pass rate、error localization、policy compliance 和 human review agreement。

CTO 深挖

我会把 process eval 绑定 trace schema。系统需要记录任务分类、检索来源、工具调用、policy gate、HITL decision 和最终输出。这样才能定位错误在 retrieval、reasoning、policy、tool 还是 UX。

13. 复习问题

outcome supervision 和 process supervision 的区别是什么？
为什么最终答案正确仍然可能不可接受？
BA 流程模型如何转成 step-level eval？
哪些 verifier 适合硬规则，哪些适合语义质量？
为什么不应该把完整 chain-of-thought 展示给最终用户？
Process supervision 如何支持审计和模型风险管理？
在金融零售中，哪些任务必须做 critical step gate？