返回 Papers
AI 扩展计划 / Playbooks

AI Human Oversight / HITL Playbook

以下官方来源作为学习锚点。本文把它们转成产品、流程、架构和证据设计语言, 不把任何条款简化成单一检查项。正式项目应记录访问日期、适用性判断和 legal / compliance sign-off。

876AI_HUMAN_OVERSIGHT_HITL_PLAYBOOK.md

AI Human Oversight / HITL / Handoff Playbook

定位: 面向 AI BA / AI PM / AI Solutions Architect / Enterprise Architect 的金融零售 AI 人类监督设计手册。 目标: 把“human-in-the-loop”从一句合规口号, 转成可设计、可训练、可操作、可审计、可衡量、可停机的业务控制体系。 适用范围: AML Copilot、KYC Review Assistant、Credit Underwriting Copilot、Payment Dispute Assistant、Customer Service Copilot、Branch / Contact Center Agent Assist、金融零售内部知识助手。

重要说明: 本文是学习、作品集和内部治理训练材料, 不是法律意见、合规结论、审计意见或模型验证报告。正式项目必须由 Legal、Compliance、Risk、Model Risk、Internal Audit、Security、Privacy、Data Owner、Business Owner 和管理层结合机构类型、司法辖区、业务用途、客户影响和内部政策确认。


Source Anchors

以下官方来源作为学习锚点。本文把它们转成产品、流程、架构和证据设计语言, 不把任何条款简化成单一检查项。正式项目应记录访问日期、适用性判断和 legal / compliance sign-off。

AnchorOfficial link本文使用方式
EU AI Act Article 14 Human Oversighthttps://ai-act-service-desk.ec.europa.eu/en/ai-act/article-14https://eur-lex.europa.eu/eli/reg/2024/1689/oj/eng用于定义高风险 AI 的人类监督目标、能力要求、解释输出、忽略/覆盖/撤销输出、干预和停止机制。
EU AI Act Article 4 AI Literacyhttps://ai-act-service-desk.ec.europa.eu/en/ai-act/article-4https://eur-lex.europa.eu/eli/reg/2024/1689/oj/eng用于把监督者培训、AI literacy、角色能力和上下文意识纳入上线条件。
NIST AI Risk Management Frameworkhttps://www.nist.gov/itl/ai-risk-management-framework用 Govern / Map / Measure / Manage 组织人类监督的治理、场景、度量和处置闭环。
NIST AI RMF Generative AI Profilehttps://www.nist.gov/publications/artificial-intelligence-risk-management-framework-generative-artificial-intelligence用于 GenAI 特有风险: hallucination、data leakage、misuse、prompt injection、tool misuse、information integrity、third-party dependency。
ISO/IEC 42001https://www.iso.org/standard/42001用 AI management system 思路设计责任、能力、运营控制、绩效评估、持续改进和管理层承诺。

1. 一句话定位

Human oversight 不是“在页面上放一个批准按钮”。它是一个覆盖业务流程、AI 系统边界、角色授权、UI 证据、升级路径、停机机制、培训、监控和审计的控制体系。

更准确的定义:

AI human oversight =
在明确风险边界内, 让具备能力、授权和时间的人,
基于可理解的证据和可操作的界面,
对 AI 输出、建议或动作进行判断、质疑、升级、覆盖、撤销或停止,
并留下足以复盘、审计和持续改进的证据。

这份手册训练三类能力:

角色需要形成的能力典型产出
AI BA能把 AS-IS / TO-BE 流程中的人工判断点、例外、证据、授权、SLA、培训和审计记录写成需求BPMN、HITL requirement、handoff rule、audit field matrix、training requirement
AI PM能按风险分级决定哪些地方必须人工复核、哪些可以抽样监控、哪些必须停机, 并把监督成本纳入产品价值判断Oversight strategy、risk-tiered intervention matrix、reviewer capacity model、adoption metric
AI Architect能把人工监督落实到系统边界、权限、工具调用、日志、追踪、回滚、kill switch 和可观测性C4 / sequence diagram、control architecture、trace schema、stop switch design、monitoring dashboard

2. 为什么人类监督不只是 Approval Button

很多 AI 项目会在高风险流程中加一个“Approve”按钮, 然后宣称已经有人类监督。真实风险在于: 按钮存在不等于人能有效监督。

2.1 弱监督模式

弱模式表面上看起来合规实际问题
Rubber stamp approval每个 AI 建议都要人工点批准审核人没有足够证据、时间或能力, 最终只是批量确认。
Hidden automation文案写着“AI 仅供参考”工作流、指标和管理压力让员工实际上默认采纳 AI。
Empty escalation页面有“Escalate”按钮不知道升级给谁、多久响应、升级后谁负责、原案件是否暂停。
No reversal path人可以拒绝 AI 建议但 AI 已经写入下游系统、触发客户通知或改变 case 状态。
Overloaded reviewer建立了人工复核队列复核量超出人力, 导致延迟、跳读、抽样失真。
No evidence view人能看到 AI 输出看不到检索证据、模型版本、置信边界、政策来源和工具动作。
No AI literacy员工被要求监督 AI但不知道 hallucination、automation bias、prompt injection、RAG 过期、tool misuse 的表现。

2.2 有效监督链路

有效的人类监督至少包括十个环节:

Use case scope
-> risk tier
-> decision boundary
-> human role and authority
-> evidence presented to the human
-> UI action set
-> escalation and override path
-> stop / rollback / recovery path
-> audit trail
-> training, metrics and continuous improvement

如果其中任何一环缺失, “人在回路中”就可能只是流程装饰。

2.3 三个核心判断

判断问题好答案应包含
人监督什么AI 输出、证据、建议理由、工具动作、异常状态、客户影响、合规边界。
人如何监督查看来源、比较政策、质疑结论、编辑输出、拒绝建议、升级、要求补证据、停止动作。
人监督是否有效覆盖率、覆盖质量、override reason、disagreement pattern、抽样复核、事故趋势、培训结果、审计可复现性。

3. EU AI Act Article 14 映射

Article 14 的关键启发是: 对高风险 AI, 人类监督必须通过适当的人机界面和控制措施让自然人能够在使用期间有效监督系统。监督的目的不是形式化审批, 而是防止或最小化对健康、安全和基本权利的风险。

3.1 Article 14 到设计要求

Article 14 监督要点产品 / 流程设计要求架构与证据要求
高风险 AI 应设计成可由自然人有效监督在 use case intake 阶段识别 human role、review point、decision boundary 和不可自动化边界C4 / BPMN 中标注 AI 与人的交互点、权限边界、review queue、fallback path
监督措施应与风险、自治程度和使用场景相称按客户影响、自动化程度、可逆性、数据敏感度和监管义务分层设置监督强度Risk-tiered oversight matrix、release gate sign-off、residual risk record
人应能理解 AI 系统能力和限制UI 展示能力边界、数据来源、适用范围、known limitations、confidence caveat 和不可用场景User guide、model card / system card、training completion、limitation acknowledgement
人应能监控 AI 系统运行并发现异常提供异常提示、质量指标、case flags、retrieval freshness、tool-call warnings、drift signalsMonitoring dashboard、alert log、review sample、incident ticket
人应意识到 automation biasUI 避免把 AI 建议设计成默认真理, 训练中覆盖过度信任和低信任两类风险Training record、calibration exercise、override trend analysis
人应能正确解释输出输出要包含证据、引用、来源时间、推理边界、缺失信息、可疑点和建议下一步Trace log、retrieval context、citation validator、structured output schema
人应能决定不使用、忽略、覆盖或撤销 AI 输出每个高影响输出必须有 reject、edit、override、reverse、escalate 的合法路径Decision log、edit diff、override reason code、reversal workflow
人应能干预或停止系统设计 route-level、tool-level、case-level、model-level、global kill switchStop switch registry、authority matrix、stop event log、restart approval record
特殊高风险场景可要求双人确认金融零售高影响动作可借鉴 maker-checker、four-eyes principleDual approval log、segregation of duties、exception approval

3.2 Article 14 在金融零售中的边界

在金融零售中, 很多 AI 系统未必都直接落入同一法律分类, 但 Article 14 给了一个可复用的设计标准:

  • 如果 AI 影响客户权益、信贷、账户访问、资金流、AML/KYC 结论、投诉处理或监管材料, 人类监督必须强于普通 productivity tool。
  • 如果 AI 只是总结信息, 但总结被员工用于高影响决策, 仍要设计有效监督。
  • 如果 AI 能调用工具改变状态, human oversight 要覆盖动作前、动作中、动作后和异常恢复。
  • 如果 AI 输出进入客户可见沟通, 人类监督要覆盖事实正确性、语气、合规边界和可解释性。

4. Article 4 AI Literacy 映射

Article 4 的启发是: 监督者必须有足够 AI literacy。不能把监督责任交给没有训练的人, 也不能只给一份使用说明。

4.1 AI Literacy 不是泛泛培训

培训层级监督者必须知道什么证据
基础概念AI 输出不是事实本身, RAG 引用可能错, 模型会 hallucinate, prompt 会影响行为在线课程记录、测验、签收
场景边界本系统允许做什么, 禁止做什么, 哪些客户或案件不适用Role-specific playbook、scenario quiz
风险识别automation bias、wrong citation、missing evidence、policy drift、data leakage、prompt injection、tool misuseChallenge case drill、red flag checklist
操作能力如何拒绝、编辑、升级、覆盖、撤销、停止和报告 incident操作演练记录、case simulation score
责任意识最终责任人是谁, AI 输出如何进入客户/监管材料, 如何保留证据Attestation、supervisor review

4.2 角色化 AI Literacy

角色必修能力不合格风险
Frontline reviewer看懂 AI 输出、证据和限制; 能提出异议; 能正确使用 reject / edit / escalate默认采纳、误拒、漏升级
Senior approver能处理高风险例外、冲突证据和客户影响判断把审批变成行政盖章
Operations lead能管理队列、SLA、抽样复核、人力容量和质量趋势复核积压、质量下降、指标失真
AI PM / BA能把监督点转成需求、流程、培训和验收标准只写“需要人工审核”
Architect / Platform owner能设计权限、日志、stop switch、tool gating 和 traceability人无法停止、无法复盘、无法撤销
Risk / Compliance / Audit能检查监督是否真实有效, 不是只看按钮和政策文本控制存在但不可证明

5. NIST AI RMF 映射

NIST AI RMF 的 Govern / Map / Measure / Manage 可以把人类监督从单点功能变成治理闭环。

RMF Function对 human oversight 的问题关键 artifact
Govern谁对监督机制、监督质量、培训、例外和风险接受负责AI governance charter、RACI、policy、AI literacy plan、management reporting
Map这个 use case 的业务场景、受影响人群、自动化边界和伤害路径是什么Use case canvas、BPMN、harm scenario map、decision boundary map
Measure如何衡量监督是否有效, 如何测试 reviewer 能否发现 AI 错误Oversight eval set、reviewer calibration、override analytics、audit sample、incident trend
Manage当监督发现问题时如何升级、限制、停机、修复、回滚和持续改进Escalation runbook、kill switch、issue remediation、change gate、quarterly review

5.1 NIST GenAI Profile 到监督控制

GenAI 风险金融零售表现Oversight control
Hallucination / confabulation编造政策条款、交易原因、客户承诺、调查结论强制 evidence view、citation check、unsupported claim flag、human edit diff
Information integrity客服回复引用过期费率、KYC 使用旧政策、AML narrative 逻辑断裂Knowledge freshness indicator、policy effective date、source owner review
Sensitive data disclosure客服 agent 泄露非本人账户信息、内部助手暴露受限案例RBAC-filtered retrieval、data masking、least privilege、privacy review
Prompt injection检索文档或用户输入诱导模型忽略政策、调用工具Instruction hierarchy、content labeling、tool confirmation、security alert
Excessive agency / tool misuseAI 自动冻结账户、提交 dispute credit、关闭 AML alertTool allowlist、pre-action review、dual approval、transaction limit
Third-party dependencyVendor 模型升级后输出风格、拒答或准确性变化Vendor change notice、regression eval、model routing freeze、fallback
Automation bias员工在高压力队列中默认接受 AI 建议UI uncertainty, disagreement prompts、reviewer calibration、override metric

5.2 ISO/IEC 42001 到管理系统

ISO/IEC 42001 管理系统视角HITL 设计转化
组织环境和相关方识别客户、员工、监管、业务 owner、风险职能和第三方对监督的期望
领导力和责任明确 human oversight owner、business accountability、risk acceptance authority
规划和风险处置把监督控制纳入 AI risk treatment plan 和 release gate
支持和能力建立 AI literacy、岗位培训、知识库和操作手册
运营控制设计 review queue、handoff、override、stop switch、change control
绩效评估跟踪监督有效性、事故、抽样质量、用户校准和控制失效
改进用 incident、audit finding、reviewer feedback 和模型变更持续更新监督机制

6. Oversight Taxonomy

6.1 按人和 AI 的控制关系分类

类型定义适合场景不适合场景
Human-in-the-loopAI 输出在生效前必须经人复核或批准信贷 memo、AML SAR draft、支付补偿、KYC 例外低风险、海量、实时且可逆的辅助提示
Human-on-the-loopAI 可持续运行, 人通过监控、抽样、阈值和告警监督客服知识助手、欺诈排队建议、文档分类高影响不可逆动作、强监管结论
Human-in-command人拥有策略、目标、边界、停机、回滚和风险接受权, AI 只能在授权范围内运行企业 AI 平台、agentic workflow、tool-using assistant没有明确 owner 或缺少停机机制的系统

6.2 按时间点分类

时间点监督方式示例
Pre-decisionAI 输出进入决策前人工复核信贷拒绝理由生成前由 underwriter 确认
Pre-actionAI 调用工具或改变状态前人工确认支付 dispute 临时入账前审批
In-flight流程运行中实时告警和人工接管客服对话触发投诉、法律威胁或高净值客户升级
Post-review事后抽样、趋势分析、质量复核客服回复抽样, KYC 文档分类抽检
FallbackAI 不确定、失败、越权或异常时交给人RAG 缺少有效政策来源时升级给 policy SME

6.3 按 AI 行为分类

AI 行为默认监督强度设计重点
Read / retrieve低到中权限过滤、来源有效期、引用准确性
Summarize完整性、证据覆盖、遗漏风险
Classify中到高阈值、误分成本、抽样复核、bias
Recommend解释、替代方案、人工最终判断、override
Draft编辑、引用、合规语言、客户可见性
Decide极高多数金融零售高影响场景应避免完全自动化
Act极高工具权限、动作前审批、限额、撤销、停机

6.4 按复核覆盖分类

覆盖方式适合条件风险
100% review高影响、不可逆、监管敏感、客户权益重大成本高、队列拥堵、审核疲劳
Risk-based review有可靠风险信号、案件量大、错误成本分层明显风险信号漏检会导致低估
Stratified sampling低中风险、需要持续质量监控样本设计不当会掩盖少数群体风险
Exception review只复核异常、低置信、政策冲突、客户投诉正常样本中的系统性偏差可能被忽视
Shadow reviewAI 不影响决策, 人独立处理, 用于比较和校准不能作为生产控制替代正式监督

7. Risk-Tiered Intervention Matrix

7.1 四级风险与默认监督策略

Tier定义默认监督策略Release gate
Tier 0: Not allowed违反法律、内部政策或 risk appetite, 或缺少可接受控制停止、重设边界或改用非 AI 方案不进入 pilot
Tier 1: High impact影响客户权益、信贷、资金、账户、AML/KYC 结论、监管材料或重大运营风险HITL、pre-action approval、dual control、full audit、kill switchLegal/Risk/Compliance/Business/Architecture sign-off
Tier 2: Controlled business use影响业务流程, 有人工最终判断, 错误可纠正但有运营或客户影响Risk-based review、exception escalation、sample QA、clear overrideStandard risk review、eval gate、training completion
Tier 3: Low risk productivity内部效率辅助, 不影响客户权益, 不处理敏感动作Human-on-the-loop、usage policy、light logging、periodic reviewOwner approval、data boundary confirmation

7.2 干预矩阵

触发因素Tier 1 干预Tier 2 干预Tier 3 干预
AI 低置信或证据不足必须人工复核, 输出不得生效升级或要求补证据提示用户谨慎使用
引用与结论不一致阻断流程, 进入质量事件标记异常, 抽样扩大记录反馈
涉及客户资金或账户状态人工审批和双人确认预设限额内人工确认不允许自动动作
涉及信贷拒绝、额度、定价人工最终决策, 解释证据保留不建议直接用于客户决定仅用于内部研究
涉及 AML / KYC 重大结论L2 reviewer 复核, 合规留痕分层升级仅总结公开政策
客户投诉、法律威胁、监管关键词立即升级, AI 停止自动回复升级给 supervisor提示人工处理
Prompt injection 或工具越权停止相关 route / tool, 启动 incident暂停能力并调查安全反馈记录
模型或知识库重大变更重新 eval 和审批回归测试后发布owner review

7.3 Handoff 决策树

AI output generated
-> Is the use case Tier 1?
   -> yes: human review before decision or action
-> Does output affect customer rights, money, account status or regulatory record?
   -> yes: human review and decision log
-> Is evidence missing, stale, contradictory or unauthorized?
   -> yes: fallback to human specialist
-> Is there a tool action or irreversible state change?
   -> yes: pre-action approval and rollback path
-> Is user/customer showing distress, complaint, legal threat or fraud signal?
   -> yes: escalation queue
-> Otherwise:
   -> risk-based monitoring, sampling and feedback loop

8. UI / UX 与工作流要求

8.1 监督界面的最小组件

UI 组件目的设计要求
AI output panel展示建议、摘要、草稿或动作请求清楚标明 AI 生成, 避免把输出视觉上设计成最终事实
Evidence panel让人看到支持输出的证据显示来源、时间、权限、引用片段、有效期和缺失证据
Risk flag panel告诉审核者为什么需要关注标出客户影响、政策冲突、低置信、异常交易、投诉信号
Action panel支持人做真实选择accept、edit、reject、override、escalate、request evidence、stop route
Reason capture捕获人工判断理由高风险动作必须选择原因并允许简短说明
Diff view比较 AI 原文与人工编辑保留 edit diff, 用于质量改进和审计
History / trace复盘上下文显示 case state、AI version、prompt version、retrieved docs、tool calls
SLA / queue view管理人工容量显示优先级、截止时间、积压和升级状态

8.2 防止 Automation Bias 的界面原则

风险UI 反模式更好的设计
默认采纳大按钮是 Approve, 小链接是 Reject同等清晰地展示 accept / edit / reject / escalate
过度置信显示单一百分比置信度展示证据状态、缺失信息、适用边界和冲突信号
证据不可见只展示总结默认展开关键证据和来源有效期
责任模糊页面写“AI 建议仅供参考”明确当前 human role 是 final decision maker 还是 reviewer
审核疲劳每条都要求人工点击按风险分层, 给高风险更多证据和时间
质疑成本高反对 AI 需要写长说明提供 reason code、快速标注和一键升级

8.3 Handoff 工作流要求

要求说明
Context complete交接给人时必须带上用户输入、AI 输出、证据、日志、风险标记、已执行动作和下一步建议。
No silent drop任何 fallback 或 escalation 都不能让 case 消失在队列外。
Clear ownership每个升级队列有 owner、SLA、backup owner 和超时规则。
State freeze高风险异常时冻结自动动作, 防止 AI 继续改变状态。
Customer protection客户可见流程应给出准确、克制的等待说明, 不暴露内部模型或调查细节。
Feedback loop人工结论回流到 eval set、prompt improvement、knowledge quality 和培训材料。

8.4 工具调用 UX

工具动作默认控制
Read-only queryRBAC、purpose binding、logging
Draft creationHuman review、edit diff、source citation
Case status changePre-action approval、reason code、reversal path
Payment / credit adjustmentDual approval、limit、segregation of duties、audit
Customer communicationCompliance language check、human approval for high impact
Account restriction / releaseSenior approval、risk owner notification、post-action QA

9. 角色设计与 RACI

9.1 核心角色

Role责任
Business Process Owner对业务流程结果、人工岗位设计和运营政策负责
AI Product Owner对 use case scope、价值、体验、发布节奏和采用负责
AI BA对流程证据、需求、例外、角色、handoff 和验收标准负责
Solution Architect对系统边界、集成、权限、日志、fallback、stop switch 和 NFR 负责
Frontline Reviewer在授权范围内审核、编辑、拒绝或升级 AI 输出
Senior Approver处理高风险例外、重大客户影响和双人确认
Risk / Compliance对风险分级、控制适用性、合规边界和证据要求提出挑战
Model Risk / Validation对模型和系统验证、评测覆盖、限制和持续监控提出有效挑战
Security / Privacy对访问控制、数据保护、prompt injection、tool misuse 和日志保留负责
Operations Lead对复核队列、SLA、人力容量、质量抽样和一线反馈负责
Internal Audit检查监督控制是否按设计执行、证据是否可复现

9.2 RACI: Oversight Design

ActivityPMBAProcess OwnerArchitectRiskComplianceOpsSecurity
Define AI behavior boundaryA/RRCCCCCI
Identify decision pointsARRCCCCI
Set risk tierCCCCA/RA/RIC
Design human review workflowARA/RCCCRI
Design evidence UIA/RRCRCCCC
Define override and escalationARA/RCA/RCRC
Define kill switchCCCA/RA/RCRA/R
Approve release gateACARA/RA/RCA/R

9.3 RACI: Production Oversight

ActivityFrontlineSenior ApproverOpsPMArchitectRiskAudit
Review AI outputRCAIIII
Override AI recommendationRA/R for high riskCIICI
Escalate exceptionRA/RA/RICCI
Trigger route stopCCA/RAA/RA/RI
Investigate incidentCCRARA/RI
Sample QACRA/RCICC
Control testingIICICCA/R

10. Escalation、Override、Stop / Kill Switch

10.1 Escalation Ladder

Level触发响应
L0 Self-correction低风险、证据轻微缺失、格式错误用户编辑或要求 AI 重新生成, 保留反馈
L1 Frontline supervisor客户影响、政策不确定、重复错误supervisor review, SLA 内给出结论
L2 SpecialistAML/KYC/credit/payment 专业判断、冲突证据SME 或二线团队处理, 冻结相关自动动作
L3 Risk / Compliance合规边界、监管材料、潜在客户损害formal issue, risk acceptance or remediation
L4 Incident command大规模错误、数据泄露、工具越权、客户资金影响war room, route stop, customer remediation, management reporting

10.2 Override 类型

Override 类型含义必要记录
Ignore不采用 AI 输出, 人独立处理reason code、case outcome
Edit修改 AI 草稿后使用edit diff、edited fields、reviewer
Reverse撤销已进入流程的 AI 影响original action、reversal reason、approver
Escalate交给更高权限或专业团队escalation level、recipient、SLA、decision
Conditional accept接受但加限制或补控制condition、expiry、follow-up owner

10.3 Stop / Kill Switch 类型

Switch 类型作用范围示例
Case-level stop单个 case 暂停 AI 继续处理客户威胁法律行动, AI 停止生成回复
Route-level stop暂停某类请求或 workflow route暂停 credit adverse action draft route
Tool-level stop禁用某个外部工具或写操作禁止 AI 调用 payment adjustment API
Data-source stop停用某个知识源或索引KYC policy index 发现版本混用
Model-level stop停用某个模型版本或模型供应商路由vendor model update 后质量下降
Global stop停止整个 AI capability大规模数据泄露或系统性错误

10.4 Stop Switch Runbook

Step操作Owner
Detect通过告警、用户反馈、QA、incident 或审计发现触发Ops / Risk / Security
Classify判断影响范围、客户影响、资金影响、监管影响和可逆性PM / Risk / Architect
Contain执行 case / route / tool / model / global stopArchitect / Platform Owner
Preserve保存 prompt、output、retrieval、tool trace、human actions 和相关日志Platform Owner / Security
Communicate通知业务、风险、合规、客服、管理层和供应商PM / Ops / Risk
Remediate修复 prompt、index、policy、tool permission、training 或流程PM / Architect / Owner
Restart通过回归评测、风险复核和审批后恢复Governance forum
Review复盘根因、控制失效、客户补救和后续监控Risk / Audit / PM

11. Audit Trail 与证据保全

11.1 最小日志字段

字段说明
Trace ID一次 AI 交互或 workflow run 的唯一编号
Use case ID与 AI inventory 一致
User / reviewer role用户角色、复核人角色、权限级别
Customer / case reference按隐私和访问控制要求记录可追溯引用
Timestamp输入、输出、人工动作、工具动作和审批时间
Model version模型、路由、temperature、provider、deployment
Prompt versionsystem prompt、policy prompt、workflow prompt 版本
Knowledge versionindex、document id、effective date、source owner
Retrieved evidence文档、片段、引用位置、权限过滤结果
AI output原始输出、结构化字段、风险标记
Tool callstool name、parameters、response、success/failure、side effect
Human actionaccept、edit、reject、override、escalate、stop
Human rationalereason code、说明、审批层级
DiffAI 输出与人工最终文本差异
Downstream effect是否进入客户沟通、case note、系统状态或监管材料
Incident link关联 issue、alert、complaint、audit finding

11.2 审计可复现性标准

一个高影响 AI case 至少应能复盘:

  • 当时用户问了什么。
  • AI 使用了哪个模型、prompt、知识库和工具。
  • AI 看到了哪些证据, 哪些证据没有权限访问。
  • AI 输出了什么, 哪些内容被人工修改。
  • 人为什么接受、拒绝、覆盖或升级。
  • 输出进入了哪个下游系统或客户沟通。
  • 如果发生问题, 哪个控制本应发现但没有发现。

11.3 Evidence Pack

Evidence用途
Oversight design memo说明监督策略、风险分级和角色授权
BPMN / workflow map证明人机交互点和升级路径
UI screenshots证明证据、操作、警示和责任边界可见
Trace schema证明日志字段足以复盘
Training completion证明监督者具备 AI literacy
Reviewer calibration result证明监督者能发现关键错误
Override analytics证明人不是橡皮图章
Stop switch test证明系统可被及时停止
Incident drill record证明团队演练过异常
Quarterly control review证明监督机制持续有效

12. Training / AI Literacy 体系

12.1 培训路径

模块内容适用角色验收方式
AI basics for reviewersLLM、RAG、hallucination、automation bias、limitationsFrontline / Supervisor场景题测验
System boundary本 use case 能做什么、不能做什么、何时升级所有使用者Role acknowledgement
Evidence reading如何判断引用是否支持结论、如何识别过期政策Reviewer / SMECase simulation
Override practiceaccept、edit、reject、reverse、escalate 的正确用法Reviewer / Supervisor抽样评分
Incident and stop数据泄露、越权工具、系统性错误的响应Ops / PM / Architect / RiskTabletop exercise
Audit readiness如何保留理由、证据、审批和复盘材料PM / BA / Ops / RiskEvidence sample review

12.2 Reviewer Calibration

监督者需要被校准, 否则不同人对 AI 错误的判断会严重不一致。

校准活动做法输出
Golden case review多名 reviewer 独立审核同一批案例agreement rate、分歧原因
Adversarial case drill加入错误引用、缺失证据、诱导性用户输入识别率、升级准确率
Override reason audit检查人工覆盖理由是否足够具体reason quality score
Refresher training针对常见误判更新培训updated playbook、quiz result

13. Metrics

13.1 监督有效性指标

Metric含义使用方式
Human review coverage应复核案例中实际复核比例验证控制是否被执行
Override rate人工拒绝、编辑、撤销或升级 AI 的比例过低可能是橡皮图章, 过高可能是 AI 质量差
Meaningful edit rate人工对关键字段做实质修改的比例衡量监督是否真正参与
Escalation precision升级案例中真正需要升级的比例评估风险信号质量
Escalation miss rate事后发现应升级但未升级的比例高影响指标, 需要持续降低
Reviewer agreement多名审核者对同一案例判断一致性衡量培训和标准清晰度
Time-to-review从 AI 输出到人工复核完成时间监控 SLA 和容量
Time-to-stop发现重大问题到停止相关能力的时间衡量 incident readiness
Audit replay success抽样案例能否完整复盘验证日志和证据链

13.2 业务与风险平衡指标

指标业务含义风险解释
Cycle time reductionAI 是否缩短处理时长不能以牺牲复核质量换速度
Rework rate人工后续返工比例高返工说明 AI 或监督标准有问题
Complaint rate客户投诉趋势客户可见 AI 使用必须重点监控
Policy exception rate输出或人工决策偏离政策比例触发流程或知识库复核
Incident severity trendAI 相关事件严重度决定是否扩大、限制或暂停
Cost per reviewed case人工监督成本PM 需要纳入商业可行性
Adoption with calibration用户采用率与 override 质量结合避免把高采用误读成高信任

13.3 预警阈值设计

信号可能含义行动
Override rate 突然接近 0审核者默认采纳、UI 诱导、培训失效抽样复核、访谈、重新校准
Override rate 突然升高模型、知识库或政策变更导致质量下降回归评测、route 降级
Escalation backlog 增长容量不足或风险信号过宽调整规则、人力和 SLA
Unsupported claim 上升RAG、prompt 或模型行为异常增加 citation gate、修复 index
Stop switch 从未演练停机能力未经验证安排 tabletop 和技术演练

14. Failure Modes

Failure mode表现检测方式控制
Oversight theater有审批按钮但没有真实判断override rate、review time、reason quality强制证据视图、校准、抽样复核
Automation bias人默认相信 AIadversarial case drill、edit patternUI 降低默认采纳、培训、理由捕获
Reviewer overload队列积压、审核时间过短SLA、queue depth、review duration风险分层、人力容量模型、抽样策略
Unclear authority不知道谁能覆盖或停止incident review、role surveyauthority matrix、runbook
Missing evidence人看不到来源或下游影响audit sampleevidence panel、trace schema
Escalation dead end升级后无人处理escalation SLA、aged caseowner、backup、timeout rule
Shadow automation人名义上决策, 实际按 AI 排序处理workflow analysis、decision correlation独立复核、排序解释、random QA
Stop failure发现问题后 AI 继续运行incident drillkill switch test、权限预置
Poor training人不知道 AI 失败模式quiz、simulationrole-based AI literacy
Model change drift供应商或内部模型变化导致监督失效regression eval、quality trendchange gate、vendor notice、rollback
Audit gap出事后无法重建过程replay testlog schema、retention、evidence pack

15. 金融零售场景设计

15.1 AML Copilot

维度设计
AI 作用汇总 alert、交易模式、KYC profile、历史 case notes, 生成 investigation summary、red flag checklist、SAR draft
禁止边界不自动关闭 alert, 不自动提交 SAR, 不替代 AML policy 判断
默认监督Tier 1: analyst review + L2 review for high-risk cases
关键证据交易、客户资料、历史警报、制裁筛查、政策条款、AI 引用
Escalation制裁命中、可疑叙事冲突、客户高风险、跨境异常、证据不足
Overrideanalyst 可编辑 narrative, L2 可拒绝 AI 结论, compliance 可要求 route stop
MetricsSAR draft edit rate、unsupported claim、missed red flag、review time、L2 disagreement
Red lineAI 不得作为是否提交 SAR 的唯一依据

15.2 KYC Review Assistant

维度设计
AI 作用检查材料完整性、提取身份信息、比对政策要求、生成 remediation checklist
禁止边界不自动通过高风险客户, 不绕过 enhanced due diligence
默认监督Tier 1 / Tier 2: risk-based review, high-risk customer 100% review
关键证据客户文件、有效期、来源、政策要求、缺失项、EDD 规则
EscalationPEP、制裁接近匹配、文件疑似伪造、受益所有人不清、国家风险
Overridereviewer 可要求补件、升级 EDD、拒绝 AI 完整性判断
Metricsfalse complete rate、missing document catch rate、EDD escalation accuracy、rework
Red lineAI 不得把“文件看起来完整”当成“客户风险可接受”

15.3 Credit Underwriting Copilot

维度设计
AI 作用整理申请材料、生成 credit memo draft、引用信贷政策、提示缺失信息
禁止边界不自动批准或拒绝贷款, 不生成无依据的 adverse action reason
默认监督Tier 1: underwriter final decision, senior approval for exception
关键证据申请数据、收入资料、信用报告引用、政策条款、例外审批
Escalation政策例外、边缘评分、受保护类别风险、adverse action、异常收入证明
Overrideunderwriter 可拒绝 AI memo, 修改理由, 要求重新检索证据
Metricsmemo edit rate、policy citation accuracy、adverse reason specificity、exception review quality
Red line不能因为模型复杂而无法给出具体、准确、可审计的信贷原因

15.4 Payment Dispute Assistant

维度设计
AI 作用汇总 dispute 信息、识别交易类型、推荐下一步材料、生成客户沟通草稿
禁止边界不自动拒绝客户 dispute, 不无审批发放高额临时入账
默认监督Tier 1 for money movement, Tier 2 for draft communications
关键证据交易记录、商户信息、客户声明、规则时限、历史 dispute
Escalation大额、欺诈、重复 dispute、监管时限临近、客户投诉升级
Overrideagent 可编辑客户回复, supervisor 批准临时入账或拒绝
Metricsresolution time、wrong denial、provisional credit error、customer complaint
Red lineAI 工具调用不得绕过金额限额和双人审批

15.5 Customer Service Copilot

维度设计
AI 作用搜索政策、建议回答、总结对话、生成 after-call note
禁止边界不承诺费用减免、信贷结果、合规结论或法律解释
默认监督Tier 2: agent review for customer-visible response, exception escalation
关键证据知识库文章、产品条款、生效日期、客户上下文权限
Escalation投诉、法律威胁、客户脆弱性、身份验证失败、高额交易争议
Overrideagent 编辑回复, supervisor 处理投诉或例外
Metricsfirst contact resolution、wrong answer rate、agent edit rate、escalation miss
Red lineAI 不得替代身份验证、投诉分级和监管要求的客户通知

16. Artifacts / Templates

16.1 HITL Design Brief

Section内容要求
Use case业务流程、用户、客户影响、AI 行为类型
Risk tier分级、理由、客户/监管/资金/数据影响
Decision boundaryAI 可以建议什么, 人必须决定什么, 哪些动作禁止自动化
Human rolereviewer、approver、specialist、commander 的职责和授权
Review pointpre-decision、pre-action、in-flight、post-review、fallback
Evidence人必须看到的来源、引用、缺失信息、版本、下游影响
Actionsaccept、edit、reject、override、reverse、escalate、stop
Escalation触发条件、接收队列、SLA、backup、超时处理
Stop switchstop 类型、触发、权限、恢复条件
Metrics监督有效性、质量、风险、容量和业务指标
Training角色化 AI literacy、演练和校准要求
Audit trail日志字段、retention、抽样复盘要求

16.2 Oversight Requirement Pattern

For [use case and workflow point],
when AI [summarizes / recommends / drafts / acts],
and [risk trigger] is present,
the system must route the case to [human role]
before [decision or action becomes effective],
showing [required evidence],
allowing [allowed human actions],
capturing [decision reason and trace fields],
and enforcing [SLA / escalation / stop condition].

示例:

For payment dispute provisional credit,
when AI recommends a credit adjustment,
and the amount exceeds the frontline threshold,
the system must route the case to a supervisor
before any payment action is submitted,
showing transaction evidence, customer statement, rule deadline and AI rationale,
allowing approve, reject, edit amount, escalate and stop tool route,
capturing reason code, approver, timestamp and tool-call trace,
and enforcing four-hour SLA with risk escalation on breach.

16.3 Override Reason Code

Code含义
EVIDENCE_MISSINGAI 输出缺少关键证据
EVIDENCE_CONFLICT证据之间或证据与结论冲突
POLICY_MISMATCHAI 结论与政策不一致
CUSTOMER_CONTEXTAI 忽视客户具体情境
RISK_ESCALATION需要更高风险层级判断
TOOL_BOUNDARYAI 建议的动作超出工具或权限边界
LANGUAGE_RISK客户沟通语言存在合规或体验风险
DATA_QUALITY输入数据或知识源质量不足
OTHER_CONTROLLED其他已记录并可审计的原因

16.4 Audit Log Schema

Field groupFields
Identitytrace_id、use_case_id、case_id、reviewer_role、business_unit
AI configmodel_version、prompt_version、retriever_version、knowledge_index、tool_schema
Input / outputuser_input_hash、workflow_state、ai_output、structured_fields
Evidencedocument_ids、citation_spans、effective_dates、access_filter_result
Human actionaction_type、reason_code、free_text_rationale、edit_diff、approver
Workflowescalation_level、queue_id、SLA、downstream_system、customer_visible_flag
Risk / incidentrisk_flags、incident_id、stop_switch_event、remediation_link

16.5 Release Gate Checklist

Gate questionPass evidence
是否定义 AI 决策边界Use case scope、decision boundary map
是否完成风险分级Risk-tiered intervention matrix
人是否有真实权限Role authority matrix、UI actions
人是否看到足够证据Evidence panel screenshot、trace sample
是否能忽略、覆盖、撤销和升级Workflow test、override log sample
是否能停止 AI route/tool/modelKill switch test record
监督者是否完成 AI literacyTraining completion、simulation score
是否度量监督有效性Dashboard metric definition
是否能审计复盘Audit replay sample
是否有上线后复核节奏Weekly quality review、quarterly governance review

17. 21-Day Lab

目标: 用 21 天把一个金融零售 AI use case 从“有人审核”升级为可展示的 human oversight / handoff 作品集。

Day任务产出
1选择一个 use case: AML、KYC、credit、payment dispute 或客服1-page use case brief
2画 AS-IS / TO-BE 流程, 标出 AI 插入点BPMN 或流程图
3定义 AI 行为: read、summarize、recommend、draft、actAI behavior boundary
4做 risk tiering, 标出客户、资金、监管、数据影响Risk-tier memo
5写 decision boundary: AI 做什么, 人决定什么Decision boundary map
6设计 human role: reviewer、approver、SME、commanderRole authority matrix
7设计 Article 14 mappingEU AI Act Article 14 control table
8设计 Article 4 AI literacy planRole-based training plan
9设计 NIST AI RMF mappingGovern / Map / Measure / Manage matrix
10设计 evidence UI 草图, 不追求视觉精细Evidence and action wireframe
11写 handoff rule: 何时升级、给谁、多久响应Escalation rule table
12写 override reason code 和撤销路径Override and reversal design
13设计 stop / kill switchStop switch runbook
14设计 audit trail schemaTrace and log schema
15设计 reviewer calibration cases10 个 challenge cases
16设计监督 metricsOversight dashboard metric list
17写 failure modes and controlsFailure mode table
18做一个场景案例: 从 AI 输出到人工覆盖End-to-end case walkthrough
19做 release gate checklistHITL release gate
20写 interview storySTAR-T story
21汇总成 portfolio packOversight design pack

18. 面试答案

Q1: Human-in-the-loop 是不是加一个人工审批按钮就够了?

30 秒版本:

不够。HITL 的核心不是按钮, 而是让有能力和授权的人在正确时间看到足够证据, 能质疑、拒绝、覆盖、升级、撤销或停止 AI, 并留下可审计记录。

2 分钟版本:

  • 我会先定义 AI 在流程中的行为: summarize、recommend、draft、decide 还是 act。
  • 然后按客户影响、自动化程度、可逆性、数据敏感度和监管义务做风险分级。
  • 对高影响场景, 人工监督必须包括 evidence view、decision boundary、override reason、escalation、kill switch、training 和 audit trail。
  • 我还会监控 override rate、meaningful edit rate、review coverage、escalation miss rate 和 audit replay success, 确保人不是橡皮图章。

Q2: 如何把 EU AI Act Article 14 转成产品需求?

30 秒版本:

我会把 Article 14 转成五类需求: 理解 AI 限制、监控异常、避免 automation bias、正确解释输出、能忽略/覆盖/撤销/停止 AI。

2 分钟版本:

  • 对 UI, 要展示证据、来源、有效期、缺失信息、风险标记和下游影响。
  • 对 workflow, 要定义 pre-decision、pre-action、fallback 和 escalation。
  • 对架构, 要有 trace log、权限、tool gating、stop switch 和回滚。
  • 对运营, 要有 AI literacy、reviewer calibration、quality monitoring 和 incident runbook。
  • 这些需求需要进入 release gate, 不是上线后补文档。

Q3: 如何防止人工审核变成 rubber stamp?

30 秒版本:

要从设计和指标两端控制: 让审核者看到证据并有真实操作权, 同时监控 override、edit、review time、reason quality 和抽样复核结果。

2 分钟版本:

  • UI 上不能让 approve 成为唯一显著动作。
  • 高风险输出必须显示证据和限制, 并允许 reject、edit、escalate、stop。
  • 培训中要加入 adversarial cases, 训练 reviewer 发现错误引用和缺失证据。
  • 运营上要避免审核量超过人力容量。
  • 如果 override rate 长期接近 0, 或 review time 极短, 这不是好消息, 可能是监督失效。

Q4: 信贷 AI Copilot 的人类监督怎么设计?

30 秒版本:

信贷场景应把 AI 限制在材料整理、政策引用和 memo draft。最终授信、拒绝和 adverse action reason 必须由授权 underwriter 负责, 并保留证据和理由。

2 分钟版本:

  • AI 可以总结收入材料、信用报告要点、政策条款和缺失信息。
  • UI 必须显示引用来源、政策有效期、例外条件和缺失材料。
  • 边缘案件、政策例外、拒绝原因、受保护类别风险应升级。
  • underwriter 可以拒绝、编辑或重新检索 AI 输出。
  • 指标包括 policy citation accuracy、memo edit rate、exception escalation quality、adverse reason specificity。

Q5: 如果 AI Agent 能调用支付或账户工具, 监督重点是什么?

30 秒版本:

重点是 tool boundary、pre-action approval、限额、双人确认、撤销路径、tool-level kill switch 和完整 tool-call trace。

2 分钟版本:

  • 先区分 read-only tool 和 state-changing tool。
  • 对改变资金、账户、case status 或客户通知的动作, 必须有人在动作生效前确认。
  • 高金额或高风险动作要用 dual approval 和 segregation of duties。
  • 所有 tool call 要记录参数、响应、审批人、时间和下游影响。
  • 如果发现越权或异常, 能立即停用该 tool route, 而不是关闭整个系统后再排查。

Q6: 如何衡量 human oversight 是否有效?

30 秒版本:

我会同时看覆盖、质量、容量和风险结果: review coverage、override rate、meaningful edit rate、escalation miss rate、reviewer agreement、time-to-review、time-to-stop 和 audit replay success。

2 分钟版本:

  • 覆盖率说明该复核的是否复核了。
  • meaningful edit 和 override reason 说明人是否真正在判断。
  • escalation miss rate 说明高风险有没有漏掉。
  • reviewer agreement 说明标准和培训是否一致。
  • audit replay success 说明出事后能否复盘。
  • 这些指标要和业务指标一起看, 不能只看 AI 节省了多少时间。

Q7: AI literacy 和 HITL 有什么关系?

30 秒版本:

没有 AI literacy, HITL 很容易失效。监督者必须知道 AI 的能力、限制、失败模式、升级规则和自己的责任。

2 分钟版本:

  • EU AI Act Article 4 强调 AI literacy。
  • 在金融零售中, reviewer 需要懂 hallucination、wrong citation、automation bias、prompt injection、data leakage 和 tool misuse。
  • 培训不能只有政策签收, 还要有 challenge case、simulation、calibration 和复训。
  • AI literacy 的证据应进入 release gate 和 audit pack。

Q8: AI PM / BA / Architect 在 HITL 中如何分工?

30 秒版本:

PM 负责价值、范围和监督成本; BA 负责流程、角色、例外和需求; Architect 负责系统边界、权限、日志、handoff、stop switch 和可观测性。

2 分钟版本:

  • PM 要决定哪些场景值得引入 AI, 哪些风险需要人工控制, 监督成本是否仍有 ROI。
  • BA 要把“人工审核”拆成角色、输入、输出、SLA、例外、升级和证据字段。
  • Architect 要把监督落到 trace、UI、workflow engine、tool permission、rollback 和 monitoring。
  • Risk / Compliance / Audit 则负责有效挑战和证据检查。

19. 最小可用总结

一个金融零售 AI 系统如果声称有人类监督, 至少应能回答:

问题最小合格答案
人监督什么AI 输出、证据、建议理由、动作请求、异常和客户影响
人何时监督pre-decision、pre-action、in-flight、post-review 或 fallback
人凭什么监督来源、引用、限制、缺失信息、风险标记、历史和下游影响
人能做什么accept、edit、reject、override、reverse、escalate、stop
谁有权停机route/tool/model/global stop authority 明确
如何证明有效training、calibration、metrics、audit replay、incident drill
出错后怎么办containment、evidence preservation、remediation、restart approval

最终标准:

Human oversight is effective only when the human can understand, challenge, change and stop the AI system within a governed workflow.