目录
AI Human Oversight / HITL / Handoff Playbook
定位: 面向 AI BA / AI PM / AI Solutions Architect / Enterprise Architect 的金融零售 AI 人类监督设计手册。
目标: 把“human-in-the-loop”从一句合规口号, 转成可设计、可训练、可操作、可审计、可衡量、可停机的业务控制体系。
适用范围: AML Copilot、KYC Review Assistant、Credit Underwriting Copilot、Payment Dispute Assistant、Customer Service Copilot、Branch / Contact Center Agent Assist、金融零售内部知识助手。
重要说明: 本文是学习、作品集和内部治理训练材料, 不是法律意见、合规结论、审计意见或模型验证报告。正式项目必须由 Legal、Compliance、Risk、Model Risk、Internal Audit、Security、Privacy、Data Owner、Business Owner 和管理层结合机构类型、司法辖区、业务用途、客户影响和内部政策确认。
Source Anchors
以下官方来源作为学习锚点。本文把它们转成产品、流程、架构和证据设计语言, 不把任何条款简化成单一检查项。正式项目应记录访问日期、适用性判断和 legal / compliance sign-off。
1. 一句话定位
Human oversight 不是“在页面上放一个批准按钮”。它是一个覆盖业务流程、AI 系统边界、角色授权、UI 证据、升级路径、停机机制、培训、监控和审计的控制体系。
更准确的定义:
AI human oversight =
在明确风险边界内, 让具备能力、授权和时间的人,
基于可理解的证据和可操作的界面,
对 AI 输出、建议或动作进行判断、质疑、升级、覆盖、撤销或停止,
并留下足以复盘、审计和持续改进的证据。
这份手册训练三类能力:
角色 需要形成的能力 典型产出 AI BA 能把 AS-IS / TO-BE 流程中的人工判断点、例外、证据、授权、SLA、培训和审计记录写成需求 BPMN、HITL requirement、handoff rule、audit field matrix、training requirement AI PM 能按风险分级决定哪些地方必须人工复核、哪些可以抽样监控、哪些必须停机, 并把监督成本纳入产品价值判断 Oversight strategy、risk-tiered intervention matrix、reviewer capacity model、adoption metric AI Architect 能把人工监督落实到系统边界、权限、工具调用、日志、追踪、回滚、kill switch 和可观测性 C4 / sequence diagram、control architecture、trace schema、stop switch design、monitoring dashboard
很多 AI 项目会在高风险流程中加一个“Approve”按钮, 然后宣称已经有人类监督。真实风险在于: 按钮存在不等于人能有效监督。
2.1 弱监督模式
弱模式 表面上看起来合规 实际问题 Rubber stamp approval 每个 AI 建议都要人工点批准 审核人没有足够证据、时间或能力, 最终只是批量确认。 Hidden automation 文案写着“AI 仅供参考” 工作流、指标和管理压力让员工实际上默认采纳 AI。 Empty escalation 页面有“Escalate”按钮 不知道升级给谁、多久响应、升级后谁负责、原案件是否暂停。 No reversal path 人可以拒绝 AI 建议 但 AI 已经写入下游系统、触发客户通知或改变 case 状态。 Overloaded reviewer 建立了人工复核队列 复核量超出人力, 导致延迟、跳读、抽样失真。 No evidence view 人能看到 AI 输出 看不到检索证据、模型版本、置信边界、政策来源和工具动作。 No AI literacy 员工被要求监督 AI 但不知道 hallucination、automation bias、prompt injection、RAG 过期、tool misuse 的表现。
2.2 有效监督链路
有效的人类监督至少包括十个环节:
Use case scope
-> risk tier
-> decision boundary
-> human role and authority
-> evidence presented to the human
-> UI action set
-> escalation and override path
-> stop / rollback / recovery path
-> audit trail
-> training, metrics and continuous improvement
如果其中任何一环缺失, “人在回路中”就可能只是流程装饰。
2.3 三个核心判断
判断问题 好答案应包含 人监督什么 AI 输出、证据、建议理由、工具动作、异常状态、客户影响、合规边界。 人如何监督 查看来源、比较政策、质疑结论、编辑输出、拒绝建议、升级、要求补证据、停止动作。 人监督是否有效 覆盖率、覆盖质量、override reason、disagreement pattern、抽样复核、事故趋势、培训结果、审计可复现性。
3. EU AI Act Article 14 映射
Article 14 的关键启发是: 对高风险 AI, 人类监督必须通过适当的人机界面和控制措施让自然人能够在使用期间有效监督系统。监督的目的不是形式化审批, 而是防止或最小化对健康、安全和基本权利的风险。
3.1 Article 14 到设计要求
Article 14 监督要点 产品 / 流程设计要求 架构与证据要求 高风险 AI 应设计成可由自然人有效监督 在 use case intake 阶段识别 human role、review point、decision boundary 和不可自动化边界 C4 / BPMN 中标注 AI 与人的交互点、权限边界、review queue、fallback path 监督措施应与风险、自治程度和使用场景相称 按客户影响、自动化程度、可逆性、数据敏感度和监管义务分层设置监督强度 Risk-tiered oversight matrix、release gate sign-off、residual risk record 人应能理解 AI 系统能力和限制 UI 展示能力边界、数据来源、适用范围、known limitations、confidence caveat 和不可用场景 User guide、model card / system card、training completion、limitation acknowledgement 人应能监控 AI 系统运行并发现异常 提供异常提示、质量指标、case flags、retrieval freshness、tool-call warnings、drift signals Monitoring dashboard、alert log、review sample、incident ticket 人应意识到 automation bias UI 避免把 AI 建议设计成默认真理, 训练中覆盖过度信任和低信任两类风险 Training record、calibration exercise、override trend analysis 人应能正确解释输出 输出要包含证据、引用、来源时间、推理边界、缺失信息、可疑点和建议下一步 Trace log、retrieval context、citation validator、structured output schema 人应能决定不使用、忽略、覆盖或撤销 AI 输出 每个高影响输出必须有 reject、edit、override、reverse、escalate 的合法路径 Decision log、edit diff、override reason code、reversal workflow 人应能干预或停止系统 设计 route-level、tool-level、case-level、model-level、global kill switch Stop switch registry、authority matrix、stop event log、restart approval record 特殊高风险场景可要求双人确认 金融零售高影响动作可借鉴 maker-checker、four-eyes principle Dual approval log、segregation of duties、exception approval
3.2 Article 14 在金融零售中的边界
在金融零售中, 很多 AI 系统未必都直接落入同一法律分类, 但 Article 14 给了一个可复用的设计标准:
如果 AI 影响客户权益、信贷、账户访问、资金流、AML/KYC 结论、投诉处理或监管材料, 人类监督必须强于普通 productivity tool。
如果 AI 只是总结信息, 但总结被员工用于高影响决策, 仍要设计有效监督。
如果 AI 能调用工具改变状态, human oversight 要覆盖动作前、动作中、动作后和异常恢复。
如果 AI 输出进入客户可见沟通, 人类监督要覆盖事实正确性、语气、合规边界和可解释性。
4. Article 4 AI Literacy 映射
Article 4 的启发是: 监督者必须有足够 AI literacy。不能把监督责任交给没有训练的人, 也不能只给一份使用说明。
4.1 AI Literacy 不是泛泛培训
培训层级 监督者必须知道什么 证据 基础概念 AI 输出不是事实本身, RAG 引用可能错, 模型会 hallucinate, prompt 会影响行为 在线课程记录、测验、签收 场景边界 本系统允许做什么, 禁止做什么, 哪些客户或案件不适用 Role-specific playbook、scenario quiz 风险识别 automation bias、wrong citation、missing evidence、policy drift、data leakage、prompt injection、tool misuse Challenge case drill、red flag checklist 操作能力 如何拒绝、编辑、升级、覆盖、撤销、停止和报告 incident 操作演练记录、case simulation score 责任意识 最终责任人是谁, AI 输出如何进入客户/监管材料, 如何保留证据 Attestation、supervisor review
4.2 角色化 AI Literacy
角色 必修能力 不合格风险 Frontline reviewer 看懂 AI 输出、证据和限制; 能提出异议; 能正确使用 reject / edit / escalate 默认采纳、误拒、漏升级 Senior approver 能处理高风险例外、冲突证据和客户影响判断 把审批变成行政盖章 Operations lead 能管理队列、SLA、抽样复核、人力容量和质量趋势 复核积压、质量下降、指标失真 AI PM / BA 能把监督点转成需求、流程、培训和验收标准 只写“需要人工审核” Architect / Platform owner 能设计权限、日志、stop switch、tool gating 和 traceability 人无法停止、无法复盘、无法撤销 Risk / Compliance / Audit 能检查监督是否真实有效, 不是只看按钮和政策文本 控制存在但不可证明
5. NIST AI RMF 映射
NIST AI RMF 的 Govern / Map / Measure / Manage 可以把人类监督从单点功能变成治理闭环。
RMF Function 对 human oversight 的问题 关键 artifact Govern 谁对监督机制、监督质量、培训、例外和风险接受负责 AI governance charter、RACI、policy、AI literacy plan、management reporting Map 这个 use case 的业务场景、受影响人群、自动化边界和伤害路径是什么 Use case canvas、BPMN、harm scenario map、decision boundary map Measure 如何衡量监督是否有效, 如何测试 reviewer 能否发现 AI 错误 Oversight eval set、reviewer calibration、override analytics、audit sample、incident trend Manage 当监督发现问题时如何升级、限制、停机、修复、回滚和持续改进 Escalation runbook、kill switch、issue remediation、change gate、quarterly review
5.1 NIST GenAI Profile 到监督控制
GenAI 风险 金融零售表现 Oversight control Hallucination / confabulation 编造政策条款、交易原因、客户承诺、调查结论 强制 evidence view、citation check、unsupported claim flag、human edit diff Information integrity 客服回复引用过期费率、KYC 使用旧政策、AML narrative 逻辑断裂 Knowledge freshness indicator、policy effective date、source owner review Sensitive data disclosure 客服 agent 泄露非本人账户信息、内部助手暴露受限案例 RBAC-filtered retrieval、data masking、least privilege、privacy review Prompt injection 检索文档或用户输入诱导模型忽略政策、调用工具 Instruction hierarchy、content labeling、tool confirmation、security alert Excessive agency / tool misuse AI 自动冻结账户、提交 dispute credit、关闭 AML alert Tool allowlist、pre-action review、dual approval、transaction limit Third-party dependency Vendor 模型升级后输出风格、拒答或准确性变化 Vendor change notice、regression eval、model routing freeze、fallback Automation bias 员工在高压力队列中默认接受 AI 建议 UI uncertainty, disagreement prompts、reviewer calibration、override metric
5.2 ISO/IEC 42001 到管理系统
ISO/IEC 42001 管理系统视角 HITL 设计转化 组织环境和相关方 识别客户、员工、监管、业务 owner、风险职能和第三方对监督的期望 领导力和责任 明确 human oversight owner、business accountability、risk acceptance authority 规划和风险处置 把监督控制纳入 AI risk treatment plan 和 release gate 支持和能力 建立 AI literacy、岗位培训、知识库和操作手册 运营控制 设计 review queue、handoff、override、stop switch、change control 绩效评估 跟踪监督有效性、事故、抽样质量、用户校准和控制失效 改进 用 incident、audit finding、reviewer feedback 和模型变更持续更新监督机制
6. Oversight Taxonomy
6.1 按人和 AI 的控制关系分类
类型 定义 适合场景 不适合场景 Human-in-the-loop AI 输出在生效前必须经人复核或批准 信贷 memo、AML SAR draft、支付补偿、KYC 例外 低风险、海量、实时且可逆的辅助提示 Human-on-the-loop AI 可持续运行, 人通过监控、抽样、阈值和告警监督 客服知识助手、欺诈排队建议、文档分类 高影响不可逆动作、强监管结论 Human-in-command 人拥有策略、目标、边界、停机、回滚和风险接受权, AI 只能在授权范围内运行 企业 AI 平台、agentic workflow、tool-using assistant 没有明确 owner 或缺少停机机制的系统
6.2 按时间点分类
时间点 监督方式 示例 Pre-decision AI 输出进入决策前人工复核 信贷拒绝理由生成前由 underwriter 确认 Pre-action AI 调用工具或改变状态前人工确认 支付 dispute 临时入账前审批 In-flight 流程运行中实时告警和人工接管 客服对话触发投诉、法律威胁或高净值客户升级 Post-review 事后抽样、趋势分析、质量复核 客服回复抽样, KYC 文档分类抽检 Fallback AI 不确定、失败、越权或异常时交给人 RAG 缺少有效政策来源时升级给 policy SME
6.3 按 AI 行为分类
AI 行为 默认监督强度 设计重点 Read / retrieve 低到中 权限过滤、来源有效期、引用准确性 Summarize 中 完整性、证据覆盖、遗漏风险 Classify 中到高 阈值、误分成本、抽样复核、bias Recommend 高 解释、替代方案、人工最终判断、override Draft 高 编辑、引用、合规语言、客户可见性 Decide 极高 多数金融零售高影响场景应避免完全自动化 Act 极高 工具权限、动作前审批、限额、撤销、停机
6.4 按复核覆盖分类
覆盖方式 适合条件 风险 100% review 高影响、不可逆、监管敏感、客户权益重大 成本高、队列拥堵、审核疲劳 Risk-based review 有可靠风险信号、案件量大、错误成本分层明显 风险信号漏检会导致低估 Stratified sampling 低中风险、需要持续质量监控 样本设计不当会掩盖少数群体风险 Exception review 只复核异常、低置信、政策冲突、客户投诉 正常样本中的系统性偏差可能被忽视 Shadow review AI 不影响决策, 人独立处理, 用于比较和校准 不能作为生产控制替代正式监督
7. Risk-Tiered Intervention Matrix
7.1 四级风险与默认监督策略
Tier 定义 默认监督策略 Release gate Tier 0: Not allowed 违反法律、内部政策或 risk appetite, 或缺少可接受控制 停止、重设边界或改用非 AI 方案 不进入 pilot Tier 1: High impact 影响客户权益、信贷、资金、账户、AML/KYC 结论、监管材料或重大运营风险 HITL、pre-action approval、dual control、full audit、kill switch Legal/Risk/Compliance/Business/Architecture sign-off Tier 2: Controlled business use 影响业务流程, 有人工最终判断, 错误可纠正但有运营或客户影响 Risk-based review、exception escalation、sample QA、clear override Standard risk review、eval gate、training completion Tier 3: Low risk productivity 内部效率辅助, 不影响客户权益, 不处理敏感动作 Human-on-the-loop、usage policy、light logging、periodic review Owner approval、data boundary confirmation
7.2 干预矩阵
触发因素 Tier 1 干预 Tier 2 干预 Tier 3 干预 AI 低置信或证据不足 必须人工复核, 输出不得生效 升级或要求补证据 提示用户谨慎使用 引用与结论不一致 阻断流程, 进入质量事件 标记异常, 抽样扩大 记录反馈 涉及客户资金或账户状态 人工审批和双人确认 预设限额内人工确认 不允许自动动作 涉及信贷拒绝、额度、定价 人工最终决策, 解释证据保留 不建议直接用于客户决定 仅用于内部研究 涉及 AML / KYC 重大结论 L2 reviewer 复核, 合规留痕 分层升级 仅总结公开政策 客户投诉、法律威胁、监管关键词 立即升级, AI 停止自动回复 升级给 supervisor 提示人工处理 Prompt injection 或工具越权 停止相关 route / tool, 启动 incident 暂停能力并调查 安全反馈记录 模型或知识库重大变更 重新 eval 和审批 回归测试后发布 owner review
7.3 Handoff 决策树
AI output generated
-> Is the use case Tier 1?
-> yes: human review before decision or action
-> Does output affect customer rights, money, account status or regulatory record?
-> yes: human review and decision log
-> Is evidence missing, stale, contradictory or unauthorized?
-> yes: fallback to human specialist
-> Is there a tool action or irreversible state change?
-> yes: pre-action approval and rollback path
-> Is user/customer showing distress, complaint, legal threat or fraud signal?
-> yes: escalation queue
-> Otherwise:
-> risk-based monitoring, sampling and feedback loop
8. UI / UX 与工作流要求
8.1 监督界面的最小组件
UI 组件 目的 设计要求 AI output panel 展示建议、摘要、草稿或动作请求 清楚标明 AI 生成, 避免把输出视觉上设计成最终事实 Evidence panel 让人看到支持输出的证据 显示来源、时间、权限、引用片段、有效期和缺失证据 Risk flag panel 告诉审核者为什么需要关注 标出客户影响、政策冲突、低置信、异常交易、投诉信号 Action panel 支持人做真实选择 accept、edit、reject、override、escalate、request evidence、stop route Reason capture 捕获人工判断理由 高风险动作必须选择原因并允许简短说明 Diff view 比较 AI 原文与人工编辑 保留 edit diff, 用于质量改进和审计 History / trace 复盘上下文 显示 case state、AI version、prompt version、retrieved docs、tool calls SLA / queue view 管理人工容量 显示优先级、截止时间、积压和升级状态
8.2 防止 Automation Bias 的界面原则
风险 UI 反模式 更好的设计 默认采纳 大按钮是 Approve, 小链接是 Reject 同等清晰地展示 accept / edit / reject / escalate 过度置信 显示单一百分比置信度 展示证据状态、缺失信息、适用边界和冲突信号 证据不可见 只展示总结 默认展开关键证据和来源有效期 责任模糊 页面写“AI 建议仅供参考” 明确当前 human role 是 final decision maker 还是 reviewer 审核疲劳 每条都要求人工点击 按风险分层, 给高风险更多证据和时间 质疑成本高 反对 AI 需要写长说明 提供 reason code、快速标注和一键升级
8.3 Handoff 工作流要求
要求 说明 Context complete 交接给人时必须带上用户输入、AI 输出、证据、日志、风险标记、已执行动作和下一步建议。 No silent drop 任何 fallback 或 escalation 都不能让 case 消失在队列外。 Clear ownership 每个升级队列有 owner、SLA、backup owner 和超时规则。 State freeze 高风险异常时冻结自动动作, 防止 AI 继续改变状态。 Customer protection 客户可见流程应给出准确、克制的等待说明, 不暴露内部模型或调查细节。 Feedback loop 人工结论回流到 eval set、prompt improvement、knowledge quality 和培训材料。
8.4 工具调用 UX
工具动作 默认控制 Read-only query RBAC、purpose binding、logging Draft creation Human review、edit diff、source citation Case status change Pre-action approval、reason code、reversal path Payment / credit adjustment Dual approval、limit、segregation of duties、audit Customer communication Compliance language check、human approval for high impact Account restriction / release Senior approval、risk owner notification、post-action QA
9. 角色设计与 RACI
9.1 核心角色
Role 责任 Business Process Owner 对业务流程结果、人工岗位设计和运营政策负责 AI Product Owner 对 use case scope、价值、体验、发布节奏和采用负责 AI BA 对流程证据、需求、例外、角色、handoff 和验收标准负责 Solution Architect 对系统边界、集成、权限、日志、fallback、stop switch 和 NFR 负责 Frontline Reviewer 在授权范围内审核、编辑、拒绝或升级 AI 输出 Senior Approver 处理高风险例外、重大客户影响和双人确认 Risk / Compliance 对风险分级、控制适用性、合规边界和证据要求提出挑战 Model Risk / Validation 对模型和系统验证、评测覆盖、限制和持续监控提出有效挑战 Security / Privacy 对访问控制、数据保护、prompt injection、tool misuse 和日志保留负责 Operations Lead 对复核队列、SLA、人力容量、质量抽样和一线反馈负责 Internal Audit 检查监督控制是否按设计执行、证据是否可复现
9.2 RACI: Oversight Design
Activity PM BA Process Owner Architect Risk Compliance Ops Security Define AI behavior boundary A/R R C C C C C I Identify decision points A R R C C C C I Set risk tier C C C C A/R A/R I C Design human review workflow A R A/R C C C R I Design evidence UI A/R R C R C C C C Define override and escalation A R A/R C A/R C R C Define kill switch C C C A/R A/R C R A/R Approve release gate A C A R A/R A/R C A/R
9.3 RACI: Production Oversight
Activity Frontline Senior Approver Ops PM Architect Risk Audit Review AI output R C A I I I I Override AI recommendation R A/R for high risk C I I C I Escalate exception R A/R A/R I C C I Trigger route stop C C A/R A A/R A/R I Investigate incident C C R A R A/R I Sample QA C R A/R C I C C Control testing I I C I C C A/R
10. Escalation、Override、Stop / Kill Switch
10.1 Escalation Ladder
Level 触发 响应 L0 Self-correction 低风险、证据轻微缺失、格式错误 用户编辑或要求 AI 重新生成, 保留反馈 L1 Frontline supervisor 客户影响、政策不确定、重复错误 supervisor review, SLA 内给出结论 L2 Specialist AML/KYC/credit/payment 专业判断、冲突证据 SME 或二线团队处理, 冻结相关自动动作 L3 Risk / Compliance 合规边界、监管材料、潜在客户损害 formal issue, risk acceptance or remediation L4 Incident command 大规模错误、数据泄露、工具越权、客户资金影响 war room, route stop, customer remediation, management reporting
10.2 Override 类型
Override 类型 含义 必要记录 Ignore 不采用 AI 输出, 人独立处理 reason code、case outcome Edit 修改 AI 草稿后使用 edit diff、edited fields、reviewer Reverse 撤销已进入流程的 AI 影响 original action、reversal reason、approver Escalate 交给更高权限或专业团队 escalation level、recipient、SLA、decision Conditional accept 接受但加限制或补控制 condition、expiry、follow-up owner
10.3 Stop / Kill Switch 类型
Switch 类型 作用范围 示例 Case-level stop 单个 case 暂停 AI 继续处理 客户威胁法律行动, AI 停止生成回复 Route-level stop 暂停某类请求或 workflow route 暂停 credit adverse action draft route Tool-level stop 禁用某个外部工具或写操作 禁止 AI 调用 payment adjustment API Data-source stop 停用某个知识源或索引 KYC policy index 发现版本混用 Model-level stop 停用某个模型版本或模型供应商路由 vendor model update 后质量下降 Global stop 停止整个 AI capability 大规模数据泄露或系统性错误
10.4 Stop Switch Runbook
Step 操作 Owner Detect 通过告警、用户反馈、QA、incident 或审计发现触发 Ops / Risk / Security Classify 判断影响范围、客户影响、资金影响、监管影响和可逆性 PM / Risk / Architect Contain 执行 case / route / tool / model / global stop Architect / Platform Owner Preserve 保存 prompt、output、retrieval、tool trace、human actions 和相关日志 Platform Owner / Security Communicate 通知业务、风险、合规、客服、管理层和供应商 PM / Ops / Risk Remediate 修复 prompt、index、policy、tool permission、training 或流程 PM / Architect / Owner Restart 通过回归评测、风险复核和审批后恢复 Governance forum Review 复盘根因、控制失效、客户补救和后续监控 Risk / Audit / PM
11. Audit Trail 与证据保全
11.1 最小日志字段
字段 说明 Trace ID 一次 AI 交互或 workflow run 的唯一编号 Use case ID 与 AI inventory 一致 User / reviewer role 用户角色、复核人角色、权限级别 Customer / case reference 按隐私和访问控制要求记录可追溯引用 Timestamp 输入、输出、人工动作、工具动作和审批时间 Model version 模型、路由、temperature、provider、deployment Prompt version system prompt、policy prompt、workflow prompt 版本 Knowledge version index、document id、effective date、source owner Retrieved evidence 文档、片段、引用位置、权限过滤结果 AI output 原始输出、结构化字段、风险标记 Tool calls tool name、parameters、response、success/failure、side effect Human action accept、edit、reject、override、escalate、stop Human rationale reason code、说明、审批层级 Diff AI 输出与人工最终文本差异 Downstream effect 是否进入客户沟通、case note、系统状态或监管材料 Incident link 关联 issue、alert、complaint、audit finding
11.2 审计可复现性标准
一个高影响 AI case 至少应能复盘:
当时用户问了什么。
AI 使用了哪个模型、prompt、知识库和工具。
AI 看到了哪些证据, 哪些证据没有权限访问。
AI 输出了什么, 哪些内容被人工修改。
人为什么接受、拒绝、覆盖或升级。
输出进入了哪个下游系统或客户沟通。
如果发生问题, 哪个控制本应发现但没有发现。
11.3 Evidence Pack
Evidence 用途 Oversight design memo 说明监督策略、风险分级和角色授权 BPMN / workflow map 证明人机交互点和升级路径 UI screenshots 证明证据、操作、警示和责任边界可见 Trace schema 证明日志字段足以复盘 Training completion 证明监督者具备 AI literacy Reviewer calibration result 证明监督者能发现关键错误 Override analytics 证明人不是橡皮图章 Stop switch test 证明系统可被及时停止 Incident drill record 证明团队演练过异常 Quarterly control review 证明监督机制持续有效
12. Training / AI Literacy 体系
12.1 培训路径
模块 内容 适用角色 验收方式 AI basics for reviewers LLM、RAG、hallucination、automation bias、limitations Frontline / Supervisor 场景题测验 System boundary 本 use case 能做什么、不能做什么、何时升级 所有使用者 Role acknowledgement Evidence reading 如何判断引用是否支持结论、如何识别过期政策 Reviewer / SME Case simulation Override practice accept、edit、reject、reverse、escalate 的正确用法 Reviewer / Supervisor 抽样评分 Incident and stop 数据泄露、越权工具、系统性错误的响应 Ops / PM / Architect / Risk Tabletop exercise Audit readiness 如何保留理由、证据、审批和复盘材料 PM / BA / Ops / Risk Evidence sample review
12.2 Reviewer Calibration
监督者需要被校准, 否则不同人对 AI 错误的判断会严重不一致。
校准活动 做法 输出 Golden case review 多名 reviewer 独立审核同一批案例 agreement rate、分歧原因 Adversarial case drill 加入错误引用、缺失证据、诱导性用户输入 识别率、升级准确率 Override reason audit 检查人工覆盖理由是否足够具体 reason quality score Refresher training 针对常见误判更新培训 updated playbook、quiz result
13. Metrics
13.1 监督有效性指标
Metric 含义 使用方式 Human review coverage 应复核案例中实际复核比例 验证控制是否被执行 Override rate 人工拒绝、编辑、撤销或升级 AI 的比例 过低可能是橡皮图章, 过高可能是 AI 质量差 Meaningful edit rate 人工对关键字段做实质修改的比例 衡量监督是否真正参与 Escalation precision 升级案例中真正需要升级的比例 评估风险信号质量 Escalation miss rate 事后发现应升级但未升级的比例 高影响指标, 需要持续降低 Reviewer agreement 多名审核者对同一案例判断一致性 衡量培训和标准清晰度 Time-to-review 从 AI 输出到人工复核完成时间 监控 SLA 和容量 Time-to-stop 发现重大问题到停止相关能力的时间 衡量 incident readiness Audit replay success 抽样案例能否完整复盘 验证日志和证据链
13.2 业务与风险平衡指标
指标 业务含义 风险解释 Cycle time reduction AI 是否缩短处理时长 不能以牺牲复核质量换速度 Rework rate 人工后续返工比例 高返工说明 AI 或监督标准有问题 Complaint rate 客户投诉趋势 客户可见 AI 使用必须重点监控 Policy exception rate 输出或人工决策偏离政策比例 触发流程或知识库复核 Incident severity trend AI 相关事件严重度 决定是否扩大、限制或暂停 Cost per reviewed case 人工监督成本 PM 需要纳入商业可行性 Adoption with calibration 用户采用率与 override 质量结合 避免把高采用误读成高信任
13.3 预警阈值设计
信号 可能含义 行动 Override rate 突然接近 0 审核者默认采纳、UI 诱导、培训失效 抽样复核、访谈、重新校准 Override rate 突然升高 模型、知识库或政策变更导致质量下降 回归评测、route 降级 Escalation backlog 增长 容量不足或风险信号过宽 调整规则、人力和 SLA Unsupported claim 上升 RAG、prompt 或模型行为异常 增加 citation gate、修复 index Stop switch 从未演练 停机能力未经验证 安排 tabletop 和技术演练
14. Failure Modes
Failure mode 表现 检测方式 控制 Oversight theater 有审批按钮但没有真实判断 override rate、review time、reason quality 强制证据视图、校准、抽样复核 Automation bias 人默认相信 AI adversarial case drill、edit pattern UI 降低默认采纳、培训、理由捕获 Reviewer overload 队列积压、审核时间过短 SLA、queue depth、review duration 风险分层、人力容量模型、抽样策略 Unclear authority 不知道谁能覆盖或停止 incident review、role survey authority matrix、runbook Missing evidence 人看不到来源或下游影响 audit sample evidence panel、trace schema Escalation dead end 升级后无人处理 escalation SLA、aged case owner、backup、timeout rule Shadow automation 人名义上决策, 实际按 AI 排序处理 workflow analysis、decision correlation 独立复核、排序解释、random QA Stop failure 发现问题后 AI 继续运行 incident drill kill switch test、权限预置 Poor training 人不知道 AI 失败模式 quiz、simulation role-based AI literacy Model change drift 供应商或内部模型变化导致监督失效 regression eval、quality trend change gate、vendor notice、rollback Audit gap 出事后无法重建过程 replay test log schema、retention、evidence pack
15. 金融零售场景设计
15.1 AML Copilot
维度 设计 AI 作用 汇总 alert、交易模式、KYC profile、历史 case notes, 生成 investigation summary、red flag checklist、SAR draft 禁止边界 不自动关闭 alert, 不自动提交 SAR, 不替代 AML policy 判断 默认监督 Tier 1: analyst review + L2 review for high-risk cases 关键证据 交易、客户资料、历史警报、制裁筛查、政策条款、AI 引用 Escalation 制裁命中、可疑叙事冲突、客户高风险、跨境异常、证据不足 Override analyst 可编辑 narrative, L2 可拒绝 AI 结论, compliance 可要求 route stop Metrics SAR draft edit rate、unsupported claim、missed red flag、review time、L2 disagreement Red line AI 不得作为是否提交 SAR 的唯一依据
15.2 KYC Review Assistant
维度 设计 AI 作用 检查材料完整性、提取身份信息、比对政策要求、生成 remediation checklist 禁止边界 不自动通过高风险客户, 不绕过 enhanced due diligence 默认监督 Tier 1 / Tier 2: risk-based review, high-risk customer 100% review 关键证据 客户文件、有效期、来源、政策要求、缺失项、EDD 规则 Escalation PEP、制裁接近匹配、文件疑似伪造、受益所有人不清、国家风险 Override reviewer 可要求补件、升级 EDD、拒绝 AI 完整性判断 Metrics false complete rate、missing document catch rate、EDD escalation accuracy、rework Red line AI 不得把“文件看起来完整”当成“客户风险可接受”
15.3 Credit Underwriting Copilot
维度 设计 AI 作用 整理申请材料、生成 credit memo draft、引用信贷政策、提示缺失信息 禁止边界 不自动批准或拒绝贷款, 不生成无依据的 adverse action reason 默认监督 Tier 1: underwriter final decision, senior approval for exception 关键证据 申请数据、收入资料、信用报告引用、政策条款、例外审批 Escalation 政策例外、边缘评分、受保护类别风险、adverse action、异常收入证明 Override underwriter 可拒绝 AI memo, 修改理由, 要求重新检索证据 Metrics memo edit rate、policy citation accuracy、adverse reason specificity、exception review quality Red line 不能因为模型复杂而无法给出具体、准确、可审计的信贷原因
15.4 Payment Dispute Assistant
维度 设计 AI 作用 汇总 dispute 信息、识别交易类型、推荐下一步材料、生成客户沟通草稿 禁止边界 不自动拒绝客户 dispute, 不无审批发放高额临时入账 默认监督 Tier 1 for money movement, Tier 2 for draft communications 关键证据 交易记录、商户信息、客户声明、规则时限、历史 dispute Escalation 大额、欺诈、重复 dispute、监管时限临近、客户投诉升级 Override agent 可编辑客户回复, supervisor 批准临时入账或拒绝 Metrics resolution time、wrong denial、provisional credit error、customer complaint Red line AI 工具调用不得绕过金额限额和双人审批
15.5 Customer Service Copilot
维度 设计 AI 作用 搜索政策、建议回答、总结对话、生成 after-call note 禁止边界 不承诺费用减免、信贷结果、合规结论或法律解释 默认监督 Tier 2: agent review for customer-visible response, exception escalation 关键证据 知识库文章、产品条款、生效日期、客户上下文权限 Escalation 投诉、法律威胁、客户脆弱性、身份验证失败、高额交易争议 Override agent 编辑回复, supervisor 处理投诉或例外 Metrics first contact resolution、wrong answer rate、agent edit rate、escalation miss Red line AI 不得替代身份验证、投诉分级和监管要求的客户通知
16. Artifacts / Templates
16.1 HITL Design Brief
Section 内容要求 Use case 业务流程、用户、客户影响、AI 行为类型 Risk tier 分级、理由、客户/监管/资金/数据影响 Decision boundary AI 可以建议什么, 人必须决定什么, 哪些动作禁止自动化 Human role reviewer、approver、specialist、commander 的职责和授权 Review point pre-decision、pre-action、in-flight、post-review、fallback Evidence 人必须看到的来源、引用、缺失信息、版本、下游影响 Actions accept、edit、reject、override、reverse、escalate、stop Escalation 触发条件、接收队列、SLA、backup、超时处理 Stop switch stop 类型、触发、权限、恢复条件 Metrics 监督有效性、质量、风险、容量和业务指标 Training 角色化 AI literacy、演练和校准要求 Audit trail 日志字段、retention、抽样复盘要求
16.2 Oversight Requirement Pattern
For [use case and workflow point],
when AI [summarizes / recommends / drafts / acts],
and [risk trigger] is present,
the system must route the case to [human role]
before [decision or action becomes effective],
showing [required evidence],
allowing [allowed human actions],
capturing [decision reason and trace fields],
and enforcing [SLA / escalation / stop condition].
示例:
For payment dispute provisional credit,
when AI recommends a credit adjustment,
and the amount exceeds the frontline threshold,
the system must route the case to a supervisor
before any payment action is submitted,
showing transaction evidence, customer statement, rule deadline and AI rationale,
allowing approve, reject, edit amount, escalate and stop tool route,
capturing reason code, approver, timestamp and tool-call trace,
and enforcing four-hour SLA with risk escalation on breach.
16.3 Override Reason Code
Code 含义 EVIDENCE_MISSING AI 输出缺少关键证据 EVIDENCE_CONFLICT 证据之间或证据与结论冲突 POLICY_MISMATCH AI 结论与政策不一致 CUSTOMER_CONTEXT AI 忽视客户具体情境 RISK_ESCALATION 需要更高风险层级判断 TOOL_BOUNDARY AI 建议的动作超出工具或权限边界 LANGUAGE_RISK 客户沟通语言存在合规或体验风险 DATA_QUALITY 输入数据或知识源质量不足 OTHER_CONTROLLED 其他已记录并可审计的原因
16.4 Audit Log Schema
Field group Fields Identity trace_id、use_case_id、case_id、reviewer_role、business_unit AI config model_version、prompt_version、retriever_version、knowledge_index、tool_schema Input / output user_input_hash、workflow_state、ai_output、structured_fields Evidence document_ids、citation_spans、effective_dates、access_filter_result Human action action_type、reason_code、free_text_rationale、edit_diff、approver Workflow escalation_level、queue_id、SLA、downstream_system、customer_visible_flag Risk / incident risk_flags、incident_id、stop_switch_event、remediation_link
16.5 Release Gate Checklist
Gate question Pass evidence 是否定义 AI 决策边界 Use case scope、decision boundary map 是否完成风险分级 Risk-tiered intervention matrix 人是否有真实权限 Role authority matrix、UI actions 人是否看到足够证据 Evidence panel screenshot、trace sample 是否能忽略、覆盖、撤销和升级 Workflow test、override log sample 是否能停止 AI route/tool/model Kill switch test record 监督者是否完成 AI literacy Training completion、simulation score 是否度量监督有效性 Dashboard metric definition 是否能审计复盘 Audit replay sample 是否有上线后复核节奏 Weekly quality review、quarterly governance review
17. 21-Day Lab
目标: 用 21 天把一个金融零售 AI use case 从“有人审核”升级为可展示的 human oversight / handoff 作品集。
Day 任务 产出 1 选择一个 use case: AML、KYC、credit、payment dispute 或客服 1-page use case brief 2 画 AS-IS / TO-BE 流程, 标出 AI 插入点 BPMN 或流程图 3 定义 AI 行为: read、summarize、recommend、draft、act AI behavior boundary 4 做 risk tiering, 标出客户、资金、监管、数据影响 Risk-tier memo 5 写 decision boundary: AI 做什么, 人决定什么 Decision boundary map 6 设计 human role: reviewer、approver、SME、commander Role authority matrix 7 设计 Article 14 mapping EU AI Act Article 14 control table 8 设计 Article 4 AI literacy plan Role-based training plan 9 设计 NIST AI RMF mapping Govern / Map / Measure / Manage matrix 10 设计 evidence UI 草图, 不追求视觉精细 Evidence and action wireframe 11 写 handoff rule: 何时升级、给谁、多久响应 Escalation rule table 12 写 override reason code 和撤销路径 Override and reversal design 13 设计 stop / kill switch Stop switch runbook 14 设计 audit trail schema Trace and log schema 15 设计 reviewer calibration cases 10 个 challenge cases 16 设计监督 metrics Oversight dashboard metric list 17 写 failure modes and controls Failure mode table 18 做一个场景案例: 从 AI 输出到人工覆盖 End-to-end case walkthrough 19 做 release gate checklist HITL release gate 20 写 interview story STAR-T story 21 汇总成 portfolio pack Oversight design pack
18. 面试答案
Q1: Human-in-the-loop 是不是加一个人工审批按钮就够了?
30 秒版本:
不够。HITL 的核心不是按钮, 而是让有能力和授权的人在正确时间看到足够证据, 能质疑、拒绝、覆盖、升级、撤销或停止 AI, 并留下可审计记录。
2 分钟版本:
我会先定义 AI 在流程中的行为: summarize、recommend、draft、decide 还是 act。
然后按客户影响、自动化程度、可逆性、数据敏感度和监管义务做风险分级。
对高影响场景, 人工监督必须包括 evidence view、decision boundary、override reason、escalation、kill switch、training 和 audit trail。
我还会监控 override rate、meaningful edit rate、review coverage、escalation miss rate 和 audit replay success, 确保人不是橡皮图章。
Q2: 如何把 EU AI Act Article 14 转成产品需求?
30 秒版本:
我会把 Article 14 转成五类需求: 理解 AI 限制、监控异常、避免 automation bias、正确解释输出、能忽略/覆盖/撤销/停止 AI。
2 分钟版本:
对 UI, 要展示证据、来源、有效期、缺失信息、风险标记和下游影响。
对 workflow, 要定义 pre-decision、pre-action、fallback 和 escalation。
对架构, 要有 trace log、权限、tool gating、stop switch 和回滚。
对运营, 要有 AI literacy、reviewer calibration、quality monitoring 和 incident runbook。
这些需求需要进入 release gate, 不是上线后补文档。
Q3: 如何防止人工审核变成 rubber stamp?
30 秒版本:
要从设计和指标两端控制: 让审核者看到证据并有真实操作权, 同时监控 override、edit、review time、reason quality 和抽样复核结果。
2 分钟版本:
UI 上不能让 approve 成为唯一显著动作。
高风险输出必须显示证据和限制, 并允许 reject、edit、escalate、stop。
培训中要加入 adversarial cases, 训练 reviewer 发现错误引用和缺失证据。
运营上要避免审核量超过人力容量。
如果 override rate 长期接近 0, 或 review time 极短, 这不是好消息, 可能是监督失效。
Q4: 信贷 AI Copilot 的人类监督怎么设计?
30 秒版本:
信贷场景应把 AI 限制在材料整理、政策引用和 memo draft。最终授信、拒绝和 adverse action reason 必须由授权 underwriter 负责, 并保留证据和理由。
2 分钟版本:
AI 可以总结收入材料、信用报告要点、政策条款和缺失信息。
UI 必须显示引用来源、政策有效期、例外条件和缺失材料。
边缘案件、政策例外、拒绝原因、受保护类别风险应升级。
underwriter 可以拒绝、编辑或重新检索 AI 输出。
指标包括 policy citation accuracy、memo edit rate、exception escalation quality、adverse reason specificity。
Q5: 如果 AI Agent 能调用支付或账户工具, 监督重点是什么?
30 秒版本:
重点是 tool boundary、pre-action approval、限额、双人确认、撤销路径、tool-level kill switch 和完整 tool-call trace。
2 分钟版本:
先区分 read-only tool 和 state-changing tool。
对改变资金、账户、case status 或客户通知的动作, 必须有人在动作生效前确认。
高金额或高风险动作要用 dual approval 和 segregation of duties。
所有 tool call 要记录参数、响应、审批人、时间和下游影响。
如果发现越权或异常, 能立即停用该 tool route, 而不是关闭整个系统后再排查。
Q6: 如何衡量 human oversight 是否有效?
30 秒版本:
我会同时看覆盖、质量、容量和风险结果: review coverage、override rate、meaningful edit rate、escalation miss rate、reviewer agreement、time-to-review、time-to-stop 和 audit replay success。
2 分钟版本:
覆盖率说明该复核的是否复核了。
meaningful edit 和 override reason 说明人是否真正在判断。
escalation miss rate 说明高风险有没有漏掉。
reviewer agreement 说明标准和培训是否一致。
audit replay success 说明出事后能否复盘。
这些指标要和业务指标一起看, 不能只看 AI 节省了多少时间。
Q7: AI literacy 和 HITL 有什么关系?
30 秒版本:
没有 AI literacy, HITL 很容易失效。监督者必须知道 AI 的能力、限制、失败模式、升级规则和自己的责任。
2 分钟版本:
EU AI Act Article 4 强调 AI literacy。
在金融零售中, reviewer 需要懂 hallucination、wrong citation、automation bias、prompt injection、data leakage 和 tool misuse。
培训不能只有政策签收, 还要有 challenge case、simulation、calibration 和复训。
AI literacy 的证据应进入 release gate 和 audit pack。
Q8: AI PM / BA / Architect 在 HITL 中如何分工?
30 秒版本:
PM 负责价值、范围和监督成本; BA 负责流程、角色、例外和需求; Architect 负责系统边界、权限、日志、handoff、stop switch 和可观测性。
2 分钟版本:
PM 要决定哪些场景值得引入 AI, 哪些风险需要人工控制, 监督成本是否仍有 ROI。
BA 要把“人工审核”拆成角色、输入、输出、SLA、例外、升级和证据字段。
Architect 要把监督落到 trace、UI、workflow engine、tool permission、rollback 和 monitoring。
Risk / Compliance / Audit 则负责有效挑战和证据检查。
19. 最小可用总结
一个金融零售 AI 系统如果声称有人类监督, 至少应能回答:
问题 最小合格答案 人监督什么 AI 输出、证据、建议理由、动作请求、异常和客户影响 人何时监督 pre-decision、pre-action、in-flight、post-review 或 fallback 人凭什么监督 来源、引用、限制、缺失信息、风险标记、历史和下游影响 人能做什么 accept、edit、reject、override、reverse、escalate、stop 谁有权停机 route/tool/model/global stop authority 明确 如何证明有效 training、calibration、metrics、audit replay、incident drill 出错后怎么办 containment、evidence preservation、remediation、restart approval
最终标准:
Human oversight is effective only when the human can understand, challenge, change and stop the AI system within a governed workflow.