返回 AIPA 笔记
AIPA Day 18

人工抽检协议 — 抽检率、漏检概率与升级路径

人工抽检协议 — 抽检率、漏检概率与升级路径

2026-07-02
human-in-the-loopsamplingllm-simulated-userssar-compliance

日期: 2026-07-02 阶段: Phase 1 - 产品定义×评测×可观测底座 标签: #human-in-the-loop #sampling #llm-simulated-users #sar-compliance

核心问题

Day 15 守结构、Day 16 评语义、Day 17 校准 judge。三层都有了,能不能就让自动化评测全权代劳、人工彻底退场?

不能。今天回答评测金字塔的塔尖——人工抽检,并钉死两件事:

  1. 为什么 LLM 不能完全替代人工——「LLM 模拟用户是不可靠代理」(Seshadri et al., arXiv:2601.17087, 2026-01)给出了实证证据:用 LLM 模拟用户来评 agent,结果不稳、系统性偏、还不公平
  2. 人工抽检要抽多少、怎么抽——抽检率不是拍脑袋。它和「漏检概率」有精确的数学关系(二项/超几何分布)。对 SAR 这种合规高风险输出,可提交性必须人工兜底,且抽检率要算到「漏掉一个系统性缺陷的概率足够低」。

关键内容

A. 「LLM 模拟用户不可靠」的论据与边界(arXiv:2601.17087)

Seshadri 等人(2026-01)系统检验了「用 LLM 模拟用户来评 agent」这一日益流行的做法,结论是它在三个维度都不可靠:

维度实证发现(论文原文口径)对评测的含义
鲁棒性 robustnessagent 成功率「varying up to 9 percentage points across different user LLMs」换个模型当模拟用户,结论就变 9 个百分点——评测结果取决于你随手选了哪个 judge 模型
效度 validity「systematic miscalibration: underestimating agent performance on challenging tasks and overestimating it on moderately difficult ones」偏差有方向性:难任务被低估、中等任务被高估,不是随机噪声而是系统性扭曲
公平性 fairness对 AAVE、印度英语使用者「consistently worse success rates and calibration errors」,且「disparities compounding…with age」模拟用户对不同人群是「差异化代理」,会系统性歧视某些群体

边界(这条很重要):论文证伪的是「完全用 LLM 模拟用户替代人类评测」,不是「LLM 评测一无是处」。它推荐的是 hybrid——「combining simulated evaluations with human validation rather than relying solely on LLM-simulated users」。所以正确解读是:LLM 评测做规模化粗筛,人工做关键兜底校验,二者互补,不是二选一。

反直觉洞察①(自动化评测的系统性偏差比随机噪声更危险):随机噪声多跑几次会平均掉;系统性偏差跑一万次也不会消失。2601.17087 发现的「难任务低估、中等任务高估」正是系统性偏差——你以为加大评测样本量能提升可信度,但样本越多只是把同一个偏差测得越「精确」。对 AML 而言,最危险的恰是「中等难度的可疑案件被高估为没问题」——这正是该被人工抽检逮住的盲区。

B. 哪些评分必须人工:可提交性是合规高风险的红线

不是所有维度都需要人工。判据是**「错判的后果有多严重」× 「自动化能否可靠覆盖」**。对 AML Copilot:

评测维度自动化层是否必须人工理由
引用存在性代码型 (Day15 CITE-EXIST)确定性,代码兜死
金额整数分代码型 (Day15 AMT-INT)确定性
引用语义支撑judge faithfulness抽检judge 粗筛,人工抽检校 judge
叙述完整性 coveragejudge (Day16 0-3)抽检同上
SAR 可提交性 submittablejudge submittable必须人工合规高风险:错判可提交=向 FinCEN 报错/漏报,监管后果
类型学判定正确性规则 baseline + judge必须人工误判洗钱类型=调查方向错,法律责任

「SAR 可提交性」是不可让渡的红线。一份 SAR 一旦提交 FinCEN 即产生法律效力;judge 判「可提交」但实际叙述有合规缺陷(漏关键风险标记、5W1H 逻辑断裂),后果是监管处罚。这类判定必须保留人工抽检,且这正是 Day 3 「LLM 模拟用户不可靠 → 关键评分必须保留人工抽检」的具体落点。2026 AML 治理口径(Consilient)也强调 human-in-the-loop 须「enforced, evidenced, and auditable」——人工不只是兜底,还要留痕可审计。

C. 抽检率与漏检概率的量化关系

抽检率怎么定?核心问题是:若系统里有比例为 $p$ 的缺陷案件,抽检 $n$ 份,漏掉(一个都没抽到缺陷)的概率是多少?

二项近似(总体大、抽样占比小):每抽一份是缺陷的概率 $p$,不是的概率 $1-p$。抽 $n$ 份独立,全部不是缺陷(即漏检)的概率:

$$P(\text{漏检}) = (1 - p)^n$$

反过来,至少抽到一个缺陷的概率(检出率):

$$P(\text{检出} \geq 1) = 1 - (1-p)^n$$

要让漏检概率 ≤ 目标 $\alpha$,所需最小抽检数:

$$n \geq \frac{\ln \alpha}{\ln(1 - p)}$$

有限总体精确版(超几何分布):总体 $N$ 案、其中 $K$ 案有缺陷,无放回抽 $n$,漏检(抽中的全是好案)概率:

$$P(\text{漏检}) = \frac{\binom{N-K}{n}}{\binom{N}{n}}$$

对本项目 66 案的小总体,超几何更准;但二项近似已足够指导抽检率设计。代入几组数(缺陷率 $p$ = 系统中缺陷案件占比,目标漏检 $\alpha$):

缺陷率 $p$抽检 $n$漏检概率 $(1-p)^n$检出率解读
5%100.59940.1%抽 10 份漏掉一个 5% 缺陷的概率仍有 60%
5%590.04895.2%要 95% 检出,5% 缺陷需抽 ~59 份
10%290.04795.3%缺陷率翻倍,所需样本量约减半
20%140.04495.6%缺陷越普遍,越容易抽到
1%600.54745.3%罕见缺陷极难抽样捕获
1%2990.04995.1%1% 缺陷要 95% 检出需抽 ~299 份

反直觉洞察②(抽检逮的是系统性缺陷,不是个案):上表揭示一个反直觉点——抽检对罕见缺陷几乎无能为力(1% 缺陷抽 60 份还有 55% 漏检),但对系统性缺陷(缺陷率高)反而高效。这恰好对路:抽检的目的不是逮住每一个错案(那是不可能的),而是检出「批量性、系统性」的质量退化——比如某次 prompt 改动让一整类 SAR 都漏写风险标记(缺陷率骤升),抽检几份就必中。把抽检当成「人工复核每一案」是误用;它是质量的统计哨兵,不是全量质检。对必须零漏的「可提交性」红线,做法是对 judge 判可提交的案件提高抽检率(甚至 100% 二次确认),而非靠均匀低抽检率。

D. 抽检协议设计:双盲、仲裁、升级路径

抽检不是「随便看几份」,要有协议(risk-based sampling + double review,对标 2026 HITL 治理口径):

        每批 SAR 输出(judge 已评分)
                  │
   ┌──────────────┼──────────────────┐
   ▼              ▼                   ▼
风险分层抽样   judge↔人工分歧样本   红线维度全覆盖
(judge 判可提交  优先抽(高信息)   (submittable 高抽检/
 的案按风险抽)                       100% 二次确认)
   └──────────────┬──────────────────┘
                  ▼
          2 名审核员双盲独立判
                  │
          ┌───────┴───────┐
        一致            分歧
          │               ▼
          │        第3人仲裁 (arbiter)
          │               │
          └───────┬───────┘
                  ▼
      ┌───────────────────────┐
      │ 抽检结论汇总:          │
      │ · 个案缺陷 → 退回修正    │
      │ · 系统性缺陷(某类批量)│
      │   → 升级:阻断发布+回溯  │
      │     该 prompt 全量重评   │
      │ · 喂回 Day17 judge 校准  │
      └───────────────────────┘

三条协议要点:

  1. 双盲 + 仲裁:2 人独立判(不看 judge 分、互不看),分歧由第 3 人仲裁——既得人工金标,又顺带产出 Day 17 校准用的人工标注。
  2. 分歧优先抽样:优先抽「judge 与历史人工分布最不符」的样本(信息量最高),而非纯均匀随机——同样样本量下更可能逮到 judge 失效模式。
  3. 升级路径:个案缺陷退回修正即可;系统性缺陷(同一 prompt 版本下某类 SAR 批量出错)触发升级——阻断该版本发布、回溯全量重评、并把缺陷样本喂回 Day 17 的 judge 迭代闭环。这是抽检与前三层的闭环接口。

设计要点/决策表

要点决策理由
LLM 能否替代人工否,只能做规模化粗筛2601.17087:系统性偏差+不公平,须 hybrid
必须人工的维度SAR 可提交性、类型学判定正确性合规高风险,错判有法律/监管后果
抽检率定法由目标漏检概率 $\alpha$ 反算 $n$(二项/超几何)抽检率是统计决策,不是拍脑袋
红线维度抽检submittable 高抽检率/100% 二次确认罕见严重缺陷靠均匀低抽检率逮不住
抽样策略风险分层 + 分歧优先,非纯随机同样本量下信息量最大
升级路径系统性缺陷阻断发布+回溯+喂回 judge 校准抽检是质量哨兵,须能触发回滚

对本项目的落地

  • 新建 src/aml/humanSampling.ts:导出 requiredSampleSize(defectRate, targetMissProb) → number(实现 C 节 $n \geq \ln\alpha / \ln(1-p)$)与 detectionRate(n, defectRate) → number,供产品文档与 PRD 论证抽检率;导出 samplingPlan(cases, judgeScores) → SampleBatch,按 D 节做风险分层+分歧优先抽样。
  • 抽检对象优先级samplingPlanjudge.submittable === true 的案件提高抽检权重(红线 100% 二次确认),对 judge↔历史人工分布偏离大的案件加权(分歧优先)。
  • 与 Day 17 闭环:人工抽检产出的标注复用为 judgeCalibration.ts 的人工金标,抽检发现的系统性缺陷样本喂回 Day 17 的 judge 迭代闭环(D 节升级路径的「喂回校准」接口)。
  • 审计留痕:抽检事件用 src/aml/types.ts 已定义的 AuditEventactor: 'investigator'actiondetail)记录,满足 2026 AML 治理「evidenced & auditable」要求;P3 落盘,W1-W2 仅前端状态。
  • 诚实标注humanSampling.ts 头注明确——抽检率公式假设缺陷独立同分布,是设计指导而非保证;真实 SAR 缺陷可能聚簇(同 prompt 批量错),故红线维度不靠均匀抽检率、而靠高抽检/全量二次确认兜底。

参考资料

  1. Seshadri, Cahyawijaya, Odumakinde, Singh, Goldfarb-Tarrant — Lost in Simulation: LLM-Simulated Users are Unreliable Proxies for Human Users in Agentic Evaluations, arXiv:2601.17087:成功率跨模型差异达 9 个百分点;系统性 miscalibration(难任务低估/中等任务高估);对 AAVE/印度英语使用者差异化失效;推荐 hybrid simulation/HITL (2026-01)
  2. Consilient — Human in the loop in 2026: What AML governance now needs to evidence:HITL 须 enforced/evidenced/auditable,治理意图须可见于实时决策点 (2026)
  3. All Days Tech — Human-in-the-Loop AI Review Queues 2026: Workflows, SLAs & Feedback Loops:风险分层抽样 + double review 测审核员一致性 + 审计留痕 (2026)
  4. Facctum — AML False Positive Rates 2026 Report:AML 告警 FP 率 85%-95%,真阳稀疏(解释为何罕见缺陷难抽样) (2026)
  5. 本仓库 src/aml/types.tsAuditEvent 留痕契约)、src/aml/judgeCalibration.ts(人工金标复用,Day17)(2026-06)

SOTA 检查 (2026-06-11)

  • 「LLM 模拟用户/judge 不能完全替代人工」是 2026-06 的实证共识:2601.17087(2026-01)是当前最新、最系统的证伪证据;本日 WebSearch 未见反驳其结论的同等量级研究,OpenReview 上讨论亦支持 hybrid。引用时点明:它证伪的是「完全替代」,非「LLM 评测无用」。
  • hybrid HITL(自动化粗筛 + 人工关键兜底)是主流落地范式:Consilient、All Days Tech 等 2026 AML/HITL 治理文章口径一致;合规场景尤其强调红线维度人工不可让渡。
  • 抽检率的统计学是经典常识:二项/超几何漏检概率公式非新知;2026 的新意在「把它用于 AI 输出质量哨兵 + 红线维度差异化抽检」。注意公式假设缺陷 i.i.d.,真实缺陷聚簇时低估所需样本量——故红线靠全量二次确认而非均匀抽检。
  • 过时认知警示:「有了 LLM-judge 就能裁掉人工评测」是 2025 早期乐观叙事,2601.17087 已系统证伪;反向也警惕「全靠人工」——成本不可扩展,正解是三层自动化+塔尖人工抽检的金字塔。
  • 待跟踪:W3 跑真实 66 案后,统计各维度实际缺陷率,代入 C 节公式定 v1 抽检率;P3 上线后监控抽检是否真逮到系统性缺陷(验证「质量哨兵」假设),回填本笔记。