人工抽检协议 — 抽检率、漏检概率与升级路径
人工抽检协议 — 抽检率、漏检概率与升级路径
日期: 2026-07-02 阶段: Phase 1 - 产品定义×评测×可观测底座 标签: #human-in-the-loop #sampling #llm-simulated-users #sar-compliance
核心问题
Day 15 守结构、Day 16 评语义、Day 17 校准 judge。三层都有了,能不能就让自动化评测全权代劳、人工彻底退场?
不能。今天回答评测金字塔的塔尖——人工抽检,并钉死两件事:
- 为什么 LLM 不能完全替代人工——「LLM 模拟用户是不可靠代理」(Seshadri et al., arXiv:2601.17087, 2026-01)给出了实证证据:用 LLM 模拟用户来评 agent,结果不稳、系统性偏、还不公平。
- 人工抽检要抽多少、怎么抽——抽检率不是拍脑袋。它和「漏检概率」有精确的数学关系(二项/超几何分布)。对 SAR 这种合规高风险输出,可提交性必须人工兜底,且抽检率要算到「漏掉一个系统性缺陷的概率足够低」。
关键内容
A. 「LLM 模拟用户不可靠」的论据与边界(arXiv:2601.17087)
Seshadri 等人(2026-01)系统检验了「用 LLM 模拟用户来评 agent」这一日益流行的做法,结论是它在三个维度都不可靠:
| 维度 | 实证发现(论文原文口径) | 对评测的含义 |
|---|---|---|
| 鲁棒性 robustness | agent 成功率「varying up to 9 percentage points across different user LLMs」 | 换个模型当模拟用户,结论就变 9 个百分点——评测结果取决于你随手选了哪个 judge 模型 |
| 效度 validity | 「systematic miscalibration: underestimating agent performance on challenging tasks and overestimating it on moderately difficult ones」 | 偏差有方向性:难任务被低估、中等任务被高估,不是随机噪声而是系统性扭曲 |
| 公平性 fairness | 对 AAVE、印度英语使用者「consistently worse success rates and calibration errors」,且「disparities compounding…with age」 | 模拟用户对不同人群是「差异化代理」,会系统性歧视某些群体 |
边界(这条很重要):论文证伪的是「完全用 LLM 模拟用户替代人类评测」,不是「LLM 评测一无是处」。它推荐的是 hybrid——「combining simulated evaluations with human validation rather than relying solely on LLM-simulated users」。所以正确解读是:LLM 评测做规模化粗筛,人工做关键兜底校验,二者互补,不是二选一。
反直觉洞察①(自动化评测的系统性偏差比随机噪声更危险):随机噪声多跑几次会平均掉;系统性偏差跑一万次也不会消失。2601.17087 发现的「难任务低估、中等任务高估」正是系统性偏差——你以为加大评测样本量能提升可信度,但样本越多只是把同一个偏差测得越「精确」。对 AML 而言,最危险的恰是「中等难度的可疑案件被高估为没问题」——这正是该被人工抽检逮住的盲区。
B. 哪些评分必须人工:可提交性是合规高风险的红线
不是所有维度都需要人工。判据是**「错判的后果有多严重」× 「自动化能否可靠覆盖」**。对 AML Copilot:
| 评测维度 | 自动化层 | 是否必须人工 | 理由 |
|---|---|---|---|
| 引用存在性 | 代码型 (Day15 CITE-EXIST) | 否 | 确定性,代码兜死 |
| 金额整数分 | 代码型 (Day15 AMT-INT) | 否 | 确定性 |
| 引用语义支撑 | judge faithfulness | 抽检 | judge 粗筛,人工抽检校 judge |
| 叙述完整性 coverage | judge (Day16 0-3) | 抽检 | 同上 |
| SAR 可提交性 submittable | judge submittable | 必须人工 | 合规高风险:错判可提交=向 FinCEN 报错/漏报,监管后果 |
| 类型学判定正确性 | 规则 baseline + judge | 必须人工 | 误判洗钱类型=调查方向错,法律责任 |
「SAR 可提交性」是不可让渡的红线。一份 SAR 一旦提交 FinCEN 即产生法律效力;judge 判「可提交」但实际叙述有合规缺陷(漏关键风险标记、5W1H 逻辑断裂),后果是监管处罚。这类判定必须保留人工抽检,且这正是 Day 3 「LLM 模拟用户不可靠 → 关键评分必须保留人工抽检」的具体落点。2026 AML 治理口径(Consilient)也强调 human-in-the-loop 须「enforced, evidenced, and auditable」——人工不只是兜底,还要留痕可审计。
C. 抽检率与漏检概率的量化关系
抽检率怎么定?核心问题是:若系统里有比例为 $p$ 的缺陷案件,抽检 $n$ 份,漏掉(一个都没抽到缺陷)的概率是多少?
二项近似(总体大、抽样占比小):每抽一份是缺陷的概率 $p$,不是的概率 $1-p$。抽 $n$ 份独立,全部不是缺陷(即漏检)的概率:
$$P(\text{漏检}) = (1 - p)^n$$
反过来,至少抽到一个缺陷的概率(检出率):
$$P(\text{检出} \geq 1) = 1 - (1-p)^n$$
要让漏检概率 ≤ 目标 $\alpha$,所需最小抽检数:
$$n \geq \frac{\ln \alpha}{\ln(1 - p)}$$
有限总体精确版(超几何分布):总体 $N$ 案、其中 $K$ 案有缺陷,无放回抽 $n$,漏检(抽中的全是好案)概率:
$$P(\text{漏检}) = \frac{\binom{N-K}{n}}{\binom{N}{n}}$$
对本项目 66 案的小总体,超几何更准;但二项近似已足够指导抽检率设计。代入几组数(缺陷率 $p$ = 系统中缺陷案件占比,目标漏检 $\alpha$):
| 缺陷率 $p$ | 抽检 $n$ | 漏检概率 $(1-p)^n$ | 检出率 | 解读 |
|---|---|---|---|---|
| 5% | 10 | 0.599 | 40.1% | 抽 10 份漏掉一个 5% 缺陷的概率仍有 60% |
| 5% | 59 | 0.048 | 95.2% | 要 95% 检出,5% 缺陷需抽 ~59 份 |
| 10% | 29 | 0.047 | 95.3% | 缺陷率翻倍,所需样本量约减半 |
| 20% | 14 | 0.044 | 95.6% | 缺陷越普遍,越容易抽到 |
| 1% | 60 | 0.547 | 45.3% | 罕见缺陷极难抽样捕获 |
| 1% | 299 | 0.049 | 95.1% | 1% 缺陷要 95% 检出需抽 ~299 份 |
反直觉洞察②(抽检逮的是系统性缺陷,不是个案):上表揭示一个反直觉点——抽检对罕见缺陷几乎无能为力(1% 缺陷抽 60 份还有 55% 漏检),但对系统性缺陷(缺陷率高)反而高效。这恰好对路:抽检的目的不是逮住每一个错案(那是不可能的),而是检出「批量性、系统性」的质量退化——比如某次 prompt 改动让一整类 SAR 都漏写风险标记(缺陷率骤升),抽检几份就必中。把抽检当成「人工复核每一案」是误用;它是质量的统计哨兵,不是全量质检。对必须零漏的「可提交性」红线,做法是对 judge 判可提交的案件提高抽检率(甚至 100% 二次确认),而非靠均匀低抽检率。
D. 抽检协议设计:双盲、仲裁、升级路径
抽检不是「随便看几份」,要有协议(risk-based sampling + double review,对标 2026 HITL 治理口径):
每批 SAR 输出(judge 已评分)
│
┌──────────────┼──────────────────┐
▼ ▼ ▼
风险分层抽样 judge↔人工分歧样本 红线维度全覆盖
(judge 判可提交 优先抽(高信息) (submittable 高抽检/
的案按风险抽) 100% 二次确认)
└──────────────┬──────────────────┘
▼
2 名审核员双盲独立判
│
┌───────┴───────┐
一致 分歧
│ ▼
│ 第3人仲裁 (arbiter)
│ │
└───────┬───────┘
▼
┌───────────────────────┐
│ 抽检结论汇总: │
│ · 个案缺陷 → 退回修正 │
│ · 系统性缺陷(某类批量)│
│ → 升级:阻断发布+回溯 │
│ 该 prompt 全量重评 │
│ · 喂回 Day17 judge 校准 │
└───────────────────────┘
三条协议要点:
- 双盲 + 仲裁:2 人独立判(不看 judge 分、互不看),分歧由第 3 人仲裁——既得人工金标,又顺带产出 Day 17 校准用的人工标注。
- 分歧优先抽样:优先抽「judge 与历史人工分布最不符」的样本(信息量最高),而非纯均匀随机——同样样本量下更可能逮到 judge 失效模式。
- 升级路径:个案缺陷退回修正即可;系统性缺陷(同一 prompt 版本下某类 SAR 批量出错)触发升级——阻断该版本发布、回溯全量重评、并把缺陷样本喂回 Day 17 的 judge 迭代闭环。这是抽检与前三层的闭环接口。
设计要点/决策表
| 要点 | 决策 | 理由 |
|---|---|---|
| LLM 能否替代人工 | 否,只能做规模化粗筛 | 2601.17087:系统性偏差+不公平,须 hybrid |
| 必须人工的维度 | SAR 可提交性、类型学判定正确性 | 合规高风险,错判有法律/监管后果 |
| 抽检率定法 | 由目标漏检概率 $\alpha$ 反算 $n$(二项/超几何) | 抽检率是统计决策,不是拍脑袋 |
| 红线维度抽检 | submittable 高抽检率/100% 二次确认 | 罕见严重缺陷靠均匀低抽检率逮不住 |
| 抽样策略 | 风险分层 + 分歧优先,非纯随机 | 同样本量下信息量最大 |
| 升级路径 | 系统性缺陷阻断发布+回溯+喂回 judge 校准 | 抽检是质量哨兵,须能触发回滚 |
对本项目的落地
- 新建
src/aml/humanSampling.ts:导出requiredSampleSize(defectRate, targetMissProb) → number(实现 C 节 $n \geq \ln\alpha / \ln(1-p)$)与detectionRate(n, defectRate) → number,供产品文档与 PRD 论证抽检率;导出samplingPlan(cases, judgeScores) → SampleBatch,按 D 节做风险分层+分歧优先抽样。 - 抽检对象优先级:
samplingPlan对judge.submittable === true的案件提高抽检权重(红线 100% 二次确认),对 judge↔历史人工分布偏离大的案件加权(分歧优先)。 - 与 Day 17 闭环:人工抽检产出的标注复用为
judgeCalibration.ts的人工金标,抽检发现的系统性缺陷样本喂回 Day 17 的 judge 迭代闭环(D 节升级路径的「喂回校准」接口)。 - 审计留痕:抽检事件用
src/aml/types.ts已定义的AuditEvent(actor: 'investigator'、action、detail)记录,满足 2026 AML 治理「evidenced & auditable」要求;P3 落盘,W1-W2 仅前端状态。 - 诚实标注:
humanSampling.ts头注明确——抽检率公式假设缺陷独立同分布,是设计指导而非保证;真实 SAR 缺陷可能聚簇(同 prompt 批量错),故红线维度不靠均匀抽检率、而靠高抽检/全量二次确认兜底。
参考资料
- Seshadri, Cahyawijaya, Odumakinde, Singh, Goldfarb-Tarrant — Lost in Simulation: LLM-Simulated Users are Unreliable Proxies for Human Users in Agentic Evaluations, arXiv:2601.17087:成功率跨模型差异达 9 个百分点;系统性 miscalibration(难任务低估/中等任务高估);对 AAVE/印度英语使用者差异化失效;推荐 hybrid simulation/HITL (2026-01)
- Consilient — Human in the loop in 2026: What AML governance now needs to evidence:HITL 须 enforced/evidenced/auditable,治理意图须可见于实时决策点 (2026)
- All Days Tech — Human-in-the-Loop AI Review Queues 2026: Workflows, SLAs & Feedback Loops:风险分层抽样 + double review 测审核员一致性 + 审计留痕 (2026)
- Facctum — AML False Positive Rates 2026 Report:AML 告警 FP 率 85%-95%,真阳稀疏(解释为何罕见缺陷难抽样) (2026)
- 本仓库
src/aml/types.ts(AuditEvent留痕契约)、src/aml/judgeCalibration.ts(人工金标复用,Day17)(2026-06)
SOTA 检查 (2026-06-11)
- 「LLM 模拟用户/judge 不能完全替代人工」是 2026-06 的实证共识:2601.17087(2026-01)是当前最新、最系统的证伪证据;本日 WebSearch 未见反驳其结论的同等量级研究,OpenReview 上讨论亦支持 hybrid。引用时点明:它证伪的是「完全替代」,非「LLM 评测无用」。
- hybrid HITL(自动化粗筛 + 人工关键兜底)是主流落地范式:Consilient、All Days Tech 等 2026 AML/HITL 治理文章口径一致;合规场景尤其强调红线维度人工不可让渡。
- 抽检率的统计学是经典常识:二项/超几何漏检概率公式非新知;2026 的新意在「把它用于 AI 输出质量哨兵 + 红线维度差异化抽检」。注意公式假设缺陷 i.i.d.,真实缺陷聚簇时低估所需样本量——故红线靠全量二次确认而非均匀抽检。
- 过时认知警示:「有了 LLM-judge 就能裁掉人工评测」是 2025 早期乐观叙事,2601.17087 已系统证伪;反向也警惕「全靠人工」——成本不可扩展,正解是三层自动化+塔尖人工抽检的金字塔。
- 待跟踪:W3 跑真实 66 案后,统计各维度实际缺陷率,代入 C 节公式定 v1 抽检率;P3 上线后监控抽检是否真逮到系统性缺陷(验证「质量哨兵」假设),回填本笔记。