AIPA Day 18

人工抽检协议 — 抽检率、漏检概率与升级路径

2026-07-02

human-in-the-loopsamplingllm-simulated-userssar-compliance

日期: 2026-07-02 阶段: Phase 1 - 产品定义×评测×可观测底座标签: #human-in-the-loop #sampling #llm-simulated-users #sar-compliance

核心问题

Day 15 守结构、Day 16 评语义、Day 17 校准 judge。三层都有了，能不能就让自动化评测全权代劳、人工彻底退场？

不能。今天回答评测金字塔的塔尖——人工抽检，并钉死两件事：

为什么 LLM 不能完全替代人工——「LLM 模拟用户是不可靠代理」（Seshadri et al., arXiv:2601.17087, 2026-01）给出了实证证据：用 LLM 模拟用户来评 agent，结果不稳、系统性偏、还不公平。
人工抽检要抽多少、怎么抽——抽检率不是拍脑袋。它和「漏检概率」有精确的数学关系（二项/超几何分布）。对 SAR 这种合规高风险输出，可提交性必须人工兜底，且抽检率要算到「漏掉一个系统性缺陷的概率足够低」。

关键内容

A. 「LLM 模拟用户不可靠」的论据与边界（arXiv:2601.17087）

Seshadri 等人（2026-01）系统检验了「用 LLM 模拟用户来评 agent」这一日益流行的做法，结论是它在三个维度都不可靠：

维度	实证发现（论文原文口径）	对评测的含义
鲁棒性 robustness	agent 成功率「varying up to 9 percentage points across different user LLMs」	换个模型当模拟用户，结论就变 9 个百分点——评测结果取决于你随手选了哪个 judge 模型
效度 validity	「systematic miscalibration: underestimating agent performance on challenging tasks and overestimating it on moderately difficult ones」	偏差有方向性：难任务被低估、中等任务被高估，不是随机噪声而是系统性扭曲
公平性 fairness	对 AAVE、印度英语使用者「consistently worse success rates and calibration errors」，且「disparities compounding…with age」	模拟用户对不同人群是「差异化代理」，会系统性歧视某些群体

边界（这条很重要）：论文证伪的是「完全用 LLM 模拟用户替代人类评测」，不是「LLM 评测一无是处」。它推荐的是 hybrid——「combining simulated evaluations with human validation rather than relying solely on LLM-simulated users」。所以正确解读是：LLM 评测做规模化粗筛，人工做关键兜底校验，二者互补，不是二选一。

反直觉洞察①（自动化评测的系统性偏差比随机噪声更危险）：随机噪声多跑几次会平均掉；系统性偏差跑一万次也不会消失。2601.17087 发现的「难任务低估、中等任务高估」正是系统性偏差——你以为加大评测样本量能提升可信度，但样本越多只是把同一个偏差测得越「精确」。对 AML 而言，最危险的恰是「中等难度的可疑案件被高估为没问题」——这正是该被人工抽检逮住的盲区。

B. 哪些评分必须人工：可提交性是合规高风险的红线

不是所有维度都需要人工。判据是**「错判的后果有多严重」× 「自动化能否可靠覆盖」**。对 AML Copilot：

评测维度	自动化层	是否必须人工	理由
引用存在性	代码型 (Day15 `CITE-EXIST`)	否	确定性，代码兜死
金额整数分	代码型 (Day15 `AMT-INT`)	否	确定性
引用语义支撑	judge faithfulness	抽检	judge 粗筛，人工抽检校 judge
叙述完整性 coverage	judge (Day16 0-3)	抽检	同上
SAR 可提交性 submittable	judge submittable	必须人工	合规高风险：错判可提交=向 FinCEN 报错/漏报，监管后果
类型学判定正确性	规则 baseline + judge	必须人工	误判洗钱类型=调查方向错，法律责任

「SAR 可提交性」是不可让渡的红线。一份 SAR 一旦提交 FinCEN 即产生法律效力；judge 判「可提交」但实际叙述有合规缺陷（漏关键风险标记、5W1H 逻辑断裂），后果是监管处罚。这类判定必须保留人工抽检，且这正是 Day 3 「LLM 模拟用户不可靠 → 关键评分必须保留人工抽检」的具体落点。2026 AML 治理口径（Consilient）也强调 human-in-the-loop 须「enforced, evidenced, and auditable」——人工不只是兜底，还要留痕可审计。

C. 抽检率与漏检概率的量化关系

抽检率怎么定？核心问题是：若系统里有比例为 $p$ 的缺陷案件，抽检 $n$ 份，漏掉（一个都没抽到缺陷）的概率是多少？

二项近似（总体大、抽样占比小）：每抽一份是缺陷的概率 $p$，不是的概率 $1-p$。抽 $n$ 份独立，全部不是缺陷（即漏检）的概率：

$$P(\text{漏检}) = (1 - p)^n$$

反过来，至少抽到一个缺陷的概率（检出率）：

$$P(\text{检出} \geq 1) = 1 - (1-p)^n$$

要让漏检概率 ≤ 目标 $\alpha$，所需最小抽检数：

$$n \geq \frac{\ln \alpha}{\ln(1 - p)}$$

有限总体精确版（超几何分布）：总体 $N$ 案、其中 $K$ 案有缺陷，无放回抽 $n$，漏检（抽中的全是好案）概率：

$$P(\text{漏检}) = \frac{\binom{N-K}{n}}{\binom{N}{n}}$$

对本项目 66 案的小总体，超几何更准；但二项近似已足够指导抽检率设计。代入几组数（缺陷率 $p$ = 系统中缺陷案件占比，目标漏检 $\alpha$）：

缺陷率 $p$	抽检 $n$	漏检概率 $(1-p)^n$	检出率	解读
5%	10	0.599	40.1%	抽 10 份漏掉一个 5% 缺陷的概率仍有 60%
5%	59	0.048	95.2%	要 95% 检出，5% 缺陷需抽 ~59 份
10%	29	0.047	95.3%	缺陷率翻倍，所需样本量约减半
20%	14	0.044	95.6%	缺陷越普遍，越容易抽到
1%	60	0.547	45.3%	罕见缺陷极难抽样捕获
1%	299	0.049	95.1%	1% 缺陷要 95% 检出需抽 ~299 份

反直觉洞察②（抽检逮的是系统性缺陷，不是个案）：上表揭示一个反直觉点——抽检对罕见缺陷几乎无能为力（1% 缺陷抽 60 份还有 55% 漏检），但对系统性缺陷（缺陷率高）反而高效。这恰好对路：抽检的目的不是逮住每一个错案（那是不可能的），而是检出「批量性、系统性」的质量退化——比如某次 prompt 改动让一整类 SAR 都漏写风险标记（缺陷率骤升），抽检几份就必中。把抽检当成「人工复核每一案」是误用；它是质量的统计哨兵，不是全量质检。对必须零漏的「可提交性」红线，做法是对 judge 判可提交的案件提高抽检率（甚至 100% 二次确认），而非靠均匀低抽检率。

D. 抽检协议设计：双盲、仲裁、升级路径

抽检不是「随便看几份」，要有协议（risk-based sampling + double review，对标 2026 HITL 治理口径）：

        每批 SAR 输出（judge 已评分）
                  │
   ┌──────────────┼──────────────────┐
   ▼              ▼                   ▼
风险分层抽样   judge↔人工分歧样本   红线维度全覆盖
(judge 判可提交  优先抽（高信息）   (submittable 高抽检/
 的案按风险抽)                       100% 二次确认)
   └──────────────┬──────────────────┘
                  ▼
          2 名审核员双盲独立判
                  │
          ┌───────┴───────┐
        一致            分歧
          │               ▼
          │        第3人仲裁 (arbiter)
          │               │
          └───────┬───────┘
                  ▼
      ┌───────────────────────┐
      │ 抽检结论汇总：          │
      │ · 个案缺陷 → 退回修正    │
      │ · 系统性缺陷（某类批量）│
      │   → 升级：阻断发布+回溯  │
      │     该 prompt 全量重评   │
      │ · 喂回 Day17 judge 校准  │
      └───────────────────────┘

三条协议要点：

双盲 + 仲裁：2 人独立判（不看 judge 分、互不看），分歧由第 3 人仲裁——既得人工金标，又顺带产出 Day 17 校准用的人工标注。
分歧优先抽样：优先抽「judge 与历史人工分布最不符」的样本（信息量最高），而非纯均匀随机——同样样本量下更可能逮到 judge 失效模式。
升级路径：个案缺陷退回修正即可；系统性缺陷（同一 prompt 版本下某类 SAR 批量出错）触发升级——阻断该版本发布、回溯全量重评、并把缺陷样本喂回 Day 17 的 judge 迭代闭环。这是抽检与前三层的闭环接口。

设计要点/决策表

要点	决策	理由
LLM 能否替代人工	否，只能做规模化粗筛	2601.17087：系统性偏差+不公平，须 hybrid
必须人工的维度	SAR 可提交性、类型学判定正确性	合规高风险，错判有法律/监管后果
抽检率定法	由目标漏检概率 $\alpha$ 反算 $n$（二项/超几何）	抽检率是统计决策，不是拍脑袋
红线维度抽检	submittable 高抽检率/100% 二次确认	罕见严重缺陷靠均匀低抽检率逮不住
抽样策略	风险分层 + 分歧优先，非纯随机	同样本量下信息量最大
升级路径	系统性缺陷阻断发布+回溯+喂回 judge 校准	抽检是质量哨兵，须能触发回滚

对本项目的落地

新建 src/aml/humanSampling.ts：导出 requiredSampleSize(defectRate, targetMissProb) → number（实现 C 节 $n \geq \ln\alpha / \ln(1-p)$）与 detectionRate(n, defectRate) → number，供产品文档与 PRD 论证抽检率；导出 samplingPlan(cases, judgeScores) → SampleBatch，按 D 节做风险分层+分歧优先抽样。
抽检对象优先级：samplingPlan 对 judge.submittable === true 的案件提高抽检权重（红线 100% 二次确认），对 judge↔历史人工分布偏离大的案件加权（分歧优先）。
与 Day 17 闭环：人工抽检产出的标注复用为 judgeCalibration.ts 的人工金标，抽检发现的系统性缺陷样本喂回 Day 17 的 judge 迭代闭环（D 节升级路径的「喂回校准」接口）。
审计留痕：抽检事件用 src/aml/types.ts 已定义的 AuditEvent（actor: 'investigator'、action、detail）记录，满足 2026 AML 治理「evidenced & auditable」要求；P3 落盘，W1-W2 仅前端状态。
诚实标注：humanSampling.ts 头注明确——抽检率公式假设缺陷独立同分布，是设计指导而非保证；真实 SAR 缺陷可能聚簇（同 prompt 批量错），故红线维度不靠均匀抽检率、而靠高抽检/全量二次确认兜底。

参考资料

Seshadri, Cahyawijaya, Odumakinde, Singh, Goldfarb-Tarrant — Lost in Simulation: LLM-Simulated Users are Unreliable Proxies for Human Users in Agentic Evaluations, arXiv:2601.17087：成功率跨模型差异达 9 个百分点；系统性 miscalibration（难任务低估/中等任务高估）；对 AAVE/印度英语使用者差异化失效；推荐 hybrid simulation/HITL (2026-01)
Consilient — Human in the loop in 2026: What AML governance now needs to evidence：HITL 须 enforced/evidenced/auditable，治理意图须可见于实时决策点 (2026)
All Days Tech — Human-in-the-Loop AI Review Queues 2026: Workflows, SLAs & Feedback Loops：风险分层抽样 + double review 测审核员一致性 + 审计留痕 (2026)
Facctum — AML False Positive Rates 2026 Report：AML 告警 FP 率 85%-95%，真阳稀疏（解释为何罕见缺陷难抽样） (2026)
本仓库 src/aml/types.ts（AuditEvent 留痕契约）、src/aml/judgeCalibration.ts（人工金标复用，Day17）(2026-06)

SOTA 检查 (2026-06-11)

「LLM 模拟用户/judge 不能完全替代人工」是 2026-06 的实证共识：2601.17087（2026-01）是当前最新、最系统的证伪证据；本日 WebSearch 未见反驳其结论的同等量级研究，OpenReview 上讨论亦支持 hybrid。引用时点明：它证伪的是「完全替代」，非「LLM 评测无用」。
hybrid HITL（自动化粗筛 + 人工关键兜底）是主流落地范式：Consilient、All Days Tech 等 2026 AML/HITL 治理文章口径一致；合规场景尤其强调红线维度人工不可让渡。
抽检率的统计学是经典常识：二项/超几何漏检概率公式非新知；2026 的新意在「把它用于 AI 输出质量哨兵 + 红线维度差异化抽检」。注意公式假设缺陷 i.i.d.，真实缺陷聚簇时低估所需样本量——故红线靠全量二次确认而非均匀抽检。
过时认知警示：「有了 LLM-judge 就能裁掉人工评测」是 2025 早期乐观叙事，2601.17087 已系统证伪；反向也警惕「全靠人工」——成本不可扩展，正解是三层自动化+塔尖人工抽检的金字塔。
待跟踪：W3 跑真实 66 案后，统计各维度实际缺陷率，代入 C 节公式定 v1 抽检率；P3 上线后监控抽检是否真逮到系统性缺陷（验证「质量哨兵」假设），回填本笔记。