AIPA Day 86

SAR eval suite — judge×人工抽检的分层校准，与「LLM 模拟用户不可靠」的红线

2026-09-08

eval-suitejudge-human-agreementcohens-kappahuman-in-the-loop

日期: 2026-09-08 阶段: Phase 3 - AML 调查 Copilot 标签: #eval-suite #judge-human-agreement #cohens-kappa #human-in-the-loop

核心问题

Day 85 立了四维 SAR 质量 rubric（完整性/事实忠实/类型学引用/监管语言）和四段式 judge prompt。但 Day 17 已经把丑话说在前头：judge 给的分，未经 κ 校准不许信。今天把「四维 rubric」从一份 prompt 变成一套可运行的 eval suite——它要回答三件事：

judge×人工抽检怎么做才省钱又可信？ 全量人工标注 SAR 不现实（合规官时间贵），但全自动 judge 又不可信。直觉是「judge 跑全量，人工随机抽 10% 复核」——今天证明随机抽样是错的，必须分层抽样，且抽样比例对四维不该一样。
哪些维度的评分可以放心交 judge，哪些必须保留人工？ 这不是「judge 都能评」或「都不能评」的二元问题——四维各自的「judge 可托付度」不同。
κ 校准复用 Day 17 的 judgeCalibration.ts，但 SAR 四维带来什么新问题？ 二元 κ 够不够，序数维度要不要加权 κ。

核心红线先抛出来：关键评分必须保留人工抽检，不能用 LLM 模拟标注者替代——这不是保守，是 2026-01 的硬证据。「Lost in Simulation」（arXiv 2601.17087, 2026-01）实测 LLM 模拟用户的期望校准误差（ECE）高达 15.1%，且对方言/年龄群体有最高 20.3% 的系统性偏差。在合规场景，用 LLM 模拟「人工标注者」去校准 judge，等于用一面哈哈镜去校准另一面哈哈镜。

关键内容

A. 分层抽样：为什么不能随机抽 10%，四维抽样比例为何不同

eval suite 的成本结构是：judge 跑全量（便宜，~80 案 V11 数据集），人工抽检子集（贵，合规官逐案读）。问题在抽哪些案子给人工。

随机抽样（禁止）：从 80 案随机抽 10% = 8 案给人工。问题——AML 数据集极不均衡（Day 17 已论证：绝大多数案是「可提交/normal」，真正难判的边界案稀疏）。随机抽 8 案大概率全落在「judge 和人工都觉得简单」的多数类上，人工复核它们 = 浪费预算证明「简单的 judge 也对」，而最该被人工盯住的边界案（judge 最可能错的地方）被漏掉。

分层抽样（正确）：按 judge 的不确定性和判定结果分层，对高风险层超额抽样：

分层	定义	人工抽检比例	理由
judge 判 FAIL 的案	任一维 judge 给 FAIL	100%	FAIL 直接影响 SAR 能否提交，错判代价最高
judge 低置信案	judge 分贴近维度阈值（Day 80 MEDIUM 档）	~50%	边界案是 judge 最可能错的地方
judge 高置信 PASS	四维全 PASS 且远离阈值	~10% 随机	多数类，抽样仅为监控漂移

这把人工预算从「均匀撒」改成「投到 judge 最可能错的地方」。本质和 Day 18 的人工抽检协议、Day 12 的 targeted hard cases 是同一思路——人工是稀缺资源，要花在信息量最大的样本上，而非随机。

反直觉洞察①（随机抽样在不均衡数据上是「证明显然的东西」，把预算浪费在最不需要复核的地方）：直觉是「随机抽样无偏，最公平」。但在 AML 这种多数类压倒性的分布里，随机抽样的「无偏」恰恰是缺陷——它按总体分布抽，于是 90% 的人工预算花在「judge 和人工都一眼判对」的简单案上，对 κ 的提升贡献几乎为零（这些案 $p_o$ 本就高）。真正决定 κ 可信度的是边界案和 FAIL 案——judge 在这里出错、人工分歧也在这里。分层抽样不是为了无偏估计总体，是为了把校准信号最强的样本喂给最贵的标注者。 随机的「公平」在不均衡数据上等于「把钱花在不需要花的地方」。

B. 四维的 judge 可托付度不同：哪维交 judge、哪维守人工

「关键评分保留人工」不是说四维都不能用 judge——而是四维的可托付度不同，要分维决策。判据是：该维有多少能被确定性预检兜住 + 错判代价多高。

维度	judge 可托付度	处置	依据
事实忠实 (faithfulness)	高（大半可确定性预检）	judge 兜语义歪曲，数值溯源走代码预检（Day 85 `faithfulnessPrecheck`）	幻觉是 critical，但「数值有无对应」是确定性的
完整性 (completeness)	中	judge 评 + 段落非空下界守卫；judge 分进 κ 校准	「六要素是否实质覆盖」需语义判断
类型学引用 (typology grounding)	中	judge 评 + 规则引擎 `hits` 作参照；判 FAIL 必人工复核	涉及「核心链是否齐全」，错判=漏报
监管语言 (regulatory tone)	低（关键评分，红线）	judge 仅作初筛，最终判定保留人工，不进自动通过通道	「examiner-ready」是监管主观判断，judge 易被流畅文本骗

监管语言维是红线——它最像「LLM 模拟人类判断」会翻车的地方。「Lost in Simulation」（2026-01）的核心发现：模拟用户系统性高估中等难度、低估最难任务，且「over-polite, more willing to adopt suggestions」——一个被训得圆滑的 judge，会把文笔流畅但实质投机的 SAR 误判为「examiner-ready」，恰如它对 AAVE 群体的 ECE 飙到 20.3%。监管语言的「合规腔调」判断必须留人工最终拍板。

反直觉洞察②（judge 最危险的不是「评不准」，是「在它最自信的维度上系统性偏向流畅文本」）：直觉是「judge 在难维度上不准，在简单维度上可信」。但「Lost in Simulation」（2026-01）揭示更阴险的模式——judge/模拟器在中等难度上过度自信地高估（不是随机噪声，是系统性偏移）。映射到 SAR：监管语言维上，一份辞藻华丽但充满「我推测/很可能」投机措辞的叙述，judge 会因为「读起来专业」而高分，而真正 examiner-ready 的是朴素、事实化、不加修饰的陈述。judge 的训练偏好（流畅、礼貌、顺从）与监管要求（克制、客观、可证伪）正好相反。这就是为什么这一维不能全自动——judge 的系统性偏向恰好顶在监管红线上。

C. κ 校准复用 Day 17，但四维带来加权 κ 的新问题

校准机制完全复用 Day 17 的 judgeCalibration.ts：$\kappa = (p_o - p_e)/(1 - p_e)$，judge 准入门 κ≥0.6，先算人工间 $\kappa_{human}$ 确认 rubric 不模糊，每月重抽样查漂移。但 SAR 四维带来两个 Day 17 没遇到的细节：

(1) 四维各自独立校准，不算综合 κ。 每维 PASS/FAIL 是独立标签，对每维分别算 $\kappa_d$。某维 $\kappa_d < 0.6$ 则该维 judge 分仅记录、不进 CI gate（呼应 Day 85「正交维度各自达标」）。综合一个总 κ 会把高托付维（faithfulness）的高 κ 和低托付维（regulatory tone）的低 κ 平均掉，掩盖问题。

(2) 序数维度要不要加权 κ。 若某维做成 0-2 序数（如完整性：0=缺多项/1=缺一项/2=齐全）而非二元 PASS/FAIL，普通 Cohen's κ 会把「judge 给 1、人工给 2」和「judge 给 0、人工给 2」当成同样的「不一致」——但前者只差一档、后者差两档，惩罚不该一样。此时应切加权 κ（weighted kappa）：相邻档分歧惩罚轻于跨档（Day 17 SOTA 检查已留此伏笔）。

抽检与校准的状态机（把 A 节分层、B 节分维、C 节 κ 串起来）：

   ┌────────────────────────────────────────────────┐
   │ [全量] judge 跑 80 案 V11 数据集,四维各出 PASS/FAIL │
   └───────────────────────┬────────────────────────┘
                           ▼
   ┌────────────────────────────────────────────────┐
   │ [分层抽样] 按 A 节比例抽人工子集                  │
   │   FAIL 案 100% / 边界案 50% / 高置信 10%          │
   └───────────────────────┬────────────────────────┘
                           ▼
   ┌────────────────────────────────────────────────┐
   │ [人工抽检] 2-3 名合规官独立标注(双盲,承 Day 17)   │
   │   关键: 监管语言维由人工最终拍板,不用 LLM 模拟    │ ◄── 红线
   └───────────────────────┬────────────────────────┘
                           ▼
   ┌────────────────────────────────────────────────┐
   │ [校准] 对每维 d 算 κ_d (复用 judgeCalibration)    │
   │   先验 κ_human,d ≥ 0.6 (rubric 不模糊)            │
   │   序数维 → weighted kappa                         │
   └───────────────────────┬────────────────────────┘
              ┌────────────┴────────────┐
         κ_d ≥ 0.6                  κ_d < 0.6
         该维进 CI gate           该维仅记录 + 回 Day 85 改 rubric
                           │
                           ▼
              [运营] 每月重抽样算 κ,跌破即该维降级回人工

SAR 质量基线指标表（v1 设计目标 + Co-Investigator AI 锚定，真实数字 W 末回填）：

指标	v1 目标	锚定	说明
完整性 PASS 率	≥ 0.85	Co-Investigator AI 特定类型学 87%（2025-09）	规则模板天然保证六段，PASS 率高
事实忠实 PASS 率	= 1.0	代码预检兜底（hallucination=critical）	数值不可溯源直接 FAIL，规则 SAR 应全过
judge×人工 κ（各维）	≥ 0.6	FutureAGI substantial（2026）	未达标维不进 CI gate
人工间 κ_human（各维）	≥ 0.6	同上（前置：rubric 不模糊）	低于此先修 rubric（Day 17）
人工抽检覆盖	FAIL 100% / 边界 50% / 其余 10%	分层抽样（A 节）	非随机,投向信息量最大样本

设计要点/决策表

要点	决策	理由
抽样	分层（FAIL 100%/边界 50%/高置信 10%），非随机	不均衡数据上随机抽样浪费预算在简单案
分维托付	faithfulness 高/completeness 中/typology 中/tone 低	各维可确定性兜底程度 + 错判代价不同
监管语言维	judge 仅初筛，人工最终拍板，不入自动通道	judge 系统性偏向流畅文本，顶在监管红线上
模拟标注者	禁用 LLM 模拟人工标注者校准 judge	「Lost in Simulation」ECE 15.1%、群体偏差 20.3%（2026-01）
κ 校准	复用 Day 17 `judgeCalibration`，四维各自独立算	综合 κ 掩盖低托付维的问题
序数维 κ	若维度做 0-2 序数 → weighted kappa	相邻档分歧惩罚应轻于跨档
漂移	每月重抽样算各维 κ，跌破即该维降级回人工	judge 非一次校准永久可信（Day 17）

对本项目的落地

计划新建 src/aml/sarEvalSuite.ts：导出 runSarEval(dataset, judge) → SarEvalReport——对 80 案 V11 跑四维 judge（无 key 时降级，承 Day 85），按 A 节分层标出需人工抽检的子集（needsHumanReview: { caseId, dim, reason }[]），输出每维 PASS 率 + 待校准标记。stratifySample(report) → CaseId[] 实现 FAIL 100%/边界 50%/高置信 10% 的分层抽样。
复用 Day 17 judgeCalibration.ts：sarEvalSuite 调 cohensKappa(judgeLabels_d, humanLabels_d) 对四维各自算 κ_d；新增 weightedKappa(judge, human, weights) 分支供序数维（若完整性做成 0-2）。人工金标从 V11 抽检子集落 src/aml/__tests__/sarGold.ts 内嵌常量（同 judgeGold.ts 模式，Day 17）。
CI gate 分维门控：测试断言每维 κ_d ≥ 0.6 才允许该维 judge 分进 evalBaseline 聚合；某维 κ_d < 0.6 时该维仅记录、不阻断 merge——把「四维独立校准」从主张落成可验证断言。
AmlEvalsPanel 加 SAR 质量页签：展示四维 PASS 率 + 各维 κ_d + 「待人工抽检」清单（分层结果）；监管语言维显式标「人工最终拍板」徽标，呼应 B 节红线。
诚实标注：sarEvalSuite.ts 头注明确——v1 无 LLM key 时仅 faithfulness 确定性预检 + 完整性段落守卫可跑，κ 校准与三个语义维评分待 P3 LLM 接入 + 真实 2-3 人标注后开启；绝不用 LLM 模拟标注者替代人工抽检（「Lost in Simulation」2026-01 是硬约束，写进头注）；SAR 质量基线数字为设计目标 + Co-Investigator AI 锚定，非真实评测结果。

参考资料

arXiv 2601.17087 — Lost in Simulation: LLM-Simulated Users are Unreliable Proxies for Human Users in Agentic Evaluations（Seshadri, Cahyawijaya, Odumakinde, Singh, Goldfarb-Tarrant）：模拟用户 ECE 15.1%；SAE 50.6%/ECE 11.7 vs AAVE 39.4%/ECE 20.3；高估中等难度、低估最难任务；模拟器 over-polite/more willing to adopt suggestions；「systems optimized for simulated users may appear robust in benchmarks while failing disproportionately for real users」(2026-01)
FutureAGI — LLM-as-Judge Best Practices in 2026: Calibration, Bias, and Cost：抽 100-300（gold-set 200-500）production traces，2-3 人按 rubric 标注算 inter-annotator κ；judge×人工同尺度算 κ；κ_human<0.4 rubric 模糊须重写、0.4-0.6 弱但可调；两标注者用 Cohen's κ、三者以上用 Krippendorff's α；生产采样 5-20%，每月对 gold-set 算 κ 并告警漂移 (2026)
arXiv 2510.09738 — Judge's Verdict: A Comprehensive Analysis of LLM Judge Capability Through Human Agreement：用 Cohen's κ 量 judge×人工实际一致（非仅相关）；动态群组 human-likeness z-score 检验；两层卓越标准分离「类人变异」与「超一致可靠」(2025-10)
本仓库 Day 17 src/aml/judgeCalibration.ts（κ 公式 / 准入门 / κ_human 前置 / 漂移监控）、Day 85 src/aml/sarRubric.ts（四维 + faithfulnessPrecheck）、src/aml/evalBaseline.ts（聚合口径）、src/components/aml/AmlEvalsPanel.tsx（评测面板）、Day 18 人工抽检协议 (2026-06)

SOTA 检查 (2026-06-11)

「judge 必须经 κ 校准 + 人工抽检保留在关键评分」是 2026-06 稳固工程纪律：FutureAGI（2026）、Judge's Verdict（2025-10）口径一致——抽 100-500 trace、2-3 人标注算 κ_human、judge×人工同尺度算 κ、每月查漂移。本笔记的分层抽样是其上的成本优化，未推翻框架。
「LLM 模拟用户/标注者不可靠」是 live 且加强的证据：「Lost in Simulation」（2026-01）给出量化（ECE 15.1%、群体偏差 20.3%），比 Day 17 引的定性结论更硬；2026 持续有工作（如 Judge's Verdict 的 human-likeness 检验）强调 judge 须对齐真人而非自洽。这是本项目监管语言维保留人工的直接依据。
加权 κ / Krippendorff's α 是序数与多标注者场景的升温补充：FutureAGI 明确「两标注者 Cohen's κ、三者以上 Krippendorff's α」。本项目二元四维用普通 Cohen's κ 足够；若完整性做成 0-2 序数应切 weighted κ，三人标注可评估 Krippendorff's α，W 末校准时定。
过时认知警示：(1) 「judge 跑全量、人工随机抽 10%」在不均衡数据上是反模式——随机抽样把预算浪费在简单案，须分层；(2) 「用 LLM 当人工标注者省钱」在合规场景是危险捷径（「Lost in Simulation」2026-01）；(3) 「四维算一个综合 κ」会掩盖低托付维问题，须分维独立算。
待跟踪：(1) 真实 2-3 人标注到位后，验证各维 κ_human 是否 ≥0.6（监管语言维最可能模糊，须先修 rubric）；(2) 完整性是否切 0-2 序数 → 决定是否上 weighted κ；(3) Judge's Verdict（2025-10）的「两层卓越标准」是否值得引入区分「judge 类人」与「judge 超一致」，回填本 suite 设计。