返回 AIPA 笔记
AIPA Day 86

SAR eval suite — judge×人工抽检的分层校准,与「LLM 模拟用户不可靠」的红线

SAR eval suite — judge×人工抽检的分层校准,与「LLM 模拟用户不可靠」的红线

2026-09-08
eval-suitejudge-human-agreementcohens-kappahuman-in-the-loop

日期: 2026-09-08 阶段: Phase 3 - AML 调查 Copilot 标签: #eval-suite #judge-human-agreement #cohens-kappa #human-in-the-loop

核心问题

Day 85 立了四维 SAR 质量 rubric(完整性/事实忠实/类型学引用/监管语言)和四段式 judge prompt。但 Day 17 已经把丑话说在前头:judge 给的分,未经 κ 校准不许信。今天把「四维 rubric」从一份 prompt 变成一套可运行的 eval suite——它要回答三件事:

  1. judge×人工抽检怎么做才省钱又可信? 全量人工标注 SAR 不现实(合规官时间贵),但全自动 judge 又不可信。直觉是「judge 跑全量,人工随机抽 10% 复核」——今天证明随机抽样是错的,必须分层抽样,且抽样比例对四维不该一样。
  2. 哪些维度的评分可以放心交 judge,哪些必须保留人工? 这不是「judge 都能评」或「都不能评」的二元问题——四维各自的「judge 可托付度」不同。
  3. κ 校准复用 Day 17 的 judgeCalibration.ts,但 SAR 四维带来什么新问题? 二元 κ 够不够,序数维度要不要加权 κ。

核心红线先抛出来:关键评分必须保留人工抽检,不能用 LLM 模拟标注者替代——这不是保守,是 2026-01 的硬证据。「Lost in Simulation」(arXiv 2601.17087, 2026-01)实测 LLM 模拟用户的期望校准误差(ECE)高达 15.1%,且对方言/年龄群体有最高 20.3% 的系统性偏差。在合规场景,用 LLM 模拟「人工标注者」去校准 judge,等于用一面哈哈镜去校准另一面哈哈镜。

关键内容

A. 分层抽样:为什么不能随机抽 10%,四维抽样比例为何不同

eval suite 的成本结构是:judge 跑全量(便宜,~80 案 V11 数据集),人工抽检子集(贵,合规官逐案读)。问题在抽哪些案子给人工

随机抽样(禁止):从 80 案随机抽 10% = 8 案给人工。问题——AML 数据集极不均衡(Day 17 已论证:绝大多数案是「可提交/normal」,真正难判的边界案稀疏)。随机抽 8 案大概率全落在「judge 和人工都觉得简单」的多数类上,人工复核它们 = 浪费预算证明「简单的 judge 也对」,而最该被人工盯住的边界案(judge 最可能错的地方)被漏掉

分层抽样(正确):按 judge 的不确定性判定结果分层,对高风险层超额抽样:

分层定义人工抽检比例理由
judge 判 FAIL 的案任一维 judge 给 FAIL100%FAIL 直接影响 SAR 能否提交,错判代价最高
judge 低置信案judge 分贴近维度阈值(Day 80 MEDIUM 档)~50%边界案是 judge 最可能错的地方
judge 高置信 PASS四维全 PASS 且远离阈值~10% 随机多数类,抽样仅为监控漂移

这把人工预算从「均匀撒」改成「投到 judge 最可能错的地方」。本质和 Day 18 的人工抽检协议、Day 12 的 targeted hard cases 是同一思路——人工是稀缺资源,要花在信息量最大的样本上,而非随机。

反直觉洞察①(随机抽样在不均衡数据上是「证明显然的东西」,把预算浪费在最不需要复核的地方):直觉是「随机抽样无偏,最公平」。但在 AML 这种多数类压倒性的分布里,随机抽样的「无偏」恰恰是缺陷——它按总体分布抽,于是 90% 的人工预算花在「judge 和人工都一眼判对」的简单案上,对 κ 的提升贡献几乎为零(这些案 $p_o$ 本就高)。真正决定 κ 可信度的是边界案和 FAIL 案——judge 在这里出错、人工分歧也在这里。分层抽样不是为了无偏估计总体,是为了把校准信号最强的样本喂给最贵的标注者。 随机的「公平」在不均衡数据上等于「把钱花在不需要花的地方」。

B. 四维的 judge 可托付度不同:哪维交 judge、哪维守人工

「关键评分保留人工」不是说四维都不能用 judge——而是四维的可托付度不同,要分维决策。判据是:该维有多少能被确定性预检兜住 + 错判代价多高

维度judge 可托付度处置依据
事实忠实 (faithfulness)(大半可确定性预检)judge 兜语义歪曲,数值溯源走代码预检(Day 85 faithfulnessPrecheck幻觉是 critical,但「数值有无对应」是确定性的
完整性 (completeness)judge 评 + 段落非空下界守卫;judge 分进 κ 校准「六要素是否实质覆盖」需语义判断
类型学引用 (typology grounding)judge 评 + 规则引擎 hits 作参照;判 FAIL 必人工复核涉及「核心链是否齐全」,错判=漏报
监管语言 (regulatory tone)低(关键评分,红线)judge 仅作初筛,最终判定保留人工,不进自动通过通道「examiner-ready」是监管主观判断,judge 易被流畅文本骗

监管语言维是红线——它最像「LLM 模拟人类判断」会翻车的地方。「Lost in Simulation」(2026-01)的核心发现:模拟用户系统性高估中等难度、低估最难任务,且「over-polite, more willing to adopt suggestions」——一个被训得圆滑的 judge,会把文笔流畅但实质投机的 SAR 误判为「examiner-ready」,恰如它对 AAVE 群体的 ECE 飙到 20.3%。监管语言的「合规腔调」判断必须留人工最终拍板。

反直觉洞察②(judge 最危险的不是「评不准」,是「在它最自信的维度上系统性偏向流畅文本」):直觉是「judge 在难维度上不准,在简单维度上可信」。但「Lost in Simulation」(2026-01)揭示更阴险的模式——judge/模拟器在中等难度上过度自信地高估(不是随机噪声,是系统性偏移)。映射到 SAR:监管语言维上,一份辞藻华丽但充满「我推测/很可能」投机措辞的叙述,judge 会因为「读起来专业」而高分,而真正 examiner-ready 的是朴素、事实化、不加修饰的陈述。judge 的训练偏好(流畅、礼貌、顺从)与监管要求(克制、客观、可证伪)正好相反。这就是为什么这一维不能全自动——judge 的系统性偏向恰好顶在监管红线上。

C. κ 校准复用 Day 17,但四维带来加权 κ 的新问题

校准机制完全复用 Day 17 的 judgeCalibration.ts:$\kappa = (p_o - p_e)/(1 - p_e)$,judge 准入门 κ≥0.6,先算人工间 $\kappa_{human}$ 确认 rubric 不模糊,每月重抽样查漂移。但 SAR 四维带来两个 Day 17 没遇到的细节:

(1) 四维各自独立校准,不算综合 κ。 每维 PASS/FAIL 是独立标签,对每维分别算 $\kappa_d$。某维 $\kappa_d < 0.6$ 则该维 judge 分仅记录、不进 CI gate(呼应 Day 85「正交维度各自达标」)。综合一个总 κ 会把高托付维(faithfulness)的高 κ 和低托付维(regulatory tone)的低 κ 平均掉,掩盖问题。

(2) 序数维度要不要加权 κ。 若某维做成 0-2 序数(如完整性:0=缺多项/1=缺一项/2=齐全)而非二元 PASS/FAIL,普通 Cohen's κ 会把「judge 给 1、人工给 2」和「judge 给 0、人工给 2」当成同样的「不一致」——但前者只差一档、后者差两档,惩罚不该一样。此时应切加权 κ(weighted kappa):相邻档分歧惩罚轻于跨档(Day 17 SOTA 检查已留此伏笔)。

抽检与校准的状态机(把 A 节分层、B 节分维、C 节 κ 串起来):

   ┌────────────────────────────────────────────────┐
   │ [全量] judge 跑 80 案 V11 数据集,四维各出 PASS/FAIL │
   └───────────────────────┬────────────────────────┘
                           ▼
   ┌────────────────────────────────────────────────┐
   │ [分层抽样] 按 A 节比例抽人工子集                  │
   │   FAIL 案 100% / 边界案 50% / 高置信 10%          │
   └───────────────────────┬────────────────────────┘
                           ▼
   ┌────────────────────────────────────────────────┐
   │ [人工抽检] 2-3 名合规官独立标注(双盲,承 Day 17)   │
   │   关键: 监管语言维由人工最终拍板,不用 LLM 模拟    │ ◄── 红线
   └───────────────────────┬────────────────────────┘
                           ▼
   ┌────────────────────────────────────────────────┐
   │ [校准] 对每维 d 算 κ_d (复用 judgeCalibration)    │
   │   先验 κ_human,d ≥ 0.6 (rubric 不模糊)            │
   │   序数维 → weighted kappa                         │
   └───────────────────────┬────────────────────────┘
              ┌────────────┴────────────┐
         κ_d ≥ 0.6                  κ_d < 0.6
         该维进 CI gate           该维仅记录 + 回 Day 85 改 rubric
                           │
                           ▼
              [运营] 每月重抽样算 κ,跌破即该维降级回人工

SAR 质量基线指标表(v1 设计目标 + Co-Investigator AI 锚定,真实数字 W 末回填):

指标v1 目标锚定说明
完整性 PASS 率≥ 0.85Co-Investigator AI 特定类型学 87%(2025-09)规则模板天然保证六段,PASS 率高
事实忠实 PASS 率= 1.0代码预检兜底(hallucination=critical)数值不可溯源直接 FAIL,规则 SAR 应全过
judge×人工 κ(各维)≥ 0.6FutureAGI substantial(2026)未达标维不进 CI gate
人工间 κ_human(各维)≥ 0.6同上(前置:rubric 不模糊)低于此先修 rubric(Day 17)
人工抽检覆盖FAIL 100% / 边界 50% / 其余 10%分层抽样(A 节)非随机,投向信息量最大样本

设计要点/决策表

要点决策理由
抽样分层(FAIL 100%/边界 50%/高置信 10%),非随机不均衡数据上随机抽样浪费预算在简单案
分维托付faithfulness 高/completeness 中/typology 中/tone 低各维可确定性兜底程度 + 错判代价不同
监管语言维judge 仅初筛,人工最终拍板,不入自动通道judge 系统性偏向流畅文本,顶在监管红线上
模拟标注者禁用 LLM 模拟人工标注者校准 judge「Lost in Simulation」ECE 15.1%、群体偏差 20.3%(2026-01)
κ 校准复用 Day 17 judgeCalibration,四维各自独立算综合 κ 掩盖低托付维的问题
序数维 κ若维度做 0-2 序数 → weighted kappa相邻档分歧惩罚应轻于跨档
漂移每月重抽样算各维 κ,跌破即该维降级回人工judge 非一次校准永久可信(Day 17)

对本项目的落地

  • 计划新建 src/aml/sarEvalSuite.ts:导出 runSarEval(dataset, judge) → SarEvalReport——对 80 案 V11 跑四维 judge(无 key 时降级,承 Day 85),按 A 节分层标出需人工抽检的子集(needsHumanReview: { caseId, dim, reason }[]),输出每维 PASS 率 + 待校准标记。stratifySample(report) → CaseId[] 实现 FAIL 100%/边界 50%/高置信 10% 的分层抽样。
  • 复用 Day 17 judgeCalibration.tssarEvalSuitecohensKappa(judgeLabels_d, humanLabels_d) 对四维各自算 κ_d;新增 weightedKappa(judge, human, weights) 分支供序数维(若完整性做成 0-2)。人工金标从 V11 抽检子集落 src/aml/__tests__/sarGold.ts 内嵌常量(同 judgeGold.ts 模式,Day 17)。
  • CI gate 分维门控:测试断言每维 κ_d ≥ 0.6 才允许该维 judge 分进 evalBaseline 聚合;某维 κ_d < 0.6 时该维仅记录、不阻断 merge——把「四维独立校准」从主张落成可验证断言。
  • AmlEvalsPanel 加 SAR 质量页签:展示四维 PASS 率 + 各维 κ_d + 「待人工抽检」清单(分层结果);监管语言维显式标「人工最终拍板」徽标,呼应 B 节红线。
  • 诚实标注sarEvalSuite.ts 头注明确——v1 无 LLM key 时仅 faithfulness 确定性预检 + 完整性段落守卫可跑,κ 校准与三个语义维评分待 P3 LLM 接入 + 真实 2-3 人标注后开启;绝不用 LLM 模拟标注者替代人工抽检(「Lost in Simulation」2026-01 是硬约束,写进头注);SAR 质量基线数字为设计目标 + Co-Investigator AI 锚定,非真实评测结果。

参考资料

  1. arXiv 2601.17087 — Lost in Simulation: LLM-Simulated Users are Unreliable Proxies for Human Users in Agentic Evaluations(Seshadri, Cahyawijaya, Odumakinde, Singh, Goldfarb-Tarrant):模拟用户 ECE 15.1%;SAE 50.6%/ECE 11.7 vs AAVE 39.4%/ECE 20.3;高估中等难度、低估最难任务;模拟器 over-polite/more willing to adopt suggestions;「systems optimized for simulated users may appear robust in benchmarks while failing disproportionately for real users」(2026-01)
  2. FutureAGI — LLM-as-Judge Best Practices in 2026: Calibration, Bias, and Cost:抽 100-300(gold-set 200-500)production traces,2-3 人按 rubric 标注算 inter-annotator κ;judge×人工同尺度算 κ;κ_human<0.4 rubric 模糊须重写、0.4-0.6 弱但可调;两标注者用 Cohen's κ、三者以上用 Krippendorff's α;生产采样 5-20%,每月对 gold-set 算 κ 并告警漂移 (2026)
  3. arXiv 2510.09738 — Judge's Verdict: A Comprehensive Analysis of LLM Judge Capability Through Human Agreement:用 Cohen's κ 量 judge×人工实际一致(非仅相关);动态群组 human-likeness z-score 检验;两层卓越标准分离「类人变异」与「超一致可靠」(2025-10)
  4. 本仓库 Day 17 src/aml/judgeCalibration.ts(κ 公式 / 准入门 / κ_human 前置 / 漂移监控)、Day 85 src/aml/sarRubric.ts(四维 + faithfulnessPrecheck)、src/aml/evalBaseline.ts(聚合口径)、src/components/aml/AmlEvalsPanel.tsx(评测面板)、Day 18 人工抽检协议 (2026-06)

SOTA 检查 (2026-06-11)

  • 「judge 必须经 κ 校准 + 人工抽检保留在关键评分」是 2026-06 稳固工程纪律:FutureAGI(2026)、Judge's Verdict(2025-10)口径一致——抽 100-500 trace、2-3 人标注算 κ_human、judge×人工同尺度算 κ、每月查漂移。本笔记的分层抽样是其上的成本优化,未推翻框架。
  • 「LLM 模拟用户/标注者不可靠」是 live 且加强的证据:「Lost in Simulation」(2026-01)给出量化(ECE 15.1%、群体偏差 20.3%),比 Day 17 引的定性结论更硬;2026 持续有工作(如 Judge's Verdict 的 human-likeness 检验)强调 judge 须对齐真人而非自洽。这是本项目监管语言维保留人工的直接依据。
  • 加权 κ / Krippendorff's α 是序数与多标注者场景的升温补充:FutureAGI 明确「两标注者 Cohen's κ、三者以上 Krippendorff's α」。本项目二元四维用普通 Cohen's κ 足够;若完整性做成 0-2 序数应切 weighted κ,三人标注可评估 Krippendorff's α,W 末校准时定。
  • 过时认知警示:(1) 「judge 跑全量、人工随机抽 10%」在不均衡数据上是反模式——随机抽样把预算浪费在简单案,须分层;(2) 「用 LLM 当人工标注者省钱」在合规场景是危险捷径(「Lost in Simulation」2026-01);(3) 「四维算一个综合 κ」会掩盖低托付维问题,须分维独立算。
  • 待跟踪:(1) 真实 2-3 人标注到位后,验证各维 κ_human 是否 ≥0.6(监管语言维最可能模糊,须先修 rubric);(2) 完整性是否切 0-2 序数 → 决定是否上 weighted κ;(3) Judge's Verdict(2025-10)的「两层卓越标准」是否值得引入区分「judge 类人」与「judge 超一致」,回填本 suite 设计。