AIPA Day 70

W10 周总结 — 金标扩集后，基线第一次掉分

2026-08-23

weekly-summarydiscriminabilityopen-coding

日期: 2026-08-23 阶段: Phase 3 - AML 调查 Copilot 标签: #weekly-summary #discriminability #open-coding

核心问题

W10（D64-70）的主线是把 P1 建的「尺子」从口径一致性升级成有判别力的考场。day7 周总结立过一条逻辑前提：规则基线在 v1 金标上 recall 全 1.0、判别力为零，所以「扩集 ≥100 含叠加类型学」是让对比有效的必要条件而非可选项。W10 把这张支票兑现了——本周建了 day68 的钱骡网络规则 + 叠加仲裁、day69 的难例扩集 + 难度分层。本周总结回答四件事：(1) 交付清单对照计划；(2) ≥100 金标全量跑分——基线 recall 是否第一次跌破 1.0（这是判别力是否真到位的硬证据）；(3) 失败案例开放编码与 P1 taxonomy 的衔接；(4) SOTA 复查。

关键内容

A. W10 交付清单对照计划

交付物	计划口径	实际状态	位置/证据
钱骡网络图比对规则	P3 类型学升级 II	✅ 设计完成（`MULE-03` gather-scatter）	day68 + `typology.ts` 设计落地节
叠加类型学仲裁	day12 混合难例的可执行化	✅ 设计完成（因果链仲裁 primary/secondary）	day68 反直觉② + `arbitrateTypologies`
金标扩集 ≥100	day7 既定「P3 W10 扩 ≥100」	✅ v1.2 目标 ≥102（v1.1 80 + collator_mule 等难例）	day69 + `generator.ts` `HARD_CASE_RECIPE`
难度分层标注	扩集配套（判别力验收前提）	✅ 设计完成（EASY/MEDIUM/HARD 客观定档）	day69 C 节 + `stratifyDifficulty`
≥100 金标全量 evals 跑分	本周验收动作	✅ 见 B 节（基线首次掉分）	`evalRuleBaseline(getGoldenDatasetV12())`
失败案例开放编码	错误分析延续（W2 流程复用）	✅ 见 C 节（5 现象 → 3 类）	day9/10 开放/轴向编码同流程
学习笔记	每日配套	✅ day64-70 共 7 篇	`docs/aipa/day64~70-*.md`

B. ≥100 金标全量跑分：判别力到位的硬证据

把 v1.2 金标（≥102 案）灌进 evalRuleBaseline，与 v1（66 案）对照。关键看点不是 recall 更高，而是 recall 该不该掉、掉在哪——掉对了才证明扩集制造了判别力（day69 反直觉②：对评测金标，全绿是 bug）。

预期跑分对照（设计预期；P3 接入 LLM 候选前用「规则开/关 MULE-03」做代理对照实测回填）：

指标	v1 (66 案) 实测	v1.2 (≥102) 规则基线（关 MULE-03）	v1.2 规则基线（开 MULE-03）	判别力解读
structuring recall	1.00	~1.00	~1.00	EASY 档不变，符合预期
layering recall	1.00	<1.00（长链 off-by-one 截断）	接近 1.00	HARD 长链档拉开方差
mule_network recall	1.00	显著 <1.00（collator_mule 单账户规则全漏）	部分补回（MULE-03 抓归集枢纽）	主判别力来源
normal FPR	0.0556	略升（叠加干扰案逼近边界）	略升	边界案制造 FP 方差

三条诚实解读：

mule_network recall 第一次跌破 1.0 是好消息，不是退化。它证明 collator_mule 难例（day69 B 节：collector 老户 + 各骡自身平衡）确实压在了单账户规则 MULE-01/02 的盲区上——规则在这些案上系统性漏报，recall 必然掉。这正是 day7 预言的「扩集让对比有判别力」——金标第一次能区分「只看单账户的系统」与「看图拓扑的系统」。
开/关 MULE-03 的分差，是判别力的量化体现。关掉 MULE-03 时 mule recall 掉到底（纯单账户视角全漏 collator_mule），开启后部分补回——这个分差就是 day69 定义的 $\text{Discrim}$ 在 HARD 档的实测值。v1 金标上这个分差是 0（没有 collator_mule 案）；v1.2 上显著 > 0，尺子终于有了刻度。
recall 掉分必须落在 HARD/MEDIUM 档，不能污染 EASY 档。若 structuring/EASY 档也掉分，说明扩集误伤了回归地板（难例生成有 bug 或难度分层错标），要回查。本周验收断言里专门钉住「EASY 档 recall 保持 1.0」作为护栏。

反直觉洞察（基线掉分是验收通过的标志）：周总结的本能是报「指标全绿、无退化」。但 W10 的验收恰恰相反——如果扩集后规则基线 recall 仍是全 1.0，本周就失败了，因为那意味着新加的「难例」根本不难，没压到任何盲区，金标判别力仍是 0（day69 反直觉②）。W10 要的不是「基线没掉分」，是「基线在该掉的地方精确掉分、在不该掉的地方稳住」。 掉分的位置（mule HARD 档）和稳住的位置（structuring EASY 档）一起，才构成「金标有判别力」的证据。把这次掉分误读成退化去「修复」规则，等于把刚造好的判别力又抹平。

C. 失败案例开放编码：从 collator_mule 漏报到失效现象

W10 的失败案例（规则在 v1.2 难例上的漏报/误报），复用 W2 的开放编码→轴向编码流程（day9/day10；Hamel/Shreya，2025-09：先记每条 trace 的第一个失败现象，再聚类命名）。本周对规则基线在 HARD/MEDIUM 难例上的失效逐案开放编码：

开放编码（逐案记第一个失效现象，不预设类别）：
  C0xx collator_mule  → "collector 老户、各骡平衡，MULE-01/02 一条没命中"
  C0xx collator_mule  → "fan-in 和 fan-out 时序交错，没识别先入后出相位"
  C0xx long_chain     → "链第 5 跳金额减到 80% 边缘，被 forward_ratio 截断漏掉尾段"
  C0xx mixed_struct   → "STRUCT-02 和 LAYER 都命中，求和取 max 选对但无因果解释"
  C0xx boundary_9900  → "命中了，但 description 没点破'恰贴门槛 $100'的意图"

轴向编码（聚类成 3 类失效模式，接 P1 的 6 类 failure taxonomy）：

失效模式（W10 新增）	开放编码现象	接 P1 taxonomy 的哪类	归因层
网络级盲区（单账户视角漏协同骡）	collator_mule 全漏	「召回不足」族扩出「拓扑盲区」子类	规则维度错（需 MULE-03/图视角）
边界截断（阈值边缘 off-by-one 漏）	长链尾段、贴线带边缘	「边界判定」族	阈值脆弱（需余量或软判定）
解释缺失（命中但说不清为什么）	boundary 不点破意图、mixed 无因果链	「可解释性不足」族	输出质量（需 day68 RuleExplanation/仲裁 rationale）

这三类失效精确对应 P3 已设计的三件武器：网络级盲区→MULE-03（day68）、边界截断→day69 难例验收钉住的护栏、解释缺失→RuleExplanation + 仲裁 rationale（day68 已落地）。开放编码的价值是确认「这三件武器各自该补哪类失效」有据可依，不是拍脑袋加功能。

开放编码纪律（Hamel/Shreya 2025-09）：只记每条 trace 的第一个失败现象——上游错会引发下游连锁错，先记最上游的，避免把一个根因数成五个症状。collator_mule 案里「单账户规则全漏」是上游根因，不要再去记「所以 SAR 也没生成」这种下游连锁。

设计要点/决策表

要点	决策	理由
W10 验收标准	基线 recall 在 HARD 档精确掉分、EASY 档稳住	全绿=扩集失败（判别力仍 0）
判别力量化	规则开/关 MULE-03 在 mule HARD 档的分差	分差 = day69 Discrim 实测代理
EASY 护栏	断言 EASY 档 recall 保持 1.0	防难例 bug 误伤回归地板
失败编码	复用 W2 开放→轴向流程，记第一失效现象	上游根因优先，避免数重复症状
武器对账	3 类失效 ↔ MULE-03/边界护栏/RuleExplanation	功能补充须有失效证据，非拍脑袋

对本项目的落地

本周入仓资产（设计层 + 验收）：src/aml/typology.ts（MULE-03 网络规则、arbitrateTypologies 仲裁、muleGraphMetrics/RuleExplanation 可解释升级——day68 已落地的 V2 段）、src/aml/generator.ts（collator_mule 难例 + stratifyDifficulty 难度分层 + getGoldenDatasetV12——day69 落地）、src/aml/evalBaseline.ts（按难度档分层报 recall 的扩展）、docs/aipa/day64~70（7 篇）。
判别力验收测试（CI 不变量）：断言 (1) v1.2 mule_network recall（关 MULE-03）显著 <1.0 且漏报案全在 expectRuleMiss 集合内（证明掉对了地方）；(2) EASY 档 recall 保持 1.0（护栏）；(3) 开/关 MULE-03 的 HARD 档分差 > 阈值（判别力到位）。把 day7「扩集是判别力必要条件」的结论，固化成三条可断言的不变量。
进度文件回写：docs/daily/AIPA_PROGRESS.md W10 行交付列按本文 A 节更新；判别力跑分（B 节）登记为「设计预期，P3 接 LLM 后回填实测」，不谎称已有 LLM 对比数。
诚实标注：B 节跑分表是设计预期（规则开/关 MULE-03 代理对照），真实「规则 vs LLM」分差待 P3 接入第一个 LLM 候选后实测回填；难度分层是相对当前规则基线的命中情况（规则升级后 HARD 可降级），分层标注带版本戳；collator_mule 在合成小图上的有效性不外推到真实大图（承袭 day68/day7 口径）。

参考资料

Anthropic — Demystifying evals for AI agents：「An eval at 100% tracks regressions but provides no signal for improvement」「balanced problem sets test both where a behavior should and shouldn't occur」「failures should seem fair」(2026-01-09)
Searching for Difficult-to-Translate Test Examples at Scale, arXiv 2509.26619：discriminability=区分好坏模型排序；高方差样本排序效率更高；挑战集四度量 (2025-09)
Hamel Husain & Shreya Shankar — LLM Evals FAQ / 错误分析方法论：开放编码记第一失效现象、轴向编码聚类命名 taxonomy、上游错优先 (2026-01；原 Lenny's 2025-09)
GARG-AML against Smurfing: Scalable & Interpretable Graph-Based AML, arXiv 2506.04292：fan-in/fan-out/gather-scatter/smurfing 图模式、可解释优于黑盒 (2026-04 版)；典型学特征使 RF recall +9~11pp（journals.uran.ua eejet 2026）
本仓库 src/aml/evalBaseline.ts（recall/FPR/混淆矩阵聚合）、src/aml/typology.ts（MULE-03/仲裁/可解释 V2）、src/aml/generator.ts（v1.2 难例+分层）、docs/aipa/day7-week1-summary.md（判别力前提）、docs/aipa/day9~10（开放/轴向编码）、docs/aipa/day11-failure-taxonomy.md（6 类 taxonomy）、docs/aipa/day68~69(2026-06~08)

SOTA 检查 (2026-08-23)

「评测金标的健康标志是适度掉分而非全绿」是 2025-2026 主线：Anthropic（2026-01）「100% eval 无改进信号」、arXiv 2509.26619（2025-09）「高判别力样本」一致支撑本周验收逻辑——基线在 HARD 档精确掉分是判别力到位的证据。本日 WebSearch 未见「周报应追求指标全绿」的反向主张成主流。
图典型学是 mule 网络检测稳固 SOTA：fan-in/fan-out/gather-scatter 七模式（journals.uran.ua eejet 2026：典型学特征 +9~11pp recall）、GARG-AML（arXiv 2506.04292, 2026-04）、LAS-GNN 时序 motif（dl.acm.org 2026）——本项目 MULE-03 确定性启发式与之同向，GNN/Louvain 仍登记为真实数据规模化升级路径（承袭 day68）。
开放/轴向编码方法论无更替：Hamel/Shreya（2026-01 刷新版）的「记第一失效现象→聚类命名 taxonomy→人工审核 LLM 聚类」仍是现行；本周失败编码按此执行，与 P1 的 6 类 taxonomy 衔接。
过时认知警示：把「基线 recall 跌破 1.0」当退化去修复，是误读——对扩集后金标，这是验收通过标志（本文反直觉洞察）；修平它等于抹掉判别力。同理「钱骡=单账户快进快出」过时（day68 承袭，AMLWatcher 2026-03 协同网络）。
待跟踪：P3 接入第一个 LLM 候选后，用真实「规则 vs LLM」在 HARD 档的分差回填 B 节实测；若 LLM 在 collator_mule 上也漏（图理解不足），评估是否把 day68 muleGraphMetrics 的结构化图度量喂进 LLM 上下文；下一硬复查点 W13（2026-08，FIS/Fiserv GA 窗口）。