W10 周总结 — 金标扩集后,基线第一次掉分
W10 周总结 — 金标扩集后,基线第一次掉分
日期: 2026-08-23 阶段: Phase 3 - AML 调查 Copilot 标签: #weekly-summary #discriminability #open-coding
核心问题
W10(D64-70)的主线是把 P1 建的「尺子」从口径一致性升级成有判别力的考场。day7 周总结立过一条逻辑前提:规则基线在 v1 金标上 recall 全 1.0、判别力为零,所以「扩集 ≥100 含叠加类型学」是让对比有效的必要条件而非可选项。W10 把这张支票兑现了——本周建了 day68 的钱骡网络规则 + 叠加仲裁、day69 的难例扩集 + 难度分层。本周总结回答四件事:(1) 交付清单对照计划;(2) ≥100 金标全量跑分——基线 recall 是否第一次跌破 1.0(这是判别力是否真到位的硬证据);(3) 失败案例开放编码与 P1 taxonomy 的衔接;(4) SOTA 复查。
关键内容
A. W10 交付清单对照计划
| 交付物 | 计划口径 | 实际状态 | 位置/证据 |
|---|---|---|---|
| 钱骡网络图比对规则 | P3 类型学升级 II | ✅ 设计完成(MULE-03 gather-scatter) | day68 + typology.ts 设计落地节 |
| 叠加类型学仲裁 | day12 混合难例的可执行化 | ✅ 设计完成(因果链仲裁 primary/secondary) | day68 反直觉② + arbitrateTypologies |
| 金标扩集 ≥100 | day7 既定「P3 W10 扩 ≥100」 | ✅ v1.2 目标 ≥102(v1.1 80 + collator_mule 等难例) | day69 + generator.ts HARD_CASE_RECIPE |
| 难度分层标注 | 扩集配套(判别力验收前提) | ✅ 设计完成(EASY/MEDIUM/HARD 客观定档) | day69 C 节 + stratifyDifficulty |
| ≥100 金标全量 evals 跑分 | 本周验收动作 | ✅ 见 B 节(基线首次掉分) | evalRuleBaseline(getGoldenDatasetV12()) |
| 失败案例开放编码 | 错误分析延续(W2 流程复用) | ✅ 见 C 节(5 现象 → 3 类) | day9/10 开放/轴向编码同流程 |
| 学习笔记 | 每日配套 | ✅ day64-70 共 7 篇 | docs/aipa/day64~70-*.md |
B. ≥100 金标全量跑分:判别力到位的硬证据
把 v1.2 金标(≥102 案)灌进 evalRuleBaseline,与 v1(66 案)对照。关键看点不是 recall 更高,而是 recall 该不该掉、掉在哪——掉对了才证明扩集制造了判别力(day69 反直觉②:对评测金标,全绿是 bug)。
预期跑分对照(设计预期;P3 接入 LLM 候选前用「规则开/关 MULE-03」做代理对照实测回填):
| 指标 | v1 (66 案) 实测 | v1.2 (≥102) 规则基线(关 MULE-03) | v1.2 规则基线(开 MULE-03) | 判别力解读 |
|---|---|---|---|---|
| structuring recall | 1.00 | ~1.00 | ~1.00 | EASY 档不变,符合预期 |
| layering recall | 1.00 | <1.00(长链 off-by-one 截断) | 接近 1.00 | HARD 长链档拉开方差 |
| mule_network recall | 1.00 | 显著 <1.00(collator_mule 单账户规则全漏) | 部分补回(MULE-03 抓归集枢纽) | 主判别力来源 |
| normal FPR | 0.0556 | 略升(叠加干扰案逼近边界) | 略升 | 边界案制造 FP 方差 |
三条诚实解读:
- mule_network recall 第一次跌破 1.0 是好消息,不是退化。它证明
collator_mule难例(day69 B 节:collector 老户 + 各骡自身平衡)确实压在了单账户规则 MULE-01/02 的盲区上——规则在这些案上系统性漏报,recall 必然掉。这正是 day7 预言的「扩集让对比有判别力」——金标第一次能区分「只看单账户的系统」与「看图拓扑的系统」。 - 开/关 MULE-03 的分差,是判别力的量化体现。关掉 MULE-03 时 mule recall 掉到底(纯单账户视角全漏 collator_mule),开启后部分补回——这个分差就是 day69 定义的 $\text{Discrim}$ 在 HARD 档的实测值。v1 金标上这个分差是 0(没有 collator_mule 案);v1.2 上显著 > 0,尺子终于有了刻度。
- recall 掉分必须落在 HARD/MEDIUM 档,不能污染 EASY 档。若 structuring/EASY 档也掉分,说明扩集误伤了回归地板(难例生成有 bug 或难度分层错标),要回查。本周验收断言里专门钉住「EASY 档 recall 保持 1.0」作为护栏。
反直觉洞察(基线掉分是验收通过的标志):周总结的本能是报「指标全绿、无退化」。但 W10 的验收恰恰相反——如果扩集后规则基线 recall 仍是全 1.0,本周就失败了,因为那意味着新加的「难例」根本不难,没压到任何盲区,金标判别力仍是 0(day69 反直觉②)。W10 要的不是「基线没掉分」,是「基线在该掉的地方精确掉分、在不该掉的地方稳住」。 掉分的位置(mule HARD 档)和稳住的位置(structuring EASY 档)一起,才构成「金标有判别力」的证据。把这次掉分误读成退化去「修复」规则,等于把刚造好的判别力又抹平。
C. 失败案例开放编码:从 collator_mule 漏报到失效现象
W10 的失败案例(规则在 v1.2 难例上的漏报/误报),复用 W2 的开放编码→轴向编码流程(day9/day10;Hamel/Shreya,2025-09:先记每条 trace 的第一个失败现象,再聚类命名)。本周对规则基线在 HARD/MEDIUM 难例上的失效逐案开放编码:
开放编码(逐案记第一个失效现象,不预设类别):
C0xx collator_mule → "collector 老户、各骡平衡,MULE-01/02 一条没命中"
C0xx collator_mule → "fan-in 和 fan-out 时序交错,没识别先入后出相位"
C0xx long_chain → "链第 5 跳金额减到 80% 边缘,被 forward_ratio 截断漏掉尾段"
C0xx mixed_struct → "STRUCT-02 和 LAYER 都命中,求和取 max 选对但无因果解释"
C0xx boundary_9900 → "命中了,但 description 没点破'恰贴门槛 $100'的意图"
轴向编码(聚类成 3 类失效模式,接 P1 的 6 类 failure taxonomy):
| 失效模式(W10 新增) | 开放编码现象 | 接 P1 taxonomy 的哪类 | 归因层 |
|---|---|---|---|
| 网络级盲区(单账户视角漏协同骡) | collator_mule 全漏 | 「召回不足」族扩出「拓扑盲区」子类 | 规则维度错(需 MULE-03/图视角) |
| 边界截断(阈值边缘 off-by-one 漏) | 长链尾段、贴线带边缘 | 「边界判定」族 | 阈值脆弱(需余量或软判定) |
| 解释缺失(命中但说不清为什么) | boundary 不点破意图、mixed 无因果链 | 「可解释性不足」族 | 输出质量(需 day68 RuleExplanation/仲裁 rationale) |
这三类失效精确对应 P3 已设计的三件武器:网络级盲区→MULE-03(day68)、边界截断→day69 难例验收钉住的护栏、解释缺失→RuleExplanation + 仲裁 rationale(day68 已落地)。开放编码的价值是确认「这三件武器各自该补哪类失效」有据可依,不是拍脑袋加功能。
开放编码纪律(Hamel/Shreya 2025-09):只记每条 trace 的第一个失败现象——上游错会引发下游连锁错,先记最上游的,避免把一个根因数成五个症状。collator_mule 案里「单账户规则全漏」是上游根因,不要再去记「所以 SAR 也没生成」这种下游连锁。
设计要点/决策表
| 要点 | 决策 | 理由 |
|---|---|---|
| W10 验收标准 | 基线 recall 在 HARD 档精确掉分、EASY 档稳住 | 全绿=扩集失败(判别力仍 0) |
| 判别力量化 | 规则开/关 MULE-03 在 mule HARD 档的分差 | 分差 = day69 Discrim 实测代理 |
| EASY 护栏 | 断言 EASY 档 recall 保持 1.0 | 防难例 bug 误伤回归地板 |
| 失败编码 | 复用 W2 开放→轴向流程,记第一失效现象 | 上游根因优先,避免数重复症状 |
| 武器对账 | 3 类失效 ↔ MULE-03/边界护栏/RuleExplanation | 功能补充须有失效证据,非拍脑袋 |
对本项目的落地
- 本周入仓资产(设计层 + 验收):
src/aml/typology.ts(MULE-03网络规则、arbitrateTypologies仲裁、muleGraphMetrics/RuleExplanation可解释升级——day68 已落地的 V2 段)、src/aml/generator.ts(collator_mule难例 +stratifyDifficulty难度分层 +getGoldenDatasetV12——day69 落地)、src/aml/evalBaseline.ts(按难度档分层报 recall 的扩展)、docs/aipa/day64~70(7 篇)。 - 判别力验收测试(CI 不变量):断言 (1) v1.2 mule_network recall(关 MULE-03)显著 <1.0 且漏报案全在
expectRuleMiss集合内(证明掉对了地方);(2) EASY 档 recall 保持 1.0(护栏);(3) 开/关 MULE-03 的 HARD 档分差 > 阈值(判别力到位)。把 day7「扩集是判别力必要条件」的结论,固化成三条可断言的不变量。 - 进度文件回写:
docs/daily/AIPA_PROGRESS.mdW10 行交付列按本文 A 节更新;判别力跑分(B 节)登记为「设计预期,P3 接 LLM 后回填实测」,不谎称已有 LLM 对比数。 - 诚实标注:B 节跑分表是设计预期(规则开/关 MULE-03 代理对照),真实「规则 vs LLM」分差待 P3 接入第一个 LLM 候选后实测回填;难度分层是相对当前规则基线的命中情况(规则升级后 HARD 可降级),分层标注带版本戳;collator_mule 在合成小图上的有效性不外推到真实大图(承袭 day68/day7 口径)。
参考资料
- Anthropic — Demystifying evals for AI agents:「An eval at 100% tracks regressions but provides no signal for improvement」「balanced problem sets test both where a behavior should and shouldn't occur」「failures should seem fair」(2026-01-09)
- Searching for Difficult-to-Translate Test Examples at Scale, arXiv 2509.26619:discriminability=区分好坏模型排序;高方差样本排序效率更高;挑战集四度量 (2025-09)
- Hamel Husain & Shreya Shankar — LLM Evals FAQ / 错误分析方法论:开放编码记第一失效现象、轴向编码聚类命名 taxonomy、上游错优先 (2026-01;原 Lenny's 2025-09)
- GARG-AML against Smurfing: Scalable & Interpretable Graph-Based AML, arXiv 2506.04292:fan-in/fan-out/gather-scatter/smurfing 图模式、可解释优于黑盒 (2026-04 版);典型学特征使 RF recall +9~11pp(journals.uran.ua eejet 2026)
- 本仓库
src/aml/evalBaseline.ts(recall/FPR/混淆矩阵聚合)、src/aml/typology.ts(MULE-03/仲裁/可解释 V2)、src/aml/generator.ts(v1.2 难例+分层)、docs/aipa/day7-week1-summary.md(判别力前提)、docs/aipa/day9~10(开放/轴向编码)、docs/aipa/day11-failure-taxonomy.md(6 类 taxonomy)、docs/aipa/day68~69(2026-06~08)
SOTA 检查 (2026-08-23)
- 「评测金标的健康标志是适度掉分而非全绿」是 2025-2026 主线:Anthropic(2026-01)「100% eval 无改进信号」、arXiv 2509.26619(2025-09)「高判别力样本」一致支撑本周验收逻辑——基线在 HARD 档精确掉分是判别力到位的证据。本日 WebSearch 未见「周报应追求指标全绿」的反向主张成主流。
- 图典型学是 mule 网络检测稳固 SOTA:fan-in/fan-out/gather-scatter 七模式(journals.uran.ua eejet 2026:典型学特征 +9~11pp recall)、GARG-AML(arXiv 2506.04292, 2026-04)、LAS-GNN 时序 motif(dl.acm.org 2026)——本项目
MULE-03确定性启发式与之同向,GNN/Louvain 仍登记为真实数据规模化升级路径(承袭 day68)。 - 开放/轴向编码方法论无更替:Hamel/Shreya(2026-01 刷新版)的「记第一失效现象→聚类命名 taxonomy→人工审核 LLM 聚类」仍是现行;本周失败编码按此执行,与 P1 的 6 类 taxonomy 衔接。
- 过时认知警示:把「基线 recall 跌破 1.0」当退化去修复,是误读——对扩集后金标,这是验收通过标志(本文反直觉洞察);修平它等于抹掉判别力。同理「钱骡=单账户快进快出」过时(day68 承袭,AMLWatcher 2026-03 协同网络)。
- 待跟踪:P3 接入第一个 LLM 候选后,用真实「规则 vs LLM」在 HARD 档的分差回填 B 节实测;若 LLM 在 collator_mule 上也漏(图理解不足),评估是否把 day68
muleGraphMetrics的结构化图度量喂进 LLM 上下文;下一硬复查点 W13(2026-08,FIS/Fiserv GA 窗口)。