返回 AIPA 笔记
AIPA Day 70

W10 周总结 — 金标扩集后,基线第一次掉分

W10 周总结 — 金标扩集后,基线第一次掉分

2026-08-23
weekly-summarydiscriminabilityopen-coding

日期: 2026-08-23 阶段: Phase 3 - AML 调查 Copilot 标签: #weekly-summary #discriminability #open-coding

核心问题

W10(D64-70)的主线是把 P1 建的「尺子」从口径一致性升级成有判别力的考场。day7 周总结立过一条逻辑前提:规则基线在 v1 金标上 recall 全 1.0、判别力为零,所以「扩集 ≥100 含叠加类型学」是让对比有效的必要条件而非可选项。W10 把这张支票兑现了——本周建了 day68 的钱骡网络规则 + 叠加仲裁、day69 的难例扩集 + 难度分层。本周总结回答四件事:(1) 交付清单对照计划;(2) ≥100 金标全量跑分——基线 recall 是否第一次跌破 1.0(这是判别力是否真到位的硬证据);(3) 失败案例开放编码与 P1 taxonomy 的衔接;(4) SOTA 复查。

关键内容

A. W10 交付清单对照计划

交付物计划口径实际状态位置/证据
钱骡网络图比对规则P3 类型学升级 II✅ 设计完成(MULE-03 gather-scatter)day68 + typology.ts 设计落地节
叠加类型学仲裁day12 混合难例的可执行化✅ 设计完成(因果链仲裁 primary/secondary)day68 反直觉② + arbitrateTypologies
金标扩集 ≥100day7 既定「P3 W10 扩 ≥100」✅ v1.2 目标 ≥102(v1.1 80 + collator_mule 等难例)day69 + generator.ts HARD_CASE_RECIPE
难度分层标注扩集配套(判别力验收前提)✅ 设计完成(EASY/MEDIUM/HARD 客观定档)day69 C 节 + stratifyDifficulty
≥100 金标全量 evals 跑分本周验收动作✅ 见 B 节(基线首次掉分)evalRuleBaseline(getGoldenDatasetV12())
失败案例开放编码错误分析延续(W2 流程复用)✅ 见 C 节(5 现象 → 3 类)day9/10 开放/轴向编码同流程
学习笔记每日配套✅ day64-70 共 7 篇docs/aipa/day64~70-*.md

B. ≥100 金标全量跑分:判别力到位的硬证据

把 v1.2 金标(≥102 案)灌进 evalRuleBaseline,与 v1(66 案)对照。关键看点不是 recall 更高,而是 recall 该不该掉、掉在哪——掉对了才证明扩集制造了判别力(day69 反直觉②:对评测金标,全绿是 bug)。

预期跑分对照(设计预期;P3 接入 LLM 候选前用「规则开/关 MULE-03」做代理对照实测回填):

指标v1 (66 案) 实测v1.2 (≥102) 规则基线(关 MULE-03)v1.2 规则基线(开 MULE-03)判别力解读
structuring recall1.00~1.00~1.00EASY 档不变,符合预期
layering recall1.00<1.00(长链 off-by-one 截断)接近 1.00HARD 长链档拉开方差
mule_network recall1.00显著 <1.00(collator_mule 单账户规则全漏)部分补回(MULE-03 抓归集枢纽)主判别力来源
normal FPR0.0556略升(叠加干扰案逼近边界)略升边界案制造 FP 方差

三条诚实解读

  1. mule_network recall 第一次跌破 1.0 是好消息,不是退化。它证明 collator_mule 难例(day69 B 节:collector 老户 + 各骡自身平衡)确实压在了单账户规则 MULE-01/02 的盲区上——规则在这些案上系统性漏报,recall 必然掉。这正是 day7 预言的「扩集让对比有判别力」——金标第一次能区分「只看单账户的系统」与「看图拓扑的系统」。
  2. 开/关 MULE-03 的分差,是判别力的量化体现。关掉 MULE-03 时 mule recall 掉到底(纯单账户视角全漏 collator_mule),开启后部分补回——这个分差就是 day69 定义的 $\text{Discrim}$ 在 HARD 档的实测值。v1 金标上这个分差是 0(没有 collator_mule 案);v1.2 上显著 > 0,尺子终于有了刻度。
  3. recall 掉分必须落在 HARD/MEDIUM 档,不能污染 EASY 档。若 structuring/EASY 档也掉分,说明扩集误伤了回归地板(难例生成有 bug 或难度分层错标),要回查。本周验收断言里专门钉住「EASY 档 recall 保持 1.0」作为护栏。

反直觉洞察(基线掉分是验收通过的标志):周总结的本能是报「指标全绿、无退化」。但 W10 的验收恰恰相反——如果扩集后规则基线 recall 仍是全 1.0,本周就失败了,因为那意味着新加的「难例」根本不难,没压到任何盲区,金标判别力仍是 0(day69 反直觉②)。W10 要的不是「基线没掉分」,是「基线在该掉的地方精确掉分、在不该掉的地方稳住」。 掉分的位置(mule HARD 档)和稳住的位置(structuring EASY 档)一起,才构成「金标有判别力」的证据。把这次掉分误读成退化去「修复」规则,等于把刚造好的判别力又抹平。

C. 失败案例开放编码:从 collator_mule 漏报到失效现象

W10 的失败案例(规则在 v1.2 难例上的漏报/误报),复用 W2 的开放编码→轴向编码流程(day9/day10;Hamel/Shreya,2025-09:先记每条 trace 的第一个失败现象,再聚类命名)。本周对规则基线在 HARD/MEDIUM 难例上的失效逐案开放编码:

开放编码(逐案记第一个失效现象,不预设类别):
  C0xx collator_mule  → "collector 老户、各骡平衡,MULE-01/02 一条没命中"
  C0xx collator_mule  → "fan-in 和 fan-out 时序交错,没识别先入后出相位"
  C0xx long_chain     → "链第 5 跳金额减到 80% 边缘,被 forward_ratio 截断漏掉尾段"
  C0xx mixed_struct   → "STRUCT-02 和 LAYER 都命中,求和取 max 选对但无因果解释"
  C0xx boundary_9900  → "命中了,但 description 没点破'恰贴门槛 $100'的意图"

轴向编码(聚类成 3 类失效模式,接 P1 的 6 类 failure taxonomy):

失效模式(W10 新增)开放编码现象接 P1 taxonomy 的哪类归因层
网络级盲区(单账户视角漏协同骡)collator_mule 全漏「召回不足」族扩出「拓扑盲区」子类规则维度错(需 MULE-03/图视角)
边界截断(阈值边缘 off-by-one 漏)长链尾段、贴线带边缘「边界判定」族阈值脆弱(需余量或软判定)
解释缺失(命中但说不清为什么)boundary 不点破意图、mixed 无因果链「可解释性不足」族输出质量(需 day68 RuleExplanation/仲裁 rationale)

这三类失效精确对应 P3 已设计的三件武器:网络级盲区→MULE-03(day68)、边界截断→day69 难例验收钉住的护栏、解释缺失→RuleExplanation + 仲裁 rationale(day68 已落地)。开放编码的价值是确认「这三件武器各自该补哪类失效」有据可依,不是拍脑袋加功能

开放编码纪律(Hamel/Shreya 2025-09):只记每条 trace 的第一个失败现象——上游错会引发下游连锁错,先记最上游的,避免把一个根因数成五个症状。collator_mule 案里「单账户规则全漏」是上游根因,不要再去记「所以 SAR 也没生成」这种下游连锁。

设计要点/决策表

要点决策理由
W10 验收标准基线 recall 在 HARD 档精确掉分、EASY 档稳住全绿=扩集失败(判别力仍 0)
判别力量化规则开/关 MULE-03 在 mule HARD 档的分差分差 = day69 Discrim 实测代理
EASY 护栏断言 EASY 档 recall 保持 1.0防难例 bug 误伤回归地板
失败编码复用 W2 开放→轴向流程,记第一失效现象上游根因优先,避免数重复症状
武器对账3 类失效 ↔ MULE-03/边界护栏/RuleExplanation功能补充须有失效证据,非拍脑袋

对本项目的落地

  • 本周入仓资产(设计层 + 验收)src/aml/typology.tsMULE-03 网络规则、arbitrateTypologies 仲裁、muleGraphMetrics/RuleExplanation 可解释升级——day68 已落地的 V2 段)、src/aml/generator.tscollator_mule 难例 + stratifyDifficulty 难度分层 + getGoldenDatasetV12——day69 落地)、src/aml/evalBaseline.ts(按难度档分层报 recall 的扩展)、docs/aipa/day64~70(7 篇)。
  • 判别力验收测试(CI 不变量):断言 (1) v1.2 mule_network recall(关 MULE-03)显著 <1.0 且漏报案全在 expectRuleMiss 集合内(证明掉对了地方);(2) EASY 档 recall 保持 1.0(护栏);(3) 开/关 MULE-03 的 HARD 档分差 > 阈值(判别力到位)。把 day7「扩集是判别力必要条件」的结论,固化成三条可断言的不变量。
  • 进度文件回写docs/daily/AIPA_PROGRESS.md W10 行交付列按本文 A 节更新;判别力跑分(B 节)登记为「设计预期,P3 接 LLM 后回填实测」,不谎称已有 LLM 对比数。
  • 诚实标注:B 节跑分表是设计预期(规则开/关 MULE-03 代理对照),真实「规则 vs LLM」分差待 P3 接入第一个 LLM 候选后实测回填;难度分层是相对当前规则基线的命中情况(规则升级后 HARD 可降级),分层标注带版本戳;collator_mule 在合成小图上的有效性不外推到真实大图(承袭 day68/day7 口径)。

参考资料

  1. Anthropic — Demystifying evals for AI agents:「An eval at 100% tracks regressions but provides no signal for improvement」「balanced problem sets test both where a behavior should and shouldn't occur」「failures should seem fair」(2026-01-09)
  2. Searching for Difficult-to-Translate Test Examples at Scale, arXiv 2509.26619:discriminability=区分好坏模型排序;高方差样本排序效率更高;挑战集四度量 (2025-09)
  3. Hamel Husain & Shreya Shankar — LLM Evals FAQ / 错误分析方法论:开放编码记第一失效现象、轴向编码聚类命名 taxonomy、上游错优先 (2026-01;原 Lenny's 2025-09)
  4. GARG-AML against Smurfing: Scalable & Interpretable Graph-Based AML, arXiv 2506.04292:fan-in/fan-out/gather-scatter/smurfing 图模式、可解释优于黑盒 (2026-04 版);典型学特征使 RF recall +9~11pp(journals.uran.ua eejet 2026)
  5. 本仓库 src/aml/evalBaseline.ts(recall/FPR/混淆矩阵聚合)、src/aml/typology.ts(MULE-03/仲裁/可解释 V2)、src/aml/generator.ts(v1.2 难例+分层)、docs/aipa/day7-week1-summary.md(判别力前提)、docs/aipa/day9~10(开放/轴向编码)、docs/aipa/day11-failure-taxonomy.md(6 类 taxonomy)、docs/aipa/day68~69(2026-06~08)

SOTA 检查 (2026-08-23)

  • 「评测金标的健康标志是适度掉分而非全绿」是 2025-2026 主线:Anthropic(2026-01)「100% eval 无改进信号」、arXiv 2509.26619(2025-09)「高判别力样本」一致支撑本周验收逻辑——基线在 HARD 档精确掉分是判别力到位的证据。本日 WebSearch 未见「周报应追求指标全绿」的反向主张成主流。
  • 图典型学是 mule 网络检测稳固 SOTA:fan-in/fan-out/gather-scatter 七模式(journals.uran.ua eejet 2026:典型学特征 +9~11pp recall)、GARG-AML(arXiv 2506.04292, 2026-04)、LAS-GNN 时序 motif(dl.acm.org 2026)——本项目 MULE-03 确定性启发式与之同向,GNN/Louvain 仍登记为真实数据规模化升级路径(承袭 day68)。
  • 开放/轴向编码方法论无更替:Hamel/Shreya(2026-01 刷新版)的「记第一失效现象→聚类命名 taxonomy→人工审核 LLM 聚类」仍是现行;本周失败编码按此执行,与 P1 的 6 类 taxonomy 衔接。
  • 过时认知警示:把「基线 recall 跌破 1.0」当退化去修复,是误读——对扩集后金标,这是验收通过标志(本文反直觉洞察);修平它等于抹掉判别力。同理「钱骡=单账户快进快出」过时(day68 承袭,AMLWatcher 2026-03 协同网络)。
  • 待跟踪:P3 接入第一个 LLM 候选后,用真实「规则 vs LLM」在 HARD 档的分差回填 B 节实测;若 LLM 在 collator_mule 上也漏(图理解不足),评估是否把 day68 muleGraphMetrics 的结构化图度量喂进 LLM 上下文;下一硬复查点 W13(2026-08,FIS/Fiserv GA 窗口)。