AIPA Day 21

W3 周总结 — 三类 eval 齐备，尺子刻度成形

2026-07-05

weekly-summaryevalsci-gatesota-check

日期: 2026-07-05 阶段: Phase 1 - 产品定义×评测×可观测底座标签: #weekly-summary #evals #ci-gate #sota-check

核心问题

W1 命题是「尺子先于引擎」（PRD/金标/规则基线先就位）。W3 要证的是这把尺子长出了刻度：从 W1 的「布尔单点 recall 门槛」升级成 2026 行业口径的三类 eval 齐备（deterministic / rubric / composite，FutureAGI 2026-05 更新版）+ 阻断式 CI gate（Day 19）+ 可演示 evals 面板（Day 20）。本周总结回答四件事：(1) eval suite v2 三类齐备的复盘——三类各自管什么、本项目证据文件在哪；(2) 基线数字归档（通过率/一致率，长文#1 原料）；(3) 三类 eval 在本项目的分工证据；(4) W3 SOTA 复查（三类 eval 框架是否仍是 SOTA、τ²-bench/HAL 可靠性口径有无更新）。

关键内容

A. eval suite v2 三类齐备复盘（对照 2026 标准）

2026 已结晶出三类 eval：deterministic（确定性）/ rubric（LLM-judge 或 human）/ composite（复合），并在三个生命周期点运行——offline 对金标集、online 对生产流量、pre-merge 在 CI（FutureAGI, 2026-05；「evaluation moved from a research checkbox to a production gate」）。本项目 W3 把这套框架落到 AML Copilot：

eval 类	2026 通用定义	本项目实现（W3）	证据文件
deterministic	exact match / JSON 有效性 / 引用存在性 / 长度——零 judge 成本、完美可复现	typology 标签确定性比对、SAR 引用 ID 必须存在于案件交易、整数分不变量、混淆矩阵计数=66	`src/aml/evalBaseline.ts` + `src/aml/__tests__/aml.test.ts`（14 项断言）
rubric (judge/human)	faithfulness / 任务完成度——catch 语义质量，但有 per-call 成本与校准敏感	设计就位、P3 接 LLM 后启用：四段式 judge prompt 给 SAR 草稿打分；judge×人工一致率 ≥0.8 才进 CI	`docs/AML_COPILOT_PRD.md` 成功指标段 + Day 3 D 节约束（人工抽检兜底）
composite	加权组合：任务完成+faithfulness+延迟+成本 → 单一生产健康分	$/案件（成本）× recall（质量）× 一致率（judge 可信度）的复合门，进 Day 19 五道门	Day 19 `evalGate.ts` 设计 + 长文#1

三个生命周期点的本项目映射（与 Day 19「三人群分治」同构）：

  offline (金标集)        pre-merge (CI)              online (生产流量)
  getGoldenDataset()  ──► pnpm test + eval:gate  ──► [无后端→离线 A/B 存档]
  66 案确定性基线         退出码 2 挡 merge            P3 LLM vs 规则版同金标对比

反直觉洞察（三类不是三选一，是流水线上的三道滤网）：直觉上会想「哪类 eval 最准就用哪类」。但 2026 口径是三类各管一段、按成本递增串联——deterministic 在 CI 里 fail-fast（零成本拦掉格式/引用/不变量错误），rubric 只对确定性查不出的语义质量（SAR 草稿好不好）出手且要校准，composite 把质量+成本+延迟压成一个生产健康分。本项目 W3 的关键纪律：绝不用 rubric（贵、有方差）去查 deterministic 能查的东西（引用存在性用代码断言，不用 LLM judge）——这正是 Day 3 「凡能确定性断言的用代码不用 LLM」与 Day 19「LLM-judge 放在基础层第二个月就被禁用」的同一条经济学。

B. 基线数字归档（长文#1 原料，全部取自真实 CI 断言）

来自 evalRuleBaseline(getGoldenDataset())（与 aml.test.ts 断言同源），归档为长文#1《从 recall@k 到生产级 evals》的实测原料：

指标	W3 实测	CI 门槛（`aml.test.ts`）	余量	eval 类
structuring recall	1.00（n=18）	≥0.85	+0.15	deterministic
layering recall	1.00（n=15）	≥0.80	+0.20	deterministic
mule_network recall	1.00（n=15）	≥0.80	+0.20	deterministic
normal 误报率 FPR	0.0556（1/18）	≤0.15	余 0.094	deterministic
混淆矩阵计数和	66	=66（硬断言）	—	deterministic
judge×人工一致率	待 P3（占位）	≥0.80 才放行 judge	—	rubric
$/案件	0（规则版无 token）	上限待 W7 gateway 实测	—	composite

混淆矩阵：structuring→structuring 18；layering→layering 15；mule_network→mule_network 15；normal→normal 17；normal→structuring 1（Day 6 刻意保留的 FP：现金密集型商户营业款触发 STRUCT-01）。

归档时三条限定语一字不删（W1 周记已立、本周复用）：

recall 全 1.0 是口径一致性声明，不是性能声明——生成器与规则同源、共享窗口语义，满分证明"无 off-by-one"而非"真实准确"。
唯一 FP 是设计出来的，把 FPR 钉在非平凡值、给 P3 LLM 留超越点。
这组数字的用途是地板：已入 CI 防退化，P3 LLM 版必须在同一金标 ≥ 此基线才允许替换；满分 → 扩集（≥100 案）是让对比有判别力的必要条件，非可选项。

C. 三类 eval 在本项目的分工证据

把"三类齐备"从口号变成可指认的文件分工（招聘方可逐个点开核对）：

分工维度	deterministic	rubric	composite
查什么	标签对错、引用存在、格式不变量	SAR 草稿语义质量、是否幻觉证据	质量×成本×延迟生产健康分
谁执行	`evalBaseline.ts` 纯函数	四段式 judge + 人工抽检	`evalGate.ts` 五道门
何时跑	每次 `pnpm test`（CI 每 PR）	P3 起、夜扫/离线	P3 起、merge gate
成本	0（确定性）	per-call（推夜扫，PR 用分类器级联）	聚合 token + latency
当前状态	✅ 已入 CI（W1-W3）	⏳ 设计就位，P3 启用	⏳ 占位，P3+W7 启用
可演示出口	`AmlEvalsPanel.tsx` ②③区（Day 20）	面板④区一致率（占位）	面板④区趋势条

口径陷阱（"三类齐备"≠"三类都在跑"）：诚实标注纪律要求严格区分「设计齐备」与「运行齐备」。W3 真正在 CI 里跑的只有 deterministic 一类；rubric 与 composite 是设计就位、占位待 P3 LLM 接入。把"三类齐备"写成"三类都已上线"就是 W1 周记点名要消灭的夸大。所以本周交付的准确表述是：deterministic 类已运行并入 CI 阻断；rubric/composite 类结构与门槛已定义、待引擎到位——这与「尺子先于引擎」一脉相承：刻度（三类框架）先于被测物（LLM）成形。

D. W3 交付物 × 证据文件

交付物	计划（P1 W3）	实际状态	证据文件
三类 eval suite v2	W3	✅ deterministic 运行 + rubric/composite 设计就位	`src/aml/evalBaseline.ts` + `aml.test.ts`（14 项）
阻断式 CI eval gate	W3	✅ 设计（Day 19）；deterministic 断言已在 `pnpm test` 阻断	`.github/workflows/ci.yml` + Day 19 笔记
evals 面板（可演示）	W3	✅ 设计（Day 20），取数与 CI 同源	`src/components/aml/AmlEvalsPanel.tsx`（设计） + `DemoShell` 复用
judge×人工一致率基线	W3	⏳ 门槛 0.8 已定，数字待 P3	`docs/AML_COPILOT_PRD.md` + Day 3
学习笔记	每日	✅ Day 15-21 共 7 篇	`docs/aipa/day15~21-*.md`
长文#1 原料归档	W3-W4	✅ B 节基线数字 + 三限定语	本文 B 节 → 长文#1 骨架

设计要点/决策表

要点	说明	与已有方案差异
三类 eval 按成本递增串联	deterministic fail-fast → rubric 查语义 → composite 压健康分	W1 只有单类 recall；W3 对齐 2026 三类框架
设计齐备 vs 运行齐备显式区分	本周运行的只有 deterministic，rubric/composite 占位待 P3	不把"框架就位"夸成"全部上线"
基线归档带三限定语	recall 1.0=口径一致性、FP 是设计的、数字是地板	防"准确率 100%"误传播
一致率门槛先于 judge 存在	0.8 门槛在 LLM 接入前就定死	多数团队先上 judge 再补校准（反了）
取数三处同源	面板/CI/周记的 recall 都来自 `evalRuleBaseline`	杜绝 demo/CI/报告三口径

对本项目的落地

进度文件回写：docs/daily/AIPA_PROGRESS.md W3 行交付列按 D 节更新——deterministic eval 运行+入 CI、阻断 gate 设计、evals 面板设计、三类框架对齐 2026 标准；SOTA✓ 列填本文 E 节复查结论。
长文#1 骨架：《从 recall@k 到生产级 evals》以 (1) W1 的 runRetrievalEval recall@k 框架（结构匹配的已知局限）→ (2) AML deterministic 基线（本文 B 节实测+三限定语）→ (3) Day 19 五道门 + Day 20 可演示面板为三段式主线；本周 B 节表格直接作为数据原料。
本周入仓资产：src/aml/evalBaseline.ts（已有）+ aml.test.ts eval 断言（14 项，已绿）、AmlEvalsPanel.tsx（设计→W4 入仓）、evalGate.ts（设计→门2 实现时入仓）、docs/aipa/day15~21（7 篇）。
W4 预告：OTel GenAI semconv 埋点（保留独立属性映射层——semconv 2026-03 仍 experimental）+ Langfuse 自托管，为 composite 类的 $/案件提供测量底座；evals 面板入仓并挂 /aml-copilot/evals；长文#1 成稿。
作品②状态：数据层 + 三类 eval 框架（deterministic 运行）+ CI gate 设计 + 可演示面板设计齐备 → AISA「成本与质量双门」叙事的证据链 W3 收口。

参考资料

FutureAGI — LLM Evaluation in 2026: Frameworks, Metrics, Best Practices（三类 eval = deterministic/rubric/composite、三生命周期点 offline/online/pre-merge、judge×人工一致率 ≥0.75 可用 / <0.65 噪声大于信号、「evaluation moved from a research checkbox to a production gate」）(2025-07 发布，2026-05-14 更新；本日 WebFetch 核实)
Anthropic — Demystifying evals for AI agents（三类 grader code/model/human、pass@k vs pass^k、eval saturation、regression eval 维持接近 100% pass）(2026-01-09)
τ²-bench（Sierra）— pass^k 可靠性指标：90% pass@1 在 k=8 跌到 57% 一致性；2026-04-13 扩至 voice/knowledge 域、38 模型 (2025-06 论文，2026-04 更新)
HAL Holistic Agent Leaderboard（Princeton）— 暂停加新模型，转向 Reliability Dashboard（一致性/可预测性/鲁棒性/安全/自我认知）(2025-10 起，2026 持续)
Aman Khan —「Evals are the new PRDs」三类 evals + 四段式 judge prompt (2026-04 更新版)；Hamel/Shreya 错误分析方法论 (Lenny's, 2025-09)
本仓库 src/aml/evalBaseline.ts + src/aml/__tests__/aml.test.ts（eval 断言同源，14 项绿）

SOTA 检查 (2026-06-11)

三类 eval 框架（deterministic/rubric/composite）是 2026-06 现行 SOTA：FutureAGI（2026-05-14 更新）、Braintrust、Arize 三家口径一致；本周交付按此框架组织，无更替迹象。本日复查未发现替代分类法。
judge×人工一致率门槛复核：本项目 v1 定 ≥0.8；2026 业界口径 ≥0.75 可用于趋势监控、<0.65 噪声大于信号（FutureAGI 2026-05），另有 ~85% 为常见校准目标（多家 2026）。本项目 0.8 落在"可用偏严"区间，W3 暂不下调，P3 用真实数据校准后回填。
可靠性指标上升为新维度：τ²-bench 的 pass^k（2026-04，90%→57%@k=8）与 HAL Reliability Dashboard（暂停加模型、转测可靠性）显示评测重心从"单次准确"转向"k 次全对的一致性"。本项目 deterministic 规则引擎本质 pass^k=pass@1（确定性、无方差），但 P3 接 LLM 后必须按 pass^k 口径补测（同一案件多次跑是否稳定判同一 typology）——W3 SOTA 复查新增此跟踪项。
OTel GenAI semconv 仍 experimental（2026-03 口径）：W4 埋点保留独立属性映射层；开工前复查是否转 stable。
过时认知警示：把 eval 当"研究 checkbox / 上线后回归报表"已过时——2026 是 production gate、pre-merge 阻断；同时警惕反向过时：用单一 recall/单次 pass@1 声称"模型可靠"已被 pass^k 证伪（90% 单次 → k=8 仅 57% 全对）。归档 W3 数字时，"recall 1.0 为口径一致性而非性能"限定语任何展示场合不得脱落。
下一硬复查点：W13（2026-08 前后）对照 FIS Financial Crimes AI Agent（GA 2026 H2）/ Fiserv agentOS Agentic AML Triage（GA 2026-08）；P3 接 LLM 时 rubric/composite 类从"设计就位"转"运行"，届时回填 B 节一致率与 $/案件实测。