W3 周总结 — 三类 eval 齐备,尺子刻度成形
W3 周总结 — 三类 eval 齐备,尺子刻度成形
日期: 2026-07-05 阶段: Phase 1 - 产品定义×评测×可观测底座 标签: #weekly-summary #evals #ci-gate #sota-check
核心问题
W1 命题是「尺子先于引擎」(PRD/金标/规则基线先就位)。W3 要证的是这把尺子长出了刻度:从 W1 的「布尔单点 recall 门槛」升级成 2026 行业口径的三类 eval 齐备(deterministic / rubric / composite,FutureAGI 2026-05 更新版)+ 阻断式 CI gate(Day 19)+ 可演示 evals 面板(Day 20)。本周总结回答四件事:(1) eval suite v2 三类齐备的复盘——三类各自管什么、本项目证据文件在哪;(2) 基线数字归档(通过率/一致率,长文#1 原料);(3) 三类 eval 在本项目的分工证据;(4) W3 SOTA 复查(三类 eval 框架是否仍是 SOTA、τ²-bench/HAL 可靠性口径有无更新)。
关键内容
A. eval suite v2 三类齐备复盘(对照 2026 标准)
2026 已结晶出三类 eval:deterministic(确定性)/ rubric(LLM-judge 或 human)/ composite(复合),并在三个生命周期点运行——offline 对金标集、online 对生产流量、pre-merge 在 CI(FutureAGI, 2026-05;「evaluation moved from a research checkbox to a production gate」)。本项目 W3 把这套框架落到 AML Copilot:
| eval 类 | 2026 通用定义 | 本项目实现(W3) | 证据文件 |
|---|---|---|---|
| deterministic | exact match / JSON 有效性 / 引用存在性 / 长度——零 judge 成本、完美可复现 | typology 标签确定性比对、SAR 引用 ID 必须存在于案件交易、整数分不变量、混淆矩阵计数=66 | src/aml/evalBaseline.ts + src/aml/__tests__/aml.test.ts(14 项断言) |
| rubric (judge/human) | faithfulness / 任务完成度——catch 语义质量,但有 per-call 成本与校准敏感 | 设计就位、P3 接 LLM 后启用:四段式 judge prompt 给 SAR 草稿打分;judge×人工一致率 ≥0.8 才进 CI | docs/AML_COPILOT_PRD.md 成功指标段 + Day 3 D 节约束(人工抽检兜底) |
| composite | 加权组合:任务完成+faithfulness+延迟+成本 → 单一生产健康分 | $/案件(成本)× recall(质量)× 一致率(judge 可信度)的复合门,进 Day 19 五道门 | Day 19 evalGate.ts 设计 + 长文#1 |
三个生命周期点的本项目映射(与 Day 19「三人群分治」同构):
offline (金标集) pre-merge (CI) online (生产流量)
getGoldenDataset() ──► pnpm test + eval:gate ──► [无后端→离线 A/B 存档]
66 案确定性基线 退出码 2 挡 merge P3 LLM vs 规则版同金标对比
反直觉洞察(三类不是三选一,是流水线上的三道滤网):直觉上会想「哪类 eval 最准就用哪类」。但 2026 口径是三类各管一段、按成本递增串联——deterministic 在 CI 里 fail-fast(零成本拦掉格式/引用/不变量错误),rubric 只对确定性查不出的语义质量(SAR 草稿好不好)出手且要校准,composite 把质量+成本+延迟压成一个生产健康分。本项目 W3 的关键纪律:绝不用 rubric(贵、有方差)去查 deterministic 能查的东西(引用存在性用代码断言,不用 LLM judge)——这正是 Day 3 「凡能确定性断言的用代码不用 LLM」与 Day 19「LLM-judge 放在基础层第二个月就被禁用」的同一条经济学。
B. 基线数字归档(长文#1 原料,全部取自真实 CI 断言)
来自 evalRuleBaseline(getGoldenDataset())(与 aml.test.ts 断言同源),归档为长文#1《从 recall@k 到生产级 evals》的实测原料:
| 指标 | W3 实测 | CI 门槛(aml.test.ts) | 余量 | eval 类 |
|---|---|---|---|---|
| structuring recall | 1.00(n=18) | ≥0.85 | +0.15 | deterministic |
| layering recall | 1.00(n=15) | ≥0.80 | +0.20 | deterministic |
| mule_network recall | 1.00(n=15) | ≥0.80 | +0.20 | deterministic |
| normal 误报率 FPR | 0.0556(1/18) | ≤0.15 | 余 0.094 | deterministic |
| 混淆矩阵计数和 | 66 | =66(硬断言) | — | deterministic |
| judge×人工一致率 | 待 P3(占位) | ≥0.80 才放行 judge | — | rubric |
| $/案件 | 0(规则版无 token) | 上限待 W7 gateway 实测 | — | composite |
混淆矩阵:structuring→structuring 18;layering→layering 15;mule_network→mule_network 15;normal→normal 17;normal→structuring 1(Day 6 刻意保留的 FP:现金密集型商户营业款触发 STRUCT-01)。
归档时三条限定语一字不删(W1 周记已立、本周复用):
- recall 全 1.0 是口径一致性声明,不是性能声明——生成器与规则同源、共享窗口语义,满分证明"无 off-by-one"而非"真实准确"。
- 唯一 FP 是设计出来的,把 FPR 钉在非平凡值、给 P3 LLM 留超越点。
- 这组数字的用途是地板:已入 CI 防退化,P3 LLM 版必须在同一金标 ≥ 此基线才允许替换;满分 → 扩集(≥100 案)是让对比有判别力的必要条件,非可选项。
C. 三类 eval 在本项目的分工证据
把"三类齐备"从口号变成可指认的文件分工(招聘方可逐个点开核对):
| 分工维度 | deterministic | rubric | composite |
|---|---|---|---|
| 查什么 | 标签对错、引用存在、格式不变量 | SAR 草稿语义质量、是否幻觉证据 | 质量×成本×延迟生产健康分 |
| 谁执行 | evalBaseline.ts 纯函数 | 四段式 judge + 人工抽检 | evalGate.ts 五道门 |
| 何时跑 | 每次 pnpm test(CI 每 PR) | P3 起、夜扫/离线 | P3 起、merge gate |
| 成本 | 0(确定性) | per-call(推夜扫,PR 用分类器级联) | 聚合 token + latency |
| 当前状态 | ✅ 已入 CI(W1-W3) | ⏳ 设计就位,P3 启用 | ⏳ 占位,P3+W7 启用 |
| 可演示出口 | AmlEvalsPanel.tsx ②③区(Day 20) | 面板④区一致率(占位) | 面板④区趋势条 |
口径陷阱("三类齐备"≠"三类都在跑"):诚实标注纪律要求严格区分「设计齐备」与「运行齐备」。W3 真正在 CI 里跑的只有 deterministic 一类;rubric 与 composite 是设计就位、占位待 P3 LLM 接入。把"三类齐备"写成"三类都已上线"就是 W1 周记点名要消灭的夸大。所以本周交付的准确表述是:deterministic 类已运行并入 CI 阻断;rubric/composite 类结构与门槛已定义、待引擎到位——这与「尺子先于引擎」一脉相承:刻度(三类框架)先于被测物(LLM)成形。
D. W3 交付物 × 证据文件
| 交付物 | 计划(P1 W3) | 实际状态 | 证据文件 |
|---|---|---|---|
| 三类 eval suite v2 | W3 | ✅ deterministic 运行 + rubric/composite 设计就位 | src/aml/evalBaseline.ts + aml.test.ts(14 项) |
| 阻断式 CI eval gate | W3 | ✅ 设计(Day 19);deterministic 断言已在 pnpm test 阻断 | .github/workflows/ci.yml + Day 19 笔记 |
| evals 面板(可演示) | W3 | ✅ 设计(Day 20),取数与 CI 同源 | src/components/aml/AmlEvalsPanel.tsx(设计) + DemoShell 复用 |
| judge×人工一致率基线 | W3 | ⏳ 门槛 0.8 已定,数字待 P3 | docs/AML_COPILOT_PRD.md + Day 3 |
| 学习笔记 | 每日 | ✅ Day 15-21 共 7 篇 | docs/aipa/day15~21-*.md |
| 长文#1 原料归档 | W3-W4 | ✅ B 节基线数字 + 三限定语 | 本文 B 节 → 长文#1 骨架 |
设计要点/决策表
| 要点 | 说明 | 与已有方案差异 |
|---|---|---|
| 三类 eval 按成本递增串联 | deterministic fail-fast → rubric 查语义 → composite 压健康分 | W1 只有单类 recall;W3 对齐 2026 三类框架 |
| 设计齐备 vs 运行齐备显式区分 | 本周运行的只有 deterministic,rubric/composite 占位待 P3 | 不把"框架就位"夸成"全部上线" |
| 基线归档带三限定语 | recall 1.0=口径一致性、FP 是设计的、数字是地板 | 防"准确率 100%"误传播 |
| 一致率门槛先于 judge 存在 | 0.8 门槛在 LLM 接入前就定死 | 多数团队先上 judge 再补校准(反了) |
| 取数三处同源 | 面板/CI/周记的 recall 都来自 evalRuleBaseline | 杜绝 demo/CI/报告三口径 |
对本项目的落地
- 进度文件回写:
docs/daily/AIPA_PROGRESS.mdW3 行交付列按 D 节更新——deterministic eval 运行+入 CI、阻断 gate 设计、evals 面板设计、三类框架对齐 2026 标准;SOTA✓ 列填本文 E 节复查结论。 - 长文#1 骨架:《从 recall@k 到生产级 evals》以 (1) W1 的
runRetrievalEvalrecall@k 框架(结构匹配的已知局限)→ (2) AML deterministic 基线(本文 B 节实测+三限定语)→ (3) Day 19 五道门 + Day 20 可演示面板 为三段式主线;本周 B 节表格直接作为数据原料。 - 本周入仓资产:
src/aml/evalBaseline.ts(已有)+aml.test.tseval 断言(14 项,已绿)、AmlEvalsPanel.tsx(设计→W4 入仓)、evalGate.ts(设计→门2 实现时入仓)、docs/aipa/day15~21(7 篇)。 - W4 预告:OTel GenAI semconv 埋点(保留独立属性映射层——semconv 2026-03 仍 experimental)+ Langfuse 自托管,为 composite 类的 $/案件 提供测量底座;evals 面板入仓并挂
/aml-copilot/evals;长文#1 成稿。 - 作品②状态:数据层 + 三类 eval 框架(deterministic 运行)+ CI gate 设计 + 可演示面板设计齐备 → AISA「成本与质量双门」叙事的证据链 W3 收口。
参考资料
- FutureAGI — LLM Evaluation in 2026: Frameworks, Metrics, Best Practices(三类 eval = deterministic/rubric/composite、三生命周期点 offline/online/pre-merge、judge×人工一致率 ≥0.75 可用 / <0.65 噪声大于信号、「evaluation moved from a research checkbox to a production gate」)(2025-07 发布,2026-05-14 更新;本日 WebFetch 核实)
- Anthropic — Demystifying evals for AI agents(三类 grader code/model/human、pass@k vs pass^k、eval saturation、regression eval 维持接近 100% pass)(2026-01-09)
- τ²-bench(Sierra)— pass^k 可靠性指标:90% pass@1 在 k=8 跌到 57% 一致性;2026-04-13 扩至 voice/knowledge 域、38 模型 (2025-06 论文,2026-04 更新)
- HAL Holistic Agent Leaderboard(Princeton)— 暂停加新模型,转向 Reliability Dashboard(一致性/可预测性/鲁棒性/安全/自我认知)(2025-10 起,2026 持续)
- Aman Khan —「Evals are the new PRDs」三类 evals + 四段式 judge prompt (2026-04 更新版);Hamel/Shreya 错误分析方法论 (Lenny's, 2025-09)
- 本仓库
src/aml/evalBaseline.ts+src/aml/__tests__/aml.test.ts(eval 断言同源,14 项绿)
SOTA 检查 (2026-06-11)
- 三类 eval 框架(deterministic/rubric/composite)是 2026-06 现行 SOTA:FutureAGI(2026-05-14 更新)、Braintrust、Arize 三家口径一致;本周交付按此框架组织,无更替迹象。本日复查未发现替代分类法。
- judge×人工一致率门槛复核:本项目 v1 定 ≥0.8;2026 业界口径 ≥0.75 可用于趋势监控、<0.65 噪声大于信号(FutureAGI 2026-05),另有 ~85% 为常见校准目标(多家 2026)。本项目 0.8 落在"可用偏严"区间,W3 暂不下调,P3 用真实数据校准后回填。
- 可靠性指标上升为新维度:τ²-bench 的 pass^k(2026-04,90%→57%@k=8)与 HAL Reliability Dashboard(暂停加模型、转测可靠性)显示评测重心从"单次准确"转向"k 次全对的一致性"。本项目 deterministic 规则引擎本质 pass^k=pass@1(确定性、无方差),但 P3 接 LLM 后必须按 pass^k 口径补测(同一案件多次跑是否稳定判同一 typology)——W3 SOTA 复查新增此跟踪项。
- OTel GenAI semconv 仍 experimental(2026-03 口径):W4 埋点保留独立属性映射层;开工前复查是否转 stable。
- 过时认知警示:把 eval 当"研究 checkbox / 上线后回归报表"已过时——2026 是 production gate、pre-merge 阻断;同时警惕反向过时:用单一 recall/单次 pass@1 声称"模型可靠"已被 pass^k 证伪(90% 单次 → k=8 仅 57% 全对)。归档 W3 数字时,"recall 1.0 为口径一致性而非性能"限定语任何展示场合不得脱落。
- 下一硬复查点:W13(2026-08 前后)对照 FIS Financial Crimes AI Agent(GA 2026 H2)/ Fiserv agentOS Agentic AML Triage(GA 2026-08);P3 接 LLM 时 rubric/composite 类从"设计就位"转"运行",届时回填 B 节一致率与 $/案件实测。