返回 AIPA 笔记
AIPA Day 21

W3 周总结 — 三类 eval 齐备,尺子刻度成形

W3 周总结 — 三类 eval 齐备,尺子刻度成形

2026-07-05
weekly-summaryevalsci-gatesota-check

日期: 2026-07-05 阶段: Phase 1 - 产品定义×评测×可观测底座 标签: #weekly-summary #evals #ci-gate #sota-check

核心问题

W1 命题是「尺子先于引擎」(PRD/金标/规则基线先就位)。W3 要证的是这把尺子长出了刻度:从 W1 的「布尔单点 recall 门槛」升级成 2026 行业口径的三类 eval 齐备(deterministic / rubric / composite,FutureAGI 2026-05 更新版)+ 阻断式 CI gate(Day 19)+ 可演示 evals 面板(Day 20)。本周总结回答四件事:(1) eval suite v2 三类齐备的复盘——三类各自管什么、本项目证据文件在哪;(2) 基线数字归档(通过率/一致率,长文#1 原料);(3) 三类 eval 在本项目的分工证据;(4) W3 SOTA 复查(三类 eval 框架是否仍是 SOTA、τ²-bench/HAL 可靠性口径有无更新)。

关键内容

A. eval suite v2 三类齐备复盘(对照 2026 标准)

2026 已结晶出三类 eval:deterministic(确定性)/ rubric(LLM-judge 或 human)/ composite(复合),并在三个生命周期点运行——offline 对金标集、online 对生产流量、pre-merge 在 CI(FutureAGI, 2026-05;「evaluation moved from a research checkbox to a production gate」)。本项目 W3 把这套框架落到 AML Copilot:

eval 类2026 通用定义本项目实现(W3)证据文件
deterministicexact match / JSON 有效性 / 引用存在性 / 长度——零 judge 成本、完美可复现typology 标签确定性比对、SAR 引用 ID 必须存在于案件交易、整数分不变量、混淆矩阵计数=66src/aml/evalBaseline.ts + src/aml/__tests__/aml.test.ts(14 项断言)
rubric (judge/human)faithfulness / 任务完成度——catch 语义质量,但有 per-call 成本与校准敏感设计就位、P3 接 LLM 后启用:四段式 judge prompt 给 SAR 草稿打分;judge×人工一致率 ≥0.8 才进 CIdocs/AML_COPILOT_PRD.md 成功指标段 + Day 3 D 节约束(人工抽检兜底)
composite加权组合:任务完成+faithfulness+延迟+成本 → 单一生产健康分$/案件(成本)× recall(质量)× 一致率(judge 可信度)的复合门,进 Day 19 五道门Day 19 evalGate.ts 设计 + 长文#1

三个生命周期点的本项目映射(与 Day 19「三人群分治」同构):

  offline (金标集)        pre-merge (CI)              online (生产流量)
  getGoldenDataset()  ──► pnpm test + eval:gate  ──► [无后端→离线 A/B 存档]
  66 案确定性基线         退出码 2 挡 merge            P3 LLM vs 规则版同金标对比

反直觉洞察(三类不是三选一,是流水线上的三道滤网):直觉上会想「哪类 eval 最准就用哪类」。但 2026 口径是三类各管一段、按成本递增串联——deterministic 在 CI 里 fail-fast(零成本拦掉格式/引用/不变量错误),rubric 只对确定性查不出的语义质量(SAR 草稿好不好)出手且要校准,composite 把质量+成本+延迟压成一个生产健康分。本项目 W3 的关键纪律:绝不用 rubric(贵、有方差)去查 deterministic 能查的东西(引用存在性用代码断言,不用 LLM judge)——这正是 Day 3 「凡能确定性断言的用代码不用 LLM」与 Day 19「LLM-judge 放在基础层第二个月就被禁用」的同一条经济学。

B. 基线数字归档(长文#1 原料,全部取自真实 CI 断言)

来自 evalRuleBaseline(getGoldenDataset())(与 aml.test.ts 断言同源),归档为长文#1《从 recall@k 到生产级 evals》的实测原料:

指标W3 实测CI 门槛(aml.test.ts余量eval 类
structuring recall1.00(n=18)≥0.85+0.15deterministic
layering recall1.00(n=15)≥0.80+0.20deterministic
mule_network recall1.00(n=15)≥0.80+0.20deterministic
normal 误报率 FPR0.0556(1/18)≤0.15余 0.094deterministic
混淆矩阵计数和66=66(硬断言)deterministic
judge×人工一致率待 P3(占位)≥0.80 才放行 judgerubric
$/案件0(规则版无 token)上限待 W7 gateway 实测composite

混淆矩阵:structuring→structuring 18;layering→layering 15;mule_network→mule_network 15;normal→normal 17;normal→structuring 1(Day 6 刻意保留的 FP:现金密集型商户营业款触发 STRUCT-01)。

归档时三条限定语一字不删(W1 周记已立、本周复用):

  1. recall 全 1.0 是口径一致性声明,不是性能声明——生成器与规则同源、共享窗口语义,满分证明"无 off-by-one"而非"真实准确"。
  2. 唯一 FP 是设计出来的,把 FPR 钉在非平凡值、给 P3 LLM 留超越点。
  3. 这组数字的用途是地板:已入 CI 防退化,P3 LLM 版必须在同一金标 ≥ 此基线才允许替换;满分 → 扩集(≥100 案)是让对比有判别力的必要条件,非可选项。

C. 三类 eval 在本项目的分工证据

把"三类齐备"从口号变成可指认的文件分工(招聘方可逐个点开核对):

分工维度deterministicrubriccomposite
查什么标签对错、引用存在、格式不变量SAR 草稿语义质量、是否幻觉证据质量×成本×延迟生产健康分
谁执行evalBaseline.ts 纯函数四段式 judge + 人工抽检evalGate.ts 五道门
何时跑每次 pnpm test(CI 每 PR)P3 起、夜扫/离线P3 起、merge gate
成本0(确定性)per-call(推夜扫,PR 用分类器级联)聚合 token + latency
当前状态✅ 已入 CI(W1-W3)⏳ 设计就位,P3 启用⏳ 占位,P3+W7 启用
可演示出口AmlEvalsPanel.tsx ②③区(Day 20)面板④区一致率(占位)面板④区趋势条

口径陷阱("三类齐备"≠"三类都在跑"):诚实标注纪律要求严格区分「设计齐备」与「运行齐备」。W3 真正在 CI 里跑的只有 deterministic 一类;rubric 与 composite 是设计就位、占位待 P3 LLM 接入。把"三类齐备"写成"三类都已上线"就是 W1 周记点名要消灭的夸大。所以本周交付的准确表述是:deterministic 类已运行并入 CI 阻断;rubric/composite 类结构与门槛已定义、待引擎到位——这与「尺子先于引擎」一脉相承:刻度(三类框架)先于被测物(LLM)成形。

D. W3 交付物 × 证据文件

交付物计划(P1 W3)实际状态证据文件
三类 eval suite v2W3✅ deterministic 运行 + rubric/composite 设计就位src/aml/evalBaseline.ts + aml.test.ts(14 项)
阻断式 CI eval gateW3✅ 设计(Day 19);deterministic 断言已在 pnpm test 阻断.github/workflows/ci.yml + Day 19 笔记
evals 面板(可演示)W3✅ 设计(Day 20),取数与 CI 同源src/components/aml/AmlEvalsPanel.tsx(设计) + DemoShell 复用
judge×人工一致率基线W3⏳ 门槛 0.8 已定,数字待 P3docs/AML_COPILOT_PRD.md + Day 3
学习笔记每日✅ Day 15-21 共 7 篇docs/aipa/day15~21-*.md
长文#1 原料归档W3-W4✅ B 节基线数字 + 三限定语本文 B 节 → 长文#1 骨架

设计要点/决策表

要点说明与已有方案差异
三类 eval 按成本递增串联deterministic fail-fast → rubric 查语义 → composite 压健康分W1 只有单类 recall;W3 对齐 2026 三类框架
设计齐备 vs 运行齐备显式区分本周运行的只有 deterministic,rubric/composite 占位待 P3不把"框架就位"夸成"全部上线"
基线归档带三限定语recall 1.0=口径一致性、FP 是设计的、数字是地板防"准确率 100%"误传播
一致率门槛先于 judge 存在0.8 门槛在 LLM 接入前就定死多数团队先上 judge 再补校准(反了)
取数三处同源面板/CI/周记的 recall 都来自 evalRuleBaseline杜绝 demo/CI/报告三口径

对本项目的落地

  • 进度文件回写docs/daily/AIPA_PROGRESS.md W3 行交付列按 D 节更新——deterministic eval 运行+入 CI、阻断 gate 设计、evals 面板设计、三类框架对齐 2026 标准;SOTA✓ 列填本文 E 节复查结论。
  • 长文#1 骨架:《从 recall@k 到生产级 evals》以 (1) W1 的 runRetrievalEval recall@k 框架(结构匹配的已知局限)→ (2) AML deterministic 基线(本文 B 节实测+三限定语)→ (3) Day 19 五道门 + Day 20 可演示面板 为三段式主线;本周 B 节表格直接作为数据原料。
  • 本周入仓资产src/aml/evalBaseline.ts(已有)+ aml.test.ts eval 断言(14 项,已绿)、AmlEvalsPanel.tsx(设计→W4 入仓)、evalGate.ts(设计→门2 实现时入仓)、docs/aipa/day15~21(7 篇)。
  • W4 预告:OTel GenAI semconv 埋点(保留独立属性映射层——semconv 2026-03 仍 experimental)+ Langfuse 自托管,为 composite 类的 $/案件 提供测量底座;evals 面板入仓并挂 /aml-copilot/evals;长文#1 成稿。
  • 作品②状态:数据层 + 三类 eval 框架(deterministic 运行)+ CI gate 设计 + 可演示面板设计齐备 → AISA「成本与质量双门」叙事的证据链 W3 收口。

参考资料

  1. FutureAGI — LLM Evaluation in 2026: Frameworks, Metrics, Best Practices(三类 eval = deterministic/rubric/composite、三生命周期点 offline/online/pre-merge、judge×人工一致率 ≥0.75 可用 / <0.65 噪声大于信号、「evaluation moved from a research checkbox to a production gate」)(2025-07 发布,2026-05-14 更新;本日 WebFetch 核实)
  2. Anthropic — Demystifying evals for AI agents(三类 grader code/model/human、pass@k vs pass^k、eval saturation、regression eval 维持接近 100% pass)(2026-01-09)
  3. τ²-bench(Sierra)— pass^k 可靠性指标:90% pass@1 在 k=8 跌到 57% 一致性;2026-04-13 扩至 voice/knowledge 域、38 模型 (2025-06 论文,2026-04 更新)
  4. HAL Holistic Agent Leaderboard(Princeton)— 暂停加新模型,转向 Reliability Dashboard(一致性/可预测性/鲁棒性/安全/自我认知)(2025-10 起,2026 持续)
  5. Aman Khan —「Evals are the new PRDs」三类 evals + 四段式 judge prompt (2026-04 更新版);Hamel/Shreya 错误分析方法论 (Lenny's, 2025-09)
  6. 本仓库 src/aml/evalBaseline.ts + src/aml/__tests__/aml.test.ts(eval 断言同源,14 项绿)

SOTA 检查 (2026-06-11)

  • 三类 eval 框架(deterministic/rubric/composite)是 2026-06 现行 SOTA:FutureAGI(2026-05-14 更新)、Braintrust、Arize 三家口径一致;本周交付按此框架组织,无更替迹象。本日复查未发现替代分类法。
  • judge×人工一致率门槛复核:本项目 v1 定 ≥0.8;2026 业界口径 ≥0.75 可用于趋势监控、<0.65 噪声大于信号(FutureAGI 2026-05),另有 ~85% 为常见校准目标(多家 2026)。本项目 0.8 落在"可用偏严"区间,W3 暂不下调,P3 用真实数据校准后回填。
  • 可靠性指标上升为新维度:τ²-bench 的 pass^k(2026-04,90%→57%@k=8)与 HAL Reliability Dashboard(暂停加模型、转测可靠性)显示评测重心从"单次准确"转向"k 次全对的一致性"。本项目 deterministic 规则引擎本质 pass^k=pass@1(确定性、无方差),但 P3 接 LLM 后必须按 pass^k 口径补测(同一案件多次跑是否稳定判同一 typology)——W3 SOTA 复查新增此跟踪项。
  • OTel GenAI semconv 仍 experimental(2026-03 口径):W4 埋点保留独立属性映射层;开工前复查是否转 stable。
  • 过时认知警示:把 eval 当"研究 checkbox / 上线后回归报表"已过时——2026 是 production gate、pre-merge 阻断;同时警惕反向过时:用单一 recall/单次 pass@1 声称"模型可靠"已被 pass^k 证伪(90% 单次 → k=8 仅 57% 全对)。归档 W3 数字时,"recall 1.0 为口径一致性而非性能"限定语任何展示场合不得脱落。
  • 下一硬复查点:W13(2026-08 前后)对照 FIS Financial Crimes AI Agent(GA 2026 H2)/ Fiserv agentOS Agentic AML Triage(GA 2026-08);P3 接 LLM 时 rubric/composite 类从"设计就位"转"运行",届时回填 B 节一致率与 $/案件实测。