返回 AIPA 笔记
AIPA Day 7

W1 周总结 — 尺子先于引擎

W1 周总结 — 尺子先于引擎

2026-06-21
weekly-summaryevalsamlsota-check

日期: 2026-06-21 阶段: Phase 1 - 产品定义×评测×可观测底座 标签: #weekly-summary #evals #aml #sota-check

核心问题

W1(D1-7)要证明的命题是:在写任何 LLM 代码之前,产品定义(PRD/JTBD)、金标数据、规则基线、诚实标注管道可以先行就位——这就是计划书「先建尺子」的含义。本周总结回答四件事:(1) 交付清单对照计划,哪些完成、哪些提前、哪些滞后;(2) 规则基线在 66 案金标上的真实 eval 数字及其诚实解读;(3) 偏差与风险登记;(4) 本周 SOTA 复查记录(FIS/Fiserv 动态确认)。

关键内容

A. 交付清单对照计划

计划口径(docs/AIPA_120_PLAN.md W1 行):可点击原型 + 一页纸 PRD + 合成数据生成器启动 + ★跟踪 Data+AI Summit。实际:

交付物计划实际状态位置/证据
一页纸 PRD(成功指标=eval 雏形)W1✅ v1.0docs/AML_COPILOT_PRD.md(含 SOTA 检查表)
合成数据生成器W1 启动,W2 完成提前完成(66 案金标 > 计划 ≥60 v1)src/aml/generator.ts,seed aipa-golden-v1
类型学规则引擎基线计划隐含在 W2-W3✅ 提前完成(6 规则 + 评测器)src/aml/typology.ts + src/aml/evalBaseline.ts
SAR 模板(5W1H + 诚实标注)Day 5 设计产物✅ 完成src/aml/sarDraft.tsgeneratedBy: 'rule-template'
测试 + 类型检查-✅ 14/14 通过(npx vitest run src/aml),typecheck 干净src/aml/__tests__/aml.test.ts
三屏可点击原型(队列/工作台/SAR+HITL)W1✅ 完成(初稿曾登记滞后,W1 收尾补齐——见 C 节后记)app/aml-copilot/ + src/components/aml/(5 组件,全套测试 186 项通过)
学习笔记每日配套✅ Day 1-7 共 7 篇docs/aipa/day1~7-*.md
learn track 接线体例同 DSDB✅ 完成(笔记自动发布到站点)src/data/aipa-posts.ts + app/learn/aipa/
★Data+AI Summit(06-15~18)跟踪W1⏳ 调研日(2026-06-11)峰会尚未开幕,结论待 W1 执行时补记本文 SOTA 检查节登记

B. 实际 eval 基线数字(66 案合成金标)

来自 evalRuleBaseline(getGoldenDataset()) 的真实输出(非门槛值,是实测值;CI 断言见测试文件):

指标实测CI 门槛余量
structuring recall1.00(n=18)≥0.85+0.15
layering recall1.00(n=15)≥0.80+0.20
mule_network recall1.00(n=15)≥0.80+0.20
normal 误报率 (FPR)0.0556(1/18)≤0.15余 0.094

混淆矩阵(label→predicted):structuring→structuring 18;layering→layering 15;mule_network→mule_network 15;normal→normal 17;normal→structuring 1(即 Day 6 记录的刻意保留误报:现金密集型商户 3 笔 sub-$10k 营业款现金存款触发 STRUCT-01)。

诚实解读,三条都不能省

  1. recall 全 1.0 不是性能声明,是口径一致性声明。生成器与规则引擎出自同一人之手、共享同一窗口语义(10 天窗≡跨度≤9)——满分主要证明「数据-规则定义对齐、无 off-by-one」,外推到真实数据毫无依据(PRD 风险节已声明)。
  2. 唯一的 FP 是设计出来的,不是规则「犯的错」:它把 FPR 指标钉在非平凡值上,并给 P3 的 LLM 留下明确超越点——规则分不清商户营业款与拆分。
  3. 这组数字的真正用途是地板:已入 CI 防退化;P3 LLM 版必须在同一金标上 ≥ 此基线才允许替换(PRD 第 4 节既定纪律)。基线满分意味着 LLM 在 v1 金标上最多打平——所以 P3 扩集(≥100 案,含贴线案件与叠加类型学)不是可选项,是让对比有判别力的必要条件。

C. 与计划的偏差与风险

提前项:生成器+规则引擎+评测器原计划 W2 完成,W1 即交付——因为 Day 3 PRD 把「成功指标=eval」定死后,数据层是唯一的关键路径,提前投入是正确的次序。W2 由此腾出工时给错误分析。

滞后项(后记:已于 W1 收尾消除):本文初稿时三屏 UI 未入仓(UI 构建车道因上游服务过载重试)。收尾时已补齐:app/aml-copilot/ 页面 + src/components/aml/ 5 个组件入仓,typecheck 干净、全套测试 186 项通过。初稿登记按「滞后显式登记」纪律保留——当时的风险判断(数据语义已被契约与测试钉死、UI 是纯消费方、风险可控)被结果验证。

风险登记:(1) 自证循环——生成器与规则同源,W2 用开放编码攻击防串扰假设(渠道分区/openedDaysAgo≥90),P3 扩集时按「余量原则」补贴线案件;(2) 合成分布偏简——无真实 PII 是合规必须,但指标外推受限,所有展示场合带限定语(PRD 风险节);(3) 外部事件依赖——Data+AI Summit 公告与 Foundry tracing/eval GA(计划 2026-06 内)均未落地,W1/P1 各留跟踪位。

D. W2 预告(D8-14)

  • 错误分析主线:在 agent-v2 真实 traces 上跑 Hamel/Shreya 流程——逐 trace 开放编码(自由标注失败现象)→轴向编码(聚类)→ 5-6 类 failure taxonomy(Lenny's, 2025-09);AML 侧把 Day 6 的防串扰假设与刻意 FP 作为第一批编码对象。
  • 金标节奏:W2 计划口径「≥60 v1」已由 66 案达成,W2 不盲目扩量,只按错误分析发现定向补难例;成规模扩充(≥100)按计划留在 P3 W10。
  • W3 衔接:三类 evals(代码型/LLM-judge 四段式 rubric 2026-04 版/人工抽检)+ judge×人工一致率 + CI gate 完整化。

E. 本周 SOTA 复查记录(WebSearch 2026-06-11)

按进度文件「平台 GA 状态执行当周确认」纪律,本周检索「FIS Anthropic financial crimes AI agent GA / Fiserv agentOS」:

  • 无新 GA 动作。FIS Financial Crimes AI Agent 维持 2026-05-04 宣布口径:BMO/Amalgamated 部署中,broader availability 仍为 2026 H2;Anthropic Applied AI 团队与 FDE 嵌入 FIS 共同设计(FIS 新闻稿/BusinessWire, 2026-05)。
  • Fiserv agentOS 维持 GA 2026-08;新核实细节:初始搭载四个第一方 agent——Commercial Loan Onboarding、Daily Operational Analysis、Agentic Deposit Intelligence、Agentic AML Triage Analysis(Fiserv 投资者关系新闻稿, 2026-05),并与六家银行+OpenAI 共创 agent(American Banker, 2026-05)。其中 AML Triage 与本项目「队列→比对→升级/关闭」的工作台屏直接同构——竞品功能颗粒度首次可对照。
  • 结论:两巨头均未提前 GA,「在它们 GA 前复刻流程」的时间窗口套利逻辑维持成立;下一硬复查点不变(W13,2026-08 前后)。

设计要点/决策表

要点说明与已有方案差异
尺子先于引擎得到执行验证eval 数字在 LLM 之前存在并入 CI多数 agent 项目先 demo 后补 eval;本项目 PRD 指标=CI 断言同一份
基线满分→扩集成为必要条件v1 金标上 LLM 最多打平,判别力为零把「P3 扩 ≥100」从计划任务升级为对比有效性的逻辑前提
周总结登记实测值而非门槛值recall 1.0/FPR 5.56% 实测,门槛 0.85/0.15 另列防止把「门槛通过」误传播为「性能=门槛」
滞后项显式登记三屏 UI 缺口曾写进周记,补齐后以后记更新而非删除原登记不用「数据层完成」掩盖「可演示性未达成」;修正留痕可审计
SOTA 复查留痕检索日期+结论+下一复查点写进笔记复查变成可审计记录,而非「我查过了」

对本项目的落地

  • 本周入仓资产:src/aml/(types/generator/typology/sarDraft/evalBaseline + 测试 14/14)、app/aml-copilot/ + src/components/aml/(三屏原型 5 组件)、docs/AML_COPILOT_PRD.mddocs/aipa/day1~7(7 篇)、src/data/aipa-posts.ts + app/learn/aipa/(learn track 接线)、vitest.config.ts(aml 测试纳入)、Navbar 两处入口。
  • W2 第一优先:错误分析主线(本文 D 节)——UI 已于 W1 收尾入仓,无需占用 W2 工时。
  • 进度文件回写:docs/daily/AIPA_PROGRESS.md W1 行交付列与 SOTA✓ 列按本文 A/E 节更新。
  • 作品②状态机:数据层 + eval 基线 + 三屏原型均已入仓 → 「三大杀手作品」表可链接 URL 填 /aml-copilot(推送部署后生效)。

参考资料

  • FIS Brings Agentic AI to Banking with Anthropic, Starting with Financial Crimes — FIS 新闻稿/BusinessWire(2026-05):BMO/Amalgamated 部署中,GA 2026 H2
  • Fiserv Launches agentOS — Fiserv 投资者关系新闻稿(2026-05):GA 2026-08,初始四 agent 含 Agentic AML Triage Analysis
  • American Banker, Fiserv has co-created AI agents with six banks and OpenAI(2026-05)
  • EY 北欧交易监控调查:LLM AML 范式误报可降 40-50%(2025-11)
  • Hamel Husain & Shreya Shankar, evals 方法论(错误分析→开放编码→轴向编码),Lenny's Newsletter(2025-09);Aman Khan 三类 evals + 四段式 judge prompt(2026-04 更新版)
  • OpenAI CPO「PM 最重要的技能是写 evals」(2025-08)
  • 「LLM 模拟用户是不可靠代理」(2026-01)— W3 judge 设计的人工抽检约束
  • EU AI Act:Digital Omnibus 临时协议(2026-05-07)Annex III 推迟至 2027-12-02;Article 50 仍 2026-08-02 生效
  • 「PRD 未死而是进化为一页纸+原型」(Productify, 2025-11);Builder.io prototype-first 五步法(2026-01)

SOTA 检查 (2026-06-11)

  • 本周复查结论(E 节详记):FIS Financial Crimes AI Agent 无提前 GA,仍 2026 H2;Fiserv agentOS 仍 2026-08 GA——时间窗口套利逻辑维持成立。新增可对照颗粒度:agentOS 的 Agentic AML Triage Analysis(2026-05)与本项目工作台屏同构,W13 对照更新时以它为基准。
  • evals 方法论无更替:Hamel/Shreya(2025-09)+ Aman Khan 四段式(2026-04)仍是现行主流,W2-W3 按此执行;「LLM 模拟用户不可靠」(2026-01)约束未见反例研究。
  • 待确认事件:Databricks Data+AI Summit(2026-06-15~18)Agent Bricks 公告、Microsoft Foundry hosted agents tracing/eval GA(预计 2026-06 内)——本笔记调研日均未发生,W1 实际执行周与 P1 期间补记,不预写结论。
  • 过时认知警示:引用本周 eval 数字时禁止脱掉限定语——「66 案合成金标、生成器与规则同源、recall 1.0 为口径一致性而非真实性能」。任何把它写成「准确率 100%」的展示文案都属于阶1 诚信止血(2026-05-30)要消灭的那类夸大。