AIPA Day 7

W1 周总结 — 尺子先于引擎

2026-06-21

weekly-summaryevalsamlsota-check

日期: 2026-06-21 阶段: Phase 1 - 产品定义×评测×可观测底座标签: #weekly-summary #evals #aml #sota-check

核心问题

W1（D1-7）要证明的命题是：在写任何 LLM 代码之前，产品定义（PRD/JTBD）、金标数据、规则基线、诚实标注管道可以先行就位——这就是计划书「先建尺子」的含义。本周总结回答四件事：(1) 交付清单对照计划，哪些完成、哪些提前、哪些滞后；(2) 规则基线在 66 案金标上的真实 eval 数字及其诚实解读；(3) 偏差与风险登记；(4) 本周 SOTA 复查记录（FIS/Fiserv 动态确认）。

关键内容

A. 交付清单对照计划

计划口径（docs/AIPA_120_PLAN.md W1 行）：可点击原型 + 一页纸 PRD + 合成数据生成器启动 + ★跟踪 Data+AI Summit。实际：

交付物	计划	实际状态	位置/证据
一页纸 PRD（成功指标=eval 雏形）	W1	✅ v1.0	`docs/AML_COPILOT_PRD.md`（含 SOTA 检查表）
合成数据生成器	W1 启动，W2 完成	✅ 提前完成（66 案金标 > 计划 ≥60 v1）	`src/aml/generator.ts`，seed `aipa-golden-v1`
类型学规则引擎基线	计划隐含在 W2-W3	✅ 提前完成（6 规则 + 评测器）	`src/aml/typology.ts` + `src/aml/evalBaseline.ts`
SAR 模板（5W1H + 诚实标注）	Day 5 设计产物	✅ 完成	`src/aml/sarDraft.ts`（`generatedBy: 'rule-template'`）
测试 + 类型检查	-	✅ 14/14 通过（`npx vitest run src/aml`），typecheck 干净	`src/aml/__tests__/aml.test.ts`
三屏可点击原型（队列/工作台/SAR+HITL）	W1	✅ 完成（初稿曾登记滞后，W1 收尾补齐——见 C 节后记）	`app/aml-copilot/` + `src/components/aml/`（5 组件，全套测试 186 项通过）
学习笔记	每日配套	✅ Day 1-7 共 7 篇	`docs/aipa/day1~7-*.md`
learn track 接线	体例同 DSDB	✅ 完成（笔记自动发布到站点）	`src/data/aipa-posts.ts` + `app/learn/aipa/`
★Data+AI Summit（06-15~18）跟踪	W1	⏳ 调研日（2026-06-11）峰会尚未开幕，结论待 W1 执行时补记	本文 SOTA 检查节登记

B. 实际 eval 基线数字（66 案合成金标）

来自 evalRuleBaseline(getGoldenDataset()) 的真实输出（非门槛值，是实测值；CI 断言见测试文件）：

指标	实测	CI 门槛	余量
structuring recall	1.00（n=18）	≥0.85	+0.15
layering recall	1.00（n=15）	≥0.80	+0.20
mule_network recall	1.00（n=15）	≥0.80	+0.20
normal 误报率 (FPR)	0.0556（1/18）	≤0.15	余 0.094

混淆矩阵（label→predicted）：structuring→structuring 18；layering→layering 15；mule_network→mule_network 15；normal→normal 17；normal→structuring 1（即 Day 6 记录的刻意保留误报：现金密集型商户 3 笔 sub-$10k 营业款现金存款触发 STRUCT-01）。

诚实解读，三条都不能省：

recall 全 1.0 不是性能声明，是口径一致性声明。生成器与规则引擎出自同一人之手、共享同一窗口语义（10 天窗≡跨度≤9）——满分主要证明「数据-规则定义对齐、无 off-by-one」，外推到真实数据毫无依据（PRD 风险节已声明）。
唯一的 FP 是设计出来的，不是规则「犯的错」：它把 FPR 指标钉在非平凡值上，并给 P3 的 LLM 留下明确超越点——规则分不清商户营业款与拆分。
这组数字的真正用途是地板：已入 CI 防退化；P3 LLM 版必须在同一金标上 ≥ 此基线才允许替换（PRD 第 4 节既定纪律）。基线满分意味着 LLM 在 v1 金标上最多打平——所以 P3 扩集（≥100 案，含贴线案件与叠加类型学）不是可选项，是让对比有判别力的必要条件。

C. 与计划的偏差与风险

提前项：生成器+规则引擎+评测器原计划 W2 完成，W1 即交付——因为 Day 3 PRD 把「成功指标=eval」定死后，数据层是唯一的关键路径，提前投入是正确的次序。W2 由此腾出工时给错误分析。

滞后项（后记：已于 W1 收尾消除）：本文初稿时三屏 UI 未入仓（UI 构建车道因上游服务过载重试）。收尾时已补齐：app/aml-copilot/ 页面 + src/components/aml/ 5 个组件入仓，typecheck 干净、全套测试 186 项通过。初稿登记按「滞后显式登记」纪律保留——当时的风险判断（数据语义已被契约与测试钉死、UI 是纯消费方、风险可控）被结果验证。

风险登记：(1) 自证循环——生成器与规则同源，W2 用开放编码攻击防串扰假设（渠道分区/openedDaysAgo≥90），P3 扩集时按「余量原则」补贴线案件；(2) 合成分布偏简——无真实 PII 是合规必须，但指标外推受限，所有展示场合带限定语（PRD 风险节）；(3) 外部事件依赖——Data+AI Summit 公告与 Foundry tracing/eval GA（计划 2026-06 内）均未落地，W1/P1 各留跟踪位。

D. W2 预告（D8-14）

错误分析主线：在 agent-v2 真实 traces 上跑 Hamel/Shreya 流程——逐 trace 开放编码（自由标注失败现象）→轴向编码（聚类）→ 5-6 类 failure taxonomy（Lenny's, 2025-09）；AML 侧把 Day 6 的防串扰假设与刻意 FP 作为第一批编码对象。
金标节奏：W2 计划口径「≥60 v1」已由 66 案达成，W2 不盲目扩量，只按错误分析发现定向补难例；成规模扩充（≥100）按计划留在 P3 W10。
W3 衔接：三类 evals（代码型/LLM-judge 四段式 rubric 2026-04 版/人工抽检）+ judge×人工一致率 + CI gate 完整化。

E. 本周 SOTA 复查记录（WebSearch 2026-06-11）

按进度文件「平台 GA 状态执行当周确认」纪律，本周检索「FIS Anthropic financial crimes AI agent GA / Fiserv agentOS」：

无新 GA 动作。FIS Financial Crimes AI Agent 维持 2026-05-04 宣布口径：BMO/Amalgamated 部署中，broader availability 仍为 2026 H2；Anthropic Applied AI 团队与 FDE 嵌入 FIS 共同设计（FIS 新闻稿/BusinessWire, 2026-05）。
Fiserv agentOS 维持 GA 2026-08；新核实细节：初始搭载四个第一方 agent——Commercial Loan Onboarding、Daily Operational Analysis、Agentic Deposit Intelligence、Agentic AML Triage Analysis（Fiserv 投资者关系新闻稿, 2026-05），并与六家银行+OpenAI 共创 agent（American Banker, 2026-05）。其中 AML Triage 与本项目「队列→比对→升级/关闭」的工作台屏直接同构——竞品功能颗粒度首次可对照。
结论：两巨头均未提前 GA，「在它们 GA 前复刻流程」的时间窗口套利逻辑维持成立；下一硬复查点不变（W13，2026-08 前后）。

设计要点/决策表

要点	说明	与已有方案差异
尺子先于引擎得到执行验证	eval 数字在 LLM 之前存在并入 CI	多数 agent 项目先 demo 后补 eval；本项目 PRD 指标=CI 断言同一份
基线满分→扩集成为必要条件	v1 金标上 LLM 最多打平，判别力为零	把「P3 扩 ≥100」从计划任务升级为对比有效性的逻辑前提
周总结登记实测值而非门槛值	recall 1.0/FPR 5.56% 实测，门槛 0.85/0.15 另列	防止把「门槛通过」误传播为「性能=门槛」
滞后项显式登记	三屏 UI 缺口曾写进周记，补齐后以后记更新而非删除原登记	不用「数据层完成」掩盖「可演示性未达成」；修正留痕可审计
SOTA 复查留痕	检索日期+结论+下一复查点写进笔记	复查变成可审计记录，而非「我查过了」

对本项目的落地

本周入仓资产：src/aml/（types/generator/typology/sarDraft/evalBaseline + 测试 14/14）、app/aml-copilot/ + src/components/aml/（三屏原型 5 组件）、docs/AML_COPILOT_PRD.md、docs/aipa/day1~7（7 篇）、src/data/aipa-posts.ts + app/learn/aipa/（learn track 接线）、vitest.config.ts（aml 测试纳入）、Navbar 两处入口。
W2 第一优先：错误分析主线（本文 D 节）——UI 已于 W1 收尾入仓，无需占用 W2 工时。
进度文件回写：docs/daily/AIPA_PROGRESS.md W1 行交付列与 SOTA✓ 列按本文 A/E 节更新。
作品②状态机：数据层 + eval 基线 + 三屏原型均已入仓 → 「三大杀手作品」表可链接 URL 填 /aml-copilot（推送部署后生效）。

参考资料

FIS Brings Agentic AI to Banking with Anthropic, Starting with Financial Crimes — FIS 新闻稿/BusinessWire（2026-05）：BMO/Amalgamated 部署中，GA 2026 H2
Fiserv Launches agentOS — Fiserv 投资者关系新闻稿（2026-05）：GA 2026-08，初始四 agent 含 Agentic AML Triage Analysis
American Banker, Fiserv has co-created AI agents with six banks and OpenAI（2026-05）
EY 北欧交易监控调查：LLM AML 范式误报可降 40-50%（2025-11）
Hamel Husain & Shreya Shankar, evals 方法论（错误分析→开放编码→轴向编码），Lenny's Newsletter（2025-09）；Aman Khan 三类 evals + 四段式 judge prompt（2026-04 更新版）
OpenAI CPO「PM 最重要的技能是写 evals」（2025-08）
「LLM 模拟用户是不可靠代理」（2026-01）— W3 judge 设计的人工抽检约束
EU AI Act：Digital Omnibus 临时协议（2026-05-07）Annex III 推迟至 2027-12-02；Article 50 仍 2026-08-02 生效
「PRD 未死而是进化为一页纸+原型」(Productify, 2025-11)；Builder.io prototype-first 五步法（2026-01）

SOTA 检查 (2026-06-11)

本周复查结论（E 节详记）：FIS Financial Crimes AI Agent 无提前 GA，仍 2026 H2；Fiserv agentOS 仍 2026-08 GA——时间窗口套利逻辑维持成立。新增可对照颗粒度：agentOS 的 Agentic AML Triage Analysis（2026-05）与本项目工作台屏同构，W13 对照更新时以它为基准。
evals 方法论无更替：Hamel/Shreya（2025-09）+ Aman Khan 四段式（2026-04）仍是现行主流，W2-W3 按此执行；「LLM 模拟用户不可靠」（2026-01）约束未见反例研究。
待确认事件：Databricks Data+AI Summit（2026-06-15~18）Agent Bricks 公告、Microsoft Foundry hosted agents tracing/eval GA（预计 2026-06 内）——本笔记调研日均未发生，W1 实际执行周与 P1 期间补记，不预写结论。
过时认知警示：引用本周 eval 数字时禁止脱掉限定语——「66 案合成金标、生成器与规则同源、recall 1.0 为口径一致性而非真实性能」。任何把它写成「准确率 100%」的展示文案都属于阶1 诚信止血（2026-05-30）要消灭的那类夸大。