W1 周总结 — 尺子先于引擎
W1 周总结 — 尺子先于引擎
日期: 2026-06-21 阶段: Phase 1 - 产品定义×评测×可观测底座 标签: #weekly-summary #evals #aml #sota-check
核心问题
W1(D1-7)要证明的命题是:在写任何 LLM 代码之前,产品定义(PRD/JTBD)、金标数据、规则基线、诚实标注管道可以先行就位——这就是计划书「先建尺子」的含义。本周总结回答四件事:(1) 交付清单对照计划,哪些完成、哪些提前、哪些滞后;(2) 规则基线在 66 案金标上的真实 eval 数字及其诚实解读;(3) 偏差与风险登记;(4) 本周 SOTA 复查记录(FIS/Fiserv 动态确认)。
关键内容
A. 交付清单对照计划
计划口径(docs/AIPA_120_PLAN.md W1 行):可点击原型 + 一页纸 PRD + 合成数据生成器启动 + ★跟踪 Data+AI Summit。实际:
| 交付物 | 计划 | 实际状态 | 位置/证据 |
|---|---|---|---|
| 一页纸 PRD(成功指标=eval 雏形) | W1 | ✅ v1.0 | docs/AML_COPILOT_PRD.md(含 SOTA 检查表) |
| 合成数据生成器 | W1 启动,W2 完成 | ✅ 提前完成(66 案金标 > 计划 ≥60 v1) | src/aml/generator.ts,seed aipa-golden-v1 |
| 类型学规则引擎基线 | 计划隐含在 W2-W3 | ✅ 提前完成(6 规则 + 评测器) | src/aml/typology.ts + src/aml/evalBaseline.ts |
| SAR 模板(5W1H + 诚实标注) | Day 5 设计产物 | ✅ 完成 | src/aml/sarDraft.ts(generatedBy: 'rule-template') |
| 测试 + 类型检查 | - | ✅ 14/14 通过(npx vitest run src/aml),typecheck 干净 | src/aml/__tests__/aml.test.ts |
| 三屏可点击原型(队列/工作台/SAR+HITL) | W1 | ✅ 完成(初稿曾登记滞后,W1 收尾补齐——见 C 节后记) | app/aml-copilot/ + src/components/aml/(5 组件,全套测试 186 项通过) |
| 学习笔记 | 每日配套 | ✅ Day 1-7 共 7 篇 | docs/aipa/day1~7-*.md |
| learn track 接线 | 体例同 DSDB | ✅ 完成(笔记自动发布到站点) | src/data/aipa-posts.ts + app/learn/aipa/ |
| ★Data+AI Summit(06-15~18)跟踪 | W1 | ⏳ 调研日(2026-06-11)峰会尚未开幕,结论待 W1 执行时补记 | 本文 SOTA 检查节登记 |
B. 实际 eval 基线数字(66 案合成金标)
来自 evalRuleBaseline(getGoldenDataset()) 的真实输出(非门槛值,是实测值;CI 断言见测试文件):
| 指标 | 实测 | CI 门槛 | 余量 |
|---|---|---|---|
| structuring recall | 1.00(n=18) | ≥0.85 | +0.15 |
| layering recall | 1.00(n=15) | ≥0.80 | +0.20 |
| mule_network recall | 1.00(n=15) | ≥0.80 | +0.20 |
| normal 误报率 (FPR) | 0.0556(1/18) | ≤0.15 | 余 0.094 |
混淆矩阵(label→predicted):structuring→structuring 18;layering→layering 15;mule_network→mule_network 15;normal→normal 17;normal→structuring 1(即 Day 6 记录的刻意保留误报:现金密集型商户 3 笔 sub-$10k 营业款现金存款触发 STRUCT-01)。
诚实解读,三条都不能省:
- recall 全 1.0 不是性能声明,是口径一致性声明。生成器与规则引擎出自同一人之手、共享同一窗口语义(10 天窗≡跨度≤9)——满分主要证明「数据-规则定义对齐、无 off-by-one」,外推到真实数据毫无依据(PRD 风险节已声明)。
- 唯一的 FP 是设计出来的,不是规则「犯的错」:它把 FPR 指标钉在非平凡值上,并给 P3 的 LLM 留下明确超越点——规则分不清商户营业款与拆分。
- 这组数字的真正用途是地板:已入 CI 防退化;P3 LLM 版必须在同一金标上 ≥ 此基线才允许替换(PRD 第 4 节既定纪律)。基线满分意味着 LLM 在 v1 金标上最多打平——所以 P3 扩集(≥100 案,含贴线案件与叠加类型学)不是可选项,是让对比有判别力的必要条件。
C. 与计划的偏差与风险
提前项:生成器+规则引擎+评测器原计划 W2 完成,W1 即交付——因为 Day 3 PRD 把「成功指标=eval」定死后,数据层是唯一的关键路径,提前投入是正确的次序。W2 由此腾出工时给错误分析。
滞后项(后记:已于 W1 收尾消除):本文初稿时三屏 UI 未入仓(UI 构建车道因上游服务过载重试)。收尾时已补齐:app/aml-copilot/ 页面 + src/components/aml/ 5 个组件入仓,typecheck 干净、全套测试 186 项通过。初稿登记按「滞后显式登记」纪律保留——当时的风险判断(数据语义已被契约与测试钉死、UI 是纯消费方、风险可控)被结果验证。
风险登记:(1) 自证循环——生成器与规则同源,W2 用开放编码攻击防串扰假设(渠道分区/openedDaysAgo≥90),P3 扩集时按「余量原则」补贴线案件;(2) 合成分布偏简——无真实 PII 是合规必须,但指标外推受限,所有展示场合带限定语(PRD 风险节);(3) 外部事件依赖——Data+AI Summit 公告与 Foundry tracing/eval GA(计划 2026-06 内)均未落地,W1/P1 各留跟踪位。
D. W2 预告(D8-14)
- 错误分析主线:在 agent-v2 真实 traces 上跑 Hamel/Shreya 流程——逐 trace 开放编码(自由标注失败现象)→轴向编码(聚类)→ 5-6 类 failure taxonomy(Lenny's, 2025-09);AML 侧把 Day 6 的防串扰假设与刻意 FP 作为第一批编码对象。
- 金标节奏:W2 计划口径「≥60 v1」已由 66 案达成,W2 不盲目扩量,只按错误分析发现定向补难例;成规模扩充(≥100)按计划留在 P3 W10。
- W3 衔接:三类 evals(代码型/LLM-judge 四段式 rubric 2026-04 版/人工抽检)+ judge×人工一致率 + CI gate 完整化。
E. 本周 SOTA 复查记录(WebSearch 2026-06-11)
按进度文件「平台 GA 状态执行当周确认」纪律,本周检索「FIS Anthropic financial crimes AI agent GA / Fiserv agentOS」:
- 无新 GA 动作。FIS Financial Crimes AI Agent 维持 2026-05-04 宣布口径:BMO/Amalgamated 部署中,broader availability 仍为 2026 H2;Anthropic Applied AI 团队与 FDE 嵌入 FIS 共同设计(FIS 新闻稿/BusinessWire, 2026-05)。
- Fiserv agentOS 维持 GA 2026-08;新核实细节:初始搭载四个第一方 agent——Commercial Loan Onboarding、Daily Operational Analysis、Agentic Deposit Intelligence、Agentic AML Triage Analysis(Fiserv 投资者关系新闻稿, 2026-05),并与六家银行+OpenAI 共创 agent(American Banker, 2026-05)。其中 AML Triage 与本项目「队列→比对→升级/关闭」的工作台屏直接同构——竞品功能颗粒度首次可对照。
- 结论:两巨头均未提前 GA,「在它们 GA 前复刻流程」的时间窗口套利逻辑维持成立;下一硬复查点不变(W13,2026-08 前后)。
设计要点/决策表
| 要点 | 说明 | 与已有方案差异 |
|---|---|---|
| 尺子先于引擎得到执行验证 | eval 数字在 LLM 之前存在并入 CI | 多数 agent 项目先 demo 后补 eval;本项目 PRD 指标=CI 断言同一份 |
| 基线满分→扩集成为必要条件 | v1 金标上 LLM 最多打平,判别力为零 | 把「P3 扩 ≥100」从计划任务升级为对比有效性的逻辑前提 |
| 周总结登记实测值而非门槛值 | recall 1.0/FPR 5.56% 实测,门槛 0.85/0.15 另列 | 防止把「门槛通过」误传播为「性能=门槛」 |
| 滞后项显式登记 | 三屏 UI 缺口曾写进周记,补齐后以后记更新而非删除原登记 | 不用「数据层完成」掩盖「可演示性未达成」;修正留痕可审计 |
| SOTA 复查留痕 | 检索日期+结论+下一复查点写进笔记 | 复查变成可审计记录,而非「我查过了」 |
对本项目的落地
- 本周入仓资产:
src/aml/(types/generator/typology/sarDraft/evalBaseline + 测试 14/14)、app/aml-copilot/+src/components/aml/(三屏原型 5 组件)、docs/AML_COPILOT_PRD.md、docs/aipa/day1~7(7 篇)、src/data/aipa-posts.ts+app/learn/aipa/(learn track 接线)、vitest.config.ts(aml 测试纳入)、Navbar 两处入口。 - W2 第一优先:错误分析主线(本文 D 节)——UI 已于 W1 收尾入仓,无需占用 W2 工时。
- 进度文件回写:
docs/daily/AIPA_PROGRESS.mdW1 行交付列与 SOTA✓ 列按本文 A/E 节更新。 - 作品②状态机:数据层 + eval 基线 + 三屏原型均已入仓 → 「三大杀手作品」表可链接 URL 填
/aml-copilot(推送部署后生效)。
参考资料
- FIS Brings Agentic AI to Banking with Anthropic, Starting with Financial Crimes — FIS 新闻稿/BusinessWire(2026-05):BMO/Amalgamated 部署中,GA 2026 H2
- Fiserv Launches agentOS — Fiserv 投资者关系新闻稿(2026-05):GA 2026-08,初始四 agent 含 Agentic AML Triage Analysis
- American Banker, Fiserv has co-created AI agents with six banks and OpenAI(2026-05)
- EY 北欧交易监控调查:LLM AML 范式误报可降 40-50%(2025-11)
- Hamel Husain & Shreya Shankar, evals 方法论(错误分析→开放编码→轴向编码),Lenny's Newsletter(2025-09);Aman Khan 三类 evals + 四段式 judge prompt(2026-04 更新版)
- OpenAI CPO「PM 最重要的技能是写 evals」(2025-08)
- 「LLM 模拟用户是不可靠代理」(2026-01)— W3 judge 设计的人工抽检约束
- EU AI Act:Digital Omnibus 临时协议(2026-05-07)Annex III 推迟至 2027-12-02;Article 50 仍 2026-08-02 生效
- 「PRD 未死而是进化为一页纸+原型」(Productify, 2025-11);Builder.io prototype-first 五步法(2026-01)
SOTA 检查 (2026-06-11)
- 本周复查结论(E 节详记):FIS Financial Crimes AI Agent 无提前 GA,仍 2026 H2;Fiserv agentOS 仍 2026-08 GA——时间窗口套利逻辑维持成立。新增可对照颗粒度:agentOS 的 Agentic AML Triage Analysis(2026-05)与本项目工作台屏同构,W13 对照更新时以它为基准。
- evals 方法论无更替:Hamel/Shreya(2025-09)+ Aman Khan 四段式(2026-04)仍是现行主流,W2-W3 按此执行;「LLM 模拟用户不可靠」(2026-01)约束未见反例研究。
- 待确认事件:Databricks Data+AI Summit(2026-06-15~18)Agent Bricks 公告、Microsoft Foundry hosted agents tracing/eval GA(预计 2026-06 内)——本笔记调研日均未发生,W1 实际执行周与 P1 期间补记,不预写结论。
- 过时认知警示:引用本周 eval 数字时禁止脱掉限定语——「66 案合成金标、生成器与规则同源、recall 1.0 为口径一致性而非真实性能」。任何把它写成「准确率 100%」的展示文案都属于阶1 诚信止血(2026-05-30)要消灭的那类夸大。