方法论

AML 调查 Copilot — 一页纸 PRD（AIPA W1）

面向银行 AML 调查员的 AI Copilot：把「告警 → 证据汇集 → 洗钱类型学比对 → SAR 草稿」从每案 4-8 小时人工压缩到分钟级，全程 HITL 复核 + 审计轨迹，eval 体系先于 LLM 落地。

2026-06-15

80 行AML_COPILOT_PRD.md

AML 调查 Copilot — 一页纸 PRD

版本：v1.0（AIPA-120 W1 交付物） · 日期：2026-06-15 · 作者定位：10 年金融零售 PM × AI 工程形态遵循 prototype-first 产品发现：「PRD 未死，而是进化为一页纸 + 原型」(Productify, 2025-11)；本文配套可运行三屏原型（src/aml/），而非 40 页规格书。

1. 问题与机会

调查员痛点：告警队列长期积压；每个案件需在核心系统 / KYC / 名单筛查间手工拼凑证据，单案 4-8 小时；传统规则监控误报率高——EY 北欧交易监控调查 (2025-11) 指出 LLM AML 范式有 40-50% 误报下降空间。

市场时间窗：FIS × Anthropic「Financial Crimes AI Agent」于 2026-05-04 宣布（BMO / Amalgamated 部署中，GA 预计 2026 H2），流程正是「证据汇集 → 类型学比对 → SAR 叙述生成」，宣称调查从数天缩到分钟级；Fiserv agentOS 于 2026-05-14 宣布（OpenAI + AWS，GA 2026-08）。巨头方案均未 GA——自建复刻、验证同一流程正当时，且这是作品集级最佳标的：领域知识（金融零售 10 年）× AI 工程双重展示。

2. 目标用户与 JTBD

主用户：AML 调查员（处理告警、写 SAR）；次用户：合规官（抽检质量、对监管负责）。

当我……	我想要……	以便……
接到一条交易告警时	系统自动汇集主体、账户、交易、对手方与风险标记	不再跨系统手工拼证据 4-8 小时
判断告警性质时	看到与已知类型学（structuring / layering / mule network）的比对得分 + 命中规则 + 证据交易引用	快速决定升级调查还是关闭误报
决定上报 SAR 时	一份引用具体交易证据的 5W1H 叙述草稿	复核修改而非从零撰写，且每个论断可溯源

3. 解决方案范围（MVP = W1 原型，三屏）

案件队列：可复现种子的合成数据集（带金标 label），展示告警原因与风险标记。
调查工作台：证据汇集 → 类型学比对（规则引擎基线，非 LLM）——各类型学 0..1 评分、命中规则人话解释、证据交易高亮。
SAR 草稿：规则模板生成（FinCEN 5W1H 结构，诚实标注 generatedBy: 'rule-template'）+ HITL 复核（approve / return / edit）+ 审计轨迹（每步操作留痕）。

Agent UX 遵循 Fuselab 七模式 (2025-08)：透明推理、可覆盖、状态通报、置信度信号、渐进式授权。原型迭代遵循 Builder.io prototype-first 五步法 (2026-01)。

非目标：实时交易拦截；替代案件管理系统（CMS）；生产环境合规背书（全合成数据，仅作演示与 eval 测床）。

4. 成功指标 = eval 雏形（关键节）

OpenAI CPO：「PM 最重要的技能是写 evals」(2025-08)。本项目指标即 eval，先于 LLM 存在。

类型学判定 top-1 召回/精确——CI 门槛：structuring ≥ 0.85、layering / mule ≥ 0.80、normal 误报 ≤ 0.15。规则基线已入 CI：后续任何 LLM 版本必须在同一金标集上打败该基线才允许替换。
证据召回率：命中规则引用的证据交易对金标证据交易的覆盖比例。
SAR 质量 judge 评分（P3 接入 LLM 后启用）：前置指标为 judge × 人工评分一致率；依据「LLM 模拟用户是不可靠代理」(2026-01) 结论，关键评分永久保留人工抽检，judge 只做规模化初筛。
$/案件单位成本 与 端到端调查时长（北极星的成本/效率侧）。
方法论采用 Hamel Husain + Shreya Shankar（Lenny's，2025-09）：错误分析 → 开放编码 → 轴向编码 → LLM-as-judge → 代码型检查；judge prompt 用 Aman Khan 三类 evals + 四段式结构（2026-04 更新版）。

5. 里程碑

阶段	内容
W1	三屏原型 + 合成数据生成器 + 规则基线 + 本 PRD（本文档）
W2	错误分析（开放/轴向编码）+ 金标案例库扩充
W3	三类 evals（代码型 / judge / 人工抽检）+ CI gate 完整化
P3	LLM 接入（须打败规则基线）与 v1.0 发布；按 EU AI Act Article 50（2026-08-02 生效）对 AI 生成内容做透明标注

6. 风险与约束

LLM 幻觉 → HITL 强制复核 + 引用强制（SAR 每个论断必须挂 citedTxIds，无证据不出句）。
合成数据局限：无真实 PII（合规上必须如此），但分布偏简，指标对真实数据外推有限——在所有展示场合诚实标注。
合规框架：EU AI Act Annex III 高风险义务经 Digital Omnibus 临时协议 (2026-05-07) 推迟至 2027-12-02（正式通过待确认，需持续跟踪）；Article 50 透明义务（AI 生成内容须标注）仍于 2026-08-02 生效，P3 发布前必须落实。

SOTA 检查 (2026-06-11)

以下引用均于 2026-06-11 经 WebSearch 核实有效，无已停服/已弃用项目：

引用	日期	状态
FIS × Anthropic「Financial Crimes AI Agent」宣布（BMO/Amalgamated 部署，GA 预计 2026 H2）	2026-05	✅ 最新，未 GA
Fiserv agentOS（OpenAI + AWS，GA 2026-08）	2026-05	✅ 最新，未 GA
EY 北欧交易监控调查：LLM AML 范式误报可降 40-50%	2025-11	✅ 仍为该领域最新公开量化数据
EU AI Act Digital Omnibus 临时协议：Annex III 推迟至 2027-12-02；Article 50 仍 2026-08-02 生效	2026-05	✅ 当前监管时间线，待正式通过
Hamel Husain + Shreya Shankar evals 方法论（Lenny's）	2025-09	✅ 仍是 evals 主流方法论
OpenAI CPO「PM 最重要技能是写 evals」	2025-08	✅ 行业共识，持续被引用
Aman Khan 三类 evals + 四段式 judge prompt（更新版）	2026-04	✅ 最新版本
「LLM 模拟用户是不可靠代理」研究	2026-01	✅ judge 设计的现行约束
Builder.io prototype-first 五步法	2026-01	✅ 现行实践
「PRD 未死而是进化为一页纸+原型」(Productify)	2025-11	✅ 现行实践
Fuselab Agent UX 七模式	2025-08	✅ 现行 Agent UX 参考