返回 Papers
方法论

AML 调查 Copilot — 一页纸 PRD(AIPA W1)

面向银行 AML 调查员的 AI Copilot:把「告警 → 证据汇集 → 洗钱类型学比对 → SAR 草稿」从每案 4-8 小时人工压缩到分钟级,全程 HITL 复核 + 审计轨迹,eval 体系先于 LLM 落地。

2026-06-15
80AML_COPILOT_PRD.md

AML 调查 Copilot — 一页纸 PRD

版本:v1.0(AIPA-120 W1 交付物) · 日期:2026-06-15 · 作者定位:10 年金融零售 PM × AI 工程 形态遵循 prototype-first 产品发现:「PRD 未死,而是进化为一页纸 + 原型」(Productify, 2025-11);本文配套可运行三屏原型(src/aml/),而非 40 页规格书。

面向银行 AML 调查员的 AI Copilot:把「告警 → 证据汇集 → 洗钱类型学比对 → SAR 草稿」从每案 4-8 小时人工压缩到分钟级,全程 HITL 复核 + 审计轨迹,eval 体系先于 LLM 落地。


1. 问题与机会

调查员痛点:告警队列长期积压;每个案件需在核心系统 / KYC / 名单筛查间手工拼凑证据,单案 4-8 小时;传统规则监控误报率高——EY 北欧交易监控调查 (2025-11) 指出 LLM AML 范式有 40-50% 误报下降空间

市场时间窗:FIS × Anthropic「Financial Crimes AI Agent」于 2026-05-04 宣布(BMO / Amalgamated 部署中,GA 预计 2026 H2),流程正是「证据汇集 → 类型学比对 → SAR 叙述生成」,宣称调查从数天缩到分钟级;Fiserv agentOS 于 2026-05-14 宣布(OpenAI + AWS,GA 2026-08)。巨头方案均未 GA——自建复刻、验证同一流程正当时,且这是作品集级最佳标的:领域知识(金融零售 10 年)× AI 工程双重展示。

2. 目标用户与 JTBD

主用户:AML 调查员(处理告警、写 SAR);次用户:合规官(抽检质量、对监管负责)。

当我……我想要……以便……
接到一条交易告警时系统自动汇集主体、账户、交易、对手方与风险标记不再跨系统手工拼证据 4-8 小时
判断告警性质时看到与已知类型学(structuring / layering / mule network)的比对得分 + 命中规则 + 证据交易引用快速决定升级调查还是关闭误报
决定上报 SAR 时一份引用具体交易证据的 5W1H 叙述草稿复核修改而非从零撰写,且每个论断可溯源

3. 解决方案范围(MVP = W1 原型,三屏)

  1. 案件队列:可复现种子的合成数据集(带金标 label),展示告警原因与风险标记。
  2. 调查工作台:证据汇集 → 类型学比对(规则引擎基线,非 LLM)——各类型学 0..1 评分、命中规则人话解释、证据交易高亮。
  3. SAR 草稿:规则模板生成(FinCEN 5W1H 结构,诚实标注 generatedBy: 'rule-template')+ HITL 复核(approve / return / edit)+ 审计轨迹(每步操作留痕)。

Agent UX 遵循 Fuselab 七模式 (2025-08):透明推理、可覆盖、状态通报、置信度信号、渐进式授权。原型迭代遵循 Builder.io prototype-first 五步法 (2026-01)。

非目标:实时交易拦截;替代案件管理系统(CMS);生产环境合规背书(全合成数据,仅作演示与 eval 测床)。

4. 成功指标 = eval 雏形(关键节)

OpenAI CPO:「PM 最重要的技能是写 evals」(2025-08)。本项目指标即 eval,先于 LLM 存在。

  • 类型学判定 top-1 召回/精确——CI 门槛:structuring ≥ 0.85、layering / mule ≥ 0.80、normal 误报 ≤ 0.15。规则基线已入 CI:后续任何 LLM 版本必须在同一金标集上打败该基线才允许替换。
  • 证据召回率:命中规则引用的证据交易对金标证据交易的覆盖比例。
  • SAR 质量 judge 评分(P3 接入 LLM 后启用):前置指标为 judge × 人工评分一致率;依据「LLM 模拟用户是不可靠代理」(2026-01) 结论,关键评分永久保留人工抽检,judge 只做规模化初筛。
  • $/案件单位成本端到端调查时长(北极星的成本/效率侧)。
  • 方法论采用 Hamel Husain + Shreya Shankar(Lenny's,2025-09):错误分析 → 开放编码 → 轴向编码 → LLM-as-judge → 代码型检查;judge prompt 用 Aman Khan 三类 evals + 四段式结构(2026-04 更新版)。

5. 里程碑

阶段内容
W1三屏原型 + 合成数据生成器 + 规则基线 + 本 PRD(本文档)
W2错误分析(开放/轴向编码)+ 金标案例库扩充
W3三类 evals(代码型 / judge / 人工抽检)+ CI gate 完整化
P3LLM 接入(须打败规则基线)与 v1.0 发布;按 EU AI Act Article 50(2026-08-02 生效)对 AI 生成内容做透明标注

6. 风险与约束

  • LLM 幻觉 → HITL 强制复核 + 引用强制(SAR 每个论断必须挂 citedTxIds,无证据不出句)。
  • 合成数据局限:无真实 PII(合规上必须如此),但分布偏简,指标对真实数据外推有限——在所有展示场合诚实标注。
  • 合规框架:EU AI Act Annex III 高风险义务经 Digital Omnibus 临时协议 (2026-05-07) 推迟至 2027-12-02(正式通过待确认,需持续跟踪);Article 50 透明义务(AI 生成内容须标注)仍于 2026-08-02 生效,P3 发布前必须落实。

SOTA 检查 (2026-06-11)

以下引用均于 2026-06-11 经 WebSearch 核实有效,无已停服/已弃用项目:

引用日期状态
FIS × Anthropic「Financial Crimes AI Agent」宣布(BMO/Amalgamated 部署,GA 预计 2026 H2)2026-05✅ 最新,未 GA
Fiserv agentOS(OpenAI + AWS,GA 2026-08)2026-05✅ 最新,未 GA
EY 北欧交易监控调查:LLM AML 范式误报可降 40-50%2025-11✅ 仍为该领域最新公开量化数据
EU AI Act Digital Omnibus 临时协议:Annex III 推迟至 2027-12-02;Article 50 仍 2026-08-02 生效2026-05✅ 当前监管时间线,待正式通过
Hamel Husain + Shreya Shankar evals 方法论(Lenny's)2025-09✅ 仍是 evals 主流方法论
OpenAI CPO「PM 最重要技能是写 evals」2025-08✅ 行业共识,持续被引用
Aman Khan 三类 evals + 四段式 judge prompt(更新版)2026-04✅ 最新版本
「LLM 模拟用户是不可靠代理」研究2026-01✅ judge 设计的现行约束
Builder.io prototype-first 五步法2026-01✅ 现行实践
「PRD 未死而是进化为一页纸+原型」(Productify)2025-11✅ 现行实践
Fuselab Agent UX 七模式2025-08✅ 现行 Agent UX 参考