AML Copilot 产品发现与 JTBD
AML Copilot 产品发现与 JTBD
日期: 2026-06-15 阶段: Phase 1 - 产品定义×评测×可观测底座 标签: #aml #jtbd #product-discovery #prototype-first
核心问题
AIPA-120 第一天为什么不写代码?因为作品②(AML 调查 Copilot)后续的每一项架构决策都必须回答「哪个用户 job、哪个 eval 指标需要它」。今天解决三件事:(1) 用 2025-2026 行业数据量化 AML 调查员的工作流漏斗与痛点;(2) 用 JTBD 把痛点转成 3 条可验证的 job statements;(3) 用 prototype-first 流程替代传统重 PRD,确立「一页纸 PRD + 可点击原型」的并存交付模式。
关键内容
A. AML 调查漏斗:告警 → 分诊 → 调查 → SAR
行业基线数字(Facctum《AML False Positive Rates 2026 Report》,2026-03,本日 WebSearch 核实):
- 误报率 85%-95%:交易监控系统(TMS)产生的告警绝大多数不可行动
- 单告警平均调查时间 20-60 分钟
- 仅 1%-5% 的告警最终形成 SAR(可疑活动报告)——漏斗收敛比约 20:1 到 100:1
- 合规团队最多 90% 的时间花在不产生任何行动的告警上
- 量化示例(同报告):日处理 10,000 条告警、90% 误报率的机构 → 每天 9,000 条误报、4,500 个分析师小时耗在不可行动调查上,折合 500+ 全职分析师/年的工作量
效果侧的两个锚点:
- FIS + Anthropic「Financial Crimes AI Agent」(2026-05-04 宣布):流程 = 证据汇集→洗钱类型学比对→SAR 叙述生成,宣称把单案调查从数天压缩到分钟级——说明瓶颈不在「判断」本身,而在跨系统证据汇集与叙述撰写这两段机械劳动
- EY 北欧交易监控调查(2025-11):LLM AML 范式可使误报降 40%-50%
理论打底:FATF 三阶段洗钱模型(placement / layering / integration,经典/监管文档属性)是类型学比对引擎的分类骨架;近期配套来源为 Facctum 报告(2026-03)与 Hawk AML Investigative Agent 把 typology identification 列为四大自动化任务之一(2026-03,见 Day 2)。
B. JTBD:3 条 job statements
JTBD(Christensen《Competing Against Luck》2016,经典方法论属性)格式:当【情境】,我想要【动机】,以便【期望结果】。调查员的三条核心 job:
- 证据汇集:当一条 TM 告警进入我的队列时,我想要一次性汇集所有相关证据(KYC 档案、12 个月交易历史、关联方图谱、历史告警处置记录),以便在分钟级判断是否升级为案件——而不是在 5-6 个系统间手动复制粘贴。
- 类型学比对:当我确认行为可疑时,我想要把证据显式映射到具体洗钱类型学(structuring / layering / mule network),以便我的升级决定能通过 QA 复核与监管检视,而非依赖「感觉不对」。
- SAR 叙述与审计:当案件需要上报时,我想要快速产出结构完整、每条陈述可溯源到证据的 SAR 叙述草稿,并自动留存完整审计轨迹,以便在监管时限内提交且不被退回重写。
这三条 job 一一对应 Copilot 原型的三屏,也直接派生 Day 3 的 eval 指标(类型学召回/精确、引用溯源率、SAR 质量分)。
C. prototype-first:取代重 PRD 的发现流程
Builder.io《The 2026 Guide to AI Prototyping for Product Managers》(2026-01,本日 WebFetch 复核原文)给出的构建流程:
- 把功能拆解为小颗粒(不做单体大原型)
- Plan 模式先对齐(生成前用澄清式问答确认方案)
- 生成 + 在真实产品上下文中预览
- 视觉精修(可视化编辑器或代码微调)
- 闭环:把可交互原型交给利益相关者体验并收集反馈(原文核心论点:「一个可交互原型抵得上一百万字——让利益相关者体验你的想法,而不是解读你的文档」)
措辞校正:本计划文档(docs/AIPA_120_PLAN.md)概括为「五步法」;2026-06-11 复核原文,显式列出的是四步构建流程,第五步(反馈验证闭环)是文章的隐含主张。本笔记按原文口径记录。
「PRD 未死而是进化」(Productify,2025-11):PRD 不被原型消灭,而是收敛为一页纸——问题陈述、成功指标、非目标、风险四段;功能细节交给原型承载,质量定义交给 eval spec 承载(Day 3)。两者并存、各司其职。
D. 本项目 W1 发现过程复盘
实际执行序列:行业数据(A 节)→ JTBD(B 节)→ 三屏可点击原型(证据汇集 / 类型学比对 / SAR 草稿)→ 一页纸 PRD(成功指标 = eval 指标雏形)→ 合成交易数据生成器子项目启动。10 年金融风控经验的注入点:告警处置的「事前授权 / 事中拦截 / 事后审计」三段式直觉直接复用为 Copilot 的 HITL 设计原则;QA 复核视角决定了 Job 2 必须输出「可检视的类型学映射」而非黑盒结论。
设计要点/决策表
| 要点 | 说明 | 与已有方案差异 |
|---|---|---|
| 漏斗数字先行 | 每个痛点必须挂 2025-2026 行业数字(85-95% FP、20-60 min/告警、1-5% 成 SAR) | 传统 PRD 写定性痛点;这里痛点不带日期数字不准入 PRD |
| JTBD 限 3 条 | 每条 job 必须同时映射到一个原型屏 + 至少一个 eval 指标 | vs 功能清单式需求(features 无法验证「完成了 job 吗」) |
| prototype-first | 原型先于文档,干系人体验而非解读 | vs 30 页重 PRD(写 2 周、读 0 遍) |
| 一页纸 PRD 并存 | 问题/成功指标/非目标/风险四段 | PRD 进化而非死亡(Productify 2025-11),与原型+eval spec 分工 |
| 成功指标 = eval 指标 | PRD 里不写「提升效率」类空话,直接写可执行 eval 门槛 | 传统 KPI 上线后才能测;eval 指标构建期每日可跑(Day 3 展开) |
对本项目的落地
- docs/AIPA_120_PLAN.md W1(D1-7)交付物对齐:三屏可点击原型 + 一页纸 PRD
- 一页纸 PRD 落盘 docs/AML_COPILOT_PRD.md(已注册到 /papers;因 papers 路由为单段 slug 故放 docs/ 根),成功指标段由 Day 3 的 eval 指标表填充
- JTBD→eval 映射喂给 W3 的 eval suite v2(升级 src/agent/eval/runRetrievalEval.ts 与 src/agent/eval/retrievalGolden.ts)
- 合成数据生成器(W2)以 FATF 类型学(structuring / layering / mule network)为标签骨架,金标 ≥60 案例 v1
- 产品定义复用 docs/FINANCE_AGENT_PROJECT.md 模板与 docs/ai day47-69 已有笔记,只做增量
- 竞品定位段引用 Day 2 笔记结论
参考资料
- Facctum — AML False Positive Rates 2026 Report (2026-03)
- FIS + Anthropic — Financial Crimes AI Agent 公告,BMO/Amalgamated 部署中,GA 预计 2026 H2 (2026-05)
- EY 北欧交易监控调查:LLM AML 范式误报降 40-50% (2025-11)
- Builder.io — The 2026 Guide to AI Prototyping for Product Managers (2026-01)
- Productify — PRD 未死而是进化为一页纸+原型 (2025-11)
- FATF 三阶段洗钱模型(经典/监管文档;近期配套:Facctum 报告 2026-03)
- Christensen — Competing Against Luck / JTBD(2016,经典方法论;近期配套:Builder.io 2026-01 将原型验证嵌入 JTBD 发现流程)
SOTA 检查 (2026-06-11)
- prototype-first 仍是 2026 年 AI PM 主流工作方式:Builder.io(2026-01)之外,Aakash Gupta×Aman Khan《AI PM Crash Course 2026》(2026-04 更新版)同样把 prototyping 列为 AI PM 工作流第一环(prototyping→observability→evals),无更新替代方案
- 「五步法」措辞已校正:复核 Builder.io 原文为四步构建流程 + 反馈闭环(见 C 节)
- 行业数据时效:85-95% FP、20-60 min/告警为 2026-03 口径,属近 3 个月数据,仍有效
- 过时认知警示:「AML AI = 规则调优 + ML 告警评分」是 2023-2024 范式,已被代理式端到端调查取代(NICE Actimize 2025-04、Hawk 2026-03、FIS-Anthropic 2026-05,详见 Day 2);以「降误报评分」为唯一卖点的产品叙事已过时
- 待复查硬日期:FIS GA 2026 H2、Fiserv agentOS GA 2026-08 —— W13 强制复查(已内置于计划硬日期复查点)