AIPA Day 1

AML Copilot 产品发现与 JTBD

2026-06-15

amljtbdproduct-discoveryprototype-first

日期: 2026-06-15 阶段: Phase 1 - 产品定义×评测×可观测底座标签: #aml #jtbd #product-discovery #prototype-first

核心问题

AIPA-120 第一天为什么不写代码？因为作品②（AML 调查 Copilot）后续的每一项架构决策都必须回答「哪个用户 job、哪个 eval 指标需要它」。今天解决三件事：(1) 用 2025-2026 行业数据量化 AML 调查员的工作流漏斗与痛点；(2) 用 JTBD 把痛点转成 3 条可验证的 job statements；(3) 用 prototype-first 流程替代传统重 PRD，确立「一页纸 PRD + 可点击原型」的并存交付模式。

关键内容

A. AML 调查漏斗：告警 → 分诊 → 调查 → SAR

行业基线数字（Facctum《AML False Positive Rates 2026 Report》，2026-03，本日 WebSearch 核实）：

误报率 85%-95%：交易监控系统（TMS）产生的告警绝大多数不可行动
单告警平均调查时间 20-60 分钟
仅 1%-5% 的告警最终形成 SAR（可疑活动报告）——漏斗收敛比约 20:1 到 100:1
合规团队最多 90% 的时间花在不产生任何行动的告警上
量化示例（同报告）：日处理 10,000 条告警、90% 误报率的机构 → 每天 9,000 条误报、4,500 个分析师小时耗在不可行动调查上，折合 500+ 全职分析师/年的工作量

效果侧的两个锚点：

FIS + Anthropic「Financial Crimes AI Agent」（2026-05-04 宣布）：流程 = 证据汇集→洗钱类型学比对→SAR 叙述生成，宣称把单案调查从数天压缩到分钟级——说明瓶颈不在「判断」本身，而在跨系统证据汇集与叙述撰写这两段机械劳动
EY 北欧交易监控调查（2025-11）：LLM AML 范式可使误报降 40%-50%

理论打底：FATF 三阶段洗钱模型（placement / layering / integration，经典/监管文档属性）是类型学比对引擎的分类骨架；近期配套来源为 Facctum 报告（2026-03）与 Hawk AML Investigative Agent 把 typology identification 列为四大自动化任务之一（2026-03，见 Day 2）。

B. JTBD：3 条 job statements

JTBD（Christensen《Competing Against Luck》2016，经典方法论属性）格式：当【情境】，我想要【动机】，以便【期望结果】。调查员的三条核心 job：

证据汇集：当一条 TM 告警进入我的队列时，我想要一次性汇集所有相关证据（KYC 档案、12 个月交易历史、关联方图谱、历史告警处置记录），以便在分钟级判断是否升级为案件——而不是在 5-6 个系统间手动复制粘贴。
类型学比对：当我确认行为可疑时，我想要把证据显式映射到具体洗钱类型学（structuring / layering / mule network），以便我的升级决定能通过 QA 复核与监管检视，而非依赖「感觉不对」。
SAR 叙述与审计：当案件需要上报时，我想要快速产出结构完整、每条陈述可溯源到证据的 SAR 叙述草稿，并自动留存完整审计轨迹，以便在监管时限内提交且不被退回重写。

这三条 job 一一对应 Copilot 原型的三屏，也直接派生 Day 3 的 eval 指标（类型学召回/精确、引用溯源率、SAR 质量分）。

C. prototype-first：取代重 PRD 的发现流程

Builder.io《The 2026 Guide to AI Prototyping for Product Managers》（2026-01，本日 WebFetch 复核原文）给出的构建流程：

把功能拆解为小颗粒（不做单体大原型）
Plan 模式先对齐（生成前用澄清式问答确认方案）
生成 + 在真实产品上下文中预览
视觉精修（可视化编辑器或代码微调）
闭环：把可交互原型交给利益相关者体验并收集反馈（原文核心论点：「一个可交互原型抵得上一百万字——让利益相关者体验你的想法，而不是解读你的文档」）

措辞校正：本计划文档（docs/AIPA_120_PLAN.md）概括为「五步法」；2026-06-11 复核原文，显式列出的是四步构建流程，第五步（反馈验证闭环）是文章的隐含主张。本笔记按原文口径记录。

「PRD 未死而是进化」（Productify，2025-11）：PRD 不被原型消灭，而是收敛为一页纸——问题陈述、成功指标、非目标、风险四段；功能细节交给原型承载，质量定义交给 eval spec 承载（Day 3）。两者并存、各司其职。

D. 本项目 W1 发现过程复盘

实际执行序列：行业数据（A 节）→ JTBD（B 节）→ 三屏可点击原型（证据汇集 / 类型学比对 / SAR 草稿）→ 一页纸 PRD（成功指标 = eval 指标雏形）→ 合成交易数据生成器子项目启动。10 年金融风控经验的注入点：告警处置的「事前授权 / 事中拦截 / 事后审计」三段式直觉直接复用为 Copilot 的 HITL 设计原则；QA 复核视角决定了 Job 2 必须输出「可检视的类型学映射」而非黑盒结论。

设计要点/决策表

要点	说明	与已有方案差异
漏斗数字先行	每个痛点必须挂 2025-2026 行业数字（85-95% FP、20-60 min/告警、1-5% 成 SAR）	传统 PRD 写定性痛点；这里痛点不带日期数字不准入 PRD
JTBD 限 3 条	每条 job 必须同时映射到一个原型屏 + 至少一个 eval 指标	vs 功能清单式需求（features 无法验证「完成了 job 吗」）
prototype-first	原型先于文档，干系人体验而非解读	vs 30 页重 PRD（写 2 周、读 0 遍）
一页纸 PRD 并存	问题/成功指标/非目标/风险四段	PRD 进化而非死亡（Productify 2025-11），与原型+eval spec 分工
成功指标 = eval 指标	PRD 里不写「提升效率」类空话，直接写可执行 eval 门槛	传统 KPI 上线后才能测；eval 指标构建期每日可跑（Day 3 展开）

对本项目的落地

docs/AIPA_120_PLAN.md W1（D1-7）交付物对齐：三屏可点击原型 + 一页纸 PRD
一页纸 PRD 落盘 docs/AML_COPILOT_PRD.md（已注册到 /papers；因 papers 路由为单段 slug 故放 docs/ 根），成功指标段由 Day 3 的 eval 指标表填充
JTBD→eval 映射喂给 W3 的 eval suite v2（升级 src/agent/eval/runRetrievalEval.ts 与 src/agent/eval/retrievalGolden.ts）
合成数据生成器（W2）以 FATF 类型学（structuring / layering / mule network）为标签骨架，金标 ≥60 案例 v1
产品定义复用 docs/FINANCE_AGENT_PROJECT.md 模板与 docs/ai day47-69 已有笔记，只做增量
竞品定位段引用 Day 2 笔记结论

参考资料

Facctum — AML False Positive Rates 2026 Report (2026-03)
FIS + Anthropic — Financial Crimes AI Agent 公告，BMO/Amalgamated 部署中，GA 预计 2026 H2 (2026-05)
EY 北欧交易监控调查：LLM AML 范式误报降 40-50% (2025-11)
Builder.io — The 2026 Guide to AI Prototyping for Product Managers (2026-01)
Productify — PRD 未死而是进化为一页纸+原型 (2025-11)
FATF 三阶段洗钱模型（经典/监管文档；近期配套：Facctum 报告 2026-03）
Christensen — Competing Against Luck / JTBD（2016，经典方法论；近期配套：Builder.io 2026-01 将原型验证嵌入 JTBD 发现流程）

SOTA 检查 (2026-06-11)

prototype-first 仍是 2026 年 AI PM 主流工作方式：Builder.io（2026-01）之外，Aakash Gupta×Aman Khan《AI PM Crash Course 2026》（2026-04 更新版）同样把 prototyping 列为 AI PM 工作流第一环（prototyping→observability→evals），无更新替代方案
「五步法」措辞已校正：复核 Builder.io 原文为四步构建流程 + 反馈闭环（见 C 节）
行业数据时效：85-95% FP、20-60 min/告警为 2026-03 口径，属近 3 个月数据，仍有效
过时认知警示：「AML AI = 规则调优 + ML 告警评分」是 2023-2024 范式，已被代理式端到端调查取代（NICE Actimize 2025-04、Hawk 2026-03、FIS-Anthropic 2026-05，详见 Day 2）；以「降误报评分」为唯一卖点的产品叙事已过时
待复查硬日期：FIS GA 2026 H2、Fiserv agentOS GA 2026-08 —— W13 强制复查（已内置于计划硬日期复查点）