返回 AIPA 笔记
AIPA Day 4

洗钱类型学与合成数据生成器设计

洗钱类型学与合成数据生成器设计

2026-06-18
amltypologysynthetic-dataevals

日期: 2026-06-18 阶段: Phase 1 - 产品定义×评测×可观测底座 标签: #aml #typology #synthetic-data #evals

核心问题

AML 调查 Copilot 的第一性问题不是「LLM 能不能写 SAR」,而是「拿什么数据证明它判得对」。真实交易数据被 BSA 保密义务与隐私法规双重锁死,公开可得的标注数据几乎不存在——所以 eval 的地基必须自己造:一个带金标 ground truth 的合成交易数据生成器。没有金标,后面的规则基线、LLM-judge、CI gate 全是空中楼阁。今天回答三个问题:(1) W1 要覆盖的三类洗钱类型学,机制细节到「生成器要复刻哪些数字特征」的粒度;(2) 合成数据先例(AMLSim/AMLworld/Tide)做对了什么、欠了什么;(3) 本项目生成器的五条设计决策。

关键内容

A. FATF 三阶段模型(经典/FATF 框架,打底)

洗钱的经典分解:placement(脏钱入金融体系,最易暴露)→ layering(多层过账切断资金溯源链)→ integration(以"干净"形态回流实体经济)。属性标注:这是 FATF 的长期监管框架(经典/监管文档),非新研究;其现行有效性由近期来源佐证——FinCEN 2025-08 的 Chinese Money Laundering Networks (CMLN) 咨询显示,现实中三阶段已由专业网络分工承包:CMLN 受墨西哥贩毒集团委托,用美国境内 money mule 完成现金 placement,再经贸易洗钱(TBML)做 layering/integration (FinCEN, 2025-08)。

B. 三个 W1 类型学的机制细节(生成器规格的来源)

1. Structuring / Smurfing(监管背景:BSA/FinCEN)

  • 门槛机制:BSA 实施细则(31 CFR 1010.311,监管文档/经典)要求单日现金交易聚合 > $10,000 须申报 CTR;故意拆分以规避申报即 structuring(31 U.S.C. 5324),本身就是联邦罪,无需证明底层资金非法。
  • 行为模式:单人多日 $9,000–$9,900 的 sub-threshold 现金存款;smurfing = 多人("smurfs")多网点同期拆分同一笔资金。
  • 可检测信号:滑动窗口(如 7 天)现金存款聚合 ≥ $10k 但单笔全部 < $10k;金额在门槛正下方异常堆积($9,0xx–$9,9xx 区间密度远高于自然消费分布);多账户同步同模式。
  • 生成器含义:阳性案件 = 2–7 天内 4–9 笔 $8,500–$9,900 的 cash credit;噪声要求 normal 案件也含「单笔 $9,500 的合法卖车款」之类交易,否则"单笔接近 $10k 即报警"的弱规则也能拿满分。

2. Layering 链式过账

  • 行为模式:A→B→C→D 的 wire/internal 链式转账;每个中间账户停留时间短(小时级至 ~2 天)、转出比高(pass-through ratio ≥ 90%)、金额沿链递减 1–5%(抽成/手续费痕迹)。
  • 可检测信号:dwell time、流入流出比、链深度 ≥ 3、入账后快速等额转出。
  • 生成器含义:用 counterpartyAccountId 串链;dayOffset 沿链单调递增且间隔 0–2 天;amountCents 每跳乘 0.95–0.99 后取整(整数分纪律下无舍入误差争议)。

3. Money mule 网络

  • 行为模式:fan-in(多个无关源头汇入同一 mule 账户)/ fan-out(一个账户向多个 mule 分发);mule 多为新户(开户 < 90 天即出现大额过账);申报职业与流水量级不匹配——FinCEN CMLN 咨询点名 student/housewife/retired/laborer 职业 + 异常交易量是红旗,且 CMLN 会提供伪造证件协助开户 (FinCEN, 2025-08)。FATF 类型学指引将跨辖区 mule 网络列为需网络级(而非单账户级)打击的独立威胁:招募、中转、提现分布在不同辖区。
  • 可检测信号:in-degree ≥ 5 个不同 counterparty、openedDaysAgo < 90 + riskFlags: ['new_account']、快进快出。
  • 生成器含义:每案 ≥ 5 个 parties;subject 账户先 fan-in 5–9 笔再集中转出/提现。

C. 合成数据先例与图结构真实性问题

先例日期机制局限
AMLSim (IBM)引用条目 2021,master 分支仍维护;2025-06 仍被工业教程当默认起点多代理模拟器(Java+Python),内置 fan-in/fan-out/cycle 等固定 alert 模式,产出账户级交易图模式固定、时间动态弱、栈重
AMLworld(arXiv 2306.16424)2023-06虚拟世界建模生成"真实感"交易,强调真实 illicit 占比与图特征行级分类导向,非案件级
Tide(arXiv 2603.01863)2026-03结构 + 时间双特征可编程注入;发布 illicit ratio 0.10% / 0.19% 两个参考集明确批评前代「只做简单结构模式、忽视时间动态」

Tide 的实验还给出一个对 eval 设计很重要的数字:同任务下 LightGBM 在低 illicit 集 PR-AUC 78.05,XGBoost 在高 illicit 集 85.12——模型表现强依赖数据条件,所以金标数据集的构成本身就是 eval 结论的一部分,必须显式声明 (Tide, 2026-03)。

图结构真实性三坑:真实账户图是重尾度分布 + 社区结构 + 时间 burst,简易生成器三者皆失真;真实 illicit ratio < 0.2%(Tide 参考集 0.10–0.19%),而教学集常用 5–10%。本项目的回避策略:生成的是案件级调查单元(一案一小图,对应"告警已触发、进入人工调查"场景),不是全行级行分类数据——回避全图真实性问题,但必须在文档里诚实声明这一边界。

设计要点/决策表

要点说明与已有方案差异
seeded PRNG 确定性AmlDataset.seed → 同 seed 字节级重现全量数据;eval 失败可逐 case 回放定位AMLSim 配置可复现但跨语言栈重;本项目 TS 内嵌、与前端/测试同进程零依赖
整数分纪律amountCents: number,金额上限远低于 2^53;禁 float 货币运算与 dsdb-lab ledger 同一纪律;多数学术生成器用 float 金额,链式递减时有舍入歧义
噪声注入normal 案件混入"接近门槛但合法"交易;阳性案件混入正常生活流水让 precision 非平凡——无噪声时规则引擎轻松 100%,eval 失去判别力
金标 66 案件分布structuring 18 + layering 15 + mule_network 15 + normal 18 = 66(getGoldenDataset() 实际配置),高于计划 ≥60 v1 门槛案件级近似均衡而非真实 illicit ratio——demo 取舍,文档显式声明,不声称真实不平衡下成立
CI 门槛即基线规则引擎在金标上的 precision/recall 写进 CI gate 防退化;P3 LLM 版必须 ≥ 规则基线才有存在理由Hamel/Shreya 流程的"代码型检查"落到 CI(Lenny's, 2025-09);多数 demo 项目无回归防线

对本项目的落地

  • src/aml/types.ts(已提交):AmlCase.label 即金标;GeneratorConfig { seed, counts } 即本文分布决策的代码化;RuleHit.evidenceTxIds 为 Day 5 的 SAR 引用与 UI 高亮预留。
  • 待建 src/aml/generator.ts:seeded PRNG(mulberry32 级别即可,无需密码学强度)+ 上文 B 节的三套数字规格 + 噪声注入。
  • 待建 src/aml/typology.ts:STRUCT-xx / LAYER-xx / MULE-xx 规则引擎,输出 TypologyAssessment(scores 0..1 + threshold)。
  • 待建 src/aml/__tests__/typologyEval.test.ts:对 66 案金标跑 precision/recall,体例参照 src/agent/__tests__/eval/retrievalEval.test.ts 的 CI gate。
  • 节奏:W2 (D8–14) 交付 golden dataset v1(计划要求 ≥60,本设计 66);P3 W10 扩至 ≥100(docs/AIPA_120_PLAN.md)。

参考资料

  • FATF 三阶段模型 placement/layering/integration — 经典/监管框架(FATF 长期文档,配下条近期来源佐证现行有效)
  • FinCEN, Advisory & Financial Trend Analysis on Chinese Money Laundering Networks(fincen.gov, 2025-08)— money mule 职业红旗、CMLN 分工承包三阶段
  • 31 CFR 1010.311(CTR $10,000 门槛)/ 31 U.S.C. 5324(structuring 入罪)— 监管文档/经典,FFIEC BSA/AML 在线手册持续引用(访问 2026-06)
  • IBM AMLSim, github.com/IBM/AMLSim(引用条目 2021;经典工具,master 分支仍维护,2025-06 工业教程仍引用)
  • AMLworld: Realistic Synthetic Financial Transactions for Anti-Money Laundering Models, arXiv 2306.16424(2023-06)
  • Tide: A Customisable Dataset Generator for Anti-Money Laundering Research, arXiv 2603.01863(2026-03)
  • EY 北欧交易监控调查:LLM AML 范式可使误报降 40–50%(2025-11)
  • FIS + Anthropic Financial Crimes AI Agent 宣布(2026-05);Nasdaq Verafin, How AI Is Reshaping Financial Crime Management(2026-04)
  • Hamel Husain & Shreya Shankar, evals 方法论(错误分析→编码→LLM-judge→代码型检查),Lenny's Newsletter(2025-09)

SOTA 检查 (2026-06-11)

  • 合成 AML 数据的 SOTA 已从 AMLSim 式固定模式演进到 Tide 式"结构+时间双特征可编程注入"(2026-03)。本项目不直接用 AMLSim/Tide 的理由成立:它们产出账户级/行级图数据,而 Copilot 的调查单元是案件;且需要 TS 内嵌 + 确定性 seed + CI 集成,自建轻量生成器成本更低。但 Tide 的"时间特征是一等公民"结论必须吸收——layering 的 dwell time、structuring 的多日拆分都是时间特征。
  • 过时认知警示 1:教学数据集 illicit ratio 5–10% 的直觉已被证伪,真实 < 0.2%(Tide 参考集 0.10%/0.19%,2026-03)。本项目 66 案近似均衡只对"调查已触发"场景成立,绝不能外推为筛查(screening)场景的性能声明。
  • 过时认知警示 2:"规则引擎已死、全面上 ML"是过时叙事——FIS-Anthropic(2026-05)的流程仍是 证据汇集→类型学比对→SAR 叙述,类型学规则是 agent 的工具而非被淘汰物;EY(2025-11)的 40–50% 误报降幅也是 LLM 叠加在既有监控之上的增量。
  • 行业侧 AI+金融犯罪的最新综述见 Nasdaq Verafin(2026-04):犯罪侧也在用自动化/AI 跨机构试探控制缺口——mule 网络检测的攻防是动态的,金标数据集需按阶段复查(D27–28 SOTA 复查点)。