AIPA Day 4

洗钱类型学与合成数据生成器设计

2026-06-18

amltypologysynthetic-dataevals

日期: 2026-06-18 阶段: Phase 1 - 产品定义×评测×可观测底座标签: #aml #typology #synthetic-data #evals

核心问题

AML 调查 Copilot 的第一性问题不是「LLM 能不能写 SAR」，而是「拿什么数据证明它判得对」。真实交易数据被 BSA 保密义务与隐私法规双重锁死，公开可得的标注数据几乎不存在——所以 eval 的地基必须自己造：一个带金标 ground truth 的合成交易数据生成器。没有金标，后面的规则基线、LLM-judge、CI gate 全是空中楼阁。今天回答三个问题：(1) W1 要覆盖的三类洗钱类型学，机制细节到「生成器要复刻哪些数字特征」的粒度；(2) 合成数据先例（AMLSim/AMLworld/Tide）做对了什么、欠了什么；(3) 本项目生成器的五条设计决策。

关键内容

A. FATF 三阶段模型（经典/FATF 框架，打底）

洗钱的经典分解：placement（脏钱入金融体系，最易暴露）→ layering（多层过账切断资金溯源链）→ integration(以"干净"形态回流实体经济)。属性标注：这是 FATF 的长期监管框架（经典/监管文档），非新研究；其现行有效性由近期来源佐证——FinCEN 2025-08 的 Chinese Money Laundering Networks (CMLN) 咨询显示，现实中三阶段已由专业网络分工承包：CMLN 受墨西哥贩毒集团委托，用美国境内 money mule 完成现金 placement，再经贸易洗钱（TBML）做 layering/integration (FinCEN, 2025-08)。

B. 三个 W1 类型学的机制细节（生成器规格的来源）

1. Structuring / Smurfing（监管背景：BSA/FinCEN）

门槛机制：BSA 实施细则（31 CFR 1010.311，监管文档/经典）要求单日现金交易聚合 > $10,000 须申报 CTR；故意拆分以规避申报即 structuring（31 U.S.C. 5324），本身就是联邦罪，无需证明底层资金非法。
行为模式：单人多日 $9,000–$9,900 的 sub-threshold 现金存款；smurfing = 多人（"smurfs"）多网点同期拆分同一笔资金。
可检测信号：滑动窗口（如 7 天）现金存款聚合 ≥ $10k 但单笔全部 < $10k；金额在门槛正下方异常堆积（$9,0xx–$9,9xx 区间密度远高于自然消费分布）；多账户同步同模式。
生成器含义：阳性案件 = 2–7 天内 4–9 笔 $8,500–$9,900 的 cash credit；噪声要求 normal 案件也含「单笔 $9,500 的合法卖车款」之类交易，否则"单笔接近 $10k 即报警"的弱规则也能拿满分。

2. Layering 链式过账

行为模式：A→B→C→D 的 wire/internal 链式转账；每个中间账户停留时间短（小时级至 ~2 天）、转出比高（pass-through ratio ≥ 90%）、金额沿链递减 1–5%（抽成/手续费痕迹）。
可检测信号：dwell time、流入流出比、链深度 ≥ 3、入账后快速等额转出。
生成器含义：用 counterpartyAccountId 串链；dayOffset 沿链单调递增且间隔 0–2 天；amountCents 每跳乘 0.95–0.99 后取整（整数分纪律下无舍入误差争议）。

3. Money mule 网络

行为模式：fan-in（多个无关源头汇入同一 mule 账户）/ fan-out（一个账户向多个 mule 分发）；mule 多为新户（开户 < 90 天即出现大额过账）；申报职业与流水量级不匹配——FinCEN CMLN 咨询点名 student/housewife/retired/laborer 职业 + 异常交易量是红旗，且 CMLN 会提供伪造证件协助开户 (FinCEN, 2025-08)。FATF 类型学指引将跨辖区 mule 网络列为需网络级（而非单账户级）打击的独立威胁：招募、中转、提现分布在不同辖区。
可检测信号：in-degree ≥ 5 个不同 counterparty、openedDaysAgo < 90 + riskFlags: ['new_account']、快进快出。
生成器含义：每案 ≥ 5 个 parties；subject 账户先 fan-in 5–9 笔再集中转出/提现。

C. 合成数据先例与图结构真实性问题

先例	日期	机制	局限
AMLSim (IBM)	引用条目 2021，master 分支仍维护；2025-06 仍被工业教程当默认起点	多代理模拟器（Java+Python），内置 fan-in/fan-out/cycle 等固定 alert 模式，产出账户级交易图	模式固定、时间动态弱、栈重
AMLworld（arXiv 2306.16424）	2023-06	虚拟世界建模生成"真实感"交易，强调真实 illicit 占比与图特征	行级分类导向，非案件级
Tide（arXiv 2603.01863）	2026-03	结构 + 时间双特征可编程注入；发布 illicit ratio 0.10% / 0.19% 两个参考集	明确批评前代「只做简单结构模式、忽视时间动态」

Tide 的实验还给出一个对 eval 设计很重要的数字：同任务下 LightGBM 在低 illicit 集 PR-AUC 78.05，XGBoost 在高 illicit 集 85.12——模型表现强依赖数据条件，所以金标数据集的构成本身就是 eval 结论的一部分，必须显式声明 (Tide, 2026-03)。

图结构真实性三坑：真实账户图是重尾度分布 + 社区结构 + 时间 burst，简易生成器三者皆失真；真实 illicit ratio < 0.2%（Tide 参考集 0.10–0.19%），而教学集常用 5–10%。本项目的回避策略：生成的是案件级调查单元（一案一小图，对应"告警已触发、进入人工调查"场景），不是全行级行分类数据——回避全图真实性问题，但必须在文档里诚实声明这一边界。

设计要点/决策表

要点	说明	与已有方案差异
seeded PRNG 确定性	`AmlDataset.seed` → 同 seed 字节级重现全量数据；eval 失败可逐 case 回放定位	AMLSim 配置可复现但跨语言栈重；本项目 TS 内嵌、与前端/测试同进程零依赖
整数分纪律	`amountCents: number`，金额上限远低于 2^53；禁 float 货币运算	与 dsdb-lab ledger 同一纪律；多数学术生成器用 float 金额，链式递减时有舍入歧义
噪声注入	normal 案件混入"接近门槛但合法"交易；阳性案件混入正常生活流水	让 precision 非平凡——无噪声时规则引擎轻松 100%，eval 失去判别力
金标 66 案件分布	structuring 18 + layering 15 + mule_network 15 + normal 18 = 66（`getGoldenDataset()` 实际配置），高于计划 ≥60 v1 门槛	案件级近似均衡而非真实 illicit ratio——demo 取舍，文档显式声明，不声称真实不平衡下成立
CI 门槛即基线	规则引擎在金标上的 precision/recall 写进 CI gate 防退化；P3 LLM 版必须 ≥ 规则基线才有存在理由	Hamel/Shreya 流程的"代码型检查"落到 CI（Lenny's, 2025-09）；多数 demo 项目无回归防线

对本项目的落地

src/aml/types.ts（已提交）：AmlCase.label 即金标；GeneratorConfig { seed, counts } 即本文分布决策的代码化；RuleHit.evidenceTxIds 为 Day 5 的 SAR 引用与 UI 高亮预留。
待建 src/aml/generator.ts：seeded PRNG（mulberry32 级别即可，无需密码学强度）+ 上文 B 节的三套数字规格 + 噪声注入。
待建 src/aml/typology.ts：STRUCT-xx / LAYER-xx / MULE-xx 规则引擎，输出 TypologyAssessment（scores 0..1 + threshold）。
待建 src/aml/__tests__/typologyEval.test.ts：对 66 案金标跑 precision/recall，体例参照 src/agent/__tests__/eval/retrievalEval.test.ts 的 CI gate。
节奏：W2 (D8–14) 交付 golden dataset v1（计划要求 ≥60，本设计 66）；P3 W10 扩至 ≥100（docs/AIPA_120_PLAN.md）。

参考资料

FATF 三阶段模型 placement/layering/integration — 经典/监管框架（FATF 长期文档，配下条近期来源佐证现行有效）
FinCEN, Advisory & Financial Trend Analysis on Chinese Money Laundering Networks（fincen.gov, 2025-08）— money mule 职业红旗、CMLN 分工承包三阶段
31 CFR 1010.311（CTR $10,000 门槛）/ 31 U.S.C. 5324（structuring 入罪）— 监管文档/经典，FFIEC BSA/AML 在线手册持续引用（访问 2026-06）
IBM AMLSim, github.com/IBM/AMLSim（引用条目 2021；经典工具，master 分支仍维护，2025-06 工业教程仍引用）
AMLworld: Realistic Synthetic Financial Transactions for Anti-Money Laundering Models, arXiv 2306.16424（2023-06）
Tide: A Customisable Dataset Generator for Anti-Money Laundering Research, arXiv 2603.01863（2026-03）
EY 北欧交易监控调查：LLM AML 范式可使误报降 40–50%（2025-11）
FIS + Anthropic Financial Crimes AI Agent 宣布（2026-05）；Nasdaq Verafin, How AI Is Reshaping Financial Crime Management（2026-04）
Hamel Husain & Shreya Shankar, evals 方法论（错误分析→编码→LLM-judge→代码型检查），Lenny's Newsletter（2025-09）

SOTA 检查 (2026-06-11)

合成 AML 数据的 SOTA 已从 AMLSim 式固定模式演进到 Tide 式"结构+时间双特征可编程注入"（2026-03）。本项目不直接用 AMLSim/Tide 的理由成立：它们产出账户级/行级图数据，而 Copilot 的调查单元是案件；且需要 TS 内嵌 + 确定性 seed + CI 集成，自建轻量生成器成本更低。但 Tide 的"时间特征是一等公民"结论必须吸收——layering 的 dwell time、structuring 的多日拆分都是时间特征。
过时认知警示 1：教学数据集 illicit ratio 5–10% 的直觉已被证伪，真实 < 0.2%（Tide 参考集 0.10%/0.19%，2026-03）。本项目 66 案近似均衡只对"调查已触发"场景成立，绝不能外推为筛查（screening）场景的性能声明。
过时认知警示 2："规则引擎已死、全面上 ML"是过时叙事——FIS-Anthropic（2026-05）的流程仍是 证据汇集→类型学比对→SAR 叙述，类型学规则是 agent 的工具而非被淘汰物；EY（2025-11）的 40–50% 误报降幅也是 LLM 叠加在既有监控之上的增量。
行业侧 AI+金融犯罪的最新综述见 Nasdaq Verafin（2026-04）：犯罪侧也在用自动化/AI 跨机构试探控制缺口——mule 网络检测的攻防是动态的，金标数据集需按阶段复查（D27–28 SOTA 复查点）。