AIPA Day 5

SAR 叙述结构与 HITL 复核设计

2026-06-19

sarhitlagent-uxeu-ai-act

日期: 2026-06-19 阶段: Phase 1 - 产品定义×评测×可观测底座标签: #sar #hitl #agent-ux #eu-ai-act

核心问题

SAR（Suspicious Activity Report）叙述是 AML 调查的最终交付物：执法机关读到的不是你的规则得分，而是那几段叙述文字。写叙述占调查人员大量工时，且质量参差——这正是 LLM 在 AML 里最自然的切入点（FIS-Anthropic 把调查从数天压到分钟级，2026-05）。但 SAR 是法律文书，幻觉 = 合规事故。今天回答三个问题：(1) 监管定义的"好叙述"长什么样（生成模板的规格来源）；(2) HITL 复核要实装哪些 Agent UX 模式、为什么 LLM-judge 不能独自把关；(3) EU AI Act Article 50（2026-08-02 生效）对"AI 生成内容标注"的具体要求怎么落到代码。

关键内容

A. FinCEN SAR 叙述指引的 5W1H 结构（监管文档/经典）

FinCEN《Guidance on Preparing a Complete & Sufficient Suspicious Activity Report Narrative》（2003-11，监管文档/经典——至今仍是 SAR 写作的事实标准，FFIEC BSA/AML 在线手册持续引用，访问 2026-06）给出叙述的骨架：

维度	内容	对应本项目数据
Who	涉案主体：身份、职业、账户关系、既往记录	`AmlParty`（riskFlags: new_account/pep/prior_sar）
What	可疑活动是什么：工具与机制（现金/电汇/链式过账）	`AmlTransaction.channel` + 命中的类型学
When	活动时间窗：起止日期、发现时点、是否持续	`windowDays` + `dayOffset` 范围
Where	发生地点：网点、账户、辖区	`AmlAccount` + counterparty
Why	为什么可疑：与该客户正常行为基线的偏离	`RuleHit.description`（含具体触发数值）
How	作案手法：模式的机制性描述	类型学机制（Day 4 的 B 节）

好叙述的特征（同指引）：自包含（叙述独立可读，不依赖附件）、按时间顺序、引用具体交易（日期/金额/账号）、给出活动总金额、说"为什么可疑"时用事实对比而非结论性断言（"deposits inconsistent with stated occupation"而不是"customer is laundering money"）。这些特征直接构成 SAR 质量 eval 的 rubric 维度——监管文档免费送了一份评分标准。

B. 为什么 SAR 草稿是 LLM 的最自然切入点

输入已结构化：证据汇集 + 类型学比对的输出（交易列表 + RuleHit）就是叙述的全部素材，不需要 LLM 自由发挥事实。
输出有硬模板：5W1H 是监管钦定的结构，生成空间受限，幻觉面小。
产业同构验证：FIS-Anthropic Financial Crimes AI Agent 的流程正是证据汇集→洗钱类型学比对→SAR 叙述生成，BMO/Amalgamated 部署中，GA 2026 H2（2026-05）；Fiserv agentOS（OpenAI+AWS）同月宣布，GA 2026-08（2026-05）。学术侧 Co-Investigator AI（arXiv 2509.08380, 2025-09）给出多代理分解：规划/犯罪类型检测/外部情报/合规校验各设专职 agent，并用 Agent-as-a-Judge 做叙述质量的持续校验——其结论与本项目一致：调查员留在环内，AI 出草稿、人改人签。
量化收益已有数：EY 北欧交易监控调查显示 LLM AML 范式可使误报降 40–50%（2025-11）。

C. HITL 复核的 Agent UX 模式（本周实装三个）

Fuselab 七模式（2025-08）：透明推理/可覆盖/状态通报/错误恢复/plan-and-execute/置信度信号/渐进式授权。W1 原型实装其中三个 + 可覆盖：

Plan-and-execute 预览：生成 SAR 前先展示"将引用的证据交易清单"（RuleHit.evidenceTxIds），调查员确认证据集合后才生成叙述——把"AI 先斩后奏"改为"先报计划"。
置信度信号：TypologyAssessment.scores（各类型学 0..1）与 threshold 一起展示，低于阈值显式显示 topTypology: null（"证据不足以归类"），而不是硬给一个最高分。
审计轨迹：AuditEvent 追加式记录（actor: investigator/system + action + 时间戳），approve/return/edit 全留痕——合规即架构约束，P3 W11 接 OTel tracing 升级为不可篡改 trail。
可覆盖（ReviewAction = approve | return | edit）：edit 后的人改稿才是终稿，AI 草稿永远是建议。

为什么必须保留人工抽检：「LLM 模拟用户是不可靠代理」（2026-01）——LLM-judge 与人类判断在关键评分上会系统性偏离，所以 SAR 质量 eval 的终审不能全自动：LLM-judge 跑全量、人工抽检固定比例（P3 W13 的 SAR eval suite 设计已含此项）。这也呼应 Aman Khan 的三类 evals + 四段式 judge prompt（2026-04 更新版）：judge 是放大器，不是裁判长。

D. Article 50 与本项目的标注实现

EU AI Act（Regulation 2024/1689，2024-07 公布）：Digital Omnibus 临时协议（2026-05-07）把 Annex III 高风险义务推迟到 2027-12-02，但 Article 50 透明义务不动，仍 2026-08-02 生效——AI 生成内容须标注，合成内容须机器可读标记；文本类内容经人工复核且有编辑责任人承担责任的场景有相应豁免空间——这正好与 HITL 流程同构：人工复核不仅是质量手段，也是合规手段。

本项目实现示意（W1 即落，不等 LLM 接入）：

数据层：SarDraft.generatedBy: 'rule-template'——诚实标注 W1 原型是规则模板而非 LLM；P3 接入 LLM 后切换为记录 model id 的来源字段，标注语义不变。
UI 层：草稿屏常驻 banner「本草稿由系统自动生成，须经调查员复核签发」。
导出层：导出文本附 footer 标注生成来源 + 复核人 + AuditEvent 摘要（机器可读的来源字段随导出 JSON 走）。

设计要点/决策表

要点	说明	与已有方案差异
W1 用规则模板生成 + 诚实标注	`generatedBy: 'rule-template'`，5W1H 段落由规则填充	不假装是 LLM——先把"叙述结构 + HITL + 标注"管道跑通，P3 才换 LLM 引擎（接口不变）
引用强制溯源	`SarDraft.citedTxIds` 只能来自 `RuleHit.evidenceTxIds`，每条事实可点回原始交易	对照 Co-Investigator AI 的合规校验 agent（2025-09）：我们用类型系统在源头堵幻觉引用
Plan-and-execute 预览	生成前展示证据清单，确认后才出草稿	多数 demo 是一键生成黑箱；Fuselab（2025-08）模式的最小可用实现
置信度信号不装懂	scores + threshold 同屏，低于阈值显示"不归类"	拒绝"永远给个答案"的 LLM 默认行为
审计轨迹追加式	`AuditEvent` 只增不改；W1 前端态，P3 接 OTel	审计是一等需求而非日志副产品（FIS 模式中审计轨迹是卖点之一，2026-05）
LLM-judge + 人工抽检双轨	judge 跑全量、人抽检关键比例	「LLM 模拟用户不可靠」（2026-01）的直接工程推论
Article 50 标注三层落地	数据字段 + UI banner + 导出 footer	把 2026-08-02 生效的义务做成默认行为，而非上线前补丁

对本项目的落地

src/aml/types.ts（已提交）：SarSection/SarDraft（5W1H sections + citedTxIds + generatedBy）、ReviewAction、AuditEvent 契约即本文 C/D 节的代码化。
待建 src/aml/sarDraft.ts：按 A 节表格从 AmlCase + TypologyAssessment 填充 5W1H 段落；citedTxIds 从 RuleHit.evidenceTxIds 收集去重。
待建 src/components/aml/：W1 三屏可点击原型（证据汇集 / 类型学比对 / SAR 草稿+HITL 复核），HITL 状态 W1 仅前端不落盘（docs/AIPA_120_PLAN.md W1 行）。
后续衔接：W11 审计轨迹接 P1 OTel tracing；W12 HITL 审批点与 W6 durable execution 打通；W13 SAR eval suite（LLM-judge rubric 直接用 A 节"好叙述特征"+ 人工抽检）。

参考资料

FinCEN, Guidance on Preparing a Complete & Sufficient Suspicious Activity Report Narrative（2003-11）— 监管文档/经典，5W1H 与好叙述特征的原始出处；FFIEC BSA/AML 在线手册持续引用（访问 2026-06）
FIS + Anthropic, Financial Crimes AI Agent 宣布：BMO/Amalgamated 部署中，GA 2026 H2（2026-05）
Fiserv agentOS（OpenAI+AWS）宣布，GA 2026-08（2026-05）
Co-Investigator AI: The Rise of Agentic AI for Smarter, Trustworthy AML Compliance Narratives, arXiv 2509.08380（2025-09）— 多代理 SAR 叙述 + Agent-as-a-Judge + HITL
EY 北欧交易监控调查：LLM AML 范式误报降 40–50%（2025-11）
Fuselab, Agent UX 七设计模式（2025-08）
「LLM 模拟用户是不可靠代理」（2026-01）— 关键评分必须保留人工抽检
Aman Khan, 三类 evals + 四段式 judge prompt（2026-04 更新版）；OpenAI CPO「PM 最重要的技能是写 evals」（2025-08）
EU AI Act（Regulation 2024/1689, 2024-07 公布）；Digital Omnibus 临时协议：Annex III 推迟至 2027-12-02、Article 50 仍 2026-08-02 生效（2026-05）

SOTA 检查 (2026-06-11)

"LLM 出 SAR 草稿 + 人签发"是当前产业共识形态而非过时方案：FIS-Anthropic（2026-05，GA 2026 H2）、Fiserv agentOS（2026-05，GA 2026-08）两大核心系统厂商同月官宣同构产品；本项目在它们 GA 之前复刻流程，正是计划书所称的时间窗口套利——W13（2026-08 前后）必须复查两家 GA 动态并更新对照。
学术侧最新形态已是多代理 + Agent-as-a-Judge（Co-Investigator AI, 2025-09）。本项目 W1 用单一规则模板起步并不落后——它是 eval 基线；P3 接 LLM 时是否拆多代理，以「哪个 eval 指标需要它」为准入门槛（计划书 P3 纪律）。
过时认知警示 1："HITL 只是过渡，成熟后全自动"在 SAR 场景不成立：Article 50 的人工复核/编辑责任豁免逻辑反而让 HITL 成为合规设计的一部分；Co-Investigator AI（2025-09）也明确不追求"review and approve 即可"的全自动叙述。
过时认知警示 2：EU AI Act 时间表已因 Digital Omnibus（2026-05-07）变动——网上 2025 年写的"2026-08 高风险义务全面生效"文章已过时：Annex III 推到 2027-12-02，但 Article 50 不在推迟之列，引用旧文时务必区分。