AIPA Day 77

W11 周总结 — SAR LLM 对照定稿、failure taxonomy v2、审计 trail 完成

2026-08-30

weekly-summarysar-llmfailure-taxonomyimmutable-auditsota-check

日期: 2026-08-30 阶段: Phase 3 - AML 调查 Copilot 标签: #weekly-summary #sar-llm #failure-taxonomy #immutable-audit #sota-check

核心问题

W11（D71-77）的主线是把 P3 最重的三件事一次性落地：SAR 叙述从规则模板走向 LLM、全链路审计轨迹做到不可篡改、三组 evals 固化成每日防退化跑。本周总结回答四件事：(A) SAR LLM vs 模板基线的对照数字定稿——并诚实交代「净增益」在算上人工复核成本后可能为负这一反直觉结论；(B) failure taxonomy 从 P1 的 6 类增补 3 个 SAR 特有失败类（编造证据 / 遗漏命中 / 语气越权），给出判定规则；(C) 审计 trail（哈希链 + Langfuse 落盘）完成情况与诚实边界；(D) 本周 SOTA 复查 + 下周排期。

贯穿一句判断：本周最有价值的产出不是「LLM 把 SAR 写得更流畅」，而是「用对照实验诚实地量出了 LLM 在合规文本上的代价边界」。 一个写得漂亮但需要调查员逐字核对的 SAR 草稿，对 AML 工作流可能是负资产——这正是本周 W2 failure taxonomy 增补要钉死的风险。

关键内容

A. SAR LLM vs 模板基线数字定稿（含「净增益可能为负」的诚实结论）

Day 71 把规则模板确立为对照组（control arm），Day 72-73 设计 LLM 草稿 prompt 并接对照评测。本仓库当前未接入 Anthropic API key（sarNarrative.ts 头注的诚实纪律），故本项目侧无法跑出 LLM 真实分；定稿数字由两部分构成：① 本项目模板基线的确定性实测（已落地、可复现）；② LLM 侧引用近期一手研究的实测区间（带出处，明确标注非本项目自测，作为接入后的预期与风险登记）。两者分开，不混为一谈。

① 模板基线（本项目实测，确定性）：

维度	模板基线实测	判定方式	性质
引用一致性（citedTxIds ⊆ evidence）	1.00	`citationConsistency` 集合包含（Day 71 C 节）	结构性保证，恒为 1.0
槽位覆盖（5W1H+How 非空率）	1.00（有证据案件）	槽位填充断言	确定性
幻觉率	0（无自由文本，每数值可溯源）	`cited_tx_exist` 检查	机械保证
复现性	完全（同输入同输出）	无温度/采样	满足 SAR 可审计
分析洞察	无（How 段为查表固定文案）	——	已知上限

② LLM 侧（引用一手研究，非本项目自测）：近期最对口的一手实证是 Co-Investigator AI（arXiv 2509.08380，2025-09-10）——一套 agentic AML SAR 叙述系统，6 名 fintech 资深调查员专家评测。其关键数字：叙述完整性 70%、效率增益 61%、特定类型学场景叙述完整性可达 87%（仅需定向编辑）；但同篇明确：直接 prompt 的 LLM 「invented details such as fabricated interactions, spurious transaction events, and contextually unsupported notes, even when explicitly instructed not to add information」，且 LLM 生成内容幻觉率「frequently exceeding 20–30%」。

把①②并到同一张对照表（这就是 Day 73 要的「LLM 净增益」决策表，带诚实限定）：

维度	模板基线（本项目实测）	LLM（Co-Investigator 实测区间，非本项目自测）	LLM 净增益判读
引用一致性/事实忠实	1.00 / 0 幻觉	幻觉率 20–30%（直接 prompt）	负——LLM 在最关键维度输给笨模板
叙述完整性	槽位 100% 但无洞察	70%（特定类型学 87%）	维度不同，LLM 强在「洞察」非「覆盖」
可读性/流畅度	模板化、机械	显著更流畅（CoT 叙述）	正——LLM 唯一确定的增值口子
效率（含复核）	即时、零复核	草稿快但复核纠正抵消时间收益	可能为负（见洞察①）

反直觉洞察①（LLM 把 SAR 写快了，整体却可能更慢）：工程与销售直觉都是「LLM 起草秒出，省时间」。Co-Investigator 论文给了反例——「Although drafting appeared rapid, the required manual validation and correction nullified any time benefits, shifting the burden to investigators.」 草稿看着快，但因为幻觉率 20-30%，调查员必须逐字核对每个金额、对手、日期是否真实存在，复核成本把起草省下的时间全吃回去，还把负担转嫁给了人。这正是 Day 71 立模板基线的意义兑现：LLM 的「+流畅」必须减掉「+复核成本 + 幻觉风险」才是真净增益，而在合规文本上这个净值可能为负。所以本项目的设计结论不是「LLM 取代模板」，而是 LLM 在「不碰事实」的窄口子里补洞察，事实层永远由模板/规则引擎的可溯源证据链兜底（呼应 Day 71 洞察②的边界）。

B. failure taxonomy v2：增补 3 个 SAR 特有失败类

P1 的 failureTaxonomy.ts 有 6 类（tool_failure / hallucination / context_pollution / retrieval_miss / format_violation / typology_misjudge）。SAR LLM 化暴露了 3 个现有 6 类装不下的新失败模式——它们都源自「LLM 在叙述层做了规则引擎不会做的自由发挥」。逐一给定义与判定规则（与 Co-Investigator 论文的实测失败现象对齐）：

新增类 id	中文名	定义（是什么）	判定规则（可执行）	severity	与现有类的区别
`sar_fabricated_evidence`	SAR 编造证据	LLM 在叙述里写入证据交易集之外的交易事件、对手互动、金额或情节（Co-Investigator：「fabricated interactions, spurious transaction events」）	`extractAnchors` 出现 `resolved=false` 锚点，或叙述含金额/对手/日期无法 match 任一 `citedTx`	critical	比 `hallucination` 更窄：特指叙述层自由文本编造（非 citedTxIds 字段层），由锚点解析 + 文本核对双查
`sar_missed_hit`	SAR 遗漏命中	规则引擎已命中的类型学/证据交易，未被写进叙述（叙述弱化或漏掉了 assessment 已检出的可疑链）	`assessment.hits` 的 `evidenceTxIds` ⊄ 叙述引用锚点集；或 topTypology 已定却在叙述 How 段缺失	high	比 `retrieval_miss` 晚一环：retrieval_miss 是引擎没召回；本类是引擎召回了但叙述没写——叙述层信息丢失
`sar_tone_overreach`	SAR 语气越权	叙述用了超出证据强度的定性/断言语气（把「可疑」写成「确认洗钱」、把得分未达阈值写成「构成犯罪」），或加入证据不支持的主观判断（Co-Investigator：「contextually unsupported notes」）	叙述含越权断言关键词（「确认/构成犯罪/必然/无疑」等）且对应 `assessment` 得分未达定性强度；或结论强度 > 证据强度	high	现有 6 类无对应——这是语气/定性强度维度的失败，规则模板因措辞固定不会犯，仅 LLM 会

sar_tone_overreach 是本周最值得记的一类，因为它最难被自动检测、却合规风险最高：

反直觉洞察②（SAR 最危险的失败不是写错，是「读着没错、合规上越权」）：编造证据（sar_fabricated_evidence）能被锚点解析机械抓住——它在事实层，可确定性检测。但语气越权藏在「通过随意一读、却过不了合规一读」的措辞里（业界原话：「tone that passes a casual read and fails a compliance one」）。一份 SAR 把「3 笔贴线现金存款，疑似规避 CTR」写成「客户系统性洗钱、构成犯罪」——每个交易都真实、每个数字都可溯源，但定性强度远超证据，监管会认为机构越权下结论。这类失败确定性检查抓不全（关键词正则只是下界），必须靠 LLM-judge（Day 17 已校准 κ≥0.6）评「定性强度 ≤ 证据强度」这一语义维度，并保留人工抽检（「LLM 模拟用户是不可靠代理」2026-01）。LLM 化让起草变易、让复核变难——难就难在这类语气越权。

三个新类与三层检测的映射（呼应 Day 76 daily runner）：sar_fabricated_evidence 走确定性层（锚点解析，PR 快检即拦，severity=critical → exit 2 阻断）；sar_missed_hit 走确定性层（集合包含检查）；sar_tone_overreach 走 LLM-judge 层（夜间全扫，severity=high → 告警 + 人工抽检）。

C. 审计 trail 完成 + 本周交付 × 证据

审计轨迹本周两天落地：Day 74（全链路 OTel span 设计，案件 ID 贯穿四段）+ Day 75（append-only 哈希链 + Langfuse 不可变落盘）。已落地的当前实现：src/aml/auditTrail.ts——AuditTrail 类（append-only、链式哈希、verify() 重放检测、verifyChain() 静态校验含 seq 缺口检测），纯 TS 可单测、确定性（不读时钟、时间戳由调用方传入）。诚实边界（与 Day 75 文件头注一致）：哈希用 FNV-1a（非密码学安全，教学/无意篡改检测够用，生产须换 SHA-256，已留 setHasher() 注入口）；外部锚定（Merkle root 公证到不可控存储）、Langfuse 夜间落盘为 P3 上线后运营动作，本周未实做。

本周交付 × 证据对照表：

交付物	计划（W11 行）	实际状态	位置/证据
SAR 规则模板基线确立	Day 71	✅ 标注为 control arm	`src/aml/sarDraft.ts` + `docs/aipa/day71`
SAR LLM 草稿 prompt + 锚点契约	Day 72	✅ prompt 构造器 + `CitationAnchor` schema（不调 LLM，无 key 降级）	`src/aml/sarNarrative.ts`（`buildSarPrompt`/`extractAnchors`/`ruleTemplateSar`/`generateSarDraft`）
LLM vs 模板对照评测	Day 73	✅ 模板基线实测定稿；LLM 侧引用一手研究区间（非本项目自测，诚实登记）	本文 A 节 + `evalBaseline.ts`
全链路 OTel 审计 span	Day 74	✅ 设计 + 案件 ID 贯穿四段	`docs/aipa/day74`
不可篡改审计 trail	Day 75	✅ 哈希链 + 自校验落地（FNV-1a，诚实标注）	`src/aml/auditTrail.ts` + `docs/aipa/day75`
daily eval runner + 退化告警	Day 76	✅ runner 设计 + 退化双条件 + 退出码契约（cron/Slack 为运营态）	`docs/aipa/day76` + 复用 `evalChecks.ts`/`evalBaseline.ts`
failure taxonomy v2（+3 SAR 类）	Day 77	✅ 本文 B 节 3 类 + 判定规则	待落 `failureTaxonomy.ts`（见落地节）
学习笔记	每日	✅ Day 71-77 共 7 篇	`docs/aipa/day71~77-*.md`

D. 与计划的偏差与风险登记

偏差：Day 73 计划口径是「≥100 金标上比 LLM/模板」并出「evals 日跑绿灯」。实际——金标扩集（≥100）与 LLM 对照评测脚本已就位，但LLM 真实分缺位（无 API key 是既定诚实约束，非疏漏）。处理方式：模板基线侧给确定性实测，LLM 侧给一手研究实测区间并显式标注「接入 key 后回填本项目自测」，不伪造 LLM 分。这与 P1「无 key 诚实降级」纪律一脉相承。

风险登记：(1) LLM 净增益负值风险——A 节洞察①已量化，接入 LLM 后须用本项目金标实测验证「复核成本是否真抵消起草收益」，若是则 LLM 仅在「特定高结构类型学（Co-Investigator 87% 区间）」启用，其余走模板；(2) 语气越权检测不全——B 节洞察②，确定性关键词正则只是下界，依赖 LLM-judge + 人工抽检，judge 自身 κ 漂移会传导（接 Day 17 月度重算）；(3) 审计哈希非密码学安全——FNV-1a 仅作教学/无意篡改检测，生产换 SHA-256 前不得宣称「密码学不可篡改」（Day 75 已登记）。

设计要点/决策表

要点	决策	理由
SAR 定稿数字	模板侧本项目实测 + LLM 侧引用一手研究区间（分列）	无 key 不自测，绝不伪造 LLM 分
LLM 部署边界	仅「不碰事实」窄口子补洞察，事实层模板兜底	净增益算上复核成本可能为负（洞察①）
taxonomy 增补	+3 SAR 特有类（编造/遗漏/越权）	现有 6 类装不下叙述层自由发挥失败
编造证据检测	确定性（锚点解析），critical→exit2 阻断	事实层，机械可抓
语气越权检测	LLM-judge + 人工抽检，high→告警	藏在措辞里，正则只是下界（洞察②）
审计哈希	FNV-1a（教学）+ `setHasher()` 注入口	诚实标注非密码学安全，生产换 SHA-256
偏差处理	LLM 分缺位显式登记，回填留接口	延续无 key 诚实降级纪律

对本项目的落地

src/aml/failureTaxonomy.ts 升级 v2：在 FailureClassId 联合类型新增 'sar_fabricated_evidence' | 'sar_missed_hit' | 'sar_tone_overreach'，并向 FAILURE_TAXONOMY 数组追加 3 条 FailureClass（定义/decisionRule/severity 对齐 B 节表）。suggestFailureClasses 增加对应启发式：编造证据用 extractAnchors 查 resolved=false、遗漏命中用「assessment.hits 的 evidenceTxIds ⊄ 叙述锚点集」、语气越权用越权关键词正则（标注为下界检测，真正判定靠 judge）。
sar_fabricated_evidence 接 evalChecks.ts：新增确定性检查 sar_no_phantom_anchor——对 LLM 草稿（generatedBy='llm'）的 extractAnchors 结果断言全部 resolved=true，任一 phantom 即 fail，relatedFailure='sar_fabricated_evidence'、severity=critical，进 Day 76 daily runner 的 exit 2 阻断层。
sar_tone_overreach 接 judge rubric：在 P3 的 SAR judge rubric（Day 17 四段式）增加「定性强度 ≤ 证据强度」维度，judge 分进夜间全扫（Day 76 SAR 组），低分高亮待人审；不在 PR 快检层做（语义判断既不廉价也不快，Day 76 三角定律）。
审计 trail 与 SAR 链路挂钩：generateSarDraft 产出 LLM 草稿时，向 AuditTrail append 一条 {action:'draft_sar', detail:{caseId, generatedBy, citedTxIds, phantomCount}}，把「AI 起草 + 引用了哪些证据 + 有无 phantom」上链——兑现 Day 75 的 Article 50 落地（AI 起草事实 + 复核担责进不可篡改轨迹）。
诚实标注纪律（全周一致）：本周入仓的是 prompt 构造器 / 锚点 schema / 模板基线 / 哈希链 / taxonomy v2，均为纯 TS 可测；LLM 真实接入、cron 夜间调度、Slack 告警、外部 Merkle 锚定、SHA-256 替换均为运营/计划态，笔记与代码头注一律用计划语气，不谎称已实现。进度文件 docs/daily/AIPA_PROGRESS.md W11 行按本文 C 节交付表回写，SOTA✓ 列按 D 节更新。

参考资料

Co-Investigator AI: The Rise of Agentic AI for Smarter, Trustworthy AML Compliance Narratives — arXiv 2509.08380（agentic AML SAR 系统；6 名 fintech 调查员专家评测：叙述完整性 70% / 效率增益 61% / 特定类型学 87%；直接 prompt LLM「fabricated interactions, spurious transaction events, contextually unsupported notes」、幻觉率「frequently exceeding 20–30%」；「manual validation and correction nullified any time benefits」；human-in-the-loop 设计；评测用 rule-based + 语义相似度 + Gemini 2.5 Pro 独立评测 + golden dataset）(2025-09-10)
Microsoft Security — Updating the taxonomy of failure modes in agentic AI systems: What a year of red teaming taught us（agentic AI 失败模式分类法年度更新）(2026-06-04)
FutureAGI — Understanding LLM Hallucination 2026（faithfulness 幻觉=输出与给定输入/检索证据不一致；「52% of enterprise AI responses contain fabricated information when RAG retrieves from ungoverned data sources, versus near-zero on governed data」——印证「事实层须由治理过的证据链兜底」）(2026)
FinCEN — Guidance on Preparing A Complete & Sufficient SAR Narrative（5W1H 结构）112003 (2003-11，经典监管基准) + Streamlines SAR Guidance FAQs（质量优于数量）(2025-10)
EU AI Act Article 50（AI 生成内容标注 + 机器可读标记，人工复核+担责豁免空间）2026-08-02 生效；SR 26-2（2026-04-17 替代 SR 11-7）模型风险可追溯
本仓库 src/aml/sarNarrative.ts（prompt/锚点/模板/降级）、src/aml/sarDraft.ts（模板基线）、src/aml/failureTaxonomy.ts（6 类 v1）、src/aml/auditTrail.ts（哈希链）、src/aml/evalChecks.ts + evalBaseline.ts、docs/aipa/day71~76(2026-06~08)

SOTA 检查 (2026-08-30 / 复核基线 2026-06-11)

「agentic SAR 叙述 + 强制 human-in-the-loop + 事实层证据兜底」是 2026 现行主流：Co-Investigator AI（2025-09）与 FIS×Anthropic Financial Crimes AI Agent（2026-05-04 宣布，GA 2026 H2）、Fiserv agentOS Agentic AML Triage（GA 2026-08）口径一致——均不做「approve-and-go 全自动」，叙述生成定位为「供调查员复核精炼的初稿」。本项目「LLM 补洞察、模板/规则兜事实」的边界与之同构。
LLM 幻觉率 20-30%（合规文本，直接 prompt）是本周最硬的活数字：Co-Investigator（2025-09）实测 + FutureAGI「ungoverned 52% / governed near-zero」（2026）共同坐实「事实层不能交给自由文本 LLM」——这是 B 节 sar_fabricated_evidence 列为 critical 的依据，未见反例研究。
failure taxonomy 须随能力升级扩充是 2026 共识：Microsoft「一年红队后更新 agentic 失败模式分类法」（2026-06-04）印证「taxonomy 不是一次定死」——本周从 6 类增到 9 类（+3 SAR 特有），与此精神一致。
「起草变易、复核变难」是合规 AI 的核心张力：业界「drafting got easier, review got harder」「tone that passes a casual read and fails a compliance one」——语气越权（洞察②）是 LLM 化 SAR 最隐蔽的合规风险，确定性检查抓不全，必须 judge + 人工抽检。
过时认知警示：①「LLM 起草 SAR 必然省时间」过时——复核成本可能抵消甚至反超（洞察①）；②「事实层可交给 LLM 自由生成」过时——幻觉率 20-30%，须证据链兜底；③「SAR 失败=写错数字」过时——最危险的是语气越权（读着没错、合规越权）；④把 FNV-1a 哈希链说成「密码学不可篡改」过时（须 SHA-256）。
待跟踪：接入 Anthropic key 后回填本项目 LLM 自测分，验证 A 节「净增益是否为负」；sar_tone_overreach 的 judge rubric 维度上线后测 κ 是否仍 ≥0.6；Microsoft 2026-06 新分类法是否有可直接映射进本项目 taxonomy 的额外 SAR/合规类；下周（W12）转入 HITL 复核界面与 Agent UX 模式实装（Day 78-84），把本周的「语气越权待人审」「编造证据阻断」落到复核 UI 的置信度信号与渐进式授权。