返回 AIPA 笔记
AIPA Day 77

W11 周总结 — SAR LLM 对照定稿、failure taxonomy v2、审计 trail 完成

W11 周总结 — SAR LLM 对照定稿、failure taxonomy v2、审计 trail 完成

2026-08-30
weekly-summarysar-llmfailure-taxonomyimmutable-auditsota-check

日期: 2026-08-30 阶段: Phase 3 - AML 调查 Copilot 标签: #weekly-summary #sar-llm #failure-taxonomy #immutable-audit #sota-check

核心问题

W11(D71-77)的主线是把 P3 最重的三件事一次性落地:SAR 叙述从规则模板走向 LLM、全链路审计轨迹做到不可篡改、三组 evals 固化成每日防退化跑。本周总结回答四件事:(A) SAR LLM vs 模板基线的对照数字定稿——并诚实交代「净增益」在算上人工复核成本后可能为负这一反直觉结论;(B) failure taxonomy 从 P1 的 6 类增补 3 个 SAR 特有失败类(编造证据 / 遗漏命中 / 语气越权),给出判定规则;(C) 审计 trail(哈希链 + Langfuse 落盘)完成情况与诚实边界;(D) 本周 SOTA 复查 + 下周排期。

贯穿一句判断:本周最有价值的产出不是「LLM 把 SAR 写得更流畅」,而是「用对照实验诚实地量出了 LLM 在合规文本上的代价边界」。 一个写得漂亮但需要调查员逐字核对的 SAR 草稿,对 AML 工作流可能是负资产——这正是本周 W2 failure taxonomy 增补要钉死的风险。

关键内容

A. SAR LLM vs 模板基线数字定稿(含「净增益可能为负」的诚实结论)

Day 71 把规则模板确立为对照组(control arm),Day 72-73 设计 LLM 草稿 prompt 并接对照评测。本仓库当前未接入 Anthropic API keysarNarrative.ts 头注的诚实纪律),故本项目侧无法跑出 LLM 真实分;定稿数字由两部分构成:① 本项目模板基线的确定性实测(已落地、可复现);② LLM 侧引用近期一手研究的实测区间(带出处,明确标注非本项目自测,作为接入后的预期与风险登记)。两者分开,不混为一谈。

① 模板基线(本项目实测,确定性)

维度模板基线实测判定方式性质
引用一致性(citedTxIds ⊆ evidence)1.00citationConsistency 集合包含(Day 71 C 节)结构性保证,恒为 1.0
槽位覆盖(5W1H+How 非空率)1.00(有证据案件)槽位填充断言确定性
幻觉率0(无自由文本,每数值可溯源)cited_tx_exist 检查机械保证
复现性完全(同输入同输出)无温度/采样满足 SAR 可审计
分析洞察(How 段为查表固定文案)——已知上限

② LLM 侧(引用一手研究,非本项目自测):近期最对口的一手实证是 Co-Investigator AI(arXiv 2509.08380,2025-09-10)——一套 agentic AML SAR 叙述系统,6 名 fintech 资深调查员专家评测。其关键数字:叙述完整性 70%、效率增益 61%、特定类型学场景叙述完整性可达 87%(仅需定向编辑);但同篇明确:直接 prompt 的 LLM 「invented details such as fabricated interactions, spurious transaction events, and contextually unsupported notes, even when explicitly instructed not to add information」,且 LLM 生成内容幻觉率「frequently exceeding 20–30%」

把①②并到同一张对照表(这就是 Day 73 要的「LLM 净增益」决策表,带诚实限定):

维度模板基线(本项目实测)LLM(Co-Investigator 实测区间,非本项目自测)LLM 净增益判读
引用一致性/事实忠实1.00 / 0 幻觉幻觉率 20–30%(直接 prompt)——LLM 在最关键维度输给笨模板
叙述完整性槽位 100% 但无洞察70%(特定类型学 87%)维度不同,LLM 强在「洞察」非「覆盖」
可读性/流畅度模板化、机械显著更流畅(CoT 叙述)——LLM 唯一确定的增值口子
效率(含复核)即时、零复核草稿快但复核纠正抵消时间收益可能为负(见洞察①)

反直觉洞察①(LLM 把 SAR 写快了,整体却可能更慢):工程与销售直觉都是「LLM 起草秒出,省时间」。Co-Investigator 论文给了反例——「Although drafting appeared rapid, the required manual validation and correction nullified any time benefits, shifting the burden to investigators.」 草稿看着快,但因为幻觉率 20-30%,调查员必须逐字核对每个金额、对手、日期是否真实存在,复核成本把起草省下的时间全吃回去,还把负担转嫁给了人。这正是 Day 71 立模板基线的意义兑现:LLM 的「+流畅」必须减掉「+复核成本 + 幻觉风险」才是真净增益,而在合规文本上这个净值可能为负。所以本项目的设计结论不是「LLM 取代模板」,而是 LLM 在「不碰事实」的窄口子里补洞察,事实层永远由模板/规则引擎的可溯源证据链兜底(呼应 Day 71 洞察②的边界)。

B. failure taxonomy v2:增补 3 个 SAR 特有失败类

P1 的 failureTaxonomy.ts 有 6 类(tool_failure / hallucination / context_pollution / retrieval_miss / format_violation / typology_misjudge)。SAR LLM 化暴露了 3 个现有 6 类装不下的新失败模式——它们都源自「LLM 在叙述层做了规则引擎不会做的自由发挥」。逐一给定义与判定规则(与 Co-Investigator 论文的实测失败现象对齐):

新增类 id中文名定义(是什么)判定规则(可执行)severity与现有类的区别
sar_fabricated_evidenceSAR 编造证据LLM 在叙述里写入证据交易集之外的交易事件、对手互动、金额或情节(Co-Investigator:「fabricated interactions, spurious transaction events」)extractAnchors 出现 resolved=false 锚点,叙述含金额/对手/日期无法 match 任一 citedTxcriticalhallucination 更窄:特指叙述层自由文本编造(非 citedTxIds 字段层),由锚点解析 + 文本核对双查
sar_missed_hitSAR 遗漏命中规则引擎已命中的类型学/证据交易,未被写进叙述(叙述弱化或漏掉了 assessment 已检出的可疑链)assessment.hitsevidenceTxIds ⊄ 叙述引用锚点集;或 topTypology 已定却在叙述 How 段缺失highretrieval_miss 晚一环:retrieval_miss 是引擎没召回;本类是引擎召回了但叙述没写——叙述层信息丢失
sar_tone_overreachSAR 语气越权叙述用了超出证据强度的定性/断言语气(把「可疑」写成「确认洗钱」、把得分未达阈值写成「构成犯罪」),或加入证据不支持的主观判断(Co-Investigator:「contextually unsupported notes」)叙述含越权断言关键词(「确认/构成犯罪/必然/无疑」等)且对应 assessment 得分未达定性强度;或结论强度 > 证据强度high现有 6 类无对应——这是语气/定性强度维度的失败,规则模板因措辞固定不会犯,仅 LLM 会

sar_tone_overreach 是本周最值得记的一类,因为它最难被自动检测、却合规风险最高

反直觉洞察②(SAR 最危险的失败不是写错,是「读着没错、合规上越权」):编造证据(sar_fabricated_evidence)能被锚点解析机械抓住——它在事实层,可确定性检测。但语气越权藏在「通过随意一读、却过不了合规一读」的措辞里(业界原话:「tone that passes a casual read and fails a compliance one」)。一份 SAR 把「3 笔贴线现金存款,疑似规避 CTR」写成「客户系统性洗钱、构成犯罪」——每个交易都真实、每个数字都可溯源,但定性强度远超证据,监管会认为机构越权下结论。这类失败确定性检查抓不全(关键词正则只是下界),必须靠 LLM-judge(Day 17 已校准 κ≥0.6)评「定性强度 ≤ 证据强度」这一语义维度,并保留人工抽检(「LLM 模拟用户是不可靠代理」2026-01)。LLM 化让起草变易、让复核变难——难就难在这类语气越权。

三个新类与三层检测的映射(呼应 Day 76 daily runner):sar_fabricated_evidence 走确定性层(锚点解析,PR 快检即拦,severity=critical → exit 2 阻断);sar_missed_hit 走确定性层(集合包含检查);sar_tone_overreach 走 LLM-judge 层(夜间全扫,severity=high → 告警 + 人工抽检)。

C. 审计 trail 完成 + 本周交付 × 证据

审计轨迹本周两天落地:Day 74(全链路 OTel span 设计,案件 ID 贯穿四段)+ Day 75(append-only 哈希链 + Langfuse 不可变落盘)。已落地的当前实现src/aml/auditTrail.ts——AuditTrail 类(append-only、链式哈希、verify() 重放检测、verifyChain() 静态校验含 seq 缺口检测),纯 TS 可单测、确定性(不读时钟、时间戳由调用方传入)。诚实边界(与 Day 75 文件头注一致):哈希用 FNV-1a(非密码学安全,教学/无意篡改检测够用,生产须换 SHA-256,已留 setHasher() 注入口);外部锚定(Merkle root 公证到不可控存储)、Langfuse 夜间落盘为 P3 上线后运营动作,本周未实做。

本周交付 × 证据对照表:

交付物计划(W11 行)实际状态位置/证据
SAR 规则模板基线确立Day 71✅ 标注为 control armsrc/aml/sarDraft.ts + docs/aipa/day71
SAR LLM 草稿 prompt + 锚点契约Day 72✅ prompt 构造器 + CitationAnchor schema(不调 LLM,无 key 降级src/aml/sarNarrative.tsbuildSarPrompt/extractAnchors/ruleTemplateSar/generateSarDraft
LLM vs 模板对照评测Day 73✅ 模板基线实测定稿;LLM 侧引用一手研究区间(非本项目自测,诚实登记)本文 A 节 + evalBaseline.ts
全链路 OTel 审计 spanDay 74✅ 设计 + 案件 ID 贯穿四段docs/aipa/day74
不可篡改审计 trailDay 75✅ 哈希链 + 自校验落地(FNV-1a,诚实标注)src/aml/auditTrail.ts + docs/aipa/day75
daily eval runner + 退化告警Day 76✅ runner 设计 + 退化双条件 + 退出码契约(cron/Slack 为运营态docs/aipa/day76 + 复用 evalChecks.ts/evalBaseline.ts
failure taxonomy v2(+3 SAR 类)Day 77✅ 本文 B 节 3 类 + 判定规则待落 failureTaxonomy.ts(见落地节)
学习笔记每日✅ Day 71-77 共 7 篇docs/aipa/day71~77-*.md

D. 与计划的偏差与风险登记

偏差:Day 73 计划口径是「≥100 金标上比 LLM/模板」并出「evals 日跑绿灯」。实际——金标扩集(≥100)与 LLM 对照评测脚本已就位,但LLM 真实分缺位(无 API key 是既定诚实约束,非疏漏)。处理方式:模板基线侧给确定性实测,LLM 侧给一手研究实测区间并显式标注「接入 key 后回填本项目自测」,不伪造 LLM 分。这与 P1「无 key 诚实降级」纪律一脉相承。

风险登记:(1) LLM 净增益负值风险——A 节洞察①已量化,接入 LLM 后须用本项目金标实测验证「复核成本是否真抵消起草收益」,若是则 LLM 仅在「特定高结构类型学(Co-Investigator 87% 区间)」启用,其余走模板;(2) 语气越权检测不全——B 节洞察②,确定性关键词正则只是下界,依赖 LLM-judge + 人工抽检,judge 自身 κ 漂移会传导(接 Day 17 月度重算);(3) 审计哈希非密码学安全——FNV-1a 仅作教学/无意篡改检测,生产换 SHA-256 前不得宣称「密码学不可篡改」(Day 75 已登记)。

设计要点/决策表

要点决策理由
SAR 定稿数字模板侧本项目实测 + LLM 侧引用一手研究区间(分列)无 key 不自测,绝不伪造 LLM 分
LLM 部署边界仅「不碰事实」窄口子补洞察,事实层模板兜底净增益算上复核成本可能为负(洞察①)
taxonomy 增补+3 SAR 特有类(编造/遗漏/越权)现有 6 类装不下叙述层自由发挥失败
编造证据检测确定性(锚点解析),critical→exit2 阻断事实层,机械可抓
语气越权检测LLM-judge + 人工抽检,high→告警藏在措辞里,正则只是下界(洞察②)
审计哈希FNV-1a(教学)+ setHasher() 注入口诚实标注非密码学安全,生产换 SHA-256
偏差处理LLM 分缺位显式登记,回填留接口延续无 key 诚实降级纪律

对本项目的落地

  • src/aml/failureTaxonomy.ts 升级 v2:在 FailureClassId 联合类型新增 'sar_fabricated_evidence' | 'sar_missed_hit' | 'sar_tone_overreach',并向 FAILURE_TAXONOMY 数组追加 3 条 FailureClass(定义/decisionRule/severity 对齐 B 节表)。suggestFailureClasses 增加对应启发式:编造证据用 extractAnchorsresolved=false、遗漏命中用「assessment.hits 的 evidenceTxIds ⊄ 叙述锚点集」、语气越权用越权关键词正则(标注为下界检测,真正判定靠 judge)。
  • sar_fabricated_evidenceevalChecks.ts:新增确定性检查 sar_no_phantom_anchor——对 LLM 草稿(generatedBy='llm')的 extractAnchors 结果断言全部 resolved=true,任一 phantom 即 fail,relatedFailure='sar_fabricated_evidence'、severity=critical,进 Day 76 daily runner 的 exit 2 阻断层。
  • sar_tone_overreach 接 judge rubric:在 P3 的 SAR judge rubric(Day 17 四段式)增加「定性强度 ≤ 证据强度」维度,judge 分进夜间全扫(Day 76 SAR 组),低分高亮待人审;不在 PR 快检层做(语义判断既不廉价也不快,Day 76 三角定律)。
  • 审计 trail 与 SAR 链路挂钩generateSarDraft 产出 LLM 草稿时,向 AuditTrail append 一条 {action:'draft_sar', detail:{caseId, generatedBy, citedTxIds, phantomCount}},把「AI 起草 + 引用了哪些证据 + 有无 phantom」上链——兑现 Day 75 的 Article 50 落地(AI 起草事实 + 复核担责进不可篡改轨迹)。
  • 诚实标注纪律(全周一致):本周入仓的是 prompt 构造器 / 锚点 schema / 模板基线 / 哈希链 / taxonomy v2,均为纯 TS 可测;LLM 真实接入、cron 夜间调度、Slack 告警、外部 Merkle 锚定、SHA-256 替换均为运营/计划态,笔记与代码头注一律用计划语气,不谎称已实现。进度文件 docs/daily/AIPA_PROGRESS.md W11 行按本文 C 节交付表回写,SOTA✓ 列按 D 节更新。

参考资料

  1. Co-Investigator AI: The Rise of Agentic AI for Smarter, Trustworthy AML Compliance Narratives — arXiv 2509.08380(agentic AML SAR 系统;6 名 fintech 调查员专家评测:叙述完整性 70% / 效率增益 61% / 特定类型学 87%;直接 prompt LLM「fabricated interactions, spurious transaction events, contextually unsupported notes」、幻觉率「frequently exceeding 20–30%」;「manual validation and correction nullified any time benefits」;human-in-the-loop 设计;评测用 rule-based + 语义相似度 + Gemini 2.5 Pro 独立评测 + golden dataset)(2025-09-10)
  2. Microsoft Security — Updating the taxonomy of failure modes in agentic AI systems: What a year of red teaming taught us(agentic AI 失败模式分类法年度更新)(2026-06-04)
  3. FutureAGI — Understanding LLM Hallucination 2026(faithfulness 幻觉=输出与给定输入/检索证据不一致;「52% of enterprise AI responses contain fabricated information when RAG retrieves from ungoverned data sources, versus near-zero on governed data」——印证「事实层须由治理过的证据链兜底」)(2026)
  4. FinCEN — Guidance on Preparing A Complete & Sufficient SAR Narrative(5W1H 结构)112003 (2003-11,经典监管基准) + Streamlines SAR Guidance FAQs(质量优于数量)(2025-10)
  5. EU AI Act Article 50(AI 生成内容标注 + 机器可读标记,人工复核+担责豁免空间)2026-08-02 生效;SR 26-2(2026-04-17 替代 SR 11-7)模型风险可追溯
  6. 本仓库 src/aml/sarNarrative.ts(prompt/锚点/模板/降级)、src/aml/sarDraft.ts(模板基线)、src/aml/failureTaxonomy.ts(6 类 v1)、src/aml/auditTrail.ts(哈希链)、src/aml/evalChecks.ts + evalBaseline.tsdocs/aipa/day71~76(2026-06~08)

SOTA 检查 (2026-08-30 / 复核基线 2026-06-11)

  • 「agentic SAR 叙述 + 强制 human-in-the-loop + 事实层证据兜底」是 2026 现行主流:Co-Investigator AI(2025-09)与 FIS×Anthropic Financial Crimes AI Agent(2026-05-04 宣布,GA 2026 H2)、Fiserv agentOS Agentic AML Triage(GA 2026-08)口径一致——均不做「approve-and-go 全自动」,叙述生成定位为「供调查员复核精炼的初稿」。本项目「LLM 补洞察、模板/规则兜事实」的边界与之同构。
  • LLM 幻觉率 20-30%(合规文本,直接 prompt)是本周最硬的活数字:Co-Investigator(2025-09)实测 + FutureAGI「ungoverned 52% / governed near-zero」(2026)共同坐实「事实层不能交给自由文本 LLM」——这是 B 节 sar_fabricated_evidence 列为 critical 的依据,未见反例研究。
  • failure taxonomy 须随能力升级扩充是 2026 共识:Microsoft「一年红队后更新 agentic 失败模式分类法」(2026-06-04)印证「taxonomy 不是一次定死」——本周从 6 类增到 9 类(+3 SAR 特有),与此精神一致。
  • 「起草变易、复核变难」是合规 AI 的核心张力:业界「drafting got easier, review got harder」「tone that passes a casual read and fails a compliance one」——语气越权(洞察②)是 LLM 化 SAR 最隐蔽的合规风险,确定性检查抓不全,必须 judge + 人工抽检。
  • 过时认知警示:①「LLM 起草 SAR 必然省时间」过时——复核成本可能抵消甚至反超(洞察①);②「事实层可交给 LLM 自由生成」过时——幻觉率 20-30%,须证据链兜底;③「SAR 失败=写错数字」过时——最危险的是语气越权(读着没错、合规越权);④把 FNV-1a 哈希链说成「密码学不可篡改」过时(须 SHA-256)。
  • 待跟踪:接入 Anthropic key 后回填本项目 LLM 自测分,验证 A 节「净增益是否为负」;sar_tone_overreach 的 judge rubric 维度上线后测 κ 是否仍 ≥0.6;Microsoft 2026-06 新分类法是否有可直接映射进本项目 taxonomy 的额外 SAR/合规类;下周(W12)转入 HITL 复核界面与 Agent UX 模式实装(Day 78-84),把本周的「语气越权待人审」「编造证据阻断」落到复核 UI 的置信度信号与渐进式授权。