AIPA Day 85

SAR 质量 rubric — 四维 LLM-judge 评分锚定 taxonomy，与 Fiserv/FIS GA 对照

2026-09-07

sar-qualityllm-as-judgerubricfiserv-fis-tracking

日期: 2026-09-07 阶段: Phase 3 - AML 调查 Copilot 标签: #sar-quality #llm-as-judge #rubric #fiserv-fis-tracking

核心问题

Day 15 的代码型检查（evalChecks.ts）能把「段落数 < 5」「引用了不存在的交易」这种确定性失败兜住，但它碰不到 SAR 叙述的语义质量——一份 SAR 可以段落齐全、交易全部可溯源，却依然写得让 FIU 调查员看不懂「到底可疑在哪」。FinCEN 反复强调「SAR 叙述是 SAR 最关键的部分」（2003-11 指引），而「叙述质量」恰恰是确定性代码判不了、必须上 LLM-as-judge 的那一层。

今天回答三件事：(1) SAR 叙述质量该拆成哪几维才既覆盖监管要点又可独立评分——直觉会拆十几维，今天证明四维就够且更可靠；(2) 每一维的评分怎么锚定到具体证据而非让 judge 凭印象打分；(3) 把这套 rubric 放进行业坐标——Fiserv agentOS（2026-08 GA）/ FIS-Anthropic（2026 H2 GA）正在做同一件事，它们的口径是本项目长文#4 的对照素材。

核心反直觉先抛出来：SAR 质量 rubric 的维度不该照搬 FinCEN 的 5W1H（六个要素）——5W1H 是「内容清单」（该写什么），不是「评分维度」（怎么算好）。把清单当 rubric 会让 judge 在六个高度相关的维度上重复打分，方差大、κ 低。真正能独立评分的是完整性 / 事实忠实 / 类型学引用 / 监管语言四个正交维度。

关键内容

A. 四维 rubric：为什么是这四维，每维评什么

参考 Co-Investigator AI（arXiv 2509.08380, 2025-09）的 SAR 评分方法学——它把评分拆成 Intro Scoring（评引言要素：日期范围、交易金额、主体识别，用加权准确性检查）+ Narrative Scoring（评正文，「across seven distinct compliance dimensions, applying semantic similarity metrics with configurable category-specific weights」）。但七维对一个个人作品集的 judge 过细——维度越多，judge 自报分的方差越大，且维度间高度相关（见 B 节相关性陷阱）。本项目压到四维，每维回答一个正交的问题：

维度	回答的问题	评分依据（锚定到本仓库数据）	对应失败类别
完整性 (completeness)	5W1H 六要素是否都写到、不缺项	`sarDraft` 的 6 段是否各自非空且实质覆盖 Who/What/When/Where/Why/How	`format_violation`
事实忠实 (faithfulness)	叙述里的金额/对手/天数能否对应到证据交易	叙述数值 ⊆ `citedTxIds` 对应交易的真实字段	`hallucination`
类型学引用 (typology grounding)	是否引用了构成该类型学的核心交易链、援引正确法规	`hits[].evidenceTxIds` 是否覆盖核心链 + 法规引用（CTR/BSA）正确	`retrieval_miss`
监管语言 (regulatory tone)	是否客观、事实化、非投机性，examiner-ready	无「我认为/可能是」式投机措辞，时序清晰	（judge 专属，无代码对应）

四维的正交性是关键设计——它们各自失败的根因不同、修复路径不同：完整性差是模板缺段（改 sarDraft），忠实差是幻觉（代码层 cited_tx_exist 已兜一半），类型学引用差是检索遗漏（改规则引擎召回），监管语言差是 LLM 生成腔调（改 prompt）。正交=可独立修，这正是「评分维度」相对「内容清单」的价值。

反直觉洞察①（5W1H 是内容清单不是评分维度，照搬会让 judge 重复打分）：直觉是「FinCEN 要 5W1H，rubric 就照六个要素各打一分」。但 Who/What/When/Where 在一份连贯 SAR 里高度共现——主体写清楚了（Who），交易描述（What/When/Where）通常也跟着清楚；judge 给 Who 打高分时几乎必然给 What 也打高，六个维度坍缩成「这段写得通不通顺」一个隐变量。结果是六维的有效自由度远小于 6，方差被人为放大，judge×人工 κ（Day 17）反而更难达标。把强相关的内容要素折叠进「完整性」一维，留下四个根因正交的维度，judge 才打得稳。 维度数不是越多越细越好，是越正交越可信——这与 Day 16「把刻度压到二元」、Day 80「三档而非连续百分比」是同一条「别给评测器超过其真实分辨力的刻度」哲学。

B. judge prompt 结构与逐维评分锚定：不让 judge 凭印象打分

四维确定后，每维要给 judge 一个带锚定示例的评分刻度，否则「完整性 4 分」对不同 judge 调用是不同含义。沿用 Aman Khan 四段式 judge prompt（2026-04）：角色 → rubric → 锚定示例 → 输出格式。关键在第三段——每维必须给出 PASS/FAIL（或 0-2 序数）各档的具体锚定文本，把抽象刻度钉死到可比对的样例：

[角色] 你是资深 BSA/AML 合规官，按下列 rubric 逐维评估 SAR 叙述质量。
       只依据"证据交易清单"判断，不引入清单外知识。

[rubric] 逐维独立打分（PASS/FAIL + 一句理由）：
  · 完整性 : 5W1H 六要素是否均有实质覆盖（非空泛套话）
  · 事实忠实: 叙述中每个金额/对手/天数能否在证据清单中找到对应
  · 类型学引用: 是否引用构成该类型学的核心交易链 + 法规援引正确
  · 监管语言: 是否客观事实化、无投机性措辞、时序清晰

[锚定示例]  ← 这一段是命门，把刻度钉到样例
  完整性 PASS 锚: "主体 P-03（个人，新开户）在窗口第 1-9 天经现金渠道
                  分 7 笔存入合计 $63,500，单笔均低于 $10,000…"（六要素齐全）
  完整性 FAIL 锚: "该客户有可疑交易，建议调查。"（缺 When/What/How）
  事实忠实 FAIL 锚: 叙述称"$72,000"但证据清单合计仅 $63,500（数值无据）
  类型学引用 FAIL 锚: 判为 structuring 却未引用任何贴线现金存款交易
  监管语言 FAIL 锚: "我觉得这人八成在洗钱"（主观投机，非 examiner-ready）

[输出格式] 严格 JSON: {完整性:{verdict,reason}, 事实忠实:{...}, …}

为什么逐维独立打分而非给一个总分：Co-Investigator AI 的 Intro/Narrative 分离、七维分拆，本质都是让 judge 一次只判一件事。LLM 自报置信度普遍过自信（Day 80，arXiv 2412.14737），让它一次综合四维给「85 分」，等于把四个判断揉成一个不可归因的数——一旦低分，你不知道是哪维拖累、该修哪里。逐维 + 锚定示例把 judge 的输出结构化到可归因：哪维 FAIL 直接打到对应失败类别（A 节表最后一列），喂回 Day 26 失败归因面板。

逐维评分锚定到证据的一个伪算法（faithfulness 维，可半确定性预判，省 judge 调用）：

faithfulnessPrecheck(section, citedTxs):
  claimedNums = extractMoneyAndDays(section.body)   # 抽叙述中的金额/天数
  evidenceNums = citedTxs.flatMap(t => [t.amountCents, t.dayOffset])
  for n in claimedNums:
    if n not in evidenceNums (容差内):
      return { verdict: FAIL, reason: `叙述值 ${n} 在证据中无对应` }  # 直接 FAIL,不必喂 judge
  return NEEDS_JUDGE   # 数值都对得上,语义忠实度才交 judge 细判

这条复用 evalChecks.ts 的「叙述数值须可溯源」精神——能确定性预判 FAIL 的，不浪费 judge 调用（呼应 Day 15「凡能确定性断言就不上 LLM」）；只有数值都对得上、需要判「语义是否歪曲」时才升级到 LLM judge。

C. 行业对照：Fiserv agentOS / FIS-Anthropic 在做同一件事（长文#4 素材）

把本项目的四维 rubric 放进 2026 行业坐标——两个最直接的对照物都在 H2 2026 GA：

系统	发布/GA	SAR 相关能力	与本项目 rubric 的对照点
FIS-Anthropic 金融犯罪 AI Agent	宣布 2026-05-04 / GA H2 2026	「reduce false positives and enhance investigative and SAR narrative quality」，调查从数天→分钟（businesswire 2026-05）	「enhance SAR narrative quality」正是本四维要量化的目标；BMO/Amalgamated 在 dev
Fiserv agentOS	发布 2026-05-14 / GA ~2026-08	初始四 agent 含 Agentic AML Triage Analysis；跑在 Amazon Bedrock AgentCore（globenewswire 2026-05）	AML Triage 是 SAR 上游（告警分诊），与本项目「typology 比对 → SAR 起草」同一流水线
Co-Investigator AI（学术）	arXiv 2509.08380（2025-09）	Intro/Narrative 双层评分，七维 + 语义相似度加权；完整性均值 70%、特定类型学达 87%	本四维是其七维的正交折叠版；它的 87% 完整性是本项目 completeness 维的对标基线

反直觉洞察②（厂商喊「提升 SAR 质量」，但几乎没人公开『质量』的可复现度量）：FIS 新闻稿写「enhance SAR narrative quality」，Fiserv 写「AML Triage」，听起来都在解决同一问题。但翻遍 2026-05 的发布材料，没有一家公开『质量』是怎么量的——没有 rubric、没有 judge 口径、没有 κ。Co-Investigator AI（学术）反而给了最具体的方法学（Intro+Narrative 双层、七维加权）。这说明：对个人作品集，可复现的质量度量本身就是差异化——不是「我也做了个 SAR agent」（厂商做得比你好），而是「我能把『SAR 质量』拆成四个正交、可独立评分、锚定证据、经 κ 校准的维度，并诚实标注哪维还达不到标」。厂商的护城河是数据和分发，作品集的护城河是度量的严谨与诚实。长文#4 的论点就立在这里。

设计要点/决策表

要点	决策	理由
维度数	四维（完整性/事实忠实/类型学引用/监管语言），不照搬 5W1H 六要素	5W1H 是内容清单非评分维度；四维根因正交、可独立修
维度来源	正交折叠 Co-Investigator AI 的七维	七维对个人项目过细、相关性高、方差大
judge prompt	Aman Khan 四段式，第三段每维带 PASS/FAIL 锚定示例	无锚定示例则同一分对不同调用含义不同
评分粒度	逐维 PASS/FAIL（或 0-2 序数）独立打分，不给综合总分	综合分不可归因；逐维可打到失败类别
确定性预判	faithfulness 维数值先做确定性预检，FAIL 直接出	能确定性断言的不浪费 judge 调用（承 Day 15）
行业对照	Fiserv/FIS GA 进度入长文#4，强调本项目差异在度量严谨	厂商喊「质量」但不公开度量，可复现度量是差异化

对本项目的落地

计划新建 src/aml/sarRubric.ts：导出 SAR_RUBRIC（四维定义 + 每维锚定示例常量，与 failureTaxonomy.ts 的 FailureClassId 一一映射）、buildJudgePrompt(draft, citedTxs) → string（拼 B 节四段式 prompt）、faithfulnessPrecheck(section, citedTxs) → 'FAIL' | 'NEEDS_JUDGE'（确定性预检，复用 evalChecks 的数值溯源思路）。维度 id 用稳定 key（completeness/faithfulness/typology_grounding/regulatory_tone）进看板与 CI。
judge 接口与降级：sarRubric.ts 头注明确——LLM judge 在无 API key 时诚实降级（同 evalChecks 的 LLM 层约定），仅跑 faithfulness 的确定性预检 + 完整性的「段落非空」下界守卫，监管语言/类型学语义维标注「待 LLM 接入」，不谎称已评。
接 Day 17 κ 校准：四维 judge 分进 evalBaseline 聚合前，每维须各自经 judgeCalibration.ts（Day 17 计划模块）的 κ≥0.6 校验——四维独立校准，某维 κ 不达标则该维分仅记录不进 CI gate。这把「四维正交」从设计主张落成可验证的校准要求：正交维度本就该各自达标。
AmlSarPanel 渲染逐维结果：在现有「SAR 草稿」section 的每个段落标题旁，按维度挂 PASS/FAIL chip（复用 Day 80 的绿/黄/红信号样式）；FAIL 维联动「人工复核 (HITL)」区列入待重点复核——与现有「已人工修改」标记并列。
诚实标注：sarRubric.ts 标注四维完整性目标基线对标 Co-Investigator AI 的 87%（特定类型学），但本项目 v1 为规则模板 SAR、未接 LLM，完整性由模板结构保证、其余三维待 P3 LLM + κ 校准后开评；Fiserv/FIS 的 GA 进度为外部对照，非本项目能力声明。

参考资料

arXiv 2509.08380 — Co-Investigator AI: The Rise of Agentic AI for Smarter, Trustworthy AML Compliance Narratives（Naik, Dintakurthi, Hu, Wang, Qiu）：Intro Scoring（日期范围/金额/主体识别加权准确性检查）+ Narrative Scoring（正文 across seven distinct compliance dimensions，语义相似度 + category-specific weights）；完整性均值 70%、特定类型学 87%；61% 效率提升 (2025-09)
FinCEN — Guidance on Preparing a Complete & Sufficient SAR Narrative（sarnarrcompletguidfinal_112003.pdf）：SAR 叙述须含 5W1H（Who/What/When/Where/Why + How）；「叙述是 SAR 最关键部分」；事实化、按时序、客观陈述 (2003-11，监管文档)
FFIEC BSA/AML Examination Manual — Appendix L: SAR Quality Guidance：examiner-ready 标准；完整、一致、非投机；提交前复核准确性/语法/逻辑流 (持续，监管手册)
BusinessWire / FIS — FIS Brings Agentic AI to Banking with Anthropic, Starting with Financial Crimes：「reduce false positives and enhance investigative and SAR narrative quality」；调查数天→分钟；BMO/Amalgamated in development；GA H2 2026 (2026-05-04)
GlobeNewswire / Fiserv — Fiserv Launches agentOS：初始四 agent 含 Agentic AML Triage Analysis；跑在 Amazon Bedrock AgentCore；GA ~2026-08；OpenAI + AWS 协作 (2026-05-14)
Aman Khan — LLM-as-a-Judge（评测四段式 judge prompt：角色/rubric/锚定示例/输出格式）(2026-04)
本仓库 src/aml/sarDraft.ts（6 段 5W1H 模板 / citedTxIds）、src/aml/failureTaxonomy.ts（四维↔失败类别映射）、src/aml/evalChecks.ts（确定性预检思路）、Day 17 judgeCalibration.ts（κ 校准） (2026-06)

SOTA 检查 (2026-06-11)

「SAR 叙述质量需结构化、可复现度量」在 2026-06 是 live 命题且无统一标准：FinCEN 5W1H（2003）是内容指引非评分 rubric；Co-Investigator AI（2025-09）是目前最具体的学术评分方法学（Intro/Narrative 双层、七维加权）。本日 WebSearch 未见监管机构发布官方 SAR-quality LLM rubric——这正是「可复现度量即差异化」（洞察②）成立的前提。
厂商 SAR 能力进入 GA 窗口（2026 H2）但度量不透明：FIS-Anthropic（GA H2 2026）、Fiserv agentOS（GA ~2026-08）均宣称提升 SAR 质量，但截至 2026-06 发布材料未公开质量度量口径。本项目四维 rubric 的差异化立足于此，须在长文#4 持续跟踪两者 GA 后是否披露度量。
四维 vs 七维是有意识取舍：Co-Investigator AI 用七维，本项目正交折叠为四维以稳住 judge κ。若 P3 后 judge κ 在某维持续不达标，应评估是否进一步拆维或合维——维度设计本身要随 κ 校准结果迭代（呼应 Day 17 分歧驱动迭代）。
过时认知警示：把 5W1H 当评分 rubric 是常见误区——它是 FinCEN 的内容清单（该写什么），不是质量度量（写得多好）；混用会让 judge 在强相关维度上重复打分、抬高方差、压低 κ。
待跟踪：(1) FIS/Fiserv GA 后是否公开 SAR 质量度量口径（决定长文#4 对照深度）；(2) Co-Investigator AI 后续是否公开其七维具体名称与权重（决定本四维是否再校准）；(3) FinCEN 是否就 AI 生成 SAR 出新指引（2025-08 已发中国洗钱网络咨询，监管在加码）。