返回 AIPA 笔记
AIPA Day 85

SAR 质量 rubric — 四维 LLM-judge 评分锚定 taxonomy,与 Fiserv/FIS GA 对照

SAR 质量 rubric — 四维 LLM-judge 评分锚定 taxonomy,与 Fiserv/FIS GA 对照

2026-09-07
sar-qualityllm-as-judgerubricfiserv-fis-tracking

日期: 2026-09-07 阶段: Phase 3 - AML 调查 Copilot 标签: #sar-quality #llm-as-judge #rubric #fiserv-fis-tracking

核心问题

Day 15 的代码型检查(evalChecks.ts)能把「段落数 < 5」「引用了不存在的交易」这种确定性失败兜住,但它碰不到 SAR 叙述的语义质量——一份 SAR 可以段落齐全、交易全部可溯源,却依然写得让 FIU 调查员看不懂「到底可疑在哪」。FinCEN 反复强调「SAR 叙述是 SAR 最关键的部分」(2003-11 指引),而「叙述质量」恰恰是确定性代码判不了、必须上 LLM-as-judge 的那一层。

今天回答三件事:(1) SAR 叙述质量该拆成哪几维才既覆盖监管要点又可独立评分——直觉会拆十几维,今天证明四维就够且更可靠;(2) 每一维的评分怎么锚定到具体证据而非让 judge 凭印象打分;(3) 把这套 rubric 放进行业坐标——Fiserv agentOS(2026-08 GA)/ FIS-Anthropic(2026 H2 GA)正在做同一件事,它们的口径是本项目长文#4 的对照素材。

核心反直觉先抛出来:SAR 质量 rubric 的维度不该照搬 FinCEN 的 5W1H(六个要素)——5W1H 是「内容清单」(该写什么),不是「评分维度」(怎么算好)。把清单当 rubric 会让 judge 在六个高度相关的维度上重复打分,方差大、κ 低。真正能独立评分的是完整性 / 事实忠实 / 类型学引用 / 监管语言四个正交维度。

关键内容

A. 四维 rubric:为什么是这四维,每维评什么

参考 Co-Investigator AI(arXiv 2509.08380, 2025-09)的 SAR 评分方法学——它把评分拆成 Intro Scoring(评引言要素:日期范围、交易金额、主体识别,用加权准确性检查)+ Narrative Scoring(评正文,「across seven distinct compliance dimensions, applying semantic similarity metrics with configurable category-specific weights」)。但七维对一个个人作品集的 judge 过细——维度越多,judge 自报分的方差越大,且维度间高度相关(见 B 节相关性陷阱)。本项目压到四维,每维回答一个正交的问题:

维度回答的问题评分依据(锚定到本仓库数据)对应失败类别
完整性 (completeness)5W1H 六要素是否都写到、不缺项sarDraft 的 6 段是否各自非空且实质覆盖 Who/What/When/Where/Why/Howformat_violation
事实忠实 (faithfulness)叙述里的金额/对手/天数能否对应到证据交易叙述数值 ⊆ citedTxIds 对应交易的真实字段hallucination
类型学引用 (typology grounding)是否引用了构成该类型学的核心交易链、援引正确法规hits[].evidenceTxIds 是否覆盖核心链 + 法规引用(CTR/BSA)正确retrieval_miss
监管语言 (regulatory tone)是否客观、事实化、非投机性,examiner-ready无「我认为/可能是」式投机措辞,时序清晰(judge 专属,无代码对应)

四维的正交性是关键设计——它们各自失败的根因不同、修复路径不同:完整性差是模板缺段(改 sarDraft),忠实差是幻觉(代码层 cited_tx_exist 已兜一半),类型学引用差是检索遗漏(改规则引擎召回),监管语言差是 LLM 生成腔调(改 prompt)。正交=可独立修,这正是「评分维度」相对「内容清单」的价值。

反直觉洞察①(5W1H 是内容清单不是评分维度,照搬会让 judge 重复打分):直觉是「FinCEN 要 5W1H,rubric 就照六个要素各打一分」。但 Who/What/When/Where 在一份连贯 SAR 里高度共现——主体写清楚了(Who),交易描述(What/When/Where)通常也跟着清楚;judge 给 Who 打高分时几乎必然给 What 也打高,六个维度坍缩成「这段写得通不通顺」一个隐变量。结果是六维的有效自由度远小于 6,方差被人为放大,judge×人工 κ(Day 17)反而更难达标。把强相关的内容要素折叠进「完整性」一维,留下四个根因正交的维度,judge 才打得稳。 维度数不是越多越细越好,是越正交越可信——这与 Day 16「把刻度压到二元」、Day 80「三档而非连续百分比」是同一条「别给评测器超过其真实分辨力的刻度」哲学。

B. judge prompt 结构与逐维评分锚定:不让 judge 凭印象打分

四维确定后,每维要给 judge 一个带锚定示例的评分刻度,否则「完整性 4 分」对不同 judge 调用是不同含义。沿用 Aman Khan 四段式 judge prompt(2026-04):角色 → rubric → 锚定示例 → 输出格式。关键在第三段——每维必须给出 PASS/FAIL(或 0-2 序数)各档的具体锚定文本,把抽象刻度钉死到可比对的样例:

[角色] 你是资深 BSA/AML 合规官,按下列 rubric 逐维评估 SAR 叙述质量。
       只依据"证据交易清单"判断,不引入清单外知识。

[rubric] 逐维独立打分(PASS/FAIL + 一句理由):
  · 完整性 : 5W1H 六要素是否均有实质覆盖(非空泛套话)
  · 事实忠实: 叙述中每个金额/对手/天数能否在证据清单中找到对应
  · 类型学引用: 是否引用构成该类型学的核心交易链 + 法规援引正确
  · 监管语言: 是否客观事实化、无投机性措辞、时序清晰

[锚定示例]  ← 这一段是命门,把刻度钉到样例
  完整性 PASS 锚: "主体 P-03(个人,新开户)在窗口第 1-9 天经现金渠道
                  分 7 笔存入合计 $63,500,单笔均低于 $10,000…"(六要素齐全)
  完整性 FAIL 锚: "该客户有可疑交易,建议调查。"(缺 When/What/How)
  事实忠实 FAIL 锚: 叙述称"$72,000"但证据清单合计仅 $63,500(数值无据)
  类型学引用 FAIL 锚: 判为 structuring 却未引用任何贴线现金存款交易
  监管语言 FAIL 锚: "我觉得这人八成在洗钱"(主观投机,非 examiner-ready)

[输出格式] 严格 JSON: {完整性:{verdict,reason}, 事实忠实:{...}, …}

为什么逐维独立打分而非给一个总分:Co-Investigator AI 的 Intro/Narrative 分离、七维分拆,本质都是让 judge 一次只判一件事。LLM 自报置信度普遍过自信(Day 80,arXiv 2412.14737),让它一次综合四维给「85 分」,等于把四个判断揉成一个不可归因的数——一旦低分,你不知道是哪维拖累、该修哪里。逐维 + 锚定示例把 judge 的输出结构化到可归因:哪维 FAIL 直接打到对应失败类别(A 节表最后一列),喂回 Day 26 失败归因面板。

逐维评分锚定到证据的一个伪算法(faithfulness 维,可半确定性预判,省 judge 调用):

faithfulnessPrecheck(section, citedTxs):
  claimedNums = extractMoneyAndDays(section.body)   # 抽叙述中的金额/天数
  evidenceNums = citedTxs.flatMap(t => [t.amountCents, t.dayOffset])
  for n in claimedNums:
    if n not in evidenceNums (容差内):
      return { verdict: FAIL, reason: `叙述值 ${n} 在证据中无对应` }  # 直接 FAIL,不必喂 judge
  return NEEDS_JUDGE   # 数值都对得上,语义忠实度才交 judge 细判

这条复用 evalChecks.ts 的「叙述数值须可溯源」精神——能确定性预判 FAIL 的,不浪费 judge 调用(呼应 Day 15「凡能确定性断言就不上 LLM」);只有数值都对得上、需要判「语义是否歪曲」时才升级到 LLM judge。

C. 行业对照:Fiserv agentOS / FIS-Anthropic 在做同一件事(长文#4 素材)

把本项目的四维 rubric 放进 2026 行业坐标——两个最直接的对照物都在 H2 2026 GA:

系统发布/GASAR 相关能力与本项目 rubric 的对照点
FIS-Anthropic 金融犯罪 AI Agent宣布 2026-05-04 / GA H2 2026「reduce false positives and enhance investigative and SAR narrative quality」,调查从数天→分钟(businesswire 2026-05)「enhance SAR narrative quality」正是本四维要量化的目标;BMO/Amalgamated 在 dev
Fiserv agentOS发布 2026-05-14 / GA ~2026-08初始四 agent 含 Agentic AML Triage Analysis;跑在 Amazon Bedrock AgentCore(globenewswire 2026-05)AML Triage 是 SAR 上游(告警分诊),与本项目「typology 比对 → SAR 起草」同一流水线
Co-Investigator AI(学术)arXiv 2509.08380(2025-09)Intro/Narrative 双层评分,七维 + 语义相似度加权;完整性均值 70%、特定类型学达 87%本四维是其七维的正交折叠版;它的 87% 完整性是本项目 completeness 维的对标基线

反直觉洞察②(厂商喊「提升 SAR 质量」,但几乎没人公开『质量』的可复现度量):FIS 新闻稿写「enhance SAR narrative quality」,Fiserv 写「AML Triage」,听起来都在解决同一问题。但翻遍 2026-05 的发布材料,没有一家公开『质量』是怎么量的——没有 rubric、没有 judge 口径、没有 κ。Co-Investigator AI(学术)反而给了最具体的方法学(Intro+Narrative 双层、七维加权)。这说明:对个人作品集,可复现的质量度量本身就是差异化——不是「我也做了个 SAR agent」(厂商做得比你好),而是「我能把『SAR 质量』拆成四个正交、可独立评分、锚定证据、经 κ 校准的维度,并诚实标注哪维还达不到标」。厂商的护城河是数据和分发,作品集的护城河是度量的严谨与诚实。长文#4 的论点就立在这里。

设计要点/决策表

要点决策理由
维度数四维(完整性/事实忠实/类型学引用/监管语言),不照搬 5W1H 六要素5W1H 是内容清单非评分维度;四维根因正交、可独立修
维度来源正交折叠 Co-Investigator AI 的七维七维对个人项目过细、相关性高、方差大
judge promptAman Khan 四段式,第三段每维带 PASS/FAIL 锚定示例无锚定示例则同一分对不同调用含义不同
评分粒度逐维 PASS/FAIL(或 0-2 序数)独立打分,不给综合总分综合分不可归因;逐维可打到失败类别
确定性预判faithfulness 维数值先做确定性预检,FAIL 直接出能确定性断言的不浪费 judge 调用(承 Day 15)
行业对照Fiserv/FIS GA 进度入长文#4,强调本项目差异在度量严谨厂商喊「质量」但不公开度量,可复现度量是差异化

对本项目的落地

  • 计划新建 src/aml/sarRubric.ts:导出 SAR_RUBRIC(四维定义 + 每维锚定示例常量,与 failureTaxonomy.tsFailureClassId 一一映射)、buildJudgePrompt(draft, citedTxs) → string(拼 B 节四段式 prompt)、faithfulnessPrecheck(section, citedTxs) → 'FAIL' | 'NEEDS_JUDGE'(确定性预检,复用 evalChecks 的数值溯源思路)。维度 id 用稳定 key(completeness/faithfulness/typology_grounding/regulatory_tone)进看板与 CI。
  • judge 接口与降级sarRubric.ts 头注明确——LLM judge 在无 API key 时诚实降级(同 evalChecks 的 LLM 层约定),仅跑 faithfulness 的确定性预检 + 完整性的「段落非空」下界守卫,监管语言/类型学语义维标注「待 LLM 接入」,不谎称已评
  • 接 Day 17 κ 校准:四维 judge 分进 evalBaseline 聚合前,每维须各自经 judgeCalibration.ts(Day 17 计划模块)的 κ≥0.6 校验——四维独立校准,某维 κ 不达标则该维分仅记录不进 CI gate。这把「四维正交」从设计主张落成可验证的校准要求:正交维度本就该各自达标。
  • AmlSarPanel 渲染逐维结果:在现有「SAR 草稿」section 的每个段落标题旁,按维度挂 PASS/FAIL chip(复用 Day 80 的绿/黄/红信号样式);FAIL 维联动「人工复核 (HITL)」区列入待重点复核——与现有「已人工修改」标记并列。
  • 诚实标注sarRubric.ts 标注四维完整性目标基线对标 Co-Investigator AI 的 87%(特定类型学),但本项目 v1 为规则模板 SAR、未接 LLM,完整性由模板结构保证、其余三维待 P3 LLM + κ 校准后开评;Fiserv/FIS 的 GA 进度为外部对照,非本项目能力声明。

参考资料

  1. arXiv 2509.08380 — Co-Investigator AI: The Rise of Agentic AI for Smarter, Trustworthy AML Compliance Narratives(Naik, Dintakurthi, Hu, Wang, Qiu):Intro Scoring(日期范围/金额/主体识别加权准确性检查)+ Narrative Scoring(正文 across seven distinct compliance dimensions,语义相似度 + category-specific weights);完整性均值 70%、特定类型学 87%;61% 效率提升 (2025-09)
  2. FinCEN — Guidance on Preparing a Complete & Sufficient SAR Narrative(sarnarrcompletguidfinal_112003.pdf):SAR 叙述须含 5W1H(Who/What/When/Where/Why + How);「叙述是 SAR 最关键部分」;事实化、按时序、客观陈述 (2003-11,监管文档)
  3. FFIEC BSA/AML Examination Manual — Appendix L: SAR Quality Guidance:examiner-ready 标准;完整、一致、非投机;提交前复核准确性/语法/逻辑流 (持续,监管手册)
  4. BusinessWire / FIS — FIS Brings Agentic AI to Banking with Anthropic, Starting with Financial Crimes:「reduce false positives and enhance investigative and SAR narrative quality」;调查数天→分钟;BMO/Amalgamated in development;GA H2 2026 (2026-05-04)
  5. GlobeNewswire / Fiserv — Fiserv Launches agentOS:初始四 agent 含 Agentic AML Triage Analysis;跑在 Amazon Bedrock AgentCore;GA ~2026-08;OpenAI + AWS 协作 (2026-05-14)
  6. Aman Khan — LLM-as-a-Judge(评测四段式 judge prompt:角色/rubric/锚定示例/输出格式)(2026-04)
  7. 本仓库 src/aml/sarDraft.ts(6 段 5W1H 模板 / citedTxIds)、src/aml/failureTaxonomy.ts(四维↔失败类别映射)、src/aml/evalChecks.ts(确定性预检思路)、Day 17 judgeCalibration.ts(κ 校准) (2026-06)

SOTA 检查 (2026-06-11)

  • 「SAR 叙述质量需结构化、可复现度量」在 2026-06 是 live 命题且无统一标准:FinCEN 5W1H(2003)是内容指引非评分 rubric;Co-Investigator AI(2025-09)是目前最具体的学术评分方法学(Intro/Narrative 双层、七维加权)。本日 WebSearch 未见监管机构发布官方 SAR-quality LLM rubric——这正是「可复现度量即差异化」(洞察②)成立的前提。
  • 厂商 SAR 能力进入 GA 窗口(2026 H2)但度量不透明:FIS-Anthropic(GA H2 2026)、Fiserv agentOS(GA ~2026-08)均宣称提升 SAR 质量,但截至 2026-06 发布材料未公开质量度量口径。本项目四维 rubric 的差异化立足于此,须在长文#4 持续跟踪两者 GA 后是否披露度量。
  • 四维 vs 七维是有意识取舍:Co-Investigator AI 用七维,本项目正交折叠为四维以稳住 judge κ。若 P3 后 judge κ 在某维持续不达标,应评估是否进一步拆维或合维——维度设计本身要随 κ 校准结果迭代(呼应 Day 17 分歧驱动迭代)。
  • 过时认知警示:把 5W1H 当评分 rubric 是常见误区——它是 FinCEN 的内容清单(该写什么),不是质量度量(写得多好);混用会让 judge 在强相关维度上重复打分、抬高方差、压低 κ。
  • 待跟踪:(1) FIS/Fiserv GA 后是否公开 SAR 质量度量口径(决定长文#4 对照深度);(2) Co-Investigator AI 后续是否公开其七维具体名称与权重(决定本四维是否再校准);(3) FinCEN 是否就 AI 生成 SAR 出新指引(2025-08 已发中国洗钱网络咨询,监管在加码)。