SAR 质量 rubric — 四维 LLM-judge 评分锚定 taxonomy,与 Fiserv/FIS GA 对照
SAR 质量 rubric — 四维 LLM-judge 评分锚定 taxonomy,与 Fiserv/FIS GA 对照
日期: 2026-09-07 阶段: Phase 3 - AML 调查 Copilot 标签: #sar-quality #llm-as-judge #rubric #fiserv-fis-tracking
核心问题
Day 15 的代码型检查(evalChecks.ts)能把「段落数 < 5」「引用了不存在的交易」这种确定性失败兜住,但它碰不到 SAR 叙述的语义质量——一份 SAR 可以段落齐全、交易全部可溯源,却依然写得让 FIU 调查员看不懂「到底可疑在哪」。FinCEN 反复强调「SAR 叙述是 SAR 最关键的部分」(2003-11 指引),而「叙述质量」恰恰是确定性代码判不了、必须上 LLM-as-judge 的那一层。
今天回答三件事:(1) SAR 叙述质量该拆成哪几维才既覆盖监管要点又可独立评分——直觉会拆十几维,今天证明四维就够且更可靠;(2) 每一维的评分怎么锚定到具体证据而非让 judge 凭印象打分;(3) 把这套 rubric 放进行业坐标——Fiserv agentOS(2026-08 GA)/ FIS-Anthropic(2026 H2 GA)正在做同一件事,它们的口径是本项目长文#4 的对照素材。
核心反直觉先抛出来:SAR 质量 rubric 的维度不该照搬 FinCEN 的 5W1H(六个要素)——5W1H 是「内容清单」(该写什么),不是「评分维度」(怎么算好)。把清单当 rubric 会让 judge 在六个高度相关的维度上重复打分,方差大、κ 低。真正能独立评分的是完整性 / 事实忠实 / 类型学引用 / 监管语言四个正交维度。
关键内容
A. 四维 rubric:为什么是这四维,每维评什么
参考 Co-Investigator AI(arXiv 2509.08380, 2025-09)的 SAR 评分方法学——它把评分拆成 Intro Scoring(评引言要素:日期范围、交易金额、主体识别,用加权准确性检查)+ Narrative Scoring(评正文,「across seven distinct compliance dimensions, applying semantic similarity metrics with configurable category-specific weights」)。但七维对一个个人作品集的 judge 过细——维度越多,judge 自报分的方差越大,且维度间高度相关(见 B 节相关性陷阱)。本项目压到四维,每维回答一个正交的问题:
| 维度 | 回答的问题 | 评分依据(锚定到本仓库数据) | 对应失败类别 |
|---|---|---|---|
| 完整性 (completeness) | 5W1H 六要素是否都写到、不缺项 | sarDraft 的 6 段是否各自非空且实质覆盖 Who/What/When/Where/Why/How | format_violation |
| 事实忠实 (faithfulness) | 叙述里的金额/对手/天数能否对应到证据交易 | 叙述数值 ⊆ citedTxIds 对应交易的真实字段 | hallucination |
| 类型学引用 (typology grounding) | 是否引用了构成该类型学的核心交易链、援引正确法规 | hits[].evidenceTxIds 是否覆盖核心链 + 法规引用(CTR/BSA)正确 | retrieval_miss |
| 监管语言 (regulatory tone) | 是否客观、事实化、非投机性,examiner-ready | 无「我认为/可能是」式投机措辞,时序清晰 | (judge 专属,无代码对应) |
四维的正交性是关键设计——它们各自失败的根因不同、修复路径不同:完整性差是模板缺段(改 sarDraft),忠实差是幻觉(代码层 cited_tx_exist 已兜一半),类型学引用差是检索遗漏(改规则引擎召回),监管语言差是 LLM 生成腔调(改 prompt)。正交=可独立修,这正是「评分维度」相对「内容清单」的价值。
反直觉洞察①(5W1H 是内容清单不是评分维度,照搬会让 judge 重复打分):直觉是「FinCEN 要 5W1H,rubric 就照六个要素各打一分」。但 Who/What/When/Where 在一份连贯 SAR 里高度共现——主体写清楚了(Who),交易描述(What/When/Where)通常也跟着清楚;judge 给 Who 打高分时几乎必然给 What 也打高,六个维度坍缩成「这段写得通不通顺」一个隐变量。结果是六维的有效自由度远小于 6,方差被人为放大,judge×人工 κ(Day 17)反而更难达标。把强相关的内容要素折叠进「完整性」一维,留下四个根因正交的维度,judge 才打得稳。 维度数不是越多越细越好,是越正交越可信——这与 Day 16「把刻度压到二元」、Day 80「三档而非连续百分比」是同一条「别给评测器超过其真实分辨力的刻度」哲学。
B. judge prompt 结构与逐维评分锚定:不让 judge 凭印象打分
四维确定后,每维要给 judge 一个带锚定示例的评分刻度,否则「完整性 4 分」对不同 judge 调用是不同含义。沿用 Aman Khan 四段式 judge prompt(2026-04):角色 → rubric → 锚定示例 → 输出格式。关键在第三段——每维必须给出 PASS/FAIL(或 0-2 序数)各档的具体锚定文本,把抽象刻度钉死到可比对的样例:
[角色] 你是资深 BSA/AML 合规官,按下列 rubric 逐维评估 SAR 叙述质量。
只依据"证据交易清单"判断,不引入清单外知识。
[rubric] 逐维独立打分(PASS/FAIL + 一句理由):
· 完整性 : 5W1H 六要素是否均有实质覆盖(非空泛套话)
· 事实忠实: 叙述中每个金额/对手/天数能否在证据清单中找到对应
· 类型学引用: 是否引用构成该类型学的核心交易链 + 法规援引正确
· 监管语言: 是否客观事实化、无投机性措辞、时序清晰
[锚定示例] ← 这一段是命门,把刻度钉到样例
完整性 PASS 锚: "主体 P-03(个人,新开户)在窗口第 1-9 天经现金渠道
分 7 笔存入合计 $63,500,单笔均低于 $10,000…"(六要素齐全)
完整性 FAIL 锚: "该客户有可疑交易,建议调查。"(缺 When/What/How)
事实忠实 FAIL 锚: 叙述称"$72,000"但证据清单合计仅 $63,500(数值无据)
类型学引用 FAIL 锚: 判为 structuring 却未引用任何贴线现金存款交易
监管语言 FAIL 锚: "我觉得这人八成在洗钱"(主观投机,非 examiner-ready)
[输出格式] 严格 JSON: {完整性:{verdict,reason}, 事实忠实:{...}, …}
为什么逐维独立打分而非给一个总分:Co-Investigator AI 的 Intro/Narrative 分离、七维分拆,本质都是让 judge 一次只判一件事。LLM 自报置信度普遍过自信(Day 80,arXiv 2412.14737),让它一次综合四维给「85 分」,等于把四个判断揉成一个不可归因的数——一旦低分,你不知道是哪维拖累、该修哪里。逐维 + 锚定示例把 judge 的输出结构化到可归因:哪维 FAIL 直接打到对应失败类别(A 节表最后一列),喂回 Day 26 失败归因面板。
逐维评分锚定到证据的一个伪算法(faithfulness 维,可半确定性预判,省 judge 调用):
faithfulnessPrecheck(section, citedTxs):
claimedNums = extractMoneyAndDays(section.body) # 抽叙述中的金额/天数
evidenceNums = citedTxs.flatMap(t => [t.amountCents, t.dayOffset])
for n in claimedNums:
if n not in evidenceNums (容差内):
return { verdict: FAIL, reason: `叙述值 ${n} 在证据中无对应` } # 直接 FAIL,不必喂 judge
return NEEDS_JUDGE # 数值都对得上,语义忠实度才交 judge 细判
这条复用 evalChecks.ts 的「叙述数值须可溯源」精神——能确定性预判 FAIL 的,不浪费 judge 调用(呼应 Day 15「凡能确定性断言就不上 LLM」);只有数值都对得上、需要判「语义是否歪曲」时才升级到 LLM judge。
C. 行业对照:Fiserv agentOS / FIS-Anthropic 在做同一件事(长文#4 素材)
把本项目的四维 rubric 放进 2026 行业坐标——两个最直接的对照物都在 H2 2026 GA:
| 系统 | 发布/GA | SAR 相关能力 | 与本项目 rubric 的对照点 |
|---|---|---|---|
| FIS-Anthropic 金融犯罪 AI Agent | 宣布 2026-05-04 / GA H2 2026 | 「reduce false positives and enhance investigative and SAR narrative quality」,调查从数天→分钟(businesswire 2026-05) | 「enhance SAR narrative quality」正是本四维要量化的目标;BMO/Amalgamated 在 dev |
| Fiserv agentOS | 发布 2026-05-14 / GA ~2026-08 | 初始四 agent 含 Agentic AML Triage Analysis;跑在 Amazon Bedrock AgentCore(globenewswire 2026-05) | AML Triage 是 SAR 上游(告警分诊),与本项目「typology 比对 → SAR 起草」同一流水线 |
| Co-Investigator AI(学术) | arXiv 2509.08380(2025-09) | Intro/Narrative 双层评分,七维 + 语义相似度加权;完整性均值 70%、特定类型学达 87% | 本四维是其七维的正交折叠版;它的 87% 完整性是本项目 completeness 维的对标基线 |
反直觉洞察②(厂商喊「提升 SAR 质量」,但几乎没人公开『质量』的可复现度量):FIS 新闻稿写「enhance SAR narrative quality」,Fiserv 写「AML Triage」,听起来都在解决同一问题。但翻遍 2026-05 的发布材料,没有一家公开『质量』是怎么量的——没有 rubric、没有 judge 口径、没有 κ。Co-Investigator AI(学术)反而给了最具体的方法学(Intro+Narrative 双层、七维加权)。这说明:对个人作品集,可复现的质量度量本身就是差异化——不是「我也做了个 SAR agent」(厂商做得比你好),而是「我能把『SAR 质量』拆成四个正交、可独立评分、锚定证据、经 κ 校准的维度,并诚实标注哪维还达不到标」。厂商的护城河是数据和分发,作品集的护城河是度量的严谨与诚实。长文#4 的论点就立在这里。
设计要点/决策表
| 要点 | 决策 | 理由 |
|---|---|---|
| 维度数 | 四维(完整性/事实忠实/类型学引用/监管语言),不照搬 5W1H 六要素 | 5W1H 是内容清单非评分维度;四维根因正交、可独立修 |
| 维度来源 | 正交折叠 Co-Investigator AI 的七维 | 七维对个人项目过细、相关性高、方差大 |
| judge prompt | Aman Khan 四段式,第三段每维带 PASS/FAIL 锚定示例 | 无锚定示例则同一分对不同调用含义不同 |
| 评分粒度 | 逐维 PASS/FAIL(或 0-2 序数)独立打分,不给综合总分 | 综合分不可归因;逐维可打到失败类别 |
| 确定性预判 | faithfulness 维数值先做确定性预检,FAIL 直接出 | 能确定性断言的不浪费 judge 调用(承 Day 15) |
| 行业对照 | Fiserv/FIS GA 进度入长文#4,强调本项目差异在度量严谨 | 厂商喊「质量」但不公开度量,可复现度量是差异化 |
对本项目的落地
- 计划新建
src/aml/sarRubric.ts:导出SAR_RUBRIC(四维定义 + 每维锚定示例常量,与failureTaxonomy.ts的FailureClassId一一映射)、buildJudgePrompt(draft, citedTxs) → string(拼 B 节四段式 prompt)、faithfulnessPrecheck(section, citedTxs) → 'FAIL' | 'NEEDS_JUDGE'(确定性预检,复用evalChecks的数值溯源思路)。维度 id 用稳定 key(completeness/faithfulness/typology_grounding/regulatory_tone)进看板与 CI。 - judge 接口与降级:
sarRubric.ts头注明确——LLM judge 在无 API key 时诚实降级(同evalChecks的 LLM 层约定),仅跑 faithfulness 的确定性预检 + 完整性的「段落非空」下界守卫,监管语言/类型学语义维标注「待 LLM 接入」,不谎称已评。 - 接 Day 17 κ 校准:四维 judge 分进
evalBaseline聚合前,每维须各自经judgeCalibration.ts(Day 17 计划模块)的 κ≥0.6 校验——四维独立校准,某维 κ 不达标则该维分仅记录不进 CI gate。这把「四维正交」从设计主张落成可验证的校准要求:正交维度本就该各自达标。 AmlSarPanel渲染逐维结果:在现有「SAR 草稿」section 的每个段落标题旁,按维度挂 PASS/FAIL chip(复用 Day 80 的绿/黄/红信号样式);FAIL 维联动「人工复核 (HITL)」区列入待重点复核——与现有「已人工修改」标记并列。- 诚实标注:
sarRubric.ts标注四维完整性目标基线对标 Co-Investigator AI 的 87%(特定类型学),但本项目 v1 为规则模板 SAR、未接 LLM,完整性由模板结构保证、其余三维待 P3 LLM + κ 校准后开评;Fiserv/FIS 的 GA 进度为外部对照,非本项目能力声明。
参考资料
- arXiv 2509.08380 — Co-Investigator AI: The Rise of Agentic AI for Smarter, Trustworthy AML Compliance Narratives(Naik, Dintakurthi, Hu, Wang, Qiu):Intro Scoring(日期范围/金额/主体识别加权准确性检查)+ Narrative Scoring(正文 across seven distinct compliance dimensions,语义相似度 + category-specific weights);完整性均值 70%、特定类型学 87%;61% 效率提升 (2025-09)
- FinCEN — Guidance on Preparing a Complete & Sufficient SAR Narrative(sarnarrcompletguidfinal_112003.pdf):SAR 叙述须含 5W1H(Who/What/When/Where/Why + How);「叙述是 SAR 最关键部分」;事实化、按时序、客观陈述 (2003-11,监管文档)
- FFIEC BSA/AML Examination Manual — Appendix L: SAR Quality Guidance:examiner-ready 标准;完整、一致、非投机;提交前复核准确性/语法/逻辑流 (持续,监管手册)
- BusinessWire / FIS — FIS Brings Agentic AI to Banking with Anthropic, Starting with Financial Crimes:「reduce false positives and enhance investigative and SAR narrative quality」;调查数天→分钟;BMO/Amalgamated in development;GA H2 2026 (2026-05-04)
- GlobeNewswire / Fiserv — Fiserv Launches agentOS:初始四 agent 含 Agentic AML Triage Analysis;跑在 Amazon Bedrock AgentCore;GA ~2026-08;OpenAI + AWS 协作 (2026-05-14)
- Aman Khan — LLM-as-a-Judge(评测四段式 judge prompt:角色/rubric/锚定示例/输出格式)(2026-04)
- 本仓库
src/aml/sarDraft.ts(6 段 5W1H 模板 /citedTxIds)、src/aml/failureTaxonomy.ts(四维↔失败类别映射)、src/aml/evalChecks.ts(确定性预检思路)、Day 17judgeCalibration.ts(κ 校准) (2026-06)
SOTA 检查 (2026-06-11)
- 「SAR 叙述质量需结构化、可复现度量」在 2026-06 是 live 命题且无统一标准:FinCEN 5W1H(2003)是内容指引非评分 rubric;Co-Investigator AI(2025-09)是目前最具体的学术评分方法学(Intro/Narrative 双层、七维加权)。本日 WebSearch 未见监管机构发布官方 SAR-quality LLM rubric——这正是「可复现度量即差异化」(洞察②)成立的前提。
- 厂商 SAR 能力进入 GA 窗口(2026 H2)但度量不透明:FIS-Anthropic(GA H2 2026)、Fiserv agentOS(GA ~2026-08)均宣称提升 SAR 质量,但截至 2026-06 发布材料未公开质量度量口径。本项目四维 rubric 的差异化立足于此,须在长文#4 持续跟踪两者 GA 后是否披露度量。
- 四维 vs 七维是有意识取舍:Co-Investigator AI 用七维,本项目正交折叠为四维以稳住 judge κ。若 P3 后 judge κ 在某维持续不达标,应评估是否进一步拆维或合维——维度设计本身要随 κ 校准结果迭代(呼应 Day 17 分歧驱动迭代)。
- 过时认知警示:把 5W1H 当评分 rubric 是常见误区——它是 FinCEN 的内容清单(该写什么),不是质量度量(写得多好);混用会让 judge 在强相关维度上重复打分、抬高方差、压低 κ。
- 待跟踪:(1) FIS/Fiserv GA 后是否公开 SAR 质量度量口径(决定长文#4 对照深度);(2) Co-Investigator AI 后续是否公开其七维具体名称与权重(决定本四维是否再校准);(3) FinCEN 是否就 AI 生成 SAR 出新指引(2025-08 已发中国洗钱网络咨询,监管在加码)。