返回 AIPA 笔记
AIPA Day 73

SAR LLM vs 模板对照评测 — LLM 必须打败基线才配上线

SAR LLM vs 模板对照评测 — LLM 必须打败基线才配上线

2026-08-26
sar-evalfaithfulness-fluency-tradeoffpaired-comparisonci-gate

日期: 2026-08-26 阶段: Phase 3 - AML 调查 Copilot 标签: #sar-eval #faithfulness-fluency-tradeoff #paired-comparison #ci-gate

核心问题

Day 71 把规则模板钉成确定性基线,Day 72 把 LLM 接上闭世界引用防护。今天回答一个会决定"LLM 到底配不配上线"的硬问题:怎么严格证明 LLM SAR 比模板基线好,而不是只是"看起来更流畅"?

这个问题藏着一个陷阱。LLM SAR 几乎必然在可读性上碾压模板——模板是 if/else 拼接的官腔,LLM 写得通顺得多。如果只看可读性,LLM 永远赢。但 SAR 是法律文书,可读性赢了不等于该上线:如果 LLM 用"把数字编漂亮"换来流畅,它在事实忠实度上反而可能输给从不犯错的模板。今天的评测设计就是要把这个权衡量化、定边界、进 CI gate。

三件事讲透:

  1. ≥100 金标上的三维对照评测:完整性、事实忠实、可读性三个轴分别量化 LLM vs 模板。
  2. LLM 必须打败规则基线:不是"差不多就行",而是设硬门——LLM 在任一合规关键维度低于基线即拒绝上线
  3. evals 日跑绿灯:把对照评测接进 CI,每日跑,LLM 退化即红灯。

关键内容

A. 三维对照评测:完整性 / 事实忠实 / 可读性各走各的量法

把 SAR 质量拆成三个正交的轴,每个轴用最适配的量法(不能一个 LLM-judge 全包,因为不同维度的确定性程度不同):

维度测什么量法确定性?
完整性 (completeness)5W1H 六槽位是否齐、要素是否漏结构校验(复用 Day 71 assertSarStructure确定性
事实忠实 (faithfulness)每个数字/对手/日期是否对得上证据闭世界锚点验证(复用 Day 72 verifyAnchors确定性
可读性 (readability)流畅、连贯、调查员可用LLM judge(Day 17 已校准 κ≥0.6)非确定性

设计要害:前两维用确定性量法、第三维才用 LLM judge。原因——完整性和事实忠实在 SAR 是合规硬指标,不能交给一个会幻觉的评测器;它们恰好可以确定性地算(槽位非空、锚点对得上)。可读性是软指标、无确定性算法,才动用 LLM judge——而且这个 judge 已经在 Day 17 用 Cohen's κ 对人工校准过(κ≥0.6 才准入),不是裸信。

完整性与事实忠实的量法直接继承前两天的确定性工具,三维评分算法:

function evalSar(draft, case, judge) → {completeness, faithfulness, readability}:
    # 维度1 完整性(确定性,复用 Day 71)
    struct ← assertSarStructure(draft, case)
    completeness ← struct.filledSlots / 6           # ∈[0,1],六槽位非空比

    # 维度2 事实忠实(确定性,复用 Day 72)
    anchorCheck ← verifyAnchors(draft, case)
    faithfulness ← 1 - anchorCheck.violations.length / totalClaims(draft)
                                                     # 锚点全对=1.0;每个 phantom/mismatch 扣权

    # 维度3 可读性(LLM judge,二元刻度,Day 16 四段式 prompt)
    readability ← judge.score(draft, rubric='可读性:流畅+连贯+调查员可直接用')
                                                     # ∈{0,1},judge κ≥0.6 才计入

    return {completeness, faithfulness, readability}

事实忠实里 totalClaims 是段落里所有挂锚点的原子断言数(Day 72 的 (txId,field,claim));忠实度 = 通过验证的 claim 比例。注意忠实度对模板基线恒为 1.0(Day 71/72 已证:模板的引用结构上不可能 phantom)——这把模板的事实忠实定成了 LLM 必须够到的天花板=地板=1.0

B. 反直觉核心:LLM 可读性更好,但事实忠实可能更差

这是今天最重要的洞察,也是评测设计的全部理由。学术界 2025 已有明确证据:忠实度与表达力(expressiveness/fluency)存在权衡——Yang, Si & Lin(Breaking the Trade-Off Between Faithfulness and Expressiveness for LLMs, arXiv:2508.18651, 2025)的核心观察:"更顺滑、更自然的输出往往以牺牲对源材料的准确性为代价"(more polished, natural-sounding outputs often sacrifice accuracy to source documents)。多篇 2026 综述印证:LLM 可能产出"流畅却误导"(fluent yet misleading)的内容——语言连贯不代表事实对齐。

把这条搬到 SAR:

                 可读性 ▲
                       │         ● 裸 LLM(流畅但偶发幻觉)
            LLM+验证 ● │       ↙ 可读性高,但若不验证,忠实度 <1.0
                       │
                       │
        ───────────────┼──────────────────────►
                       │  ● 模板基线           事实忠实
                       │    可读性低           (SAR 合规硬轴)
                       │    但忠实度 = 1.0 ↑
                       │

反直觉洞察①(LLM SAR 可读性更好,但事实忠实可能更差):产品直觉是"LLM 写得顺,全方位吊打模板"。错。可读性是 LLM 的主场,但事实忠实是模板的主场——模板从结构上不可能编造(每个数字直接来自 assessment),而 LLM 即便接了闭世界验证,验证前的原始输出仍可能有 1.9% 量级幻觉(Day 72 引 ServiceNow 数据)。SAR 是法律文书,事实忠实的权重必须压过可读性。一个"可读性 0.95、忠实度 0.97"的 LLM SAR,在合规上输给"可读性 0.6、忠实度 1.0"的模板。把这两维加权平均成一个总分是危险的——会让可读性的高分掩盖忠实度的致命缺陷。

这条洞察直接决定了 C 节的门禁设计:不能用加权总分,必须分维度设硬门

C. LLM 必须打败基线:分维度硬门 + 配对显著性检验 + 日跑 gate

评测出三维分数后,怎么判"LLM 配不配上线"?错误做法是 0.4·完整性+0.2·忠实+0.4·可读 > 模板总分——加权会让可读性赎买忠实度。正确做法是分维度硬门(lexicographic / 字典序门禁)

function llmGate(llmScores, baselineScores) → {pass, reason}:
    # 硬门①:事实忠实不得低于基线(基线=1.0,即 LLM 必须也 =1.0)
    if llmScores.faithfulness < baselineScores.faithfulness:
        return {pass:false, reason:'忠实度低于基线——禁止上线(合规红线)'}

    # 硬门②:完整性不得低于基线
    if llmScores.completeness < baselineScores.completeness:
        return {pass:false, reason:'完整性退步——漏 5W1H 要素'}

    # 软门③:可读性须显著高于基线,否则 LLM 无增值理由(白付 token+幻觉风险)
    delta ← perExampleDelta(llmScores.readability, baselineScores.readability)  # 配对
    sig   ← welchPairedTest(delta)                  # 配对显著性检验
    if not (mean(delta) > 0 and sig.pValue < 0.05):
        return {pass:false, reason:'可读性未显著超基线——LLM 不值得上线'}

    return {pass:true, reason:'忠实≥基线 ∧ 完整≥基线 ∧ 可读显著>基线'}

三道门的逻辑顺序是字典序、不可互换:先卡合规硬轴(忠实、完整),任一不达基线直接拒绝,可读性再高也不看;只有两个合规轴都不输基线,才看可读性是否值回 token 成本。

可读性这道软门为什么要做配对显著性检验而非裸均值比较?因为可读性是 LLM judge 打的、有采样方差。在 ≥100 金标上做**配对(同一案件,LLM 输出 vs 模板输出,同一 judge 打分)**比较,用 Welch 配对检验(2026 A/B 评测 playbook:matched pairs + per-example delta 给最大统计功效)。配对消掉"案件本身难易"的混杂——只剩"LLM 相对模板的净提升"。

反直觉洞察②(≥100 金标 + 配对,才能区分"真提升"与"采样噪声"):团队常拿 LLM 和模板各跑一遍、比平均可读性,"LLM 高 0.05 分,赢了"。但 judge 有方差,0.05 可能纯属噪声。配对设计(同案件对比)+ 显著性检验才能回答"这 0.05 是 LLM 的真本事还是这批样本恰好偏向 LLM"。这与 Day 71 的零方差基线形成对照:完整性/忠实度因确定性无需检验,可读性因有方差必须检验——评测方法要随维度的确定性程度切换。样本量也是合规要求:FinCEN 的 SAR 是高风险产出,≥100 案才有足够功效检测到合规相关的退化。

三维评测在 CI 日跑(接 P1 的 CI gate),红灯条件:

维度日跑断言红灯 → 动作
完整性LLM ≥ 基线(=1.0 满槽位)阻断 merge
事实忠实LLM = 基线(=1.0,零 violation)阻断 merge + 触发 Day 72 降级回模板
可读性LLM 配对 delta 显著 >0不阻断,但记录"LLM 无增值"告警

注意忠实度红灯不只是阻断 merge——它直接联动 Day 72 的降级状态机:生产中某案 LLM 忠实度 <1.0,立即降级回模板出文,绝不让带幻觉的 SAR 草稿流到调查员面前

LLM vs 模板三维对照(评测产出的决策表样态):

完整性事实忠实可读性门禁判定
模板基线1.01.00.62基准
LLM(理想)1.01.00.91(显著>)✅ 上线
LLM(可读高但漏要素)0.831.00.93❌ 完整性退步
LLM(流畅但有幻觉)1.00.970.95❌ 忠实度<基线,合规红线
LLM(忠实完整但不够顺)1.01.00.66(不显著)❌ 无增值,不值 token

第三、四行正是反直觉洞察①的具象:可读性最高的两个 LLM 变体,恰恰因为合规硬轴退步而被拒

设计要点/决策表

要点决策理由
评测维度完整性/事实忠实/可读性三轴正交不同维度确定性程度不同,量法各异
量法分配前两维确定性算法,可读性才用 LLM judge合规硬指标不交给会幻觉的评测器
judge 准入仅 Day 17 校准过(κ≥0.6)的 judge 计入评测器本身也要被评测
门禁结构字典序硬门,禁止加权总分防可读性高分赎买忠实度缺陷
忠实/完整门LLM 不得低于基线(=1.0)SAR 合规红线,1 份幻觉即事故
可读性门配对显著性检验 delta>0 且 p<0.05区分真提升与 judge 采样噪声
样本量≥100 金标,配对设计高风险产出需足够功效检测退化
忠实红灯联动触发 Day 72 降级回模板带幻觉草稿绝不到调查员面前

对本项目的落地

  • 新建 src/aml/sarEval.ts:实现 A 节 evalSar(draft, case, judge) 三维评分——完整性调 Day 71 assertSarStructure、忠实度调 Day 72 verifyAnchors、可读性调已校准 judge。导出 llmGate(llmScores, baselineScores)(C 节字典序硬门)与 perExampleDelta/welchPairedTest(配对显著性)。
  • 新建 src/aml/__tests__/sarLlmVsTemplate.test.ts:在金标案件上对每案同时跑 draftSar()(模板)与 draftSarLlm()(Day 72 fixture)→ evalSar 三维 → llmGate。断言:忠实/完整 LLM≥基线方可 pass;可读性 fixture 构造"显著高""不显著"两组验证软门。诚实标注:金标当前 66 案,"≥100"为 v1 目标,W3 扩样到 ≥100 后回填功效;judge 为占位(无生产 LLM key),用 fixture 模拟"已校准 judge"的二元打分。
  • 接 CI gate:三维评测进 vitest 套件,与 Day 71 基线 eval、P1 类型学 eval 并列为"三组 evals 日跑"。忠实度<基线的红灯在测试里直接 fail(阻断 merge);生产联动 Day 72 降级状态机(后续构建,不谎称已上生产)。
  • 复用而非重造:完整性/忠实度评分不写新逻辑,直接调 Day 71/72 的确定性工具——保证"评测用的量法"和"生成时的验证"是同一套代码,杜绝评测与生成口径漂移(呼应 P1 attributeMap 的"独立映射层防漂移"思路)。
  • 诚实标注:本日落三维评分函数、字典序门禁、配对检验、对照测试骨架;真实 LLM 跑分、≥100 案功效、生产降级联动为后续构建。表中分数为设计样例,非实测。

参考资料

  1. Chenxu Yang, Qingyi Si, Zheng Lin — Breaking the Trade-Off Between Faithfulness and Expressiveness for LLMs (arXiv:2508.18651):更顺滑/自然的输出常以牺牲对源材料准确性为代价;忠实-表达力权衡非必然但需专门方法破解 (2025)
  2. A review of faithfulness metrics for hallucination assessment in LLMs (arXiv:2501.00269) / UniSumEval (arXiv:2409.19898):faithfulness=全/部分/不支持;completeness=是否含全部相关信息;readability=fluency+coherence;NLI [0,1] 蕴含分 (2025)
  3. FutureAGI — A/B Testing LLM Prompts: The Statistical Playbook (2026):matched pairs + per-example delta + Welch 配对检验 + bootstrap CI 给两臂决策最大功效;MDE/样本量 (2026)
  4. 2026 hallucination 综述(arXiv:2510.06265 / PMC12518350):LLM 可产"流畅却误导"内容,语言连贯≠事实对齐 (2026)
  5. 本仓库 src/aml/sarDraft.ts(模板基线,忠实度=1.0)、src/aml/sarCitation.ts(Day 72 verifyAnchors)、docs/aipa/day71-sar-rule-baseline.md(assertSarStructure/确定性基线)、docs/aipa/day17-judge-calibration.md(judge κ≥0.6 准入)、docs/aipa/day16-*(四段式二元 judge)(2026-06)

SOTA 检查 (2026-06-11)

  • "多维分维度评测 + 确定性硬指标 + LLM-judge 软指标"是 2026-06 文本生成评测主流:UniSumEval(2025)的细粒度多维评测、FutureAGI A/B playbook(2026)的配对显著性、各家 faithfulness 综述共同确立"不同维度用不同量法、合规硬指标走确定性、软指标才用 judge"。本项目三维设计即此范式在 SAR 域落地。
  • 忠实-流畅权衡是 live 的研究前沿:Yang/Si/Lin(2025)等正试图"破解"权衡(让流畅不牺牲忠实)。但截至 2026-06,受监管文本场景不能赌"权衡已被破解"——必须假设 LLM 可能用流畅换忠实,故本项目坚持字典序硬门(忠实优先于可读),不采加权总分。这是反直觉洞察①的工程兑现。
  • 是否仍是 SOTA:✅ 是。FIS+Anthropic Financial Crimes Agent(2026-05-04)的 SAR 叙述生成、Fiserv agentOS(2026-05-14)的 AML Triage 均强调人工复核与可溯源——无任何监管认可的"LLM SAR 免对照直接上线"。LLM 必须证明净增益(且不输合规硬轴)才配部署,与本笔记门禁一致。
  • 判分方法升级监测:部分团队用 NLI 蕴含模型([0,1] 忠实分)或 G-Eval+ 替代裸 judge 提升与人工一致性;本项目忠实度用确定性锚点验证(比 NLI 更硬、对 SAR 更合适),可读性用已校准 judge,暂不需 NLI;若 coverage 做成序数维度,评估引入 NLI 作第二判官,回填本笔记。
  • 过时认知警示:"LLM 写得顺就该上线"是过时产品直觉——2026 受监管场景的铁律是"可读性赢不能赎买忠实度输";加权总分掩盖合规缺陷是踩坑点,本笔记 C 节字典序门禁即解。
  • 待跟踪:W3 扩样到 ≥100 金标后实测三维分数与配对显著性;若 LLM 在忠实度反复触红灯,回看 Day 72 闭世界验证是否需加 NLI 级语义核对;监测 EU AI Act Article 50(2026-08-02 生效)对 LLM SAR 草稿的标记要求,Day 74 审计轨迹落地。