AI 底层逻辑 / 经典论文

Calibration / Conformal Prediction：不确定性治理

一句话:

234 行ai-foundations/papers/54-calibration-conformal-prediction-uncertainty-governance.md

Calibration / Conformal Prediction / Uncertainty Governance 解读

面向对象: AI Governance Lead / Customer-Facing AI PM / Model Risk Partner / AI Architect。核心问题: AI 系统经常输出分数、概率或“看起来很有把握”的语言，但这些信号不一定代表真实正确率。金融零售 AI 需要把不确定性转成路由、拒答、升级、人工复核和客户体验，而不是把 confidence 当装饰。学习目标: 理解 calibration、ECE、reliability diagram、Brier score、temperature scaling、conformal prediction、coverage、selective prediction、abstention，并映射到受监管 AI 产品治理。

Source Anchors

Source	Link	用途
On Calibration of Modern Neural Networks	https://arxiv.org/abs/1706.04599	理解现代神经网络可能过度自信，以及 temperature scaling 等校准方法
A Gentle Introduction to Conformal Prediction	https://arxiv.org/abs/2107.07511	理解 conformal prediction 的 distribution-free uncertainty sets/intervals
MAPIE documentation	https://mapie.readthedocs.io/	参考 model-agnostic prediction intervals/sets 和工程化 conformal workflows
NIST AI RMF	https://www.nist.gov/itl/ai-risk-management-framework	把不确定性、可靠性和风险路由纳入 AI 风险治理

一句话:

Uncertainty governance 是把“模型有多不确定”转成产品动作: 自动处理、补充证据、人工复核、拒答、升级或停止。

1. Confidence 不等于 Correctness

常见误区:

表象	误解	正确理解
模型输出 0.92	92% 一定正确	只有经过校准，0.92 才可解释为近似正确率
LLM 语气坚定	答案可信	语言自信不代表事实正确
分类分数高	可以自动执行	高风险动作还要看校准、覆盖、人群和后果
平均准确率高	所有人群都可靠	可能某些 segment 严重失准

金融零售里的 confidence 必须和动作绑定:

自动通过。
低风险提示。
要求补充证据。
人工复核。
拒答或停止。
升级到二线专家。

2. Calibration

校准问题:

在所有模型预测 80% 置信的样本中，真实正确率是否约为 80%？

常用指标:

指标	含义	产品用途
Reliability diagram	预测置信与真实正确率的图	向风险/审计解释分数是否可信
ECE	分桶后置信和正确率差异	release gate
Brier score	概率预测误差	风险模型和分类模型比较
NLL	概率质量	模型训练和验证

Temperature scaling 是常见后处理方法: 不改变分类排序，调整 softmax 置信程度。

注意: 校准不是提升 accuracy，而是让概率更可解释。

3. Conformal Prediction

Conformal prediction 的产品价值是提供带覆盖保证的预测集合或区间。

分类例子:

模型不只输出 “类别 A”，而是输出 {A, C}，并保证长期覆盖率约为 90%。

回归例子:

不是预测还款概率点值，而是给出风险区间。

核心概念:

概念	含义
Calibration set	用于计算 conformity score 的保留样本
Conformity score	衡量样本与模型预测的一致程度
Coverage	真实值落在预测集合/区间内的比例
Prediction set	包含可能标签的集合
Prediction interval	回归任务的不确定区间

适合:

高风险分类。
需要 abstention 或人工复核的模型。
风控、KYC、AML、文档抽取、RAG 答案风险分层。

4. Selective Prediction 和 Abstention

Selective prediction 的核心是允许模型不回答:

if confidence calibrated and risk low -> auto
if uncertainty high -> abstain or escalate

产品设计:

置信/不确定性	动作
高置信 + 低风险	自动执行或展示
中置信 + 中风险	要求更多证据或人工抽检
低置信 + 高风险	人工复核
分布外/未知	拒答、升级、停止

LLM 场景要特别小心:

LLM 自报 confidence 通常不可直接当概率。
更可靠的是外部 evaluator、retrieval evidence、consistency check、calibrated classifier、human feedback。
RAG 答案应把 answer confidence 拆成 retrieval confidence、citation support、generation consistency 和 policy risk。

5. Uncertainty-to-Action Architecture

model output
  -> calibration layer
  -> uncertainty / conformal layer
  -> risk tier policy
  -> action router
  -> human review / refusal / auto execution
  -> outcome and calibration monitoring

关键组件:

组件	职责
Calibration service	temperature scaling、isotonic、segment calibration
Conformal service	prediction sets/intervals、coverage target
Risk router	根据不确定性和业务风险决定动作
Confidence UX	向用户表达证据、限制和下一步，不滥用百分比
Monitoring	ECE、coverage、abstention rate、override、segment drift
Governance evidence	校准集、时间窗、模型版本、审批和复核结果

6. 金融零售案例映射

Case A: KYC 文档抽取

模型输出: 姓名、地址、证件号、有效期。
校准: 字段级 confidence 是否与正确率一致。
Conformal/abstention: 低置信字段进入人工复核。
风险: 错误 KYC 可能导致合规问题或客户体验问题。

Case B: 欺诈风险

模型输出: 欺诈概率。
校准: 0.8 风险分是否真的对应约 80% 事件率。
动作: 放行、强认证、人工、拒绝。
监控: 按商户、渠道、地区、设备 segment 追踪 calibration drift。

Case C: RAG 合规助手

模型输出: 政策答案和引用。
不确定性拆分: 检索召回、引用支持、答案一致性、政策风险。
动作: 自动回答、提示限制、要求二线确认、拒答。
UX: 不显示虚假精确百分比，而显示“引用充分/引用不足/需人工确认”。

7. Segment Calibration

总体校准好，不代表每个人群都好。

需要按:

产品线。
客户风险等级。
地区。
渠道。
语言。
文档类型。
模型版本。
业务时段。

做分层监控。

金融零售尤其要看:

脆弱客户。
少数语言。
新客和薄文件客户。
高风险商户。
历史样本少的地区。

8. 面试表达

30 秒版本

校准回答的是“模型的置信度能不能当概率解释”，conformal prediction 提供预测集合或区间的覆盖保证。金融 AI 里我不会把 confidence 直接展示给用户，而是把不确定性接入 action router: 自动、抽检、人工复核、拒答或升级。

2 分钟版本

比如欺诈模型输出 0.9，不代表它真的有 90% 正确率，除非经过校准并持续监控。上线前我会看 reliability diagram、ECE、Brier score，并按 segment 验证。对高风险任务，可以用 conformal prediction 生成预测集合或区间，用 coverage 约束风险。当模型不确定或样本分布外时，系统应 abstain 或升级人工。对 RAG/LLM，不能依赖模型自报 confidence，而要拆成检索支持、引用正确、答案一致性和策略风险，并把这些信号转成 UX 和工作流。

CTO 追问

如果问校准是否提升准确率，我会回答: 通常不是。校准提升的是概率可信度和决策可用性。一个准确但过度自信的模型，在高风险自动化里仍然危险，因为它会错误触发自动执行。

9. Portfolio Task

做一个 “Uncertainty Governance Pack”:

Artifact	内容
Calibration report	reliability diagram、ECE、Brier、segment view
Conformal plan	calibration set、coverage target、prediction set/interval
Action routing matrix	confidence/risk -> auto/review/refuse/escalate
Confidence UX spec	对客户/员工如何表达不确定性和证据
Monitoring dashboard	calibration drift、coverage、abstention、override
Governance memo	哪些动作允许自动化，哪些必须人工

最终要能讲清楚: 不确定性不是模型附注，而是 AI 产品架构中的路由、控制和信任机制。