返回 Papers
AI 底层逻辑 / 经典论文

Calibration / Conformal Prediction:不确定性治理

一句话:

234ai-foundations/papers/54-calibration-conformal-prediction-uncertainty-governance.md

Calibration / Conformal Prediction / Uncertainty Governance 解读

面向对象: AI Governance Lead / Customer-Facing AI PM / Model Risk Partner / AI Architect。 核心问题: AI 系统经常输出分数、概率或“看起来很有把握”的语言,但这些信号不一定代表真实正确率。金融零售 AI 需要把不确定性转成路由、拒答、升级、人工复核和客户体验,而不是把 confidence 当装饰。 学习目标: 理解 calibration、ECE、reliability diagram、Brier score、temperature scaling、conformal prediction、coverage、selective prediction、abstention,并映射到受监管 AI 产品治理。


Source Anchors

SourceLink用途
On Calibration of Modern Neural Networkshttps://arxiv.org/abs/1706.04599理解现代神经网络可能过度自信,以及 temperature scaling 等校准方法
A Gentle Introduction to Conformal Predictionhttps://arxiv.org/abs/2107.07511理解 conformal prediction 的 distribution-free uncertainty sets/intervals
MAPIE documentationhttps://mapie.readthedocs.io/参考 model-agnostic prediction intervals/sets 和工程化 conformal workflows
NIST AI RMFhttps://www.nist.gov/itl/ai-risk-management-framework把不确定性、可靠性和风险路由纳入 AI 风险治理

一句话:

Uncertainty governance 是把“模型有多不确定”转成产品动作: 自动处理、补充证据、人工复核、拒答、升级或停止。


1. Confidence 不等于 Correctness

常见误区:

表象误解正确理解
模型输出 0.9292% 一定正确只有经过校准,0.92 才可解释为近似正确率
LLM 语气坚定答案可信语言自信不代表事实正确
分类分数高可以自动执行高风险动作还要看校准、覆盖、人群和后果
平均准确率高所有人群都可靠可能某些 segment 严重失准

金融零售里的 confidence 必须和动作绑定:

  • 自动通过。
  • 低风险提示。
  • 要求补充证据。
  • 人工复核。
  • 拒答或停止。
  • 升级到二线专家。

2. Calibration

校准问题:

在所有模型预测 80% 置信的样本中,真实正确率是否约为 80%?

常用指标:

指标含义产品用途
Reliability diagram预测置信与真实正确率的图向风险/审计解释分数是否可信
ECE分桶后置信和正确率差异release gate
Brier score概率预测误差风险模型和分类模型比较
NLL概率质量模型训练和验证

Temperature scaling 是常见后处理方法: 不改变分类排序,调整 softmax 置信程度。

注意: 校准不是提升 accuracy,而是让概率更可解释。


3. Conformal Prediction

Conformal prediction 的产品价值是提供带覆盖保证的预测集合或区间。

分类例子:

模型不只输出 “类别 A”,而是输出 {A, C},并保证长期覆盖率约为 90%。

回归例子:

不是预测还款概率点值,而是给出风险区间。

核心概念:

概念含义
Calibration set用于计算 conformity score 的保留样本
Conformity score衡量样本与模型预测的一致程度
Coverage真实值落在预测集合/区间内的比例
Prediction set包含可能标签的集合
Prediction interval回归任务的不确定区间

适合:

  • 高风险分类。
  • 需要 abstention 或人工复核的模型。
  • 风控、KYC、AML、文档抽取、RAG 答案风险分层。

4. Selective Prediction 和 Abstention

Selective prediction 的核心是允许模型不回答:

if confidence calibrated and risk low -> auto
if uncertainty high -> abstain or escalate

产品设计:

置信/不确定性动作
高置信 + 低风险自动执行或展示
中置信 + 中风险要求更多证据或人工抽检
低置信 + 高风险人工复核
分布外/未知拒答、升级、停止

LLM 场景要特别小心:

  • LLM 自报 confidence 通常不可直接当概率。
  • 更可靠的是外部 evaluator、retrieval evidence、consistency check、calibrated classifier、human feedback。
  • RAG 答案应把 answer confidence 拆成 retrieval confidence、citation support、generation consistency 和 policy risk。

5. Uncertainty-to-Action Architecture

model output
  -> calibration layer
  -> uncertainty / conformal layer
  -> risk tier policy
  -> action router
  -> human review / refusal / auto execution
  -> outcome and calibration monitoring

关键组件:

组件职责
Calibration servicetemperature scaling、isotonic、segment calibration
Conformal serviceprediction sets/intervals、coverage target
Risk router根据不确定性和业务风险决定动作
Confidence UX向用户表达证据、限制和下一步,不滥用百分比
MonitoringECE、coverage、abstention rate、override、segment drift
Governance evidence校准集、时间窗、模型版本、审批和复核结果

6. 金融零售案例映射

Case A: KYC 文档抽取

  • 模型输出: 姓名、地址、证件号、有效期。
  • 校准: 字段级 confidence 是否与正确率一致。
  • Conformal/abstention: 低置信字段进入人工复核。
  • 风险: 错误 KYC 可能导致合规问题或客户体验问题。

Case B: 欺诈风险

  • 模型输出: 欺诈概率。
  • 校准: 0.8 风险分是否真的对应约 80% 事件率。
  • 动作: 放行、强认证、人工、拒绝。
  • 监控: 按商户、渠道、地区、设备 segment 追踪 calibration drift。

Case C: RAG 合规助手

  • 模型输出: 政策答案和引用。
  • 不确定性拆分: 检索召回、引用支持、答案一致性、政策风险。
  • 动作: 自动回答、提示限制、要求二线确认、拒答。
  • UX: 不显示虚假精确百分比,而显示“引用充分/引用不足/需人工确认”。

7. Segment Calibration

总体校准好,不代表每个人群都好。

需要按:

  • 产品线。
  • 客户风险等级。
  • 地区。
  • 渠道。
  • 语言。
  • 文档类型。
  • 模型版本。
  • 业务时段。

做分层监控。

金融零售尤其要看:

  • 脆弱客户。
  • 少数语言。
  • 新客和薄文件客户。
  • 高风险商户。
  • 历史样本少的地区。

8. 面试表达

30 秒版本

校准回答的是“模型的置信度能不能当概率解释”,conformal prediction 提供预测集合或区间的覆盖保证。金融 AI 里我不会把 confidence 直接展示给用户,而是把不确定性接入 action router: 自动、抽检、人工复核、拒答或升级。

2 分钟版本

比如欺诈模型输出 0.9,不代表它真的有 90% 正确率,除非经过校准并持续监控。上线前我会看 reliability diagram、ECE、Brier score,并按 segment 验证。对高风险任务,可以用 conformal prediction 生成预测集合或区间,用 coverage 约束风险。当模型不确定或样本分布外时,系统应 abstain 或升级人工。对 RAG/LLM,不能依赖模型自报 confidence,而要拆成检索支持、引用正确、答案一致性和策略风险,并把这些信号转成 UX 和工作流。

CTO 追问

如果问校准是否提升准确率,我会回答: 通常不是。校准提升的是概率可信度和决策可用性。一个准确但过度自信的模型,在高风险自动化里仍然危险,因为它会错误触发自动执行。


9. Portfolio Task

做一个 “Uncertainty Governance Pack”:

Artifact内容
Calibration reportreliability diagram、ECE、Brier、segment view
Conformal plancalibration set、coverage target、prediction set/interval
Action routing matrixconfidence/risk -> auto/review/refuse/escalate
Confidence UX spec对客户/员工如何表达不确定性和证据
Monitoring dashboardcalibration drift、coverage、abstention、override
Governance memo哪些动作允许自动化,哪些必须人工

最终要能讲清楚: 不确定性不是模型附注,而是 AI 产品架构中的路由、控制和信任机制。