Calibration / Conformal Prediction:不确定性治理
一句话:
Calibration / Conformal Prediction / Uncertainty Governance 解读
面向对象: AI Governance Lead / Customer-Facing AI PM / Model Risk Partner / AI Architect。 核心问题: AI 系统经常输出分数、概率或“看起来很有把握”的语言,但这些信号不一定代表真实正确率。金融零售 AI 需要把不确定性转成路由、拒答、升级、人工复核和客户体验,而不是把 confidence 当装饰。 学习目标: 理解 calibration、ECE、reliability diagram、Brier score、temperature scaling、conformal prediction、coverage、selective prediction、abstention,并映射到受监管 AI 产品治理。
Source Anchors
| Source | Link | 用途 |
|---|---|---|
| On Calibration of Modern Neural Networks | https://arxiv.org/abs/1706.04599 | 理解现代神经网络可能过度自信,以及 temperature scaling 等校准方法 |
| A Gentle Introduction to Conformal Prediction | https://arxiv.org/abs/2107.07511 | 理解 conformal prediction 的 distribution-free uncertainty sets/intervals |
| MAPIE documentation | https://mapie.readthedocs.io/ | 参考 model-agnostic prediction intervals/sets 和工程化 conformal workflows |
| NIST AI RMF | https://www.nist.gov/itl/ai-risk-management-framework | 把不确定性、可靠性和风险路由纳入 AI 风险治理 |
一句话:
Uncertainty governance 是把“模型有多不确定”转成产品动作: 自动处理、补充证据、人工复核、拒答、升级或停止。
1. Confidence 不等于 Correctness
常见误区:
| 表象 | 误解 | 正确理解 |
|---|---|---|
| 模型输出 0.92 | 92% 一定正确 | 只有经过校准,0.92 才可解释为近似正确率 |
| LLM 语气坚定 | 答案可信 | 语言自信不代表事实正确 |
| 分类分数高 | 可以自动执行 | 高风险动作还要看校准、覆盖、人群和后果 |
| 平均准确率高 | 所有人群都可靠 | 可能某些 segment 严重失准 |
金融零售里的 confidence 必须和动作绑定:
- 自动通过。
- 低风险提示。
- 要求补充证据。
- 人工复核。
- 拒答或停止。
- 升级到二线专家。
2. Calibration
校准问题:
在所有模型预测 80% 置信的样本中,真实正确率是否约为 80%?
常用指标:
| 指标 | 含义 | 产品用途 |
|---|---|---|
| Reliability diagram | 预测置信与真实正确率的图 | 向风险/审计解释分数是否可信 |
| ECE | 分桶后置信和正确率差异 | release gate |
| Brier score | 概率预测误差 | 风险模型和分类模型比较 |
| NLL | 概率质量 | 模型训练和验证 |
Temperature scaling 是常见后处理方法: 不改变分类排序,调整 softmax 置信程度。
注意: 校准不是提升 accuracy,而是让概率更可解释。
3. Conformal Prediction
Conformal prediction 的产品价值是提供带覆盖保证的预测集合或区间。
分类例子:
模型不只输出 “类别 A”,而是输出 {A, C},并保证长期覆盖率约为 90%。
回归例子:
不是预测还款概率点值,而是给出风险区间。
核心概念:
| 概念 | 含义 |
|---|---|
| Calibration set | 用于计算 conformity score 的保留样本 |
| Conformity score | 衡量样本与模型预测的一致程度 |
| Coverage | 真实值落在预测集合/区间内的比例 |
| Prediction set | 包含可能标签的集合 |
| Prediction interval | 回归任务的不确定区间 |
适合:
- 高风险分类。
- 需要 abstention 或人工复核的模型。
- 风控、KYC、AML、文档抽取、RAG 答案风险分层。
4. Selective Prediction 和 Abstention
Selective prediction 的核心是允许模型不回答:
if confidence calibrated and risk low -> auto
if uncertainty high -> abstain or escalate
产品设计:
| 置信/不确定性 | 动作 |
|---|---|
| 高置信 + 低风险 | 自动执行或展示 |
| 中置信 + 中风险 | 要求更多证据或人工抽检 |
| 低置信 + 高风险 | 人工复核 |
| 分布外/未知 | 拒答、升级、停止 |
LLM 场景要特别小心:
- LLM 自报 confidence 通常不可直接当概率。
- 更可靠的是外部 evaluator、retrieval evidence、consistency check、calibrated classifier、human feedback。
- RAG 答案应把 answer confidence 拆成 retrieval confidence、citation support、generation consistency 和 policy risk。
5. Uncertainty-to-Action Architecture
model output
-> calibration layer
-> uncertainty / conformal layer
-> risk tier policy
-> action router
-> human review / refusal / auto execution
-> outcome and calibration monitoring
关键组件:
| 组件 | 职责 |
|---|---|
| Calibration service | temperature scaling、isotonic、segment calibration |
| Conformal service | prediction sets/intervals、coverage target |
| Risk router | 根据不确定性和业务风险决定动作 |
| Confidence UX | 向用户表达证据、限制和下一步,不滥用百分比 |
| Monitoring | ECE、coverage、abstention rate、override、segment drift |
| Governance evidence | 校准集、时间窗、模型版本、审批和复核结果 |
6. 金融零售案例映射
Case A: KYC 文档抽取
- 模型输出: 姓名、地址、证件号、有效期。
- 校准: 字段级 confidence 是否与正确率一致。
- Conformal/abstention: 低置信字段进入人工复核。
- 风险: 错误 KYC 可能导致合规问题或客户体验问题。
Case B: 欺诈风险
- 模型输出: 欺诈概率。
- 校准: 0.8 风险分是否真的对应约 80% 事件率。
- 动作: 放行、强认证、人工、拒绝。
- 监控: 按商户、渠道、地区、设备 segment 追踪 calibration drift。
Case C: RAG 合规助手
- 模型输出: 政策答案和引用。
- 不确定性拆分: 检索召回、引用支持、答案一致性、政策风险。
- 动作: 自动回答、提示限制、要求二线确认、拒答。
- UX: 不显示虚假精确百分比,而显示“引用充分/引用不足/需人工确认”。
7. Segment Calibration
总体校准好,不代表每个人群都好。
需要按:
- 产品线。
- 客户风险等级。
- 地区。
- 渠道。
- 语言。
- 文档类型。
- 模型版本。
- 业务时段。
做分层监控。
金融零售尤其要看:
- 脆弱客户。
- 少数语言。
- 新客和薄文件客户。
- 高风险商户。
- 历史样本少的地区。
8. 面试表达
30 秒版本
校准回答的是“模型的置信度能不能当概率解释”,conformal prediction 提供预测集合或区间的覆盖保证。金融 AI 里我不会把 confidence 直接展示给用户,而是把不确定性接入 action router: 自动、抽检、人工复核、拒答或升级。
2 分钟版本
比如欺诈模型输出 0.9,不代表它真的有 90% 正确率,除非经过校准并持续监控。上线前我会看 reliability diagram、ECE、Brier score,并按 segment 验证。对高风险任务,可以用 conformal prediction 生成预测集合或区间,用 coverage 约束风险。当模型不确定或样本分布外时,系统应 abstain 或升级人工。对 RAG/LLM,不能依赖模型自报 confidence,而要拆成检索支持、引用正确、答案一致性和策略风险,并把这些信号转成 UX 和工作流。
CTO 追问
如果问校准是否提升准确率,我会回答: 通常不是。校准提升的是概率可信度和决策可用性。一个准确但过度自信的模型,在高风险自动化里仍然危险,因为它会错误触发自动执行。
9. Portfolio Task
做一个 “Uncertainty Governance Pack”:
| Artifact | 内容 |
|---|---|
| Calibration report | reliability diagram、ECE、Brier、segment view |
| Conformal plan | calibration set、coverage target、prediction set/interval |
| Action routing matrix | confidence/risk -> auto/review/refuse/escalate |
| Confidence UX spec | 对客户/员工如何表达不确定性和证据 |
| Monitoring dashboard | calibration drift、coverage、abstention、override |
| Governance memo | 哪些动作允许自动化,哪些必须人工 |
最终要能讲清楚: 不确定性不是模型附注,而是 AI 产品架构中的路由、控制和信任机制。