返回 Papers
AI 扩展计划 / Playbooks

AI Uncertainty Calibration / Conformal Prediction Playbook

以下来源是本文的技术和治理锚点。本文把它们转成产品、架构、评估、上线门禁和治理证据要求,不把任何论文或工具文档直接等同于监管合规结论。

1,060AI_UNCERTAINTY_CALIBRATION_CONFORMAL_PREDICTION_PLAYBOOK.md

AI Uncertainty Calibration & Conformal Prediction Playbook

定位:面向高级 AI PM / AI BA / AI Architect / Model Risk / 金融零售产品与架构团队,把 uncertainty estimation、calibration、conformal prediction、selective prediction 和 human escalation 组合成可上线、可监控、可审计的 AI 决策控制系统。

适用边界:本文面向 credit、fraud、KYC、AML、RAG answer confidence、customer-facing regulated AI、运营决策和内部 copilot。它不把“不确定性”当成模型解释装饰,而是把它转成路由、拒答、人工升级、风险接受、客户体验和生产监控。

重要说明:本文是学习、作品集和内部方案训练材料,不构成法律意见、合规结论、模型验证报告或监管解释。正式项目必须由 Legal、Compliance、Model Risk、Fair Lending、Privacy、Security、Business Owner、Operations、Customer Experience 和管理层结合机构类型、司法辖区、业务用途、客户影响和内部政策确认。


Source Anchors

以下来源是本文的技术和治理锚点。本文把它们转成产品、架构、评估、上线门禁和治理证据要求,不把任何论文或工具文档直接等同于监管合规结论。

AnchorLink本文使用方式
Guo et al., On Calibration of Modern Neural Networkshttps://arxiv.org/abs/1706.04599https://proceedings.mlr.press/v70/guo17a.html建立 calibration 的核心问题:高准确率模型的 softmax confidence 可能并不等于真实正确率;temperature scaling 是实用的后处理校准方法之一。
Angelopoulos & Bates, A Gentle Introduction to Conformal Prediction and Distribution-Free Uncertainty Quantificationhttps://arxiv.org/abs/2107.07511建立 conformal prediction 的主线:用校准集构造 prediction sets / intervals,在可交换性条件下给出有限样本 coverage 保证,并讨论分布漂移、结构化输出和 abstention 等扩展。
MAPIE Documentationhttps://contrib.scikit-learn.org/MAPIE/latest/作为工程实现锚点:用 conformalizers、coverage metrics、prediction interval / prediction set、risk control 和 calibration API 把概念转为可实验、可复现的 Python 工作流。
NIST AI RMF 1.0https://www.nist.gov/itl/ai-risk-management-frameworkhttps://doi.org/10.6028/NIST.AI.100-1用 Govern / Map / Measure / Manage 组织不确定性风险治理,把 confidence、coverage、abstention、human escalation 和 monitoring calibration drift 接入 AI 风险管理。
NIST AI RMF Generative AI Profilehttps://www.nist.gov/publications/artificial-intelligence-risk-management-framework-generative-artificial-intelligence用于 GenAI / LLM / RAG 场景的风险识别:把幻觉、错误引用、过度自信、数据泄露、自动化偏差和人机交互风险接入测量与处置闭环。

1. 一句话定位

AI 不确定性工程的核心不是让模型说“我有 87% 把握”,而是:

Uncertainty-to-Action =
把模型、数据、检索、业务规则和用户意图中的不确定性
校准成可验证的概率、区间、集合、覆盖率和风险等级,
再映射为自动通过、降级、补充信息、人工复核、拒答、客户披露和生产监控。

在金融零售里,confidence 不是 UI 装饰,而是控制平面:

场景错误使用 confidence 的后果正确目标
Credit高分但错校准的批准概率被当成真实违约概率,导致风险定价或 fair lending 问题校准 PD、分段可靠性、拒绝原因一致性、人工复核阈值
Fraud低置信度却自动拦截交易,造成客户损害和投诉score calibration、risk-based routing、客户影响约束、快速申诉
KYC / AML模型把弱信号包装成确定结论,导致误报、漏报或调查资源错配suspiciousness interval、evidence strength、analyst escalation、SAR 决策隔离
Customer-facing regulated AI客户把 AI 回答理解成机构承诺、信贷结论、投资建议或正式通知confidence UX、边界披露、强人工升级、审计证据
RAG answer confidenceLLM 自称“有信心”,但引用无法支撑答案retrieval coverage、citation support、answerability、groundedness、拒答策略

高级 PM / 架构师要能回答三个问题:

  1. 这个 AI 系统知道自己什么时候可能错吗?
  2. 系统知道“可能错”之后要做什么吗?
  3. 生产环境能证明这种控制在不同客户群体、渠道、产品和时间上持续有效吗?

2. 为什么重要

2.1 从准确率到决策风险

Accuracy、AUC、F1、hit rate 只回答“整体表现如何”。金融零售上线更关心:

问题需要的 uncertainty 能力
模型说 0.9 置信度时,真实正确率是否接近 90%calibration、ECE、reliability diagram
对某笔贷款申请,预测损失是否有上界和下界conformal prediction interval、quantile model、coverage
对某个客户意图,模型是否只能缩小到几个候选类别prediction set、top-label calibration
在不确定时是否能拒答或升级人工selective prediction、abstention、human escalation
置信度阈值是否对不同客户群体公平fairness across segments、segment calibration、coverage parity
上线三个月后校准是否退化monitoring calibration drift、population drift、outcome lag handling

2.2 监管和客户体验的共同问题

customer-facing regulated AI 的失败常常不是“模型完全不知道”,而是“系统把不确定答案包装成确定服务”。

典型失败路径:

Ambiguous customer intent
-> weak retrieval evidence
-> LLM produces fluent answer
-> UI shows confident tone
-> customer treats it as bank commitment
-> no human escalation
-> complaint, harm, remediation, audit issue

不确定性治理要打断这条链:

Ambiguous intent
-> answerability check
-> evidence threshold
-> calibrated confidence
-> risk tier decision
-> clarify / abstain / escalate
-> logged rationale and monitoring sample

2.3 LLM confidence limitation

LLM 的自然语言自我表述、token probability、logprob、temperature 或“请给出置信度”提示,不能直接当成真实正确率。原因包括:

限制产品和架构含义
自报 confidence 容易受 prompt、措辞、上下文和对齐训练影响不让模型自己给最终风险背书,使用外部 eval 和校准层
token probability 衡量下一个 token 的生成偏好,不等于事实正确率或业务可用性对 RAG 必须测 citation support、claim support、answerability
流畅表达会放大用户信任高风险回答使用约束模板、证据卡、人工入口和明确边界
同一问题多次采样可能答案稳定但仍然错误不能只用 self-consistency,必须接入来源、规则、业务系统和专家标签
模型升级会改变置信分布每次模型、prompt、retriever、index 或 policy change 都要重跑校准和漂移检查

3. Uncertainty-to-Action 架构

3.1 总体架构

Business request / customer interaction
-> risk tier and intent classification
-> data quality and permission checks
-> model prediction or RAG answer generation
-> uncertainty estimation
   - probability score
   - calibrated confidence
   - prediction interval
   - prediction set
   - retrieval and citation support
   - OOD and drift signal
-> uncertainty calibration
   - ECE
   - Brier score
   - reliability diagram
   - temperature scaling
   - conformal calibration
-> policy decision
   - auto approve / answer
   - ask clarifying question
   - narrow prediction set
   - route to analyst / specialist
   - abstain or refuse
   - block high-impact automation
-> user experience and operations
-> monitoring, fairness, audit evidence, remediation

3.2 架构组件

组件主要职责金融零售落地
Risk tiering service根据客户影响、监管触点和动作类型确定控制强度信贷、投诉、投资、AML、欺诈拦截进入高控制路径
Prediction service输出分类概率、回归预测、rank score、LLM answer 或 tool resultPD、fraud score、KYC risk tier、AML alert triage、RAG answer
Uncertainty estimator估计 epistemic / aleatoric / retrieval / workflow uncertaintyensemble、quantile、conformal score、OOD detector、retrieval support
Calibration layer把模型分数映射到经验正确率或覆盖率Platt / isotonic / temperature scaling、segment calibration、conformal calibration
Decision policy engine把 confidence、coverage、业务规则和客户影响转成动作risk-based routing、abstention、manual review、customer disclosure
UX renderer以客户或员工可理解方式表达不确定性证据强度、需要确认、可升级人工、不得显示误导性精确数字
Monitoring and audit跟踪 calibration drift、coverage、分段公平、人工 override、投诉和事件模型风险仪表盘、release gate、evidence binder

3.3 不确定性类型

类型含义典型信号处置动作
Aleatoric uncertainty业务对象本身有噪声,更多数据也难完全消除收入波动、交易行为随机性、欺诈标签延迟用 prediction interval、风险定价、人工复核缓冲
Epistemic uncertainty模型对某类样本学得不充分新客群、新商户类型、新欺诈模式、低样本区域扩充数据、降低自动化、专家复核、active learning
Distribution uncertainty当前样本偏离训练分布新渠道、新地区、新产品、营销活动后客群变化OOD flag、校准漂移监控、分段阈值
Retrieval uncertaintyRAG 没有找到足够权威证据gold source miss、citation weak、conflicting docs拒答、提示来源冲突、升级人工
Workflow uncertainty模型输出没错,但流程上下文不足客户身份未确认、权限不足、投诉语境缺失补充信息、身份验证、case handoff
Governance uncertainty控制证据不足,无法证明系统可用缺少校准报告、分段监控、变更记录延后上线、缩小范围、管理层风险接受

3.4 Uncertainty-to-Action Matrix

Confidence / coverage 状态客户影响低客户影响中客户影响高
高置信且已校准自动回答或处理,记录日志自动处理加抽样 QA限定自动建议,关键动作仍需规则或人审确认
中置信给出答案并暴露可选人工入口要求确认或补充信息route to human,禁止直接触发不利动作
低置信澄清问题、缩小候选范围abstain,给出安全替代路径human escalation,记录原因,必要时停用该路径
校准失效或 drift 告警降级到保守阈值暂停自动化扩大范围进入 incident / issue management
分段覆盖不足继续观察并标注限制按 segment 调阈值或补样本不允许对该 segment 自动决策

4. 概率校准

4.1 Calibration 的定义

一个分类模型如果说“这批样本我有 80% confidence”,那么这批样本的真实正确率应接近 80%。这就是 calibration 的业务含义。

反例:

模型输出实际结果风险
fraud score 0.95实际只有 70% 是欺诈过度拦截,客户损害,投诉上升
credit default probability 0.08实际违约率 0.14定价不足,风险暴露
KYC high risk 0.85某地区实际 precision 很低分段偏差,调查资源浪费
RAG answer confidence high引用无法支撑结论客户误导,审计证据断裂

校准不是提高模型区分能力。一个模型可以 AUC 很高但校准很差,也可以校准较好但区分能力不足。上线评估要同时看 discrimination 和 calibration。

4.2 ECE

Expected Calibration Error, ECE,把预测 confidence 分桶,比较每个桶的平均 confidence 和真实 accuracy,再按样本占比加权。

ECE = sum over bins (bin_size / total_size) * abs(bin_accuracy - bin_confidence)

使用 ECE 的产品含义:

维度高级判断
bin 选择分桶过粗会掩盖问题,分桶过细会不稳定;高风险场景要看 reliability diagram 而不只看一个 ECE
top-label ECE多分类意图识别常看 top predicted class 的 confidence 是否可靠
segment ECE必须按产品、渠道、地区、语言、年龄段代理变量、收入段、商户类型、客户 tenure 等切片
outcome lag信贷违约、AML true positive、欺诈 chargeback 有标签延迟,监控窗口要显式处理
threshold impactECE 改善不等于业务损失下降,必须连接 routing policy 和 cost matrix

4.3 Reliability Diagram

Reliability diagram 把 confidence bucket 和真实正确率画在一起。理想模型接近对角线。

Bucket confidence: 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9
Observed accuracy: 0.1 0.3 0.4 0.5 0.5 0.6 0.7 0.7 0.8
Interpretation: high confidence buckets are over-confident
Action: recalibrate, raise abstention threshold, monitor segment drift

产品和架构团队看 reliability diagram 时要问:

问题含义
哪些 confidence 区间最危险高置信错误比低置信错误更容易被自动化放大
哪些 segment 偏离最大fairness across segments 和客户影响控制的入口
校准后是否牺牲排序能力temperature scaling 通常不改变排序,其他方法可能影响阈值策略
阈值落在哪个 bucket决策阈值附近的校准质量最关键
生产分布是否仍覆盖评估 bucket新客群导致 bucket 样本稀疏时,阈值可信度下降

4.4 Brier Score

Brier score 是概率预测的均方误差:

Brier score = mean((predicted_probability - actual_outcome)^2)

它同时惩罚不准确和不校准,适合二分类概率预测,如欺诈、违约、流失、投诉升级概率。

用法金融零售示例
模型比较两个 fraud model 的 AUC 接近时,用 Brier score 看概率质量
阈值策略如果业务动作依赖概率大小,Brier score 比单纯 F1 更贴近风险
分段监控某商户行业 Brier score 恶化,可能表示欺诈模式变化
模型风险报告与 ECE、reliability diagram、loss by segment 一起进入 validation pack

4.5 Temperature Scaling

Temperature scaling 是对 logits 做单参数缩放:

calibrated_probability = softmax(logits / T)
T 值含义
T > 1降低过度自信,使概率更平滑
T < 1提高 confidence,使概率更尖锐
T = 1保持原始 softmax

适用场景:

场景判断
深度分类模型 softmax 过度自信常见且实用
只需要后处理,不想重训模型合适
需要保持类别排序合适,因为单调缩放通常不改变排序
不同 segment 校准形态差异很大单一 temperature 可能不足,需要分段校准或更强校准方法
RAG answer confidence不能直接套用,需要先定义 answer correctness、citation support 或 answerability label

4.6 校准方法选择

方法优点风险适用
Temperature scaling简单、稳定、对深度分类模型实用只能修正整体 confidence,不解决局部错校准意图分类、图像/文本分类、欺诈分类模型后处理
Platt scaling二分类常用,工程简单对非线性校准不足二分类 score 到概率
Isotonic regression非参数,能拟合复杂校准曲线小样本容易过拟合样本足够、校准曲线非线性
Beta calibration对概率分布形态更灵活解释和治理成本高于 temperature二分类概率后处理
Venn-Abers可输出概率区间实现和解释更复杂高风险概率场景
Conformal prediction输出集合或区间,强调 coverage不等同于概率校准,且依赖可交换性需要明确覆盖保证的分类、回归、时间序列或风控路径

4.7 Segment Calibration 和公平性

整体校准好,不代表每个客户群体都可靠。金融零售必须关注 fairness across segments。

需要切片的 segment:

Segment 类型示例
产品信用卡、个人贷、房贷、小微商户、财富、保险
渠道APP、网银、分行、呼叫中心、第三方导流
客户生命周期新客户、老客户、沉睡客户、困难客户、投诉客户
地理和语言州、省、市、语言、地区政策版本
风险代理变量收入段、商户 MCC、设备类型、交易网络、行业
受保护属性相关代理fair lending / anti-discrimination 审查中依法合规处理

分段校准治理要求:

现象处置
某 segment ECE 明显高降低自动化、调阈值、补充样本、专家复核
coverage 在少数群体不足不允许用整体 coverage 声称该群体安全
高风险 segment 样本少用保守阈值、人工复核和置信区间表达不确定
drift 集中在某渠道对该渠道单独降级或暂停自动路由

5. Conformal Prediction

5.1 核心定位

Conformal prediction 的目标不是输出“模型有多聪明”,而是把任意模型包装成带覆盖率语义的输出:

任务输出
回归prediction interval,例如贷款损失率在 3.2% 到 7.8%
分类prediction set,例如客户意图属于 {fee_dispute, billing_question}
排序或检索包含足够候选项的 set 或 risk-controlled candidate list
风控在给定错误容忍度下控制自动化动作范围

关键概念:

coverage = P(true label or value is inside the prediction set / interval)

例如目标 coverage 为 90%,意思是长期看真实标签或真实值应有约 90% 落在 conformal set / interval 内。它不是说某一笔个案有 90% 的主观确定性。

5.2 Split Conformal 工作流

1. Train
   用训练集训练基础模型。

2. Calibrate / conformalize
   在独立校准集上计算 conformity score。

3. Choose risk level alpha
   例如 alpha = 0.1,目标 coverage = 90%。

4. Compute threshold
   取校准分数的合适分位数。

5. Predict
   对新样本输出 prediction set 或 interval。

6. Monitor
   用生产标签回流检查 coverage、set size、interval width、segment coverage 和 drift。

5.3 Prediction Intervals

回归场景中,conformal prediction interval 可以用于:

场景interval 含义决策方式
Credit loss forecasting预期损失或违约损失率区间区间过宽则人工复核或保守定价
Collections客户还款概率或回收金额区间高不确定客户不进入强自动化催收
Branch staffing客流预测区间用上界做容量,用下界做效率
Fraud amount risk可疑损失金额区间区间上界触发优先调查
Customer service SLA处理时长区间宽区间触发运营主管介入

高级判断不是只看 coverage,还要看 interval width:

指标含义
coverage真实值落入区间的比例
mean interval width区间平均宽度,越窄通常越有用
size-stratified coverage按区间宽度分层看 coverage,避免窄区间过度自信
segment coverage按客户、产品、渠道和地区看 coverage
conditional coverage caveat总体 coverage 不等于每个条件子群都有同等 coverage

5.4 Prediction Sets

分类场景中,prediction set 比单一类别更适合表达不确定性。

场景单点预测风险Prediction set 的产品价值
Intent detection把投诉误判成普通咨询输出 {complaint, fee_dispute},触发人工或澄清
AML alert triage把 suspicious activity 类型判错输出候选风险类型,analyst 选择并补证据
KYC document classification把地址证明误判成身份证明输出多个候选文件类型,要求客户确认
RAG answerability强行回答超出知识库的问题输出 unanswerable{policy_A, policy_B_conflict}
Credit adverse action reason support给出不准确主要原因输出候选 reason set,再由规则和合规管道确认

Prediction set 的关键指标:

指标含义产品解释
Coverage真标签是否在集合内安全性
Average set size平均集合大小可用性
Empty set rate没有可接受类别的比例是否需要拒答或补信息
Singleton rate只有一个类别的比例自动化潜力
Segment coverage各 segment 的覆盖率公平和稳健性

5.5 Conformal Prediction 的边界

Conformal prediction 强大,但不能被误用为万能合规证明。

边界说明
可交换性假设训练、校准和生产样本需要足够相似;严重 distribution shift 会削弱 coverage 解释
总体 coverage 不是条件 coverage某些 segment 可能 coverage 不足
coverage 不等于低损失真值在集合内不代表业务成本可接受
set 很大时价值下降把所有类别都放进集合,coverage 高但不可用
标签质量决定上限AML、欺诈、投诉标签延迟或噪声会影响校准
LLM 输出结构复杂对自然语言答案要先定义 claim、source、answerability、policy compliance 等可评分对象

5.6 Conformal for RAG Answer Confidence

RAG 的 confidence 不应由 LLM 自报。可以把回答拆成可评分对象:

对象可计算信号
Retrieval coveragegold source 是否被召回,top-k 是否包含权威来源
Citation support每个关键 claim 是否被引用片段支持
Answerability知识库是否足以回答问题
Source freshness引用来源是否为当前有效版本
Conflict detection是否存在多个政策版本或来源冲突
Permission correctness用户是否有权看到该来源
Refusal correctness无答案或高风险时是否正确拒答

一种落地方式:

Define RAG correctness label
-> build golden query set
-> score retrieval and citation support
-> train / calibrate answerability classifier
-> conformalize prediction sets:
   {answer, ask_clarifying_question, refuse, escalate_to_human}
-> monitor coverage and escalation quality by scenario

对客户可见 RAG,推荐把 confidence 映射为动作,而不是直接展示模型概率:

系统状态客户体验
来源充足且低风险直接回答,附上清晰来源入口
来源不足说明需要更多信息或无法确认,提供人工入口
来源冲突告知需要人工确认,不让 AI 选择正式口径
高风险意图warm handoff 到合规授权人员
权限不足不暴露内部来源,转到安全流程

6. Selective Prediction / Abstention

6.1 定义

Selective prediction 指系统只在满足置信、覆盖、成本和政策条件时自动预测;否则 abstain、clarify 或 route to human。

coverage of automation = fraction of cases handled automatically
risk of automation = error or harm among automatically handled cases

这与“提高准确率”不同。selective prediction 明确接受一个事实:某些样本不该自动化。

6.2 Abstention 不是失败

在金融零售中,abstention 是产品能力:

场景不该强答的原因正确动作
客户问“我为什么被拒贷”需要准确 adverse action reason 和合规流程引导正式通知或人工专员
客户问“我应该买哪只基金”可能涉及投资建议和适当性明确边界,转合规销售或教育内容
AML alert 缺少关键证据错误结论可能误导调查标注证据缺口,分派 analyst
欺诈模型对交易低置信自动拒绝会造成客户损害step-up authentication 或人工复核
RAG 检索到旧政策可能输出过期条款拒答并触发知识源修复

6.3 Risk-Based Routing

Routing policy 要同时看 confidence、客户影响、业务成本和监管触点。

输入示例
Calibrated probabilityfraud probability、intent confidence、answerability confidence
Prediction interval / setexpected loss interval、candidate intent set
Business criticality是否涉及信贷、投诉、投资、账户限制、AML
Customer vulnerability语言、无障碍、困难客户、投诉状态
Evidence strengthsource authority、citation support、data freshness
Fairness flagsegment calibration gap、coverage gap、proxy risk
Operational capacityanalyst queue、SLA、case priority

Routing 示例:

条件动作
fraud probability high 且校准稳定,客户影响可逆step-up authentication
fraud probability high 但 segment calibration gap 大human review before decline
KYC document prediction set size = 1 且 confidence calibrated自动分类并允许客户确认
KYC prediction set size > 2要求重新上传或人工审核
RAG answerability high、citation support high、低风险 FAQ自动回答
RAG answerability medium 或来源冲突ask clarifying question 或 escalate
credit score decision near cutoff 且 interval 跨越阈值manual underwriting
calibration drift alert active降级到保守 policy

6.4 Selective Prediction 指标

指标定义用途
Coverage of automation自动处理比例衡量效率
Selective risk自动处理样本中的错误率或损失衡量安全
Abstention rate放弃自动预测比例衡量保守程度
Human escalation precision升级案件中真实需要人工的比例衡量路由质量
Human escalation recall应升级案件中被成功升级的比例衡量风险捕获
Override rate人工推翻模型比例监控模型或 policy 问题
Customer harm rate投诉、补救、误拒、误拦截、错误承诺连接客户影响
Segment selective risk各 segment 自动化错误率公平性和模型风险

7. 产品体验:Confidence UX

7.1 原则

Confidence UX 的目标不是展示数学,而是帮助客户或员工采取正确动作。

原则说明
不用虚假精确感客户界面避免“我有 87.34% 把握”这类误导性数字
把不确定性转成下一步确认信息、查看来源、升级人工、等待正式通知、提交材料
区分事实、建议和决策AI 可解释信息,但不替代正式信贷、投资、投诉或 AML 决策
高风险先边界后答案在信贷、投资、投诉、账户限制场景先说明能力范围
来源比自信更重要RAG 回答优先显示可验证来源和适用范围
保持人工可达不能用 AI 置信度作为阻断人工支持的理由

7.2 员工界面

员工界面可以更具体,但必须避免把 confidence 当成命令。

UI 元素推荐表达
Confidence labelHigh / Medium / Low + 校准状态
Evidence panel支撑来源、缺失证据、冲突证据
Prediction set候选类别和为什么进入集合
Interval预测区间、业务阈值、是否跨越阈值
Routing reason为什么自动处理、为什么升级、为什么拒答
Human override允许选择 override reason,并进入反馈数据
Segment warning当前客户或案件落在校准较弱的 segment 时提示

员工界面示例:

AI triage result:
Likely categories: fee_dispute, billing_question
Decision: route to servicing specialist
Reason: prediction set has 2 categories and complaint-risk signal is present
Evidence: customer message mentions "formal complaint" and "incorrect charge"
Control: specialist must confirm complaint status before response

7.3 客户界面

客户界面要少用模型术语,多用服务承诺边界。

系统状态客户表达
低风险且有权威来源“根据当前产品说明,这项费用通常适用于...”
信息不足“我需要再确认一个信息,才能给出适用的说明。”
高风险或正式决策“这类问题需要由专员查看您的账户和正式记录。”
信贷不利行动“请以正式通知中的原因为准。需要帮助理解通知时,我可以转接专员。”
投资或财富建议边界“我可以解释产品资料和风险信息,但不能替您作出投资决定。”
来源冲突“我无法确认哪一条规则适用于您的情况,正在转接人工确认。”

7.4 不推荐的 UX

表达问题
“AI 非常确定您会违约”伤害性、不可解释、可能引发公平和投诉问题
“置信度 92%,所以不需要人工”把模型分数当成服务阻断理由
“答案可能不准确,请自行判断”用免责声明替代控制
“系统判断您涉嫌欺诈”对客户给出未经确认的高风险结论
“根据内部政策,您不符合条件”且无正式原因可能造成不准确承诺或不完整 adverse action 解释

8. 金融零售场景落地

8.1 Credit

Credit 场景的不确定性要与模型风险、公平信贷、adverse action、定价和人工 underwriting 接起来。

对象设计要点
PD calibration分产品、渠道、credit band、地区、申请来源监控 PD 是否接近实际违约
Cutoff uncertainty当 prediction interval 跨越审批阈值时进入人工 underwriting
Reason code stabilityadverse action reason 不能只由不稳定模型解释生成
Fairness across segments看 segment calibration、approval rate impact、error distribution 和 override
Human escalationnear-cutoff、薄档案、异常收入、数据冲突、模型漂移时升级

Credit routing 示例:

Approve automatically:
  calibrated PD below threshold
  interval upper bound below risk appetite
  no segment calibration warning
  reason pipeline complete

Manual underwriting:
  interval crosses threshold
  thin-file customer
  model confidence high but data conflict present
  segment coverage below release gate

Do not use AI for final reason:
  LLM-generated narrative is not tied to approved adverse action reason codes

8.2 Fraud

Fraud 场景要平衡损失控制和客户损害。

风险不确定性控制
false positive 拦截真实客户calibrated fraud probability、step-up 而非直接拒绝、快速解锁
fraud ring 新模式OOD detection、drift monitor、active learning
高风险 segment 样本少保守 automation、analyst review、分段 coverage
实时延迟使用轻量校准层和离线监控闭环
客户投诉把 complaint outcome 回流到 selective risk 和 harm rate

8.3 KYC

KYC 中模型常做 document classification、entity resolution、risk tiering、missing document detection。

任务不确定性动作
文件分类prediction set 大于 1 时让客户确认或人工审核
地址验证数据源冲突时不自动拒绝
受益所有人识别entity match interval 或候选集合交给 analyst
客户风险等级高风险但证据弱时标注 evidence gap,不直接定性
周期性复核drift 或政策版本变化后重跑校准

8.4 AML

AML 不确定性治理的关键是避免把模型 triage 和正式可疑活动判断混为一谈。

对象控制
Alert prioritizationcalibrated suspiciousness score 只用于排序和分派,不替代 investigator conclusion
Typology prediction输出 prediction set,帮助 analyst 看候选 typology
Evidence completeness缺少关键交易链路或客户资料时升级补证
SAR narrative assistanceLLM 只辅助摘要,必须引用案件证据并由授权人员确认
Segment fairness商户类型、地区、客户类型的 false positive 和 coverage 要被监控

8.5 RAG Answer Confidence

RAG answer confidence 应由多信号组成:

answer_confidence =
  retrieval recall proxy
  + source authority
  + citation support
  + answerability classifier
  + policy risk tier
  + conflict detection
  + permission correctness
  - stale source penalty
  - unsupported claim penalty

RAG 发布门禁:

门禁衡量
Answerability可回答、不可回答、需要澄清的分类准确且已校准
Citation support高风险回答的关键 claim 有来源支持
Refusal correctness无答案、高风险、权限不足和冲突来源时正确拒答
Coverage by scenarioFAQ、账户服务、投诉、信贷、财富、KYC 各自达标
Human handoff升级后上下文完整,客户不需要重复叙述
Drift文档版本、政策变化、检索分布和问题类型持续监控

9. 治理和 Model Risk

9.1 Governance Mapping to NIST AI RMF

NIST AI RMF Function不确定性治理落地
Govern定义 risk appetite、模型清单、owner、审批门禁、human oversight、客户影响和公平性责任
Map识别 use case、客户旅程、数据来源、segment、harm scenario、自动化动作和人工升级点
Measure测 ECE、Brier score、reliability diagram、coverage、set size、selective risk、human override、calibration drift
Manage根据阈值执行降级、abstention、route to human、暂停自动化、issue remediation 和 risk acceptance

9.2 Release Gate

Gate通过标准
Use case boundary明确 AI 输出是建议、排序、解释、草稿、正式决策还是客户沟通
Calibration evidence有 holdout / validation / calibration set,包含 ECE、Brier、reliability diagram
Conformal evidence如果使用 prediction sets / intervals,有 coverage、set size / width、segment coverage
Selective policy自动化、澄清、abstention、人工升级阈值有业务理由和风险接受
Segment fairness关键 segment 的 calibration、coverage、错误成本和人工升级率已评估
Customer UX客户不被误导,人工入口可达,高风险场景边界清晰
Monitoringcalibration drift、coverage drift、input drift、outcome lag、override、complaint、incident 有生产监控
Change management模型、prompt、retriever、index、特征、阈值、policy 改动触发重评估

9.3 Monitoring Calibration Drift

生产监控要同时看输入、输出、结果和客户影响。

监控对象指标
Input driftPSI、feature distribution、embedding distribution、intent mix
Score driftconfidence distribution、score bucket volume、threshold proximity
Calibration driftECE over time、bucket accuracy、Brier score、reliability diagram by month
Coverage driftconformal coverage、interval width、set size、empty set rate
Segment drift各 segment 的 ECE、coverage、selective risk、abstention rate
Operations drifthuman queue、override rate、escalation SLA、analyst disagreement
Customer harmcomplaints、appeals、false decline、fee error、wrong answer remediation
Knowledge driftRAG source freshness、citation support、stale source usage、conflict rate

Outcome lag 处理:

场景标签延迟监控方式
Credit default30 天到数月使用早期 proxy 指标,同时保留最终 cohort 校准
Fraud chargeback数天到数周先看 step-up failure、客户申诉,再看 confirmed fraud
AML true positive调查周期长使用 analyst disposition、quality review、case aging
RAG correctness可较快抽检golden set、QA review、complaint-triggered review

9.4 Incident and Remediation

触发 incident / issue 的条件:

Trigger处置
高风险场景 ECE 超出阈值降级自动化,启动模型风险 issue
segment coverage 低于门禁对该 segment 关闭自动处理或强制人审
RAG 高风险回答出现 unsupported claim暂停相关意图自动回答,修复知识源和 eval set
human override 激增检查数据漂移、policy 变更、模型升级
客户投诉指向 AI 误导case review、客户补救、根因分析、控制增强
模型或 vendor 升级未重校准变更违规处理,回滚或补充验证

9.5 Evidence Binder

上线和审计证据应包含:

Artifact内容
Use Case Risk Assessment客户影响、自动化动作、监管触点、risk tier
Calibration ReportECE、Brier score、reliability diagram、segment analysis
Conformal Evaluation Reportcoverage、interval width、prediction set size、conditional caveat
Routing Policy Spec自动化、clarify、abstain、human escalation 阈值
Confidence UX Spec客户和员工界面表达、人工入口、披露和边界
Monitoring Spec指标、阈值、owner、频率、incident trigger
Fairness Reviewsegment calibration、coverage、error cost、mitigation
Change Log模型、prompt、retriever、index、threshold、policy change
Human Oversight SOPreview queue、override reason、QA sampling、feedback loop

10. 模板

10.1 Use Case Uncertainty Intake

字段填写要求
Use case name业务场景和渠道
Customer impact客户是否可见,是否影响权益、资金、账户、投诉、信贷、投资
AI output typeprobability、score、classification、prediction interval、prediction set、RAG answer
Decision action自动处理、建议、排序、草稿、人工辅助、客户沟通
Risk tier低、中、高,并说明理由
Required uncertainty measurecalibration、ECE、Brier、conformal coverage、selective risk、answerability
Abstention action澄清、拒答、人工升级、保守规则
Segment requirements必须切片的客户、产品、渠道和地区
Label sourceground truth、专家标签、客户结果、投诉、chargeback、analyst disposition
Outcome lag标签多久可用,早期 proxy 是什么
Monitoring owner业务、模型、数据、平台、运营 owner

10.2 Calibration Evaluation Sheet

MetricOverallSegment ASegment BDecision
Accuracy / AUC
ECE
Brier score
High-confidence error rate
Reliability diagram finding
Threshold bucket sample size
Recommended action

10.3 Conformal Prediction Evaluation Sheet

MetricOverallSegment ASegment BRelease interpretation
Target coverage
Empirical coverage
Average interval width / set size
Empty set rate
Singleton rate
Size-stratified coverage
Drift sensitivity
Routing change

10.4 Risk-Based Routing Policy

Policy name:
Use case:
Risk tier:

Inputs:
  calibrated_confidence:
  prediction_interval_or_set:
  evidence_strength:
  segment_calibration_status:
  customer_impact:
  operational_capacity:

Actions:
  auto_process_when:
  ask_clarifying_question_when:
  abstain_when:
  escalate_to_human_when:
  block_or_pause_when:

Audit:
  logged_fields:
  override_reason_required:
  customer_message_template:
  monitoring_metric:

10.5 RAG Confidence Rubric

DimensionPassReviewFail
Answerability权威来源足以回答来源部分支持,需要澄清知识库无答案
Citation support关键 claim 均有引用支持次要 claim 支持不足关键 claim 无支持
Source freshness当前有效版本版本需确认过期或冲突
Permission用户有权访问权限边界不清权限不允许
Risk tier低风险信息中风险服务高风险决策或客户权益
Actionanswerclarify or specialist reviewrefuse or escalate

10.6 Release Gate Memo

Decision:
  approve pilot / approve limited launch / do not launch / launch with conditions

Scope:
  channels:
  customer segments:
  product lines:
  excluded scenarios:

Evidence:
  calibration:
  conformal coverage:
  selective prediction:
  fairness across segments:
  RAG support:
  human escalation:

Controls:
  thresholds:
  abstention:
  escalation:
  monitoring:
  incident triggers:

Residual risk:
  accepted by:
  review cadence:

11. 30 天训练计划

目标:30 天内把不确定性从概念训练成可展示的金融零售 AI 产品和架构资产。训练默认读者已具备高级需求、流程、治理和利益相关方管理能力。

Day主题产出
1读 Guo et al. calibration 论文,整理 softmax overconfidence、ECE、temperature scaling1 页 calibration learning note
2用一个二分类样例计算 ECE、Brier score、reliability diagram指标 notebook 或伪代码说明
3设计 credit PD calibration dashboard仪表盘字段和分段切片
4设计 fraud score calibration dashboardscore bucket、false positive、customer harm 指标
5写 calibration release gatecalibration gate memo
6读 Angelopoulos & Bates conformal guideconformal prediction 概念图
7用回归例子设计 prediction intervalcredit loss interval 或 SLA interval
8用分类例子设计 prediction setKYC document 或 intent detection prediction set
9比较 coverage、set size、interval width 的产品含义conformal evaluation sheet
10分析 conditional coverage 和 segment coverage 风险fairness across segments memo
11阅读 MAPIE docs 的 conformalizers 和 metricsMAPIE method selection note
12设计 selective prediction policyautomation coverage vs selective risk 图
13设计 abstention 产品体验客户和员工文案矩阵
14设计 human escalation workflowwarm handoff SOP
15Credit case drill:near-cutoff underwritingroute policy + adverse action boundary
16Fraud case drill:交易拦截和 step-uprisk-based routing matrix
17KYC case drill:文件分类和客户确认prediction set UX
18AML case drill:alert triage 和 analyst workflowevidence strength + escalation policy
19RAG case drill:answerability 和 citation supportRAG confidence rubric
20Customer-facing regulated AI case drillconfidence UX + disclosure boundary
21设计 monitoring calibration driftproduction monitoring spec
22设计 outcome lag 处理proxy metrics + cohort validation plan
23设计 segment fairness dashboardsegment ECE / coverage / selective risk
24写 change management rulesmodel / prompt / index / threshold change triggers
25写 incident response playbookcalibration drift incident flow
26建 evidence binderartifact map
27准备 architecture reviewUncertainty-to-Action 架构图和组件说明
28准备 executive memorisk appetite、benefit、residual risk
29准备 interview storySTAR-T 面试答案
30完成 portfolio packageplaybook 摘要、case study、release gate、dashboard mock

12. 面试答案

12.1 什么是 calibration,为什么金融 AI 不能只看 AUC?

30 秒回答:

Calibration 衡量模型输出的概率是否对应真实发生频率。AUC 只说明排序能力,不能说明 0.8 的风险分数真的代表 80% 的事件概率。金融场景的定价、阈值、人工复核和客户影响都依赖概率质量,所以必须同时看 AUC、ECE、Brier score 和 reliability diagram。

2 分钟展开:

在 credit、fraud、KYC 和 AML 中,模型分数经常触发业务动作。AUC 高说明模型能把高风险样本排在低风险样本前面,但如果模型系统性过度自信,阈值策略会造成误拒、误拦截、资源错配或风险低估。我的做法是把 calibration 放进 release gate:整体看 ECE、Brier score 和 reliability diagram,关键 segment 单独评估,并把校准结果接到 risk-based routing。对高风险或 near-threshold 样本,不让模型分数直接决定客户权益,而是进入人工复核或补充证据流程。

12.2 ECE、reliability diagram 和 Brier score 各自解决什么问题?

30 秒回答:

ECE 给出整体校准误差,reliability diagram 展示不同 confidence bucket 的偏差形态,Brier score 衡量概率预测与真实结果的均方误差。三者结合才能判断模型分数是否能支撑业务动作。

2 分钟展开:

ECE 简洁,适合做门禁和监控,但会受分桶方式影响。Reliability diagram 能看到模型是整体过度自信,还是只在高分段或低分段偏离。Brier score 同时惩罚错误和概率偏离,适合二分类风险预测。金融场景我会进一步按客户群体、渠道、产品和风险段切片,因为整体校准好可能掩盖某些 segment 的高风险偏差。

12.3 Temperature scaling 适合什么场景,有什么限制?

30 秒回答:

Temperature scaling 是对 logits 做单参数后处理,常用于修正深度分类模型过度自信。它简单稳定,通常不改变类别排序,但不能解决分段错校准、数据漂移或标签质量问题。

2 分钟展开:

如果模型 softmax confidence 偏高,temperature scaling 可以在验证集上学习一个温度参数,让概率更接近经验正确率。它适合意图分类、文档分类、欺诈或 KYC 分类模型的后处理。限制是它是全局缩放,无法自动处理某些客户群体、渠道或产品上的局部偏差。正式上线我会把它与 segment calibration、reliability diagram、漂移监控和 selective prediction 结合,而不是把 temperature scaling 当成单独控制。

12.4 Conformal prediction 和 calibration 有什么区别?

30 秒回答:

Calibration 关注概率是否可信;conformal prediction 关注输出集合或区间是否达到目标 coverage。前者常回答“0.8 是否真接近 80%”,后者回答“真实标签或数值是否落在 prediction set / interval 里”。

2 分钟展开:

Conformal prediction 可以包装任意模型,用校准集上的 conformity score 构造 prediction sets 或 intervals。例如 KYC 文档分类可以输出候选文件类型集合,credit loss forecast 可以输出损失区间。它的产品价值是把不确定性变成可操作边界:集合过大、区间跨阈值或 coverage 在某 segment 不足时,系统升级人工或降低自动化。它的边界是依赖训练、校准和生产数据足够相似;总体 coverage 也不保证每个子群体都同样覆盖。

12.5 如何设计 customer-facing regulated AI 的 confidence UX?

30 秒回答:

我不会直接把模型概率暴露给客户,而是把 confidence 转成清晰的服务动作:可以回答、需要更多信息、需要人工确认或无法处理。高风险场景必须说明边界并保持人工可达。

2 分钟展开:

客户看到“92% confidence”会产生虚假确定感,尤其在信贷、财富、投诉和账户限制场景。我的设计是内部保留 calibrated confidence、coverage、citation support 和 routing reason;客户界面使用可理解语言说明适用范围、来源和下一步。比如 RAG 回答只有在权威来源、当前版本和引用支持都满足时才自动回答;如果来源冲突或涉及正式信贷原因,就转人工或引导正式通知。这样既提升体验,也保留合规和审计证据。

12.6 RAG answer confidence 为什么不能让 LLM 自己打分?

30 秒回答:

LLM 自报 confidence 不等于事实正确率。RAG confidence 应来自 retrieval coverage、citation support、answerability、source freshness、permission correctness 和冲突检测等外部信号。

2 分钟展开:

LLM 很擅长生成流畅答案,但流畅不代表正确。自报置信度会受 prompt 和上下文影响,也不能证明引用支撑结论。生产级 RAG 要先定义答案正确性的标签和 rubric,再对检索、引用、答案可回答性、拒答和人工升级做评估。对客户可见受监管 AI,我会把 RAG confidence 映射为 answer、clarify、refuse 或 escalate,而不是把一个数字直接展示给客户。

12.7 如何监控 calibration drift?

30 秒回答:

监控 calibration drift 要看 score 分布、bucket accuracy、ECE、Brier score、reliability diagram、segment calibration 和业务结果,同时处理信贷、欺诈、AML 的标签延迟。

2 分钟展开:

生产漂移不仅来自模型,也来自产品、渠道、客群、政策和攻击模式变化。我会建立月度或更高频的校准监控:先看输入和 score distribution 是否变了,再看 outcome 回流后的 ECE、Brier 和 reliability diagram。对 outcome lag 较长的 credit 或 AML,会使用早期 proxy 指标和 cohort validation。最关键的是 segment 监控,如果某个渠道或客户群体的校准恶化,应触发降级、人工复核或暂停自动化。

12.8 如何把 selective prediction 用在欺诈风控?

30 秒回答:

欺诈风控不应让模型在所有交易上强行自动判定。高置信且校准稳定的交易可以自动 step-up 或拦截;低置信或高客户影响交易应进入人工复核、补充认证或保守放行策略。

2 分钟展开:

Selective prediction 的核心是只在模型可靠时自动化。欺诈场景里,false positive 会损害客户体验,false negative 会造成损失。我的 routing policy 会结合 calibrated fraud probability、交易金额、客户影响、segment calibration、设备和行为证据。如果模型高置信但落在校准不足的 segment,就不直接拒绝,而是 step-up authentication 或人工复核。监控上看 selective risk、automation coverage、customer harm、申诉结果和 human override。

12.9 如何处理 fairness across segments?

30 秒回答:

不能只看整体指标。要按产品、渠道、地区、客户生命周期和合规认可的公平性切片看 calibration、coverage、selective risk、abstention rate 和 human override。

2 分钟展开:

整体 ECE 或 coverage 达标可能掩盖某个 segment 的过度自信。金融场景中,这可能造成某些客户群体被更多误拒、误拦截或得不到正确服务。我的做法是把 segment calibration 和 coverage 放进 release gate;对样本少或表现不稳的 segment,降低自动化或要求人审;生产中持续监控 drift 和投诉。公平性不是只做一次模型评估,而是贯穿阈值、路由、UX、人工升级和补救。

12.10 作为 PM / 架构师,你如何把 uncertainty 变成上线方案?

30 秒回答:

我会设计 Uncertainty-to-Action 架构:先定义 use case 风险等级,再测 calibration 和 conformal coverage,然后用 routing policy 把 confidence 映射到自动处理、澄清、拒答或人工升级,最后用监控和证据包证明控制持续有效。

2 分钟展开:

我不会让模型团队只交一个 accuracy 报告。产品侧先定义客户影响、业务动作、错误成本和人工升级路径;架构侧设计 calibration layer、conformal output、policy engine、UX renderer 和 monitoring pipeline;治理侧建立 release gate、segment fairness review、change management 和 incident trigger。这样不确定性就从抽象指标变成可执行的产品能力和风险控制,尤其适合 credit、fraud、KYC、AML 和客户可见 RAG。


13. 作品集表达

如果把本文转成作品集,可以用一个金融零售案例展示:

Case: Customer-facing credit card servicing AI

Problem:
  客户在 APP 中询问信用卡费用、提额、拒绝原因和争议交易。

Risk:
  客户可能把 AI 回答理解成正式信贷结论或机构承诺。

Design:
  - RAG answerability classifier
  - citation support scoring
  - calibrated intent confidence
  - conformal prediction set for customer intent
  - risk-based routing policy
  - human escalation for credit / complaint / dispute paths
  - confidence UX without misleading numeric probability

Evidence:
  - ECE and reliability diagram by intent and channel
  - RAG citation support report
  - prediction set coverage by scenario
  - selective risk and escalation precision
  - segment calibration and complaint monitoring
  - calibration drift dashboard

Outcome:
  AI handles low-risk FAQ and account-service questions,
  abstains or escalates regulated and uncertain cases,
  and produces an audit trail for model risk, compliance and customer remediation.

面试中的高级表达:

我把 uncertainty 当成 AI 产品的控制平面,而不是模型输出旁边的一个小数字。真正的设计问题是:什么时候自动化,什么时候澄清,什么时候拒答,什么时候升级人工,以及上线后如何证明这些判断在不同客户群体上仍然可靠。