AI 扩展计划 / Playbooks

AI Uncertainty Calibration / Conformal Prediction Playbook

以下来源是本文的技术和治理锚点。本文把它们转成产品、架构、评估、上线门禁和治理证据要求，不把任何论文或工具文档直接等同于监管合规结论。

1,060 行AI_UNCERTAINTY_CALIBRATION_CONFORMAL_PREDICTION_PLAYBOOK.md

AI Uncertainty Calibration & Conformal Prediction Playbook

定位：面向高级 AI PM / AI BA / AI Architect / Model Risk / 金融零售产品与架构团队，把 uncertainty estimation、calibration、conformal prediction、selective prediction 和 human escalation 组合成可上线、可监控、可审计的 AI 决策控制系统。

适用边界：本文面向 credit、fraud、KYC、AML、RAG answer confidence、customer-facing regulated AI、运营决策和内部 copilot。它不把“不确定性”当成模型解释装饰，而是把它转成路由、拒答、人工升级、风险接受、客户体验和生产监控。

重要说明：本文是学习、作品集和内部方案训练材料，不构成法律意见、合规结论、模型验证报告或监管解释。正式项目必须由 Legal、Compliance、Model Risk、Fair Lending、Privacy、Security、Business Owner、Operations、Customer Experience 和管理层结合机构类型、司法辖区、业务用途、客户影响和内部政策确认。

Source Anchors

Anchor	Link	本文使用方式
Guo et al., On Calibration of Modern Neural Networks	https://arxiv.org/abs/1706.04599 和 https://proceedings.mlr.press/v70/guo17a.html	建立 calibration 的核心问题：高准确率模型的 softmax confidence 可能并不等于真实正确率；temperature scaling 是实用的后处理校准方法之一。
Angelopoulos & Bates, A Gentle Introduction to Conformal Prediction and Distribution-Free Uncertainty Quantification	https://arxiv.org/abs/2107.07511	建立 conformal prediction 的主线：用校准集构造 prediction sets / intervals，在可交换性条件下给出有限样本 coverage 保证，并讨论分布漂移、结构化输出和 abstention 等扩展。
MAPIE Documentation	https://contrib.scikit-learn.org/MAPIE/latest/	作为工程实现锚点：用 conformalizers、coverage metrics、prediction interval / prediction set、risk control 和 calibration API 把概念转为可实验、可复现的 Python 工作流。
NIST AI RMF 1.0	https://www.nist.gov/itl/ai-risk-management-framework 和 https://doi.org/10.6028/NIST.AI.100-1	用 Govern / Map / Measure / Manage 组织不确定性风险治理，把 confidence、coverage、abstention、human escalation 和 monitoring calibration drift 接入 AI 风险管理。
NIST AI RMF Generative AI Profile	https://www.nist.gov/publications/artificial-intelligence-risk-management-framework-generative-artificial-intelligence	用于 GenAI / LLM / RAG 场景的风险识别：把幻觉、错误引用、过度自信、数据泄露、自动化偏差和人机交互风险接入测量与处置闭环。

1. 一句话定位

AI 不确定性工程的核心不是让模型说“我有 87% 把握”，而是：

Uncertainty-to-Action =
把模型、数据、检索、业务规则和用户意图中的不确定性
校准成可验证的概率、区间、集合、覆盖率和风险等级，
再映射为自动通过、降级、补充信息、人工复核、拒答、客户披露和生产监控。

在金融零售里，confidence 不是 UI 装饰，而是控制平面：

场景	错误使用 confidence 的后果	正确目标
Credit	高分但错校准的批准概率被当成真实违约概率，导致风险定价或 fair lending 问题	校准 PD、分段可靠性、拒绝原因一致性、人工复核阈值
Fraud	低置信度却自动拦截交易，造成客户损害和投诉	score calibration、risk-based routing、客户影响约束、快速申诉
KYC / AML	模型把弱信号包装成确定结论，导致误报、漏报或调查资源错配	suspiciousness interval、evidence strength、analyst escalation、SAR 决策隔离
Customer-facing regulated AI	客户把 AI 回答理解成机构承诺、信贷结论、投资建议或正式通知	confidence UX、边界披露、强人工升级、审计证据
RAG answer confidence	LLM 自称“有信心”，但引用无法支撑答案	retrieval coverage、citation support、answerability、groundedness、拒答策略

高级 PM / 架构师要能回答三个问题：

这个 AI 系统知道自己什么时候可能错吗？
系统知道“可能错”之后要做什么吗？
生产环境能证明这种控制在不同客户群体、渠道、产品和时间上持续有效吗？

2. 为什么重要

2.1 从准确率到决策风险

Accuracy、AUC、F1、hit rate 只回答“整体表现如何”。金融零售上线更关心：

问题	需要的 uncertainty 能力
模型说 0.9 置信度时，真实正确率是否接近 90%	calibration、ECE、reliability diagram
对某笔贷款申请，预测损失是否有上界和下界	conformal prediction interval、quantile model、coverage
对某个客户意图，模型是否只能缩小到几个候选类别	prediction set、top-label calibration
在不确定时是否能拒答或升级人工	selective prediction、abstention、human escalation
置信度阈值是否对不同客户群体公平	fairness across segments、segment calibration、coverage parity
上线三个月后校准是否退化	monitoring calibration drift、population drift、outcome lag handling

2.2 监管和客户体验的共同问题

customer-facing regulated AI 的失败常常不是“模型完全不知道”，而是“系统把不确定答案包装成确定服务”。

典型失败路径：

Ambiguous customer intent
-> weak retrieval evidence
-> LLM produces fluent answer
-> UI shows confident tone
-> customer treats it as bank commitment
-> no human escalation
-> complaint, harm, remediation, audit issue

不确定性治理要打断这条链：

Ambiguous intent
-> answerability check
-> evidence threshold
-> calibrated confidence
-> risk tier decision
-> clarify / abstain / escalate
-> logged rationale and monitoring sample

2.3 LLM confidence limitation

LLM 的自然语言自我表述、token probability、logprob、temperature 或“请给出置信度”提示，不能直接当成真实正确率。原因包括：

限制	产品和架构含义
自报 confidence 容易受 prompt、措辞、上下文和对齐训练影响	不让模型自己给最终风险背书，使用外部 eval 和校准层
token probability 衡量下一个 token 的生成偏好，不等于事实正确率或业务可用性	对 RAG 必须测 citation support、claim support、answerability
流畅表达会放大用户信任	高风险回答使用约束模板、证据卡、人工入口和明确边界
同一问题多次采样可能答案稳定但仍然错误	不能只用 self-consistency，必须接入来源、规则、业务系统和专家标签
模型升级会改变置信分布	每次模型、prompt、retriever、index 或 policy change 都要重跑校准和漂移检查

3. Uncertainty-to-Action 架构

3.1 总体架构

Business request / customer interaction
-> risk tier and intent classification
-> data quality and permission checks
-> model prediction or RAG answer generation
-> uncertainty estimation
   - probability score
   - calibrated confidence
   - prediction interval
   - prediction set
   - retrieval and citation support
   - OOD and drift signal
-> uncertainty calibration
   - ECE
   - Brier score
   - reliability diagram
   - temperature scaling
   - conformal calibration
-> policy decision
   - auto approve / answer
   - ask clarifying question
   - narrow prediction set
   - route to analyst / specialist
   - abstain or refuse
   - block high-impact automation
-> user experience and operations
-> monitoring, fairness, audit evidence, remediation

3.2 架构组件

组件	主要职责	金融零售落地
Risk tiering service	根据客户影响、监管触点和动作类型确定控制强度	信贷、投诉、投资、AML、欺诈拦截进入高控制路径
Prediction service	输出分类概率、回归预测、rank score、LLM answer 或 tool result	PD、fraud score、KYC risk tier、AML alert triage、RAG answer
Uncertainty estimator	估计 epistemic / aleatoric / retrieval / workflow uncertainty	ensemble、quantile、conformal score、OOD detector、retrieval support
Calibration layer	把模型分数映射到经验正确率或覆盖率	Platt / isotonic / temperature scaling、segment calibration、conformal calibration
Decision policy engine	把 confidence、coverage、业务规则和客户影响转成动作	risk-based routing、abstention、manual review、customer disclosure
UX renderer	以客户或员工可理解方式表达不确定性	证据强度、需要确认、可升级人工、不得显示误导性精确数字
Monitoring and audit	跟踪 calibration drift、coverage、分段公平、人工 override、投诉和事件	模型风险仪表盘、release gate、evidence binder

3.3 不确定性类型

类型	含义	典型信号	处置动作
Aleatoric uncertainty	业务对象本身有噪声，更多数据也难完全消除	收入波动、交易行为随机性、欺诈标签延迟	用 prediction interval、风险定价、人工复核缓冲
Epistemic uncertainty	模型对某类样本学得不充分	新客群、新商户类型、新欺诈模式、低样本区域	扩充数据、降低自动化、专家复核、active learning
Distribution uncertainty	当前样本偏离训练分布	新渠道、新地区、新产品、营销活动后客群变化	OOD flag、校准漂移监控、分段阈值
Retrieval uncertainty	RAG 没有找到足够权威证据	gold source miss、citation weak、conflicting docs	拒答、提示来源冲突、升级人工
Workflow uncertainty	模型输出没错，但流程上下文不足	客户身份未确认、权限不足、投诉语境缺失	补充信息、身份验证、case handoff
Governance uncertainty	控制证据不足，无法证明系统可用	缺少校准报告、分段监控、变更记录	延后上线、缩小范围、管理层风险接受

3.4 Uncertainty-to-Action Matrix

Confidence / coverage 状态	客户影响低	客户影响中	客户影响高
高置信且已校准	自动回答或处理，记录日志	自动处理加抽样 QA	限定自动建议，关键动作仍需规则或人审确认
中置信	给出答案并暴露可选人工入口	要求确认或补充信息	route to human，禁止直接触发不利动作
低置信	澄清问题、缩小候选范围	abstain，给出安全替代路径	human escalation，记录原因，必要时停用该路径
校准失效或 drift 告警	降级到保守阈值	暂停自动化扩大范围	进入 incident / issue management
分段覆盖不足	继续观察并标注限制	按 segment 调阈值或补样本	不允许对该 segment 自动决策

4. 概率校准

4.1 Calibration 的定义

一个分类模型如果说“这批样本我有 80% confidence”，那么这批样本的真实正确率应接近 80%。这就是 calibration 的业务含义。

反例：

模型输出	实际结果	风险
fraud score 0.95	实际只有 70% 是欺诈	过度拦截，客户损害，投诉上升
credit default probability 0.08	实际违约率 0.14	定价不足，风险暴露
KYC high risk 0.85	某地区实际 precision 很低	分段偏差，调查资源浪费
RAG answer confidence high	引用无法支撑结论	客户误导，审计证据断裂

校准不是提高模型区分能力。一个模型可以 AUC 很高但校准很差，也可以校准较好但区分能力不足。上线评估要同时看 discrimination 和 calibration。

4.2 ECE

Expected Calibration Error, ECE，把预测 confidence 分桶，比较每个桶的平均 confidence 和真实 accuracy，再按样本占比加权。

ECE = sum over bins (bin_size / total_size) * abs(bin_accuracy - bin_confidence)

使用 ECE 的产品含义：

维度	高级判断
bin 选择	分桶过粗会掩盖问题，分桶过细会不稳定；高风险场景要看 reliability diagram 而不只看一个 ECE
top-label ECE	多分类意图识别常看 top predicted class 的 confidence 是否可靠
segment ECE	必须按产品、渠道、地区、语言、年龄段代理变量、收入段、商户类型、客户 tenure 等切片
outcome lag	信贷违约、AML true positive、欺诈 chargeback 有标签延迟，监控窗口要显式处理
threshold impact	ECE 改善不等于业务损失下降，必须连接 routing policy 和 cost matrix

4.3 Reliability Diagram

Reliability diagram 把 confidence bucket 和真实正确率画在一起。理想模型接近对角线。

Bucket confidence: 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9
Observed accuracy: 0.1 0.3 0.4 0.5 0.5 0.6 0.7 0.7 0.8
Interpretation: high confidence buckets are over-confident
Action: recalibrate, raise abstention threshold, monitor segment drift

产品和架构团队看 reliability diagram 时要问：

问题	含义
哪些 confidence 区间最危险	高置信错误比低置信错误更容易被自动化放大
哪些 segment 偏离最大	fairness across segments 和客户影响控制的入口
校准后是否牺牲排序能力	temperature scaling 通常不改变排序，其他方法可能影响阈值策略
阈值落在哪个 bucket	决策阈值附近的校准质量最关键
生产分布是否仍覆盖评估 bucket	新客群导致 bucket 样本稀疏时，阈值可信度下降

4.4 Brier Score

Brier score 是概率预测的均方误差：

Brier score = mean((predicted_probability - actual_outcome)^2)

它同时惩罚不准确和不校准，适合二分类概率预测，如欺诈、违约、流失、投诉升级概率。

用法	金融零售示例
模型比较	两个 fraud model 的 AUC 接近时，用 Brier score 看概率质量
阈值策略	如果业务动作依赖概率大小，Brier score 比单纯 F1 更贴近风险
分段监控	某商户行业 Brier score 恶化，可能表示欺诈模式变化
模型风险报告	与 ECE、reliability diagram、loss by segment 一起进入 validation pack

4.5 Temperature Scaling

Temperature scaling 是对 logits 做单参数缩放：

calibrated_probability = softmax(logits / T)

T 值	含义
T > 1	降低过度自信，使概率更平滑
T < 1	提高 confidence，使概率更尖锐
T = 1	保持原始 softmax

适用场景：

场景	判断
深度分类模型 softmax 过度自信	常见且实用
只需要后处理，不想重训模型	合适
需要保持类别排序	合适，因为单调缩放通常不改变排序
不同 segment 校准形态差异很大	单一 temperature 可能不足，需要分段校准或更强校准方法
RAG answer confidence	不能直接套用，需要先定义 answer correctness、citation support 或 answerability label

4.6 校准方法选择

方法	优点	风险	适用
Temperature scaling	简单、稳定、对深度分类模型实用	只能修正整体 confidence，不解决局部错校准	意图分类、图像/文本分类、欺诈分类模型后处理
Platt scaling	二分类常用，工程简单	对非线性校准不足	二分类 score 到概率
Isotonic regression	非参数，能拟合复杂校准曲线	小样本容易过拟合	样本足够、校准曲线非线性
Beta calibration	对概率分布形态更灵活	解释和治理成本高于 temperature	二分类概率后处理
Venn-Abers	可输出概率区间	实现和解释更复杂	高风险概率场景
Conformal prediction	输出集合或区间，强调 coverage	不等同于概率校准，且依赖可交换性	需要明确覆盖保证的分类、回归、时间序列或风控路径

4.7 Segment Calibration 和公平性

整体校准好，不代表每个客户群体都可靠。金融零售必须关注 fairness across segments。

需要切片的 segment：

Segment 类型	示例
产品	信用卡、个人贷、房贷、小微商户、财富、保险
渠道	APP、网银、分行、呼叫中心、第三方导流
客户生命周期	新客户、老客户、沉睡客户、困难客户、投诉客户
地理和语言	州、省、市、语言、地区政策版本
风险代理变量	收入段、商户 MCC、设备类型、交易网络、行业
受保护属性相关代理	fair lending / anti-discrimination 审查中依法合规处理

分段校准治理要求：

现象	处置
某 segment ECE 明显高	降低自动化、调阈值、补充样本、专家复核
coverage 在少数群体不足	不允许用整体 coverage 声称该群体安全
高风险 segment 样本少	用保守阈值、人工复核和置信区间表达不确定
drift 集中在某渠道	对该渠道单独降级或暂停自动路由

5. Conformal Prediction

5.1 核心定位

Conformal prediction 的目标不是输出“模型有多聪明”，而是把任意模型包装成带覆盖率语义的输出：

任务	输出
回归	prediction interval，例如贷款损失率在 3.2% 到 7.8%
分类	prediction set，例如客户意图属于 `{fee_dispute, billing_question}`
排序或检索	包含足够候选项的 set 或 risk-controlled candidate list
风控	在给定错误容忍度下控制自动化动作范围

关键概念：

coverage = P(true label or value is inside the prediction set / interval)

例如目标 coverage 为 90%，意思是长期看真实标签或真实值应有约 90% 落在 conformal set / interval 内。它不是说某一笔个案有 90% 的主观确定性。

5.2 Split Conformal 工作流

1. Train
   用训练集训练基础模型。

2. Calibrate / conformalize
   在独立校准集上计算 conformity score。

3. Choose risk level alpha
   例如 alpha = 0.1，目标 coverage = 90%。

4. Compute threshold
   取校准分数的合适分位数。

5. Predict
   对新样本输出 prediction set 或 interval。

6. Monitor
   用生产标签回流检查 coverage、set size、interval width、segment coverage 和 drift。

5.3 Prediction Intervals

回归场景中，conformal prediction interval 可以用于：

场景	interval 含义	决策方式
Credit loss forecasting	预期损失或违约损失率区间	区间过宽则人工复核或保守定价
Collections	客户还款概率或回收金额区间	高不确定客户不进入强自动化催收
Branch staffing	客流预测区间	用上界做容量，用下界做效率
Fraud amount risk	可疑损失金额区间	区间上界触发优先调查
Customer service SLA	处理时长区间	宽区间触发运营主管介入

高级判断不是只看 coverage，还要看 interval width：

指标	含义
coverage	真实值落入区间的比例
mean interval width	区间平均宽度，越窄通常越有用
size-stratified coverage	按区间宽度分层看 coverage，避免窄区间过度自信
segment coverage	按客户、产品、渠道和地区看 coverage
conditional coverage caveat	总体 coverage 不等于每个条件子群都有同等 coverage

5.4 Prediction Sets

分类场景中，prediction set 比单一类别更适合表达不确定性。

场景	单点预测风险	Prediction set 的产品价值
Intent detection	把投诉误判成普通咨询	输出 `{complaint, fee_dispute}`，触发人工或澄清
AML alert triage	把 suspicious activity 类型判错	输出候选风险类型，analyst 选择并补证据
KYC document classification	把地址证明误判成身份证明	输出多个候选文件类型，要求客户确认
RAG answerability	强行回答超出知识库的问题	输出 `unanswerable` 或 `{policy_A, policy_B_conflict}`
Credit adverse action reason support	给出不准确主要原因	输出候选 reason set，再由规则和合规管道确认

Prediction set 的关键指标：

指标	含义	产品解释
Coverage	真标签是否在集合内	安全性
Average set size	平均集合大小	可用性
Empty set rate	没有可接受类别的比例	是否需要拒答或补信息
Singleton rate	只有一个类别的比例	自动化潜力
Segment coverage	各 segment 的覆盖率	公平和稳健性

5.5 Conformal Prediction 的边界

Conformal prediction 强大，但不能被误用为万能合规证明。

边界	说明
可交换性假设	训练、校准和生产样本需要足够相似；严重 distribution shift 会削弱 coverage 解释
总体 coverage 不是条件 coverage	某些 segment 可能 coverage 不足
coverage 不等于低损失	真值在集合内不代表业务成本可接受
set 很大时价值下降	把所有类别都放进集合，coverage 高但不可用
标签质量决定上限	AML、欺诈、投诉标签延迟或噪声会影响校准
LLM 输出结构复杂	对自然语言答案要先定义 claim、source、answerability、policy compliance 等可评分对象

5.6 Conformal for RAG Answer Confidence

RAG 的 confidence 不应由 LLM 自报。可以把回答拆成可评分对象：

对象	可计算信号
Retrieval coverage	gold source 是否被召回，top-k 是否包含权威来源
Citation support	每个关键 claim 是否被引用片段支持
Answerability	知识库是否足以回答问题
Source freshness	引用来源是否为当前有效版本
Conflict detection	是否存在多个政策版本或来源冲突
Permission correctness	用户是否有权看到该来源
Refusal correctness	无答案或高风险时是否正确拒答

一种落地方式：

Define RAG correctness label
-> build golden query set
-> score retrieval and citation support
-> train / calibrate answerability classifier
-> conformalize prediction sets:
   {answer, ask_clarifying_question, refuse, escalate_to_human}
-> monitor coverage and escalation quality by scenario

对客户可见 RAG，推荐把 confidence 映射为动作，而不是直接展示模型概率：

系统状态	客户体验
来源充足且低风险	直接回答，附上清晰来源入口
来源不足	说明需要更多信息或无法确认，提供人工入口
来源冲突	告知需要人工确认，不让 AI 选择正式口径
高风险意图	warm handoff 到合规授权人员
权限不足	不暴露内部来源，转到安全流程

6. Selective Prediction / Abstention

6.1 定义

Selective prediction 指系统只在满足置信、覆盖、成本和政策条件时自动预测；否则 abstain、clarify 或 route to human。

coverage of automation = fraction of cases handled automatically
risk of automation = error or harm among automatically handled cases

这与“提高准确率”不同。selective prediction 明确接受一个事实：某些样本不该自动化。

6.2 Abstention 不是失败

在金融零售中，abstention 是产品能力：

场景	不该强答的原因	正确动作
客户问“我为什么被拒贷”	需要准确 adverse action reason 和合规流程	引导正式通知或人工专员
客户问“我应该买哪只基金”	可能涉及投资建议和适当性	明确边界，转合规销售或教育内容
AML alert 缺少关键证据	错误结论可能误导调查	标注证据缺口，分派 analyst
欺诈模型对交易低置信	自动拒绝会造成客户损害	step-up authentication 或人工复核
RAG 检索到旧政策	可能输出过期条款	拒答并触发知识源修复

6.3 Risk-Based Routing

Routing policy 要同时看 confidence、客户影响、业务成本和监管触点。

输入	示例
Calibrated probability	fraud probability、intent confidence、answerability confidence
Prediction interval / set	expected loss interval、candidate intent set
Business criticality	是否涉及信贷、投诉、投资、账户限制、AML
Customer vulnerability	语言、无障碍、困难客户、投诉状态
Evidence strength	source authority、citation support、data freshness
Fairness flag	segment calibration gap、coverage gap、proxy risk
Operational capacity	analyst queue、SLA、case priority

Routing 示例：

条件	动作
fraud probability high 且校准稳定，客户影响可逆	step-up authentication
fraud probability high 但 segment calibration gap 大	human review before decline
KYC document prediction set size = 1 且 confidence calibrated	自动分类并允许客户确认
KYC prediction set size > 2	要求重新上传或人工审核
RAG answerability high、citation support high、低风险 FAQ	自动回答
RAG answerability medium 或来源冲突	ask clarifying question 或 escalate
credit score decision near cutoff 且 interval 跨越阈值	manual underwriting
calibration drift alert active	降级到保守 policy

6.4 Selective Prediction 指标

指标	定义	用途
Coverage of automation	自动处理比例	衡量效率
Selective risk	自动处理样本中的错误率或损失	衡量安全
Abstention rate	放弃自动预测比例	衡量保守程度
Human escalation precision	升级案件中真实需要人工的比例	衡量路由质量
Human escalation recall	应升级案件中被成功升级的比例	衡量风险捕获
Override rate	人工推翻模型比例	监控模型或 policy 问题
Customer harm rate	投诉、补救、误拒、误拦截、错误承诺	连接客户影响
Segment selective risk	各 segment 自动化错误率	公平性和模型风险

7. 产品体验：Confidence UX

7.1 原则

Confidence UX 的目标不是展示数学，而是帮助客户或员工采取正确动作。

原则	说明
不用虚假精确感	客户界面避免“我有 87.34% 把握”这类误导性数字
把不确定性转成下一步	确认信息、查看来源、升级人工、等待正式通知、提交材料
区分事实、建议和决策	AI 可解释信息，但不替代正式信贷、投资、投诉或 AML 决策
高风险先边界后答案	在信贷、投资、投诉、账户限制场景先说明能力范围
来源比自信更重要	RAG 回答优先显示可验证来源和适用范围
保持人工可达	不能用 AI 置信度作为阻断人工支持的理由

7.2 员工界面

员工界面可以更具体，但必须避免把 confidence 当成命令。

UI 元素	推荐表达
Confidence label	High / Medium / Low + 校准状态
Evidence panel	支撑来源、缺失证据、冲突证据
Prediction set	候选类别和为什么进入集合
Interval	预测区间、业务阈值、是否跨越阈值
Routing reason	为什么自动处理、为什么升级、为什么拒答
Human override	允许选择 override reason，并进入反馈数据
Segment warning	当前客户或案件落在校准较弱的 segment 时提示

员工界面示例：

AI triage result:
Likely categories: fee_dispute, billing_question
Decision: route to servicing specialist
Reason: prediction set has 2 categories and complaint-risk signal is present
Evidence: customer message mentions "formal complaint" and "incorrect charge"
Control: specialist must confirm complaint status before response

7.3 客户界面

客户界面要少用模型术语，多用服务承诺边界。

系统状态	客户表达
低风险且有权威来源	“根据当前产品说明，这项费用通常适用于...”
信息不足	“我需要再确认一个信息，才能给出适用的说明。”
高风险或正式决策	“这类问题需要由专员查看您的账户和正式记录。”
信贷不利行动	“请以正式通知中的原因为准。需要帮助理解通知时，我可以转接专员。”
投资或财富建议边界	“我可以解释产品资料和风险信息，但不能替您作出投资决定。”
来源冲突	“我无法确认哪一条规则适用于您的情况，正在转接人工确认。”

7.4 不推荐的 UX

表达	问题
“AI 非常确定您会违约”	伤害性、不可解释、可能引发公平和投诉问题
“置信度 92%，所以不需要人工”	把模型分数当成服务阻断理由
“答案可能不准确，请自行判断”	用免责声明替代控制
“系统判断您涉嫌欺诈”	对客户给出未经确认的高风险结论
“根据内部政策，您不符合条件”且无正式原因	可能造成不准确承诺或不完整 adverse action 解释

8. 金融零售场景落地

8.1 Credit

Credit 场景的不确定性要与模型风险、公平信贷、adverse action、定价和人工 underwriting 接起来。

对象	设计要点
PD calibration	分产品、渠道、credit band、地区、申请来源监控 PD 是否接近实际违约
Cutoff uncertainty	当 prediction interval 跨越审批阈值时进入人工 underwriting
Reason code stability	adverse action reason 不能只由不稳定模型解释生成
Fairness across segments	看 segment calibration、approval rate impact、error distribution 和 override
Human escalation	near-cutoff、薄档案、异常收入、数据冲突、模型漂移时升级

Credit routing 示例：

Approve automatically:
  calibrated PD below threshold
  interval upper bound below risk appetite
  no segment calibration warning
  reason pipeline complete

Manual underwriting:
  interval crosses threshold
  thin-file customer
  model confidence high but data conflict present
  segment coverage below release gate

Do not use AI for final reason:
  LLM-generated narrative is not tied to approved adverse action reason codes

8.2 Fraud

Fraud 场景要平衡损失控制和客户损害。

风险	不确定性控制
false positive 拦截真实客户	calibrated fraud probability、step-up 而非直接拒绝、快速解锁
fraud ring 新模式	OOD detection、drift monitor、active learning
高风险 segment 样本少	保守 automation、analyst review、分段 coverage
实时延迟	使用轻量校准层和离线监控闭环
客户投诉	把 complaint outcome 回流到 selective risk 和 harm rate

8.3 KYC

KYC 中模型常做 document classification、entity resolution、risk tiering、missing document detection。

任务	不确定性动作
文件分类	prediction set 大于 1 时让客户确认或人工审核
地址验证	数据源冲突时不自动拒绝
受益所有人识别	entity match interval 或候选集合交给 analyst
客户风险等级	高风险但证据弱时标注 evidence gap，不直接定性
周期性复核	drift 或政策版本变化后重跑校准

8.4 AML

AML 不确定性治理的关键是避免把模型 triage 和正式可疑活动判断混为一谈。

对象	控制
Alert prioritization	calibrated suspiciousness score 只用于排序和分派，不替代 investigator conclusion
Typology prediction	输出 prediction set，帮助 analyst 看候选 typology
Evidence completeness	缺少关键交易链路或客户资料时升级补证
SAR narrative assistance	LLM 只辅助摘要，必须引用案件证据并由授权人员确认
Segment fairness	商户类型、地区、客户类型的 false positive 和 coverage 要被监控

8.5 RAG Answer Confidence

RAG answer confidence 应由多信号组成：

answer_confidence =
  retrieval recall proxy
  + source authority
  + citation support
  + answerability classifier
  + policy risk tier
  + conflict detection
  + permission correctness
  - stale source penalty
  - unsupported claim penalty

RAG 发布门禁：

门禁	衡量
Answerability	可回答、不可回答、需要澄清的分类准确且已校准
Citation support	高风险回答的关键 claim 有来源支持
Refusal correctness	无答案、高风险、权限不足和冲突来源时正确拒答
Coverage by scenario	FAQ、账户服务、投诉、信贷、财富、KYC 各自达标
Human handoff	升级后上下文完整，客户不需要重复叙述
Drift	文档版本、政策变化、检索分布和问题类型持续监控

9. 治理和 Model Risk

9.1 Governance Mapping to NIST AI RMF

NIST AI RMF Function	不确定性治理落地
Govern	定义 risk appetite、模型清单、owner、审批门禁、human oversight、客户影响和公平性责任
Map	识别 use case、客户旅程、数据来源、segment、harm scenario、自动化动作和人工升级点
Measure	测 ECE、Brier score、reliability diagram、coverage、set size、selective risk、human override、calibration drift
Manage	根据阈值执行降级、abstention、route to human、暂停自动化、issue remediation 和 risk acceptance

9.2 Release Gate

Gate	通过标准
Use case boundary	明确 AI 输出是建议、排序、解释、草稿、正式决策还是客户沟通
Calibration evidence	有 holdout / validation / calibration set，包含 ECE、Brier、reliability diagram
Conformal evidence	如果使用 prediction sets / intervals，有 coverage、set size / width、segment coverage
Selective policy	自动化、澄清、abstention、人工升级阈值有业务理由和风险接受
Segment fairness	关键 segment 的 calibration、coverage、错误成本和人工升级率已评估
Customer UX	客户不被误导，人工入口可达，高风险场景边界清晰
Monitoring	calibration drift、coverage drift、input drift、outcome lag、override、complaint、incident 有生产监控
Change management	模型、prompt、retriever、index、特征、阈值、policy 改动触发重评估

9.3 Monitoring Calibration Drift

生产监控要同时看输入、输出、结果和客户影响。

监控对象	指标
Input drift	PSI、feature distribution、embedding distribution、intent mix
Score drift	confidence distribution、score bucket volume、threshold proximity
Calibration drift	ECE over time、bucket accuracy、Brier score、reliability diagram by month
Coverage drift	conformal coverage、interval width、set size、empty set rate
Segment drift	各 segment 的 ECE、coverage、selective risk、abstention rate
Operations drift	human queue、override rate、escalation SLA、analyst disagreement
Customer harm	complaints、appeals、false decline、fee error、wrong answer remediation
Knowledge drift	RAG source freshness、citation support、stale source usage、conflict rate

Outcome lag 处理：

场景	标签延迟	监控方式
Credit default	30 天到数月	使用早期 proxy 指标，同时保留最终 cohort 校准
Fraud chargeback	数天到数周	先看 step-up failure、客户申诉，再看 confirmed fraud
AML true positive	调查周期长	使用 analyst disposition、quality review、case aging
RAG correctness	可较快抽检	golden set、QA review、complaint-triggered review

9.4 Incident and Remediation

触发 incident / issue 的条件：

Trigger	处置
高风险场景 ECE 超出阈值	降级自动化，启动模型风险 issue
segment coverage 低于门禁	对该 segment 关闭自动处理或强制人审
RAG 高风险回答出现 unsupported claim	暂停相关意图自动回答，修复知识源和 eval set
human override 激增	检查数据漂移、policy 变更、模型升级
客户投诉指向 AI 误导	case review、客户补救、根因分析、控制增强
模型或 vendor 升级未重校准	变更违规处理，回滚或补充验证

9.5 Evidence Binder

上线和审计证据应包含：

Artifact	内容
Use Case Risk Assessment	客户影响、自动化动作、监管触点、risk tier
Calibration Report	ECE、Brier score、reliability diagram、segment analysis
Conformal Evaluation Report	coverage、interval width、prediction set size、conditional caveat
Routing Policy Spec	自动化、clarify、abstain、human escalation 阈值
Confidence UX Spec	客户和员工界面表达、人工入口、披露和边界
Monitoring Spec	指标、阈值、owner、频率、incident trigger
Fairness Review	segment calibration、coverage、error cost、mitigation
Change Log	模型、prompt、retriever、index、threshold、policy change
Human Oversight SOP	review queue、override reason、QA sampling、feedback loop

10. 模板

10.1 Use Case Uncertainty Intake

字段	填写要求
Use case name	业务场景和渠道
Customer impact	客户是否可见，是否影响权益、资金、账户、投诉、信贷、投资
AI output type	probability、score、classification、prediction interval、prediction set、RAG answer
Decision action	自动处理、建议、排序、草稿、人工辅助、客户沟通
Risk tier	低、中、高，并说明理由
Required uncertainty measure	calibration、ECE、Brier、conformal coverage、selective risk、answerability
Abstention action	澄清、拒答、人工升级、保守规则
Segment requirements	必须切片的客户、产品、渠道和地区
Label source	ground truth、专家标签、客户结果、投诉、chargeback、analyst disposition
Outcome lag	标签多久可用，早期 proxy 是什么
Monitoring owner	业务、模型、数据、平台、运营 owner

10.2 Calibration Evaluation Sheet

Metric	Overall	Segment A	Segment B	Decision
Accuracy / AUC
ECE
Brier score
High-confidence error rate
Reliability diagram finding
Threshold bucket sample size
Recommended action

10.3 Conformal Prediction Evaluation Sheet

Metric	Overall	Segment A	Segment B	Release interpretation
Target coverage
Empirical coverage
Average interval width / set size
Empty set rate
Singleton rate
Size-stratified coverage
Drift sensitivity
Routing change

10.4 Risk-Based Routing Policy

Policy name:
Use case:
Risk tier:

Inputs:
  calibrated_confidence:
  prediction_interval_or_set:
  evidence_strength:
  segment_calibration_status:
  customer_impact:
  operational_capacity:

Actions:
  auto_process_when:
  ask_clarifying_question_when:
  abstain_when:
  escalate_to_human_when:
  block_or_pause_when:

Audit:
  logged_fields:
  override_reason_required:
  customer_message_template:
  monitoring_metric:

10.5 RAG Confidence Rubric

Dimension	Pass	Review	Fail
Answerability	权威来源足以回答	来源部分支持，需要澄清	知识库无答案
Citation support	关键 claim 均有引用支持	次要 claim 支持不足	关键 claim 无支持
Source freshness	当前有效版本	版本需确认	过期或冲突
Permission	用户有权访问	权限边界不清	权限不允许
Risk tier	低风险信息	中风险服务	高风险决策或客户权益
Action	answer	clarify or specialist review	refuse or escalate

10.6 Release Gate Memo

Decision:
  approve pilot / approve limited launch / do not launch / launch with conditions

Scope:
  channels:
  customer segments:
  product lines:
  excluded scenarios:

Evidence:
  calibration:
  conformal coverage:
  selective prediction:
  fairness across segments:
  RAG support:
  human escalation:

Controls:
  thresholds:
  abstention:
  escalation:
  monitoring:
  incident triggers:

Residual risk:
  accepted by:
  review cadence:

11. 30 天训练计划

目标：30 天内把不确定性从概念训练成可展示的金融零售 AI 产品和架构资产。训练默认读者已具备高级需求、流程、治理和利益相关方管理能力。

Day	主题	产出
1	读 Guo et al. calibration 论文，整理 softmax overconfidence、ECE、temperature scaling	1 页 calibration learning note
2	用一个二分类样例计算 ECE、Brier score、reliability diagram	指标 notebook 或伪代码说明
3	设计 credit PD calibration dashboard	仪表盘字段和分段切片
4	设计 fraud score calibration dashboard	score bucket、false positive、customer harm 指标
5	写 calibration release gate	calibration gate memo
6	读 Angelopoulos & Bates conformal guide	conformal prediction 概念图
7	用回归例子设计 prediction interval	credit loss interval 或 SLA interval
8	用分类例子设计 prediction set	KYC document 或 intent detection prediction set
9	比较 coverage、set size、interval width 的产品含义	conformal evaluation sheet
10	分析 conditional coverage 和 segment coverage 风险	fairness across segments memo
11	阅读 MAPIE docs 的 conformalizers 和 metrics	MAPIE method selection note
12	设计 selective prediction policy	automation coverage vs selective risk 图
13	设计 abstention 产品体验	客户和员工文案矩阵
14	设计 human escalation workflow	warm handoff SOP
15	Credit case drill：near-cutoff underwriting	route policy + adverse action boundary
16	Fraud case drill：交易拦截和 step-up	risk-based routing matrix
17	KYC case drill：文件分类和客户确认	prediction set UX
18	AML case drill：alert triage 和 analyst workflow	evidence strength + escalation policy
19	RAG case drill：answerability 和 citation support	RAG confidence rubric
20	Customer-facing regulated AI case drill	confidence UX + disclosure boundary
21	设计 monitoring calibration drift	production monitoring spec
22	设计 outcome lag 处理	proxy metrics + cohort validation plan
23	设计 segment fairness dashboard	segment ECE / coverage / selective risk
24	写 change management rules	model / prompt / index / threshold change triggers
25	写 incident response playbook	calibration drift incident flow
26	建 evidence binder	artifact map
27	准备 architecture review	Uncertainty-to-Action 架构图和组件说明
28	准备 executive memo	risk appetite、benefit、residual risk
29	准备 interview story	STAR-T 面试答案
30	完成 portfolio package	playbook 摘要、case study、release gate、dashboard mock

12. 面试答案

12.1 什么是 calibration，为什么金融 AI 不能只看 AUC？

30 秒回答：

Calibration 衡量模型输出的概率是否对应真实发生频率。AUC 只说明排序能力，不能说明 0.8 的风险分数真的代表 80% 的事件概率。金融场景的定价、阈值、人工复核和客户影响都依赖概率质量，所以必须同时看 AUC、ECE、Brier score 和 reliability diagram。

2 分钟展开：

在 credit、fraud、KYC 和 AML 中，模型分数经常触发业务动作。AUC 高说明模型能把高风险样本排在低风险样本前面，但如果模型系统性过度自信，阈值策略会造成误拒、误拦截、资源错配或风险低估。我的做法是把 calibration 放进 release gate：整体看 ECE、Brier score 和 reliability diagram，关键 segment 单独评估，并把校准结果接到 risk-based routing。对高风险或 near-threshold 样本，不让模型分数直接决定客户权益，而是进入人工复核或补充证据流程。

12.2 ECE、reliability diagram 和 Brier score 各自解决什么问题？

30 秒回答：

ECE 给出整体校准误差，reliability diagram 展示不同 confidence bucket 的偏差形态，Brier score 衡量概率预测与真实结果的均方误差。三者结合才能判断模型分数是否能支撑业务动作。

2 分钟展开：

ECE 简洁，适合做门禁和监控，但会受分桶方式影响。Reliability diagram 能看到模型是整体过度自信，还是只在高分段或低分段偏离。Brier score 同时惩罚错误和概率偏离，适合二分类风险预测。金融场景我会进一步按客户群体、渠道、产品和风险段切片，因为整体校准好可能掩盖某些 segment 的高风险偏差。

12.3 Temperature scaling 适合什么场景，有什么限制？

30 秒回答：

Temperature scaling 是对 logits 做单参数后处理，常用于修正深度分类模型过度自信。它简单稳定，通常不改变类别排序，但不能解决分段错校准、数据漂移或标签质量问题。

2 分钟展开：

如果模型 softmax confidence 偏高，temperature scaling 可以在验证集上学习一个温度参数，让概率更接近经验正确率。它适合意图分类、文档分类、欺诈或 KYC 分类模型的后处理。限制是它是全局缩放，无法自动处理某些客户群体、渠道或产品上的局部偏差。正式上线我会把它与 segment calibration、reliability diagram、漂移监控和 selective prediction 结合，而不是把 temperature scaling 当成单独控制。

12.4 Conformal prediction 和 calibration 有什么区别？

30 秒回答：

Calibration 关注概率是否可信；conformal prediction 关注输出集合或区间是否达到目标 coverage。前者常回答“0.8 是否真接近 80%”，后者回答“真实标签或数值是否落在 prediction set / interval 里”。

2 分钟展开：

Conformal prediction 可以包装任意模型，用校准集上的 conformity score 构造 prediction sets 或 intervals。例如 KYC 文档分类可以输出候选文件类型集合，credit loss forecast 可以输出损失区间。它的产品价值是把不确定性变成可操作边界：集合过大、区间跨阈值或 coverage 在某 segment 不足时，系统升级人工或降低自动化。它的边界是依赖训练、校准和生产数据足够相似；总体 coverage 也不保证每个子群体都同样覆盖。

12.5 如何设计 customer-facing regulated AI 的 confidence UX？

30 秒回答：

我不会直接把模型概率暴露给客户，而是把 confidence 转成清晰的服务动作：可以回答、需要更多信息、需要人工确认或无法处理。高风险场景必须说明边界并保持人工可达。

2 分钟展开：

客户看到“92% confidence”会产生虚假确定感，尤其在信贷、财富、投诉和账户限制场景。我的设计是内部保留 calibrated confidence、coverage、citation support 和 routing reason；客户界面使用可理解语言说明适用范围、来源和下一步。比如 RAG 回答只有在权威来源、当前版本和引用支持都满足时才自动回答；如果来源冲突或涉及正式信贷原因，就转人工或引导正式通知。这样既提升体验，也保留合规和审计证据。

12.6 RAG answer confidence 为什么不能让 LLM 自己打分？

30 秒回答：

LLM 自报 confidence 不等于事实正确率。RAG confidence 应来自 retrieval coverage、citation support、answerability、source freshness、permission correctness 和冲突检测等外部信号。

2 分钟展开：

LLM 很擅长生成流畅答案，但流畅不代表正确。自报置信度会受 prompt 和上下文影响，也不能证明引用支撑结论。生产级 RAG 要先定义答案正确性的标签和 rubric，再对检索、引用、答案可回答性、拒答和人工升级做评估。对客户可见受监管 AI，我会把 RAG confidence 映射为 answer、clarify、refuse 或 escalate，而不是把一个数字直接展示给客户。

12.7 如何监控 calibration drift？

30 秒回答：

监控 calibration drift 要看 score 分布、bucket accuracy、ECE、Brier score、reliability diagram、segment calibration 和业务结果，同时处理信贷、欺诈、AML 的标签延迟。

2 分钟展开：

生产漂移不仅来自模型，也来自产品、渠道、客群、政策和攻击模式变化。我会建立月度或更高频的校准监控：先看输入和 score distribution 是否变了，再看 outcome 回流后的 ECE、Brier 和 reliability diagram。对 outcome lag 较长的 credit 或 AML，会使用早期 proxy 指标和 cohort validation。最关键的是 segment 监控，如果某个渠道或客户群体的校准恶化，应触发降级、人工复核或暂停自动化。

12.8 如何把 selective prediction 用在欺诈风控？

30 秒回答：

欺诈风控不应让模型在所有交易上强行自动判定。高置信且校准稳定的交易可以自动 step-up 或拦截；低置信或高客户影响交易应进入人工复核、补充认证或保守放行策略。

2 分钟展开：

Selective prediction 的核心是只在模型可靠时自动化。欺诈场景里，false positive 会损害客户体验，false negative 会造成损失。我的 routing policy 会结合 calibrated fraud probability、交易金额、客户影响、segment calibration、设备和行为证据。如果模型高置信但落在校准不足的 segment，就不直接拒绝，而是 step-up authentication 或人工复核。监控上看 selective risk、automation coverage、customer harm、申诉结果和 human override。

12.9 如何处理 fairness across segments？

30 秒回答：

不能只看整体指标。要按产品、渠道、地区、客户生命周期和合规认可的公平性切片看 calibration、coverage、selective risk、abstention rate 和 human override。

2 分钟展开：

整体 ECE 或 coverage 达标可能掩盖某个 segment 的过度自信。金融场景中，这可能造成某些客户群体被更多误拒、误拦截或得不到正确服务。我的做法是把 segment calibration 和 coverage 放进 release gate；对样本少或表现不稳的 segment，降低自动化或要求人审；生产中持续监控 drift 和投诉。公平性不是只做一次模型评估，而是贯穿阈值、路由、UX、人工升级和补救。

12.10 作为 PM / 架构师，你如何把 uncertainty 变成上线方案？

30 秒回答：

我会设计 Uncertainty-to-Action 架构：先定义 use case 风险等级，再测 calibration 和 conformal coverage，然后用 routing policy 把 confidence 映射到自动处理、澄清、拒答或人工升级，最后用监控和证据包证明控制持续有效。

2 分钟展开：

我不会让模型团队只交一个 accuracy 报告。产品侧先定义客户影响、业务动作、错误成本和人工升级路径；架构侧设计 calibration layer、conformal output、policy engine、UX renderer 和 monitoring pipeline；治理侧建立 release gate、segment fairness review、change management 和 incident trigger。这样不确定性就从抽象指标变成可执行的产品能力和风险控制，尤其适合 credit、fraud、KYC、AML 和客户可见 RAG。

13. 作品集表达

如果把本文转成作品集，可以用一个金融零售案例展示：

Case: Customer-facing credit card servicing AI

Problem:
  客户在 APP 中询问信用卡费用、提额、拒绝原因和争议交易。

Risk:
  客户可能把 AI 回答理解成正式信贷结论或机构承诺。

Design:
  - RAG answerability classifier
  - citation support scoring
  - calibrated intent confidence
  - conformal prediction set for customer intent
  - risk-based routing policy
  - human escalation for credit / complaint / dispute paths
  - confidence UX without misleading numeric probability

Evidence:
  - ECE and reliability diagram by intent and channel
  - RAG citation support report
  - prediction set coverage by scenario
  - selective risk and escalation precision
  - segment calibration and complaint monitoring
  - calibration drift dashboard

Outcome:
  AI handles low-risk FAQ and account-service questions,
  abstains or escalates regulated and uncertain cases,
  and produces an audit trail for model risk, compliance and customer remediation.

面试中的高级表达：

我把 uncertainty 当成 AI 产品的控制平面，而不是模型输出旁边的一个小数字。真正的设计问题是：什么时候自动化，什么时候澄清，什么时候拒答，什么时候升级人工，以及上线后如何证明这些判断在不同客户群体上仍然可靠。