AI Uncertainty Calibration / Conformal Prediction Playbook
以下来源是本文的技术和治理锚点。本文把它们转成产品、架构、评估、上线门禁和治理证据要求,不把任何论文或工具文档直接等同于监管合规结论。
AI Uncertainty Calibration & Conformal Prediction Playbook
定位:面向高级 AI PM / AI BA / AI Architect / Model Risk / 金融零售产品与架构团队,把 uncertainty estimation、calibration、conformal prediction、selective prediction 和 human escalation 组合成可上线、可监控、可审计的 AI 决策控制系统。
适用边界:本文面向 credit、fraud、KYC、AML、RAG answer confidence、customer-facing regulated AI、运营决策和内部 copilot。它不把“不确定性”当成模型解释装饰,而是把它转成路由、拒答、人工升级、风险接受、客户体验和生产监控。
重要说明:本文是学习、作品集和内部方案训练材料,不构成法律意见、合规结论、模型验证报告或监管解释。正式项目必须由 Legal、Compliance、Model Risk、Fair Lending、Privacy、Security、Business Owner、Operations、Customer Experience 和管理层结合机构类型、司法辖区、业务用途、客户影响和内部政策确认。
Source Anchors
以下来源是本文的技术和治理锚点。本文把它们转成产品、架构、评估、上线门禁和治理证据要求,不把任何论文或工具文档直接等同于监管合规结论。
| Anchor | Link | 本文使用方式 |
|---|---|---|
| Guo et al., On Calibration of Modern Neural Networks | https://arxiv.org/abs/1706.04599 和 https://proceedings.mlr.press/v70/guo17a.html | 建立 calibration 的核心问题:高准确率模型的 softmax confidence 可能并不等于真实正确率;temperature scaling 是实用的后处理校准方法之一。 |
| Angelopoulos & Bates, A Gentle Introduction to Conformal Prediction and Distribution-Free Uncertainty Quantification | https://arxiv.org/abs/2107.07511 | 建立 conformal prediction 的主线:用校准集构造 prediction sets / intervals,在可交换性条件下给出有限样本 coverage 保证,并讨论分布漂移、结构化输出和 abstention 等扩展。 |
| MAPIE Documentation | https://contrib.scikit-learn.org/MAPIE/latest/ | 作为工程实现锚点:用 conformalizers、coverage metrics、prediction interval / prediction set、risk control 和 calibration API 把概念转为可实验、可复现的 Python 工作流。 |
| NIST AI RMF 1.0 | https://www.nist.gov/itl/ai-risk-management-framework 和 https://doi.org/10.6028/NIST.AI.100-1 | 用 Govern / Map / Measure / Manage 组织不确定性风险治理,把 confidence、coverage、abstention、human escalation 和 monitoring calibration drift 接入 AI 风险管理。 |
| NIST AI RMF Generative AI Profile | https://www.nist.gov/publications/artificial-intelligence-risk-management-framework-generative-artificial-intelligence | 用于 GenAI / LLM / RAG 场景的风险识别:把幻觉、错误引用、过度自信、数据泄露、自动化偏差和人机交互风险接入测量与处置闭环。 |
1. 一句话定位
AI 不确定性工程的核心不是让模型说“我有 87% 把握”,而是:
Uncertainty-to-Action =
把模型、数据、检索、业务规则和用户意图中的不确定性
校准成可验证的概率、区间、集合、覆盖率和风险等级,
再映射为自动通过、降级、补充信息、人工复核、拒答、客户披露和生产监控。
在金融零售里,confidence 不是 UI 装饰,而是控制平面:
| 场景 | 错误使用 confidence 的后果 | 正确目标 |
|---|---|---|
| Credit | 高分但错校准的批准概率被当成真实违约概率,导致风险定价或 fair lending 问题 | 校准 PD、分段可靠性、拒绝原因一致性、人工复核阈值 |
| Fraud | 低置信度却自动拦截交易,造成客户损害和投诉 | score calibration、risk-based routing、客户影响约束、快速申诉 |
| KYC / AML | 模型把弱信号包装成确定结论,导致误报、漏报或调查资源错配 | suspiciousness interval、evidence strength、analyst escalation、SAR 决策隔离 |
| Customer-facing regulated AI | 客户把 AI 回答理解成机构承诺、信贷结论、投资建议或正式通知 | confidence UX、边界披露、强人工升级、审计证据 |
| RAG answer confidence | LLM 自称“有信心”,但引用无法支撑答案 | retrieval coverage、citation support、answerability、groundedness、拒答策略 |
高级 PM / 架构师要能回答三个问题:
- 这个 AI 系统知道自己什么时候可能错吗?
- 系统知道“可能错”之后要做什么吗?
- 生产环境能证明这种控制在不同客户群体、渠道、产品和时间上持续有效吗?
2. 为什么重要
2.1 从准确率到决策风险
Accuracy、AUC、F1、hit rate 只回答“整体表现如何”。金融零售上线更关心:
| 问题 | 需要的 uncertainty 能力 |
|---|---|
| 模型说 0.9 置信度时,真实正确率是否接近 90% | calibration、ECE、reliability diagram |
| 对某笔贷款申请,预测损失是否有上界和下界 | conformal prediction interval、quantile model、coverage |
| 对某个客户意图,模型是否只能缩小到几个候选类别 | prediction set、top-label calibration |
| 在不确定时是否能拒答或升级人工 | selective prediction、abstention、human escalation |
| 置信度阈值是否对不同客户群体公平 | fairness across segments、segment calibration、coverage parity |
| 上线三个月后校准是否退化 | monitoring calibration drift、population drift、outcome lag handling |
2.2 监管和客户体验的共同问题
customer-facing regulated AI 的失败常常不是“模型完全不知道”,而是“系统把不确定答案包装成确定服务”。
典型失败路径:
Ambiguous customer intent
-> weak retrieval evidence
-> LLM produces fluent answer
-> UI shows confident tone
-> customer treats it as bank commitment
-> no human escalation
-> complaint, harm, remediation, audit issue
不确定性治理要打断这条链:
Ambiguous intent
-> answerability check
-> evidence threshold
-> calibrated confidence
-> risk tier decision
-> clarify / abstain / escalate
-> logged rationale and monitoring sample
2.3 LLM confidence limitation
LLM 的自然语言自我表述、token probability、logprob、temperature 或“请给出置信度”提示,不能直接当成真实正确率。原因包括:
| 限制 | 产品和架构含义 |
|---|---|
| 自报 confidence 容易受 prompt、措辞、上下文和对齐训练影响 | 不让模型自己给最终风险背书,使用外部 eval 和校准层 |
| token probability 衡量下一个 token 的生成偏好,不等于事实正确率或业务可用性 | 对 RAG 必须测 citation support、claim support、answerability |
| 流畅表达会放大用户信任 | 高风险回答使用约束模板、证据卡、人工入口和明确边界 |
| 同一问题多次采样可能答案稳定但仍然错误 | 不能只用 self-consistency,必须接入来源、规则、业务系统和专家标签 |
| 模型升级会改变置信分布 | 每次模型、prompt、retriever、index 或 policy change 都要重跑校准和漂移检查 |
3. Uncertainty-to-Action 架构
3.1 总体架构
Business request / customer interaction
-> risk tier and intent classification
-> data quality and permission checks
-> model prediction or RAG answer generation
-> uncertainty estimation
- probability score
- calibrated confidence
- prediction interval
- prediction set
- retrieval and citation support
- OOD and drift signal
-> uncertainty calibration
- ECE
- Brier score
- reliability diagram
- temperature scaling
- conformal calibration
-> policy decision
- auto approve / answer
- ask clarifying question
- narrow prediction set
- route to analyst / specialist
- abstain or refuse
- block high-impact automation
-> user experience and operations
-> monitoring, fairness, audit evidence, remediation
3.2 架构组件
| 组件 | 主要职责 | 金融零售落地 |
|---|---|---|
| Risk tiering service | 根据客户影响、监管触点和动作类型确定控制强度 | 信贷、投诉、投资、AML、欺诈拦截进入高控制路径 |
| Prediction service | 输出分类概率、回归预测、rank score、LLM answer 或 tool result | PD、fraud score、KYC risk tier、AML alert triage、RAG answer |
| Uncertainty estimator | 估计 epistemic / aleatoric / retrieval / workflow uncertainty | ensemble、quantile、conformal score、OOD detector、retrieval support |
| Calibration layer | 把模型分数映射到经验正确率或覆盖率 | Platt / isotonic / temperature scaling、segment calibration、conformal calibration |
| Decision policy engine | 把 confidence、coverage、业务规则和客户影响转成动作 | risk-based routing、abstention、manual review、customer disclosure |
| UX renderer | 以客户或员工可理解方式表达不确定性 | 证据强度、需要确认、可升级人工、不得显示误导性精确数字 |
| Monitoring and audit | 跟踪 calibration drift、coverage、分段公平、人工 override、投诉和事件 | 模型风险仪表盘、release gate、evidence binder |
3.3 不确定性类型
| 类型 | 含义 | 典型信号 | 处置动作 |
|---|---|---|---|
| Aleatoric uncertainty | 业务对象本身有噪声,更多数据也难完全消除 | 收入波动、交易行为随机性、欺诈标签延迟 | 用 prediction interval、风险定价、人工复核缓冲 |
| Epistemic uncertainty | 模型对某类样本学得不充分 | 新客群、新商户类型、新欺诈模式、低样本区域 | 扩充数据、降低自动化、专家复核、active learning |
| Distribution uncertainty | 当前样本偏离训练分布 | 新渠道、新地区、新产品、营销活动后客群变化 | OOD flag、校准漂移监控、分段阈值 |
| Retrieval uncertainty | RAG 没有找到足够权威证据 | gold source miss、citation weak、conflicting docs | 拒答、提示来源冲突、升级人工 |
| Workflow uncertainty | 模型输出没错,但流程上下文不足 | 客户身份未确认、权限不足、投诉语境缺失 | 补充信息、身份验证、case handoff |
| Governance uncertainty | 控制证据不足,无法证明系统可用 | 缺少校准报告、分段监控、变更记录 | 延后上线、缩小范围、管理层风险接受 |
3.4 Uncertainty-to-Action Matrix
| Confidence / coverage 状态 | 客户影响低 | 客户影响中 | 客户影响高 |
|---|---|---|---|
| 高置信且已校准 | 自动回答或处理,记录日志 | 自动处理加抽样 QA | 限定自动建议,关键动作仍需规则或人审确认 |
| 中置信 | 给出答案并暴露可选人工入口 | 要求确认或补充信息 | route to human,禁止直接触发不利动作 |
| 低置信 | 澄清问题、缩小候选范围 | abstain,给出安全替代路径 | human escalation,记录原因,必要时停用该路径 |
| 校准失效或 drift 告警 | 降级到保守阈值 | 暂停自动化扩大范围 | 进入 incident / issue management |
| 分段覆盖不足 | 继续观察并标注限制 | 按 segment 调阈值或补样本 | 不允许对该 segment 自动决策 |
4. 概率校准
4.1 Calibration 的定义
一个分类模型如果说“这批样本我有 80% confidence”,那么这批样本的真实正确率应接近 80%。这就是 calibration 的业务含义。
反例:
| 模型输出 | 实际结果 | 风险 |
|---|---|---|
| fraud score 0.95 | 实际只有 70% 是欺诈 | 过度拦截,客户损害,投诉上升 |
| credit default probability 0.08 | 实际违约率 0.14 | 定价不足,风险暴露 |
| KYC high risk 0.85 | 某地区实际 precision 很低 | 分段偏差,调查资源浪费 |
| RAG answer confidence high | 引用无法支撑结论 | 客户误导,审计证据断裂 |
校准不是提高模型区分能力。一个模型可以 AUC 很高但校准很差,也可以校准较好但区分能力不足。上线评估要同时看 discrimination 和 calibration。
4.2 ECE
Expected Calibration Error, ECE,把预测 confidence 分桶,比较每个桶的平均 confidence 和真实 accuracy,再按样本占比加权。
ECE = sum over bins (bin_size / total_size) * abs(bin_accuracy - bin_confidence)
使用 ECE 的产品含义:
| 维度 | 高级判断 |
|---|---|
| bin 选择 | 分桶过粗会掩盖问题,分桶过细会不稳定;高风险场景要看 reliability diagram 而不只看一个 ECE |
| top-label ECE | 多分类意图识别常看 top predicted class 的 confidence 是否可靠 |
| segment ECE | 必须按产品、渠道、地区、语言、年龄段代理变量、收入段、商户类型、客户 tenure 等切片 |
| outcome lag | 信贷违约、AML true positive、欺诈 chargeback 有标签延迟,监控窗口要显式处理 |
| threshold impact | ECE 改善不等于业务损失下降,必须连接 routing policy 和 cost matrix |
4.3 Reliability Diagram
Reliability diagram 把 confidence bucket 和真实正确率画在一起。理想模型接近对角线。
Bucket confidence: 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9
Observed accuracy: 0.1 0.3 0.4 0.5 0.5 0.6 0.7 0.7 0.8
Interpretation: high confidence buckets are over-confident
Action: recalibrate, raise abstention threshold, monitor segment drift
产品和架构团队看 reliability diagram 时要问:
| 问题 | 含义 |
|---|---|
| 哪些 confidence 区间最危险 | 高置信错误比低置信错误更容易被自动化放大 |
| 哪些 segment 偏离最大 | fairness across segments 和客户影响控制的入口 |
| 校准后是否牺牲排序能力 | temperature scaling 通常不改变排序,其他方法可能影响阈值策略 |
| 阈值落在哪个 bucket | 决策阈值附近的校准质量最关键 |
| 生产分布是否仍覆盖评估 bucket | 新客群导致 bucket 样本稀疏时,阈值可信度下降 |
4.4 Brier Score
Brier score 是概率预测的均方误差:
Brier score = mean((predicted_probability - actual_outcome)^2)
它同时惩罚不准确和不校准,适合二分类概率预测,如欺诈、违约、流失、投诉升级概率。
| 用法 | 金融零售示例 |
|---|---|
| 模型比较 | 两个 fraud model 的 AUC 接近时,用 Brier score 看概率质量 |
| 阈值策略 | 如果业务动作依赖概率大小,Brier score 比单纯 F1 更贴近风险 |
| 分段监控 | 某商户行业 Brier score 恶化,可能表示欺诈模式变化 |
| 模型风险报告 | 与 ECE、reliability diagram、loss by segment 一起进入 validation pack |
4.5 Temperature Scaling
Temperature scaling 是对 logits 做单参数缩放:
calibrated_probability = softmax(logits / T)
| T 值 | 含义 |
|---|---|
| T > 1 | 降低过度自信,使概率更平滑 |
| T < 1 | 提高 confidence,使概率更尖锐 |
| T = 1 | 保持原始 softmax |
适用场景:
| 场景 | 判断 |
|---|---|
| 深度分类模型 softmax 过度自信 | 常见且实用 |
| 只需要后处理,不想重训模型 | 合适 |
| 需要保持类别排序 | 合适,因为单调缩放通常不改变排序 |
| 不同 segment 校准形态差异很大 | 单一 temperature 可能不足,需要分段校准或更强校准方法 |
| RAG answer confidence | 不能直接套用,需要先定义 answer correctness、citation support 或 answerability label |
4.6 校准方法选择
| 方法 | 优点 | 风险 | 适用 |
|---|---|---|---|
| Temperature scaling | 简单、稳定、对深度分类模型实用 | 只能修正整体 confidence,不解决局部错校准 | 意图分类、图像/文本分类、欺诈分类模型后处理 |
| Platt scaling | 二分类常用,工程简单 | 对非线性校准不足 | 二分类 score 到概率 |
| Isotonic regression | 非参数,能拟合复杂校准曲线 | 小样本容易过拟合 | 样本足够、校准曲线非线性 |
| Beta calibration | 对概率分布形态更灵活 | 解释和治理成本高于 temperature | 二分类概率后处理 |
| Venn-Abers | 可输出概率区间 | 实现和解释更复杂 | 高风险概率场景 |
| Conformal prediction | 输出集合或区间,强调 coverage | 不等同于概率校准,且依赖可交换性 | 需要明确覆盖保证的分类、回归、时间序列或风控路径 |
4.7 Segment Calibration 和公平性
整体校准好,不代表每个客户群体都可靠。金融零售必须关注 fairness across segments。
需要切片的 segment:
| Segment 类型 | 示例 |
|---|---|
| 产品 | 信用卡、个人贷、房贷、小微商户、财富、保险 |
| 渠道 | APP、网银、分行、呼叫中心、第三方导流 |
| 客户生命周期 | 新客户、老客户、沉睡客户、困难客户、投诉客户 |
| 地理和语言 | 州、省、市、语言、地区政策版本 |
| 风险代理变量 | 收入段、商户 MCC、设备类型、交易网络、行业 |
| 受保护属性相关代理 | fair lending / anti-discrimination 审查中依法合规处理 |
分段校准治理要求:
| 现象 | 处置 |
|---|---|
| 某 segment ECE 明显高 | 降低自动化、调阈值、补充样本、专家复核 |
| coverage 在少数群体不足 | 不允许用整体 coverage 声称该群体安全 |
| 高风险 segment 样本少 | 用保守阈值、人工复核和置信区间表达不确定 |
| drift 集中在某渠道 | 对该渠道单独降级或暂停自动路由 |
5. Conformal Prediction
5.1 核心定位
Conformal prediction 的目标不是输出“模型有多聪明”,而是把任意模型包装成带覆盖率语义的输出:
| 任务 | 输出 |
|---|---|
| 回归 | prediction interval,例如贷款损失率在 3.2% 到 7.8% |
| 分类 | prediction set,例如客户意图属于 {fee_dispute, billing_question} |
| 排序或检索 | 包含足够候选项的 set 或 risk-controlled candidate list |
| 风控 | 在给定错误容忍度下控制自动化动作范围 |
关键概念:
coverage = P(true label or value is inside the prediction set / interval)
例如目标 coverage 为 90%,意思是长期看真实标签或真实值应有约 90% 落在 conformal set / interval 内。它不是说某一笔个案有 90% 的主观确定性。
5.2 Split Conformal 工作流
1. Train
用训练集训练基础模型。
2. Calibrate / conformalize
在独立校准集上计算 conformity score。
3. Choose risk level alpha
例如 alpha = 0.1,目标 coverage = 90%。
4. Compute threshold
取校准分数的合适分位数。
5. Predict
对新样本输出 prediction set 或 interval。
6. Monitor
用生产标签回流检查 coverage、set size、interval width、segment coverage 和 drift。
5.3 Prediction Intervals
回归场景中,conformal prediction interval 可以用于:
| 场景 | interval 含义 | 决策方式 |
|---|---|---|
| Credit loss forecasting | 预期损失或违约损失率区间 | 区间过宽则人工复核或保守定价 |
| Collections | 客户还款概率或回收金额区间 | 高不确定客户不进入强自动化催收 |
| Branch staffing | 客流预测区间 | 用上界做容量,用下界做效率 |
| Fraud amount risk | 可疑损失金额区间 | 区间上界触发优先调查 |
| Customer service SLA | 处理时长区间 | 宽区间触发运营主管介入 |
高级判断不是只看 coverage,还要看 interval width:
| 指标 | 含义 |
|---|---|
| coverage | 真实值落入区间的比例 |
| mean interval width | 区间平均宽度,越窄通常越有用 |
| size-stratified coverage | 按区间宽度分层看 coverage,避免窄区间过度自信 |
| segment coverage | 按客户、产品、渠道和地区看 coverage |
| conditional coverage caveat | 总体 coverage 不等于每个条件子群都有同等 coverage |
5.4 Prediction Sets
分类场景中,prediction set 比单一类别更适合表达不确定性。
| 场景 | 单点预测风险 | Prediction set 的产品价值 |
|---|---|---|
| Intent detection | 把投诉误判成普通咨询 | 输出 {complaint, fee_dispute},触发人工或澄清 |
| AML alert triage | 把 suspicious activity 类型判错 | 输出候选风险类型,analyst 选择并补证据 |
| KYC document classification | 把地址证明误判成身份证明 | 输出多个候选文件类型,要求客户确认 |
| RAG answerability | 强行回答超出知识库的问题 | 输出 unanswerable 或 {policy_A, policy_B_conflict} |
| Credit adverse action reason support | 给出不准确主要原因 | 输出候选 reason set,再由规则和合规管道确认 |
Prediction set 的关键指标:
| 指标 | 含义 | 产品解释 |
|---|---|---|
| Coverage | 真标签是否在集合内 | 安全性 |
| Average set size | 平均集合大小 | 可用性 |
| Empty set rate | 没有可接受类别的比例 | 是否需要拒答或补信息 |
| Singleton rate | 只有一个类别的比例 | 自动化潜力 |
| Segment coverage | 各 segment 的覆盖率 | 公平和稳健性 |
5.5 Conformal Prediction 的边界
Conformal prediction 强大,但不能被误用为万能合规证明。
| 边界 | 说明 |
|---|---|
| 可交换性假设 | 训练、校准和生产样本需要足够相似;严重 distribution shift 会削弱 coverage 解释 |
| 总体 coverage 不是条件 coverage | 某些 segment 可能 coverage 不足 |
| coverage 不等于低损失 | 真值在集合内不代表业务成本可接受 |
| set 很大时价值下降 | 把所有类别都放进集合,coverage 高但不可用 |
| 标签质量决定上限 | AML、欺诈、投诉标签延迟或噪声会影响校准 |
| LLM 输出结构复杂 | 对自然语言答案要先定义 claim、source、answerability、policy compliance 等可评分对象 |
5.6 Conformal for RAG Answer Confidence
RAG 的 confidence 不应由 LLM 自报。可以把回答拆成可评分对象:
| 对象 | 可计算信号 |
|---|---|
| Retrieval coverage | gold source 是否被召回,top-k 是否包含权威来源 |
| Citation support | 每个关键 claim 是否被引用片段支持 |
| Answerability | 知识库是否足以回答问题 |
| Source freshness | 引用来源是否为当前有效版本 |
| Conflict detection | 是否存在多个政策版本或来源冲突 |
| Permission correctness | 用户是否有权看到该来源 |
| Refusal correctness | 无答案或高风险时是否正确拒答 |
一种落地方式:
Define RAG correctness label
-> build golden query set
-> score retrieval and citation support
-> train / calibrate answerability classifier
-> conformalize prediction sets:
{answer, ask_clarifying_question, refuse, escalate_to_human}
-> monitor coverage and escalation quality by scenario
对客户可见 RAG,推荐把 confidence 映射为动作,而不是直接展示模型概率:
| 系统状态 | 客户体验 |
|---|---|
| 来源充足且低风险 | 直接回答,附上清晰来源入口 |
| 来源不足 | 说明需要更多信息或无法确认,提供人工入口 |
| 来源冲突 | 告知需要人工确认,不让 AI 选择正式口径 |
| 高风险意图 | warm handoff 到合规授权人员 |
| 权限不足 | 不暴露内部来源,转到安全流程 |
6. Selective Prediction / Abstention
6.1 定义
Selective prediction 指系统只在满足置信、覆盖、成本和政策条件时自动预测;否则 abstain、clarify 或 route to human。
coverage of automation = fraction of cases handled automatically
risk of automation = error or harm among automatically handled cases
这与“提高准确率”不同。selective prediction 明确接受一个事实:某些样本不该自动化。
6.2 Abstention 不是失败
在金融零售中,abstention 是产品能力:
| 场景 | 不该强答的原因 | 正确动作 |
|---|---|---|
| 客户问“我为什么被拒贷” | 需要准确 adverse action reason 和合规流程 | 引导正式通知或人工专员 |
| 客户问“我应该买哪只基金” | 可能涉及投资建议和适当性 | 明确边界,转合规销售或教育内容 |
| AML alert 缺少关键证据 | 错误结论可能误导调查 | 标注证据缺口,分派 analyst |
| 欺诈模型对交易低置信 | 自动拒绝会造成客户损害 | step-up authentication 或人工复核 |
| RAG 检索到旧政策 | 可能输出过期条款 | 拒答并触发知识源修复 |
6.3 Risk-Based Routing
Routing policy 要同时看 confidence、客户影响、业务成本和监管触点。
| 输入 | 示例 |
|---|---|
| Calibrated probability | fraud probability、intent confidence、answerability confidence |
| Prediction interval / set | expected loss interval、candidate intent set |
| Business criticality | 是否涉及信贷、投诉、投资、账户限制、AML |
| Customer vulnerability | 语言、无障碍、困难客户、投诉状态 |
| Evidence strength | source authority、citation support、data freshness |
| Fairness flag | segment calibration gap、coverage gap、proxy risk |
| Operational capacity | analyst queue、SLA、case priority |
Routing 示例:
| 条件 | 动作 |
|---|---|
| fraud probability high 且校准稳定,客户影响可逆 | step-up authentication |
| fraud probability high 但 segment calibration gap 大 | human review before decline |
| KYC document prediction set size = 1 且 confidence calibrated | 自动分类并允许客户确认 |
| KYC prediction set size > 2 | 要求重新上传或人工审核 |
| RAG answerability high、citation support high、低风险 FAQ | 自动回答 |
| RAG answerability medium 或来源冲突 | ask clarifying question 或 escalate |
| credit score decision near cutoff 且 interval 跨越阈值 | manual underwriting |
| calibration drift alert active | 降级到保守 policy |
6.4 Selective Prediction 指标
| 指标 | 定义 | 用途 |
|---|---|---|
| Coverage of automation | 自动处理比例 | 衡量效率 |
| Selective risk | 自动处理样本中的错误率或损失 | 衡量安全 |
| Abstention rate | 放弃自动预测比例 | 衡量保守程度 |
| Human escalation precision | 升级案件中真实需要人工的比例 | 衡量路由质量 |
| Human escalation recall | 应升级案件中被成功升级的比例 | 衡量风险捕获 |
| Override rate | 人工推翻模型比例 | 监控模型或 policy 问题 |
| Customer harm rate | 投诉、补救、误拒、误拦截、错误承诺 | 连接客户影响 |
| Segment selective risk | 各 segment 自动化错误率 | 公平性和模型风险 |
7. 产品体验:Confidence UX
7.1 原则
Confidence UX 的目标不是展示数学,而是帮助客户或员工采取正确动作。
| 原则 | 说明 |
|---|---|
| 不用虚假精确感 | 客户界面避免“我有 87.34% 把握”这类误导性数字 |
| 把不确定性转成下一步 | 确认信息、查看来源、升级人工、等待正式通知、提交材料 |
| 区分事实、建议和决策 | AI 可解释信息,但不替代正式信贷、投资、投诉或 AML 决策 |
| 高风险先边界后答案 | 在信贷、投资、投诉、账户限制场景先说明能力范围 |
| 来源比自信更重要 | RAG 回答优先显示可验证来源和适用范围 |
| 保持人工可达 | 不能用 AI 置信度作为阻断人工支持的理由 |
7.2 员工界面
员工界面可以更具体,但必须避免把 confidence 当成命令。
| UI 元素 | 推荐表达 |
|---|---|
| Confidence label | High / Medium / Low + 校准状态 |
| Evidence panel | 支撑来源、缺失证据、冲突证据 |
| Prediction set | 候选类别和为什么进入集合 |
| Interval | 预测区间、业务阈值、是否跨越阈值 |
| Routing reason | 为什么自动处理、为什么升级、为什么拒答 |
| Human override | 允许选择 override reason,并进入反馈数据 |
| Segment warning | 当前客户或案件落在校准较弱的 segment 时提示 |
员工界面示例:
AI triage result:
Likely categories: fee_dispute, billing_question
Decision: route to servicing specialist
Reason: prediction set has 2 categories and complaint-risk signal is present
Evidence: customer message mentions "formal complaint" and "incorrect charge"
Control: specialist must confirm complaint status before response
7.3 客户界面
客户界面要少用模型术语,多用服务承诺边界。
| 系统状态 | 客户表达 |
|---|---|
| 低风险且有权威来源 | “根据当前产品说明,这项费用通常适用于...” |
| 信息不足 | “我需要再确认一个信息,才能给出适用的说明。” |
| 高风险或正式决策 | “这类问题需要由专员查看您的账户和正式记录。” |
| 信贷不利行动 | “请以正式通知中的原因为准。需要帮助理解通知时,我可以转接专员。” |
| 投资或财富建议边界 | “我可以解释产品资料和风险信息,但不能替您作出投资决定。” |
| 来源冲突 | “我无法确认哪一条规则适用于您的情况,正在转接人工确认。” |
7.4 不推荐的 UX
| 表达 | 问题 |
|---|---|
| “AI 非常确定您会违约” | 伤害性、不可解释、可能引发公平和投诉问题 |
| “置信度 92%,所以不需要人工” | 把模型分数当成服务阻断理由 |
| “答案可能不准确,请自行判断” | 用免责声明替代控制 |
| “系统判断您涉嫌欺诈” | 对客户给出未经确认的高风险结论 |
| “根据内部政策,您不符合条件”且无正式原因 | 可能造成不准确承诺或不完整 adverse action 解释 |
8. 金融零售场景落地
8.1 Credit
Credit 场景的不确定性要与模型风险、公平信贷、adverse action、定价和人工 underwriting 接起来。
| 对象 | 设计要点 |
|---|---|
| PD calibration | 分产品、渠道、credit band、地区、申请来源监控 PD 是否接近实际违约 |
| Cutoff uncertainty | 当 prediction interval 跨越审批阈值时进入人工 underwriting |
| Reason code stability | adverse action reason 不能只由不稳定模型解释生成 |
| Fairness across segments | 看 segment calibration、approval rate impact、error distribution 和 override |
| Human escalation | near-cutoff、薄档案、异常收入、数据冲突、模型漂移时升级 |
Credit routing 示例:
Approve automatically:
calibrated PD below threshold
interval upper bound below risk appetite
no segment calibration warning
reason pipeline complete
Manual underwriting:
interval crosses threshold
thin-file customer
model confidence high but data conflict present
segment coverage below release gate
Do not use AI for final reason:
LLM-generated narrative is not tied to approved adverse action reason codes
8.2 Fraud
Fraud 场景要平衡损失控制和客户损害。
| 风险 | 不确定性控制 |
|---|---|
| false positive 拦截真实客户 | calibrated fraud probability、step-up 而非直接拒绝、快速解锁 |
| fraud ring 新模式 | OOD detection、drift monitor、active learning |
| 高风险 segment 样本少 | 保守 automation、analyst review、分段 coverage |
| 实时延迟 | 使用轻量校准层和离线监控闭环 |
| 客户投诉 | 把 complaint outcome 回流到 selective risk 和 harm rate |
8.3 KYC
KYC 中模型常做 document classification、entity resolution、risk tiering、missing document detection。
| 任务 | 不确定性动作 |
|---|---|
| 文件分类 | prediction set 大于 1 时让客户确认或人工审核 |
| 地址验证 | 数据源冲突时不自动拒绝 |
| 受益所有人识别 | entity match interval 或候选集合交给 analyst |
| 客户风险等级 | 高风险但证据弱时标注 evidence gap,不直接定性 |
| 周期性复核 | drift 或政策版本变化后重跑校准 |
8.4 AML
AML 不确定性治理的关键是避免把模型 triage 和正式可疑活动判断混为一谈。
| 对象 | 控制 |
|---|---|
| Alert prioritization | calibrated suspiciousness score 只用于排序和分派,不替代 investigator conclusion |
| Typology prediction | 输出 prediction set,帮助 analyst 看候选 typology |
| Evidence completeness | 缺少关键交易链路或客户资料时升级补证 |
| SAR narrative assistance | LLM 只辅助摘要,必须引用案件证据并由授权人员确认 |
| Segment fairness | 商户类型、地区、客户类型的 false positive 和 coverage 要被监控 |
8.5 RAG Answer Confidence
RAG answer confidence 应由多信号组成:
answer_confidence =
retrieval recall proxy
+ source authority
+ citation support
+ answerability classifier
+ policy risk tier
+ conflict detection
+ permission correctness
- stale source penalty
- unsupported claim penalty
RAG 发布门禁:
| 门禁 | 衡量 |
|---|---|
| Answerability | 可回答、不可回答、需要澄清的分类准确且已校准 |
| Citation support | 高风险回答的关键 claim 有来源支持 |
| Refusal correctness | 无答案、高风险、权限不足和冲突来源时正确拒答 |
| Coverage by scenario | FAQ、账户服务、投诉、信贷、财富、KYC 各自达标 |
| Human handoff | 升级后上下文完整,客户不需要重复叙述 |
| Drift | 文档版本、政策变化、检索分布和问题类型持续监控 |
9. 治理和 Model Risk
9.1 Governance Mapping to NIST AI RMF
| NIST AI RMF Function | 不确定性治理落地 |
|---|---|
| Govern | 定义 risk appetite、模型清单、owner、审批门禁、human oversight、客户影响和公平性责任 |
| Map | 识别 use case、客户旅程、数据来源、segment、harm scenario、自动化动作和人工升级点 |
| Measure | 测 ECE、Brier score、reliability diagram、coverage、set size、selective risk、human override、calibration drift |
| Manage | 根据阈值执行降级、abstention、route to human、暂停自动化、issue remediation 和 risk acceptance |
9.2 Release Gate
| Gate | 通过标准 |
|---|---|
| Use case boundary | 明确 AI 输出是建议、排序、解释、草稿、正式决策还是客户沟通 |
| Calibration evidence | 有 holdout / validation / calibration set,包含 ECE、Brier、reliability diagram |
| Conformal evidence | 如果使用 prediction sets / intervals,有 coverage、set size / width、segment coverage |
| Selective policy | 自动化、澄清、abstention、人工升级阈值有业务理由和风险接受 |
| Segment fairness | 关键 segment 的 calibration、coverage、错误成本和人工升级率已评估 |
| Customer UX | 客户不被误导,人工入口可达,高风险场景边界清晰 |
| Monitoring | calibration drift、coverage drift、input drift、outcome lag、override、complaint、incident 有生产监控 |
| Change management | 模型、prompt、retriever、index、特征、阈值、policy 改动触发重评估 |
9.3 Monitoring Calibration Drift
生产监控要同时看输入、输出、结果和客户影响。
| 监控对象 | 指标 |
|---|---|
| Input drift | PSI、feature distribution、embedding distribution、intent mix |
| Score drift | confidence distribution、score bucket volume、threshold proximity |
| Calibration drift | ECE over time、bucket accuracy、Brier score、reliability diagram by month |
| Coverage drift | conformal coverage、interval width、set size、empty set rate |
| Segment drift | 各 segment 的 ECE、coverage、selective risk、abstention rate |
| Operations drift | human queue、override rate、escalation SLA、analyst disagreement |
| Customer harm | complaints、appeals、false decline、fee error、wrong answer remediation |
| Knowledge drift | RAG source freshness、citation support、stale source usage、conflict rate |
Outcome lag 处理:
| 场景 | 标签延迟 | 监控方式 |
|---|---|---|
| Credit default | 30 天到数月 | 使用早期 proxy 指标,同时保留最终 cohort 校准 |
| Fraud chargeback | 数天到数周 | 先看 step-up failure、客户申诉,再看 confirmed fraud |
| AML true positive | 调查周期长 | 使用 analyst disposition、quality review、case aging |
| RAG correctness | 可较快抽检 | golden set、QA review、complaint-triggered review |
9.4 Incident and Remediation
触发 incident / issue 的条件:
| Trigger | 处置 |
|---|---|
| 高风险场景 ECE 超出阈值 | 降级自动化,启动模型风险 issue |
| segment coverage 低于门禁 | 对该 segment 关闭自动处理或强制人审 |
| RAG 高风险回答出现 unsupported claim | 暂停相关意图自动回答,修复知识源和 eval set |
| human override 激增 | 检查数据漂移、policy 变更、模型升级 |
| 客户投诉指向 AI 误导 | case review、客户补救、根因分析、控制增强 |
| 模型或 vendor 升级未重校准 | 变更违规处理,回滚或补充验证 |
9.5 Evidence Binder
上线和审计证据应包含:
| Artifact | 内容 |
|---|---|
| Use Case Risk Assessment | 客户影响、自动化动作、监管触点、risk tier |
| Calibration Report | ECE、Brier score、reliability diagram、segment analysis |
| Conformal Evaluation Report | coverage、interval width、prediction set size、conditional caveat |
| Routing Policy Spec | 自动化、clarify、abstain、human escalation 阈值 |
| Confidence UX Spec | 客户和员工界面表达、人工入口、披露和边界 |
| Monitoring Spec | 指标、阈值、owner、频率、incident trigger |
| Fairness Review | segment calibration、coverage、error cost、mitigation |
| Change Log | 模型、prompt、retriever、index、threshold、policy change |
| Human Oversight SOP | review queue、override reason、QA sampling、feedback loop |
10. 模板
10.1 Use Case Uncertainty Intake
| 字段 | 填写要求 |
|---|---|
| Use case name | 业务场景和渠道 |
| Customer impact | 客户是否可见,是否影响权益、资金、账户、投诉、信贷、投资 |
| AI output type | probability、score、classification、prediction interval、prediction set、RAG answer |
| Decision action | 自动处理、建议、排序、草稿、人工辅助、客户沟通 |
| Risk tier | 低、中、高,并说明理由 |
| Required uncertainty measure | calibration、ECE、Brier、conformal coverage、selective risk、answerability |
| Abstention action | 澄清、拒答、人工升级、保守规则 |
| Segment requirements | 必须切片的客户、产品、渠道和地区 |
| Label source | ground truth、专家标签、客户结果、投诉、chargeback、analyst disposition |
| Outcome lag | 标签多久可用,早期 proxy 是什么 |
| Monitoring owner | 业务、模型、数据、平台、运营 owner |
10.2 Calibration Evaluation Sheet
| Metric | Overall | Segment A | Segment B | Decision |
|---|---|---|---|---|
| Accuracy / AUC | ||||
| ECE | ||||
| Brier score | ||||
| High-confidence error rate | ||||
| Reliability diagram finding | ||||
| Threshold bucket sample size | ||||
| Recommended action |
10.3 Conformal Prediction Evaluation Sheet
| Metric | Overall | Segment A | Segment B | Release interpretation |
|---|---|---|---|---|
| Target coverage | ||||
| Empirical coverage | ||||
| Average interval width / set size | ||||
| Empty set rate | ||||
| Singleton rate | ||||
| Size-stratified coverage | ||||
| Drift sensitivity | ||||
| Routing change |
10.4 Risk-Based Routing Policy
Policy name:
Use case:
Risk tier:
Inputs:
calibrated_confidence:
prediction_interval_or_set:
evidence_strength:
segment_calibration_status:
customer_impact:
operational_capacity:
Actions:
auto_process_when:
ask_clarifying_question_when:
abstain_when:
escalate_to_human_when:
block_or_pause_when:
Audit:
logged_fields:
override_reason_required:
customer_message_template:
monitoring_metric:
10.5 RAG Confidence Rubric
| Dimension | Pass | Review | Fail |
|---|---|---|---|
| Answerability | 权威来源足以回答 | 来源部分支持,需要澄清 | 知识库无答案 |
| Citation support | 关键 claim 均有引用支持 | 次要 claim 支持不足 | 关键 claim 无支持 |
| Source freshness | 当前有效版本 | 版本需确认 | 过期或冲突 |
| Permission | 用户有权访问 | 权限边界不清 | 权限不允许 |
| Risk tier | 低风险信息 | 中风险服务 | 高风险决策或客户权益 |
| Action | answer | clarify or specialist review | refuse or escalate |
10.6 Release Gate Memo
Decision:
approve pilot / approve limited launch / do not launch / launch with conditions
Scope:
channels:
customer segments:
product lines:
excluded scenarios:
Evidence:
calibration:
conformal coverage:
selective prediction:
fairness across segments:
RAG support:
human escalation:
Controls:
thresholds:
abstention:
escalation:
monitoring:
incident triggers:
Residual risk:
accepted by:
review cadence:
11. 30 天训练计划
目标:30 天内把不确定性从概念训练成可展示的金融零售 AI 产品和架构资产。训练默认读者已具备高级需求、流程、治理和利益相关方管理能力。
| Day | 主题 | 产出 |
|---|---|---|
| 1 | 读 Guo et al. calibration 论文,整理 softmax overconfidence、ECE、temperature scaling | 1 页 calibration learning note |
| 2 | 用一个二分类样例计算 ECE、Brier score、reliability diagram | 指标 notebook 或伪代码说明 |
| 3 | 设计 credit PD calibration dashboard | 仪表盘字段和分段切片 |
| 4 | 设计 fraud score calibration dashboard | score bucket、false positive、customer harm 指标 |
| 5 | 写 calibration release gate | calibration gate memo |
| 6 | 读 Angelopoulos & Bates conformal guide | conformal prediction 概念图 |
| 7 | 用回归例子设计 prediction interval | credit loss interval 或 SLA interval |
| 8 | 用分类例子设计 prediction set | KYC document 或 intent detection prediction set |
| 9 | 比较 coverage、set size、interval width 的产品含义 | conformal evaluation sheet |
| 10 | 分析 conditional coverage 和 segment coverage 风险 | fairness across segments memo |
| 11 | 阅读 MAPIE docs 的 conformalizers 和 metrics | MAPIE method selection note |
| 12 | 设计 selective prediction policy | automation coverage vs selective risk 图 |
| 13 | 设计 abstention 产品体验 | 客户和员工文案矩阵 |
| 14 | 设计 human escalation workflow | warm handoff SOP |
| 15 | Credit case drill:near-cutoff underwriting | route policy + adverse action boundary |
| 16 | Fraud case drill:交易拦截和 step-up | risk-based routing matrix |
| 17 | KYC case drill:文件分类和客户确认 | prediction set UX |
| 18 | AML case drill:alert triage 和 analyst workflow | evidence strength + escalation policy |
| 19 | RAG case drill:answerability 和 citation support | RAG confidence rubric |
| 20 | Customer-facing regulated AI case drill | confidence UX + disclosure boundary |
| 21 | 设计 monitoring calibration drift | production monitoring spec |
| 22 | 设计 outcome lag 处理 | proxy metrics + cohort validation plan |
| 23 | 设计 segment fairness dashboard | segment ECE / coverage / selective risk |
| 24 | 写 change management rules | model / prompt / index / threshold change triggers |
| 25 | 写 incident response playbook | calibration drift incident flow |
| 26 | 建 evidence binder | artifact map |
| 27 | 准备 architecture review | Uncertainty-to-Action 架构图和组件说明 |
| 28 | 准备 executive memo | risk appetite、benefit、residual risk |
| 29 | 准备 interview story | STAR-T 面试答案 |
| 30 | 完成 portfolio package | playbook 摘要、case study、release gate、dashboard mock |
12. 面试答案
12.1 什么是 calibration,为什么金融 AI 不能只看 AUC?
30 秒回答:
Calibration 衡量模型输出的概率是否对应真实发生频率。AUC 只说明排序能力,不能说明 0.8 的风险分数真的代表 80% 的事件概率。金融场景的定价、阈值、人工复核和客户影响都依赖概率质量,所以必须同时看 AUC、ECE、Brier score 和 reliability diagram。
2 分钟展开:
在 credit、fraud、KYC 和 AML 中,模型分数经常触发业务动作。AUC 高说明模型能把高风险样本排在低风险样本前面,但如果模型系统性过度自信,阈值策略会造成误拒、误拦截、资源错配或风险低估。我的做法是把 calibration 放进 release gate:整体看 ECE、Brier score 和 reliability diagram,关键 segment 单独评估,并把校准结果接到 risk-based routing。对高风险或 near-threshold 样本,不让模型分数直接决定客户权益,而是进入人工复核或补充证据流程。
12.2 ECE、reliability diagram 和 Brier score 各自解决什么问题?
30 秒回答:
ECE 给出整体校准误差,reliability diagram 展示不同 confidence bucket 的偏差形态,Brier score 衡量概率预测与真实结果的均方误差。三者结合才能判断模型分数是否能支撑业务动作。
2 分钟展开:
ECE 简洁,适合做门禁和监控,但会受分桶方式影响。Reliability diagram 能看到模型是整体过度自信,还是只在高分段或低分段偏离。Brier score 同时惩罚错误和概率偏离,适合二分类风险预测。金融场景我会进一步按客户群体、渠道、产品和风险段切片,因为整体校准好可能掩盖某些 segment 的高风险偏差。
12.3 Temperature scaling 适合什么场景,有什么限制?
30 秒回答:
Temperature scaling 是对 logits 做单参数后处理,常用于修正深度分类模型过度自信。它简单稳定,通常不改变类别排序,但不能解决分段错校准、数据漂移或标签质量问题。
2 分钟展开:
如果模型 softmax confidence 偏高,temperature scaling 可以在验证集上学习一个温度参数,让概率更接近经验正确率。它适合意图分类、文档分类、欺诈或 KYC 分类模型的后处理。限制是它是全局缩放,无法自动处理某些客户群体、渠道或产品上的局部偏差。正式上线我会把它与 segment calibration、reliability diagram、漂移监控和 selective prediction 结合,而不是把 temperature scaling 当成单独控制。
12.4 Conformal prediction 和 calibration 有什么区别?
30 秒回答:
Calibration 关注概率是否可信;conformal prediction 关注输出集合或区间是否达到目标 coverage。前者常回答“0.8 是否真接近 80%”,后者回答“真实标签或数值是否落在 prediction set / interval 里”。
2 分钟展开:
Conformal prediction 可以包装任意模型,用校准集上的 conformity score 构造 prediction sets 或 intervals。例如 KYC 文档分类可以输出候选文件类型集合,credit loss forecast 可以输出损失区间。它的产品价值是把不确定性变成可操作边界:集合过大、区间跨阈值或 coverage 在某 segment 不足时,系统升级人工或降低自动化。它的边界是依赖训练、校准和生产数据足够相似;总体 coverage 也不保证每个子群体都同样覆盖。
12.5 如何设计 customer-facing regulated AI 的 confidence UX?
30 秒回答:
我不会直接把模型概率暴露给客户,而是把 confidence 转成清晰的服务动作:可以回答、需要更多信息、需要人工确认或无法处理。高风险场景必须说明边界并保持人工可达。
2 分钟展开:
客户看到“92% confidence”会产生虚假确定感,尤其在信贷、财富、投诉和账户限制场景。我的设计是内部保留 calibrated confidence、coverage、citation support 和 routing reason;客户界面使用可理解语言说明适用范围、来源和下一步。比如 RAG 回答只有在权威来源、当前版本和引用支持都满足时才自动回答;如果来源冲突或涉及正式信贷原因,就转人工或引导正式通知。这样既提升体验,也保留合规和审计证据。
12.6 RAG answer confidence 为什么不能让 LLM 自己打分?
30 秒回答:
LLM 自报 confidence 不等于事实正确率。RAG confidence 应来自 retrieval coverage、citation support、answerability、source freshness、permission correctness 和冲突检测等外部信号。
2 分钟展开:
LLM 很擅长生成流畅答案,但流畅不代表正确。自报置信度会受 prompt 和上下文影响,也不能证明引用支撑结论。生产级 RAG 要先定义答案正确性的标签和 rubric,再对检索、引用、答案可回答性、拒答和人工升级做评估。对客户可见受监管 AI,我会把 RAG confidence 映射为 answer、clarify、refuse 或 escalate,而不是把一个数字直接展示给客户。
12.7 如何监控 calibration drift?
30 秒回答:
监控 calibration drift 要看 score 分布、bucket accuracy、ECE、Brier score、reliability diagram、segment calibration 和业务结果,同时处理信贷、欺诈、AML 的标签延迟。
2 分钟展开:
生产漂移不仅来自模型,也来自产品、渠道、客群、政策和攻击模式变化。我会建立月度或更高频的校准监控:先看输入和 score distribution 是否变了,再看 outcome 回流后的 ECE、Brier 和 reliability diagram。对 outcome lag 较长的 credit 或 AML,会使用早期 proxy 指标和 cohort validation。最关键的是 segment 监控,如果某个渠道或客户群体的校准恶化,应触发降级、人工复核或暂停自动化。
12.8 如何把 selective prediction 用在欺诈风控?
30 秒回答:
欺诈风控不应让模型在所有交易上强行自动判定。高置信且校准稳定的交易可以自动 step-up 或拦截;低置信或高客户影响交易应进入人工复核、补充认证或保守放行策略。
2 分钟展开:
Selective prediction 的核心是只在模型可靠时自动化。欺诈场景里,false positive 会损害客户体验,false negative 会造成损失。我的 routing policy 会结合 calibrated fraud probability、交易金额、客户影响、segment calibration、设备和行为证据。如果模型高置信但落在校准不足的 segment,就不直接拒绝,而是 step-up authentication 或人工复核。监控上看 selective risk、automation coverage、customer harm、申诉结果和 human override。
12.9 如何处理 fairness across segments?
30 秒回答:
不能只看整体指标。要按产品、渠道、地区、客户生命周期和合规认可的公平性切片看 calibration、coverage、selective risk、abstention rate 和 human override。
2 分钟展开:
整体 ECE 或 coverage 达标可能掩盖某个 segment 的过度自信。金融场景中,这可能造成某些客户群体被更多误拒、误拦截或得不到正确服务。我的做法是把 segment calibration 和 coverage 放进 release gate;对样本少或表现不稳的 segment,降低自动化或要求人审;生产中持续监控 drift 和投诉。公平性不是只做一次模型评估,而是贯穿阈值、路由、UX、人工升级和补救。
12.10 作为 PM / 架构师,你如何把 uncertainty 变成上线方案?
30 秒回答:
我会设计 Uncertainty-to-Action 架构:先定义 use case 风险等级,再测 calibration 和 conformal coverage,然后用 routing policy 把 confidence 映射到自动处理、澄清、拒答或人工升级,最后用监控和证据包证明控制持续有效。
2 分钟展开:
我不会让模型团队只交一个 accuracy 报告。产品侧先定义客户影响、业务动作、错误成本和人工升级路径;架构侧设计 calibration layer、conformal output、policy engine、UX renderer 和 monitoring pipeline;治理侧建立 release gate、segment fairness review、change management 和 incident trigger。这样不确定性就从抽象指标变成可执行的产品能力和风险控制,尤其适合 credit、fraud、KYC、AML 和客户可见 RAG。
13. 作品集表达
如果把本文转成作品集,可以用一个金融零售案例展示:
Case: Customer-facing credit card servicing AI
Problem:
客户在 APP 中询问信用卡费用、提额、拒绝原因和争议交易。
Risk:
客户可能把 AI 回答理解成正式信贷结论或机构承诺。
Design:
- RAG answerability classifier
- citation support scoring
- calibrated intent confidence
- conformal prediction set for customer intent
- risk-based routing policy
- human escalation for credit / complaint / dispute paths
- confidence UX without misleading numeric probability
Evidence:
- ECE and reliability diagram by intent and channel
- RAG citation support report
- prediction set coverage by scenario
- selective risk and escalation precision
- segment calibration and complaint monitoring
- calibration drift dashboard
Outcome:
AI handles low-risk FAQ and account-service questions,
abstains or escalates regulated and uncertain cases,
and produces an audit trail for model risk, compliance and customer remediation.
面试中的高级表达:
我把 uncertainty 当成 AI 产品的控制平面,而不是模型输出旁边的一个小数字。真正的设计问题是:什么时候自动化,什么时候澄清,什么时候拒答,什么时候升级人工,以及上线后如何证明这些判断在不同客户群体上仍然可靠。