AI 扩展计划 / Playbooks

AI Frontier Model Strategy / Distillation / Small Models Playbook

以下来源作为本文的技术与治理锚点。正式项目需要按访问日期复核版本、许可证、供应商条款和内部模型风险政策。

728 行AI_FRONTIER_MODEL_STRATEGY_DISTILLATION_SMALL_MODELS_PLAYBOOK.md

AI Frontier Model Strategy / Distillation / Small Models Playbook

定位：面向 AI Product Architect / AI Platform PM / ML Platform / CTO Staff / Enterprise Architect，训练“模型组合策略”能力：什么时候用 frontier model，什么时候用 small / specialist model，如何用蒸馏、压缩、量化、路由和治理把能力、成本、延迟、隐私和风险放进同一个可运营体系。

核心判断：frontier model 决定能力上限，small model 决定规模化运营边界。企业 AI 架构成熟度不在于接入了多少大模型，而在于能否把高能力模型、安全治理、低延迟路径、隐私边界和生命周期控制组织成可评估、可回滚、可审计的 model portfolio。

1. Source Anchors

以下来源作为本文的技术与治理锚点。正式项目需要按访问日期复核版本、许可证、供应商条款和内部模型风险政策。

Anchor	Link	本文使用方式
Hinton / Vinyals / Dean, Distilling the Knowledge in a Neural Network	https://arxiv.org/abs/1503.02531	用 teacher-student、soft target、specialist model 的思想理解蒸馏不是“模型变小”，而是知识迁移和部署约束重构。
DistilBERT paper	https://arxiv.org/abs/1910.01108	用预训练阶段蒸馏、三重损失、边缘部署实验理解通用模型压缩到可部署表示模型的产品意义。
ONNX Runtime quantization docs	https://onnxruntime.ai/docs/performance/model-optimizations/quantization.html	用 PTQ / QDQ / calibration / INT8 部署语言连接模型优化和生产推理。
Hugging Face Transformers Quantization	https://huggingface.co/docs/transformers/main_classes/quantization	用 8-bit / 4-bit、AWQ、GPTQ、bitsandbytes 等能力理解 LLM 推理资源压缩的工程选型。
Hugging Face Optimum	https://huggingface.co/docs/optimum/index	用硬件目标优化、推理加速和部署工具链理解模型压缩不是孤立训练动作。
Hugging Face SetFit Knowledge Distillation	https://huggingface.co/docs/setfit/how_to/knowledge_distillation	用少样本分类、小模型、未标注数据蒸馏理解企业意图分类和运营分类器的落地路径。
NIST AI RMF	https://www.nist.gov/itl/ai-risk-management-framework	用 Govern / Map / Measure / Manage 把模型组合、数据、评估、监控和变更控制纳入风险管理语言。
NIST GenAI Profile	https://www.nist.gov/publications/artificial-intelligence-risk-management-framework-generative-artificial-intelligence	用 GenAI 风险画像补充 frontier / distilled / specialist model 在客户影响、内容风险和供应商依赖上的控制。

2. 一句话定位

Model strategy = 把不同能力、成本、延迟、隐私、可解释性和治理强度的模型组合成一个可运营系统，而不是为每个 use case 机械选择“最大模型”或“最便宜模型”。

在企业 AI 平台中，模型不是单点依赖，而是资产组合：

模型类型	战略角色	典型任务	平台能力要求
Frontier model	能力上限、复杂推理、生成高质量合成数据、teacher、fallback	复杂问答、推理、政策解释、难例评审、agent planning	model gateway、prompt registry、eval harness、cost guardrail、data boundary
Mid-size general model	平衡能力与成本，承担主干工作流	内部助手、摘要、结构化抽取、case draft	routing、RAG、缓存、SLO、质量监控
Small language model	高频低成本任务、可私有化部署、低延迟路径	分类、抽取、改写、短回答、检索增强摘要	distillation pipeline、quantization、release gate、edge / CPU serving
Specialist model	领域窄任务的高确定性组件	KYC 文档分类、AML alert triage、支付风险信号、意图识别	domain dataset、calibration、threshold、human review loop
Embedding / reranker model	知识检索和语义匹配控制面	RAG 检索、相似案例、政策条款匹配	index version、retrieval eval、metadata filter
Guardrail / policy model	风险拦截和流程升级	PII 检测、越权意图、客户可见内容风险	policy-as-code、audit log、red-team cases
On-device / edge model	隐私、离线、实时交互	客户端分类、OCR 后处理、语音端侧意图	model signing、device telemetry、privacy budget

关键不是“哪个模型最好”，而是“哪一段工作流需要什么能力、失败代价和运营边界”。

3. 为什么重要

金融零售 AI 的高价值场景通常同时具备高交易量、强监管、强隐私、强延迟约束和高客户影响。只依赖 frontier model 会把成本、供应商风险、数据边界和延迟暴露放大；只依赖小模型又会在复杂推理、长尾问题和客户可见体验上失守。

战略问题	单模型思路的风险	模型组合思路
成本	用大模型处理所有意图分类、抽取和路由，单位经济性失控	高频确定性步骤用 small / specialist model，低置信度升级 frontier
延迟	支付风控、客服入口、移动端交互无法承受长尾响应时间	本地或近端小模型先决策，复杂路径异步复核
隐私	敏感 KYC / AML / 客户投诉数据过度暴露给外部供应商	on-prem / VPC / edge 小模型处理敏感前置步骤，必要时脱敏后升级
质量	大模型在窄任务上表现不稳定，小模型在长尾问题上能力不足	teacher-student eval + cascade，把确定性和创造性分层
治理	模型升级、prompt 改动、量化参数变化难追踪	model registry + route policy + release gate + monitoring pack
韧性	单一 vendor 或单一模型故障导致业务中断	多模型 fallback、degraded mode、human handoff
审计	只保留最终回答，无法解释为什么选择某模型	记录 route reason、confidence、fallback、model version、data lineage

对 AI Product Architect 来说，模型策略的产品问题是：用什么模型在什么风险等级、什么渠道、什么延迟预算、什么成本上限、什么人工复核策略下解决哪一段业务动作。

4. Frontier vs Small Model Strategy

4.1 Frontier model 适合承担的角色

角色	适用条件	产出证据
Complex reasoner	需要多步推理、跨文档整合、例外判断，且延迟可接受	reasoning eval、expert review、引用正确率、拒答质量
Teacher	用高质量输出、soft label、rationale、hard negative 训练 student	teacher prompt version、label quality audit、student uplift
Long-tail fallback	small model 低置信度、OOD、客户升级、监管敏感问题	fallback trigger log、resolution rate、human override
Synthetic data generator	生成覆盖边界条件、反例、变体话术和红队样本	data provenance、dedup、toxicity / leakage scan
Policy interpreter	将复杂政策转成结构化规则、rubric、case annotation	subject matter expert signoff、policy citation evidence
Agent planner	分解复杂任务、选择工具、生成执行计划，但不直接执行高风险动作	tool policy approval、HITL record、plan quality eval

4.2 Small / specialist model 适合承担的角色

角色	适用条件	产出证据
Fast classifier	类别边界稳定、标签体系明确、错误成本可用 fallback 控制	macro F1、calibration、threshold curve、confusion matrix
Extractor	输出 schema 稳定、文本结构半固定、可校验	field-level precision / recall、schema violation rate
Router	决定使用哪个模型、知识库、工具或人工队列	routing accuracy、cost saving、bad route severity
Guardrail	拦截敏感输入、越权请求、客户可见风险	policy recall、false block rate、red-team pass rate
Edge assistant	需要端侧隐私、离线、低延迟或低带宽	device latency p95、battery / memory footprint、secure update
Batch triage	大量 case 先排序、聚类、摘要，供人工复核	analyst acceptance rate、review time reduction、missed critical rate

4.3 三条决策原则

原则	说明	金融零售判断例
能力分层	先把 workflow 拆成分类、检索、抽取、生成、判断、执行，再逐段选模型	AML triage 不应让大模型直接“决定可疑”，而应拆成信号解释、相似案例、优先级建议和人工复核
风险分层	风险等级越高，越要把模型输出限制在 decision support、evidence citation 和 human approval 内	客户-facing 投诉回复可以由 frontier 起草，但发送前要经过 policy guardrail 和人工确认
成本分层	高频、短文本、低熵任务优先小模型；长尾、复杂、高价值任务升级大模型	客服意图分类每天百万级请求，默认小模型；VIP 投诉和复杂多产品问题升级 frontier

5. Knowledge Distillation 与 Model Compression

5.1 蒸馏不是单纯缩小模型

在企业场景，knowledge distillation 是把 teacher 的行为、概率分布、解释模式、边界判断和领域偏好迁移到 student，使 student 在受控任务上达到可部署的延迟、成本、隐私和可治理要求。

蒸馏对象	用法	适合任务	风险
Soft label distillation	student 学习 teacher 对各类别的概率分布	意图分类、风险等级、文档类型	teacher calibration 差会被继承
Hard label distillation	teacher 输出最终标签，人工抽样校验	批量标注、冷启动分类器	容易把 teacher 错误固化成标签噪声
Rationale distillation	teacher 生成简短理由或证据引用，student 学习解释模式	AML triage、KYC exception reason	rationale 可能看似合理但不忠实
Feature / representation distillation	对齐中间表示或 embedding 空间	检索、rerank、语义匹配	工程复杂，版本兼容要求高
Preference distillation	student 学习成对偏好或排序	回复质量排序、case prioritization	偏好数据可能混入业务偏见
Policy distillation	把政策边界、拒答、升级规则蒸馏给小模型	客户-facing fallback、合规话术	政策变化后需要快速刷新

5.2 Model compression 技术版图

技术	核心作用	产品架构关注点
Knowledge distillation	用 teacher 训练 student，在目标任务上保留关键行为	teacher 质量、数据治理、student eval、版本血缘
Quantization	用低精度表示降低内存和推理成本	精度损失、校准数据、硬件支持、P95 延迟、回滚包
Pruning	删除冗余权重、层或注意力头	稀疏算子支持、部署 runtime、精度回归
Low-rank adaptation / compression	用低秩结构减少参数更新和部署成本	多租户 adapter 管理、合并策略、版本治理
Sparsity / MoE routing	只激活部分参数或专家	负载均衡、尾延迟、可解释路由
Speculative decoding	小模型先生成候选，大模型验证	适合生成延迟优化，但不能替代质量 eval
Caching / KV cache optimization	降低重复上下文和生成成本	缓存一致性、权限、敏感数据、失效策略

5.3 Quantization 的架构含义

量化的 PM 问题不是“INT8 是否更快”，而是量化后是否仍满足风险分层的质量、校准、稳定性和审计要求。

决策点	架构问题	Gate evidence
PTQ vs QAT	校准数据能否代表生产分布；是否需要训练阶段适配量化误差	calibration set profile、pre/post quant eval、hard slice report
INT8 vs INT4	内存和成本收益是否值得质量损失	latency / memory / quality curve、fallback rate impact
CPU vs GPU vs NPU	部署位置是否影响隐私、延迟和扩展成本	hardware benchmark、capacity plan、failure mode
Static vs dynamic quantization	输入分布是否稳定，batch 和 sequence length 是否可预测	workload profile、drift monitor
Runtime selection	ONNX Runtime、TensorRT、OpenVINO、mobile runtime 是否支持目标模型算子	compatibility test、rollback artifact

6. 架构模式

Pattern A: Model Portfolio Gateway

Use case request
  -> policy / risk tiering
  -> route policy
  -> model gateway
      -> small model
      -> specialist model
      -> frontier model
      -> embedding / reranker
  -> eval / guardrail
  -> response / action / human handoff
  -> trace + cost + quality + audit log

适用：企业内多个 AI use case 共用模型接入、成本、审计和 fallback。

关键设计：

能力	要求
Route policy	按 use case、risk tier、channel、latency budget、data class、confidence、cost cap 选择模型
Model allowlist	模型来源、版本、区域、数据处理条款、批准用途可追踪
Trace	每次请求记录 route reason、model version、fallback、confidence、cost、latency
Budget	按团队、use case、模型、环境设置 quota 和异常告警
Fallback	模型不可用、超时、低置信度、policy block 时进入降级路径

Pattern B: Teacher-Student Distillation Factory

Domain corpus + production logs + expert labels
  -> data filtering / PII controls / label policy
  -> frontier teacher generation
  -> expert audit + disagreement review
  -> student training / distillation / quantization
  -> teacher-student eval + independent gold eval
  -> shadow deployment
  -> release gate
  -> monitoring + refresh loop

适用：客服意图、KYC OCR 后分类、AML triage、支付风险文本信号、代码 Agent 路由。

关键控制：

teacher prompt 和模型版本必须固定并登记。
蒸馏数据必须记录来源、许可、PII 处理、标签生成方式和人工抽检结果。
eval 不能只看 teacher-student agreement；必须有独立 gold set 和关键业务切片。
student 的低置信度路径必须可升级到 frontier 或人工。
量化、剪枝、runtime 优化后要重新跑 release gate。

Pattern C: SLM + RAG

User question
  -> small query classifier
  -> metadata-aware retrieval
  -> reranker
  -> small generator / extractor for narrow answer
  -> frontier fallback for complex synthesis
  -> citation / policy guardrail

适用：政策问答、分行运营手册、客服内部知识助手、KYC 操作规范、代码库问答。

设计要点：

组件	小模型优先的原因	升级条件
Query classifier	快速判断问题类型、产品线、风险等级	多意图、低置信度、客户权益影响
Retriever / reranker	成本低、可离线优化、可审计	检索结果冲突或证据不足
Extractive answer	对结构化政策条款和短答案更稳定	需要跨文档推理或解释例外
Frontier fallback	处理复杂整合、长尾语义和自然语言质量	输出必须经过 citation 和 policy gate

Pattern D: Routing / Cascade

Small model first
  -> confidence high + risk low: direct answer / action
  -> confidence medium: ask clarification or retrieve more evidence
  -> confidence low / risk high: frontier model or human review

适用：高吞吐入口、成本敏感、长尾问题比例低的流程。

Cascade 的设计不是“先便宜后贵”，而是风险分级：

Route	条件	动作
Fast path	低风险、类别稳定、置信度高、无敏感动作	small model 直接返回或写入低风险状态
Evidence path	中风险、需要依据、需要引用	small model + RAG + guardrail
Frontier path	多产品、复杂政策、客户投诉、监管敏感	frontier 生成建议，人工或 policy gate 确认
Human path	高金额、高客户影响、模型冲突、监控异常	人工处理并回流标签

Pattern E: On-device / Edge Model

适用：移动端、分行设备、KYC 采集、低带宽环境、隐私敏感前处理。

决策维度	架构要求
Model size	设备内存、启动时间、电池、NPU 支持
Privacy	原始图像、证件信息、语音片段是否可留在端侧
Update	模型签名、灰度、撤回、版本兼容
Telemetry	只上传必要指标和错误码，避免上传敏感原文
Fallback	端侧低置信度时走服务端 OCR、人工审核或重新采集

Pattern F: Low-latency Risk Path

Payment event
  -> deterministic rules + feature store
  -> specialist risk model
  -> small text / behavior classifier
  -> synchronous decision within latency budget
  -> asynchronous frontier challenger for explanation, pattern discovery, analyst review

适用：支付风险、账户接管、异常登录、交易拦截建议。

核心原则：frontier model 不应处在同步支付授权的关键路径；它更适合做异步 challenger、规则发现、case explanation 和 analyst copilot。

Pattern G: Code Agent Small-model Router

Developer task
  -> small router classifies task type and repo risk
  -> retrieval of code context
  -> small model handles lint / search / boilerplate / test routing
  -> frontier model handles architecture change and ambiguous debugging
  -> policy gate for destructive commands and secret exposure

适用：企业内部代码 Agent、DevEx 平台、受控自动化。

关键指标：

route accuracy by task type。
unnecessary frontier call reduction。
bad route severity。
secret / credential exposure block rate。
developer acceptance rate。
test pass rate after agent changes。

Pattern H: Customer-facing AI Fallback

客户可见 AI 不能把 fallback 设计成“模型失败后说抱歉”。成熟设计需要多级降级：

触发	Fallback
小模型低置信度	升级 frontier 但限制输出范围
frontier 输出无可靠引用	返回可解释的人工升级或知识检索结果
policy guardrail 拦截	转人工或给出合规安全话术
高价值客户 / 高情绪投诉	直接 human handoff，AI 生成内部摘要
模型服务超时	使用缓存答案、静态流程指引或人工排队

7. 金融零售案例

7.1 客服意图分类

设计项	推荐策略
模型组合	small classifier 作为入口；frontier teacher 生成长尾表达、同义改写和边界样本
数据	历史工单、聊天首轮、IVR 语音转文本、人工标签、失败转人工原因
Eval	macro F1、top-2 recall、high-risk intent recall、OOD detection、handoff precision
路由	高置信度直接进入技能组；低置信度询问澄清；投诉、欺诈、困难客户升级
监控	意图漂移、新产品话术、错误技能组转派率、平均处理时长

产品判断：客服入口的价值不在“回答多智能”，而在把客户请求快速、准确、安全地送到正确流程。

7.2 KYC OCR 后分类

设计项	推荐策略
模型组合	OCR engine + specialist document classifier + field extractor；frontier 用于疑难解释和样本生成
数据	证件图像元数据、OCR 文本、人工审核标签、拒绝原因、国家/地区文档类型
Eval	document type accuracy、field-level recall、fraud indicator recall、uncertain routing rate
隐私	原始图像优先在受控环境或端侧处理；蒸馏数据脱敏并保留 lineage
Fallback	低质量图像重新采集；低置信度进入人工审核；高风险信号触发增强尽调

关键风险：OCR 文本错误会被 downstream 小模型放大，因此 eval 必须包含 OCR noise slice。

7.3 AML Alert Triage

设计项	推荐策略
模型组合	specialist model 做 alert priority；frontier 生成 analyst summary 和相似案例解释；人工保持最终判断
数据	历史 alert、SAR / non-SAR 标签、规则命中、交易图谱特征、分析员备注
Eval	high-risk recall、false negative severity、analyst acceptance、case review time、explanation support
Governance	不让模型决定可疑交易报告结论；模型只做 triage、evidence grouping、draft narrative
监控	新洗钱模式、规则变更、地理/客群切片漂移、analyst override

产品判断：AML 的小模型价值在降低分析员认知负担和排序工作量，而不是替代合规判断。

7.4 支付风险低延迟

设计项	推荐策略
模型组合	同步链路使用规则、特征模型和小模型；frontier 只做异步 challenger 和解释
数据	交易事件、设备指纹、行为特征、商户风险、争议结果
Eval	fraud capture、false decline、p95 / p99 latency、cost per decision、customer harm
延迟	同步路径目标以毫秒级预算管理；frontier 不进入 authorization blocking path
Fallback	模型超时走规则兜底；高金额或冲突信号进入 step-up authentication

关键取舍：支付风控不是追求最高离线 AUC，而是在低延迟、低误杀和高可用下控制损失。

7.5 代码 Agent 小模型路由

设计项	推荐策略
模型组合	small router 识别任务风险和代码上下文；frontier 处理架构变更、复杂 debug 和跨模块推理
数据	issue、PR、测试日志、代码搜索轨迹、agent 成败记录
Eval	route accuracy、test pass、review rejection、unnecessary frontier calls、unsafe command block
Governance	destructive command、secret access、production config change 需要 policy gate
监控	模型路由错误、失败重试、开发者采纳率、代码质量回归

产品判断：代码 Agent 的小模型不是为了“写所有代码”，而是把常见低风险步骤快速处理，并把高风险上下文送给更强模型或人工。

7.6 Customer-facing AI Fallback

设计项	推荐策略
模型组合	small intent / safety classifier + RAG + frontier answer generator + policy guardrail
数据	客户问题、可公开政策、投诉样本、拒答样本、人工升级记录
Eval	answer correctness、citation support、unsafe advice rate、handoff quality、customer satisfaction
Governance	不能让模型承诺费用减免、账户动作、法律/投资建议；高风险话术转人工
监控	policy block、客户负反馈、重复追问、人工覆盖率、渠道差异

成熟 fallback 要让客户感到流程仍然可控，而不是暴露“模型能力不足”。

8. 产品决策框架

8.1 Latency / Cost / Privacy / Quality 四维取舍

决策场景	延迟	成本	隐私	质量	推荐策略
客服意图入口	极高	高	中	中高	small classifier + frontier teacher + low-confidence cascade
KYC OCR 后分类	高	中	极高	高	edge / private specialist model + manual review fallback
AML alert triage	中	中	高	极高	specialist triage + frontier analyst copilot + HITL
支付风险同步决策	极高	高	高	极高	deterministic rules + low-latency specialist model；frontier 异步
内部政策 RAG	中	中	中高	高	SLM + RAG for simple answers；frontier for complex synthesis
客户-facing 投诉回复	中	中	高	极高	frontier draft + policy guardrail + human handoff for high risk

8.2 Small model 进入生产的判断线

判断线	进入生产的条件
Task stability	标签体系、输入分布、业务动作在一个 release 周期内稳定
Evaluation maturity	有独立 gold set、hard negative、关键切片和置信度阈值
Fallback design	低置信度、OOD、policy conflict、模型超时都有明确路径
Governance	model card、data lineage、owner、批准用途、变更记录完整
Economics	节省的成本和延迟大于训练、评估、监控、刷新和人工复核成本
Operational readiness	监控、告警、rollback、版本灰度、incident response 已纳入平台

9. Teacher-Student Eval Plan

Teacher-student eval 的目标不是证明 student “像 teacher”，而是证明 student 在目标业务边界内比现有方案更可靠、更便宜、更快，并且失败时可控。

9.1 Eval 结构

Eval 层	目的	样本
Teacher quality audit	确认 teacher 标签和 rationale 可用	teacher 输出、人工复核、争议样本
Student vs gold	证明 student 对真实标签有效	专家 gold set、历史 closed cases、平衡切片
Student vs teacher	观察蒸馏一致性和差异	同一输入下 teacher / student 输出对比
Student vs baseline	证明业务价值	现有规则、传统模型、人工首判
Compression eval	评估量化、剪枝、runtime 优化后的回归	pre/post optimization paired eval
Cascade eval	验证路由阈值和 fallback 是否降低风险	fast path、fallback path、human path 样本
Production shadow	生产流量旁路验证	真实请求、无客户影响、监控 trace

9.2 指标组合

任务	主要指标	必看切片
意图分类	macro F1、top-k recall、ECE calibration、OOD recall	投诉、欺诈、困难客户、方言/错字、新产品
OCR 后分类	document type accuracy、field recall、schema violation	低清晰度、非标准证件、跨地区、OCR noise
AML triage	high-risk recall、false negative severity、analyst acceptance	高金额、跨境、现金密集、历史 SAR 类似样本
支付风险	fraud capture、false decline、p99 latency、decision cost	新设备、高金额、商户类别、老年客户、国际交易
客户-facing 回复	groundedness、citation support、unsafe advice、handoff quality	费用争议、投诉升级、监管敏感、情绪高压

9.3 常见失败模式

失败模式	表现	控制
Teacher error inheritance	student 高度复刻 teacher 的错误边界	独立 gold set、专家争议池、teacher ensemble
Agreement trap	只看 student 和 teacher 一致率	引入业务 baseline、人工标签、severity-weighted eval
Slice blindness	总体分数好，高风险客群差	强制 reporting by product、channel、customer segment、risk tier
Confidence miscalibration	student 高置信度犯错	calibration curve、threshold tuning、abstention class
Rationale laundering	student 学到看似合理的解释	evidence faithfulness eval、citation verification
Compression regression	量化后边界样本失效	paired eval、hard negative replay、rollback model

10. Domain Model Governance

Small model 的治理强度不能因为模型小而降低。模型越靠近高频生产路径，越需要清晰 owner、数据血缘、变更控制和监控。

10.1 Domain model inventory

字段	示例值
Model asset id	`slm-cs-intent-en-us-v3`
Use case	客服入口意图分类
Business owner	Customer Operations
Technical owner	ML Platform
Risk tier	Medium，包含投诉和欺诈升级路径
Approved use	首轮意图路由、技能组分派、低置信度澄清
Prohibited use	自动拒绝客户诉求、自动承诺费用减免、替代人工投诉判断
Teacher model	`frontier-teacher-policy-2026q2`
Training data lineage	历史工单、人工标签、teacher synthetic variants、PII masked
Eval pack	gold set、hard negative、high-risk slice、shadow traffic
Deployment	CPU inference service + model gateway route policy
Fallback	frontier review 或 human queue
Monitoring	drift、calibration、handoff、misroute、customer complaint
Refresh trigger	新产品上线、意图分布漂移、投诉误路由上升、teacher upgrade

10.2 Benchmark pitfalls

Pitfall	为什么危险	更好的做法
只看公开 leaderboard	与企业分布、语言、政策、错误代价不一致	建立 use-case-specific eval pack
只看平均准确率	高风险类别可能被多数类掩盖	severity-weighted metric 和 critical slice recall
只测原模型不测压缩版本	量化、runtime、prompt、route policy 都可能改变行为	release artifact 级别 eval
只测离线不测路由	线上 cascade 决策可能制造新错误	end-to-end route eval 和 shadow deployment
只测英文或标准文本	金融零售有口语、OCR noise、缩写、代码混合语言	生产分布重放和噪声增强
只测模型不测人机流程	小模型可能增加人工负担或错误信任	analyst acceptance、override、review time、complaint outcome
teacher 当真值	frontier teacher 也会幻觉和偏置	专家 gold set、双人复核、disagreement workflow

11. Model Lifecycle

Use case framing
  -> model portfolio decision
  -> data sourcing and governance
  -> teacher / baseline selection
  -> distillation / fine-tuning / compression
  -> offline eval
  -> cascade and fallback design
  -> shadow deployment
  -> release gate
  -> production monitoring
  -> refresh / rollback / sunset

阶段	关键产出	退出条件
Framing	use case、risk tier、workflow step、success metric	明确模型是否影响客户权益或高风险决策
Portfolio decision	frontier / mid / small / specialist / edge / human split	每个 workflow step 有模型责任和 fallback
Data governance	lineage、PII、label policy、license、retention	数据可用、可审计、可删除、可复现
Training / distillation	teacher prompt、student config、compression plan	训练产物可追踪，模型 artifact 可复现
Eval	gold set、slice report、threshold、baseline comparison	达到 release threshold，关键风险有控制
Shadow	production-like trace、成本、延迟、fallback	无客户影响验证线上分布
Release	model card、approval、rollback、monitoring	发布门禁通过，owner 接受运营责任
Monitoring	quality、drift、latency、cost、override、incident	指标在 SLO 内，异常进入 issue loop
Refresh	新数据、新政策、新 teacher、新压缩配置	重新评估并版本化发布
Sunset	停用理由、替代路径、数据保留	路由移除，依赖系统确认

变更触发器：

teacher model 或供应商版本变化。
新产品、新政策、新渠道或新地区上线。
生产输入分布、客户群体或欺诈模式漂移。
量化、runtime、硬件、batching、cache 策略变化。
低置信度比例、人工覆盖率、投诉率、误路由率异常。
内部审计、模型风险或监管检查发现控制缺口。

12. 可落地交付物模板

12.1 Model Portfolio Strategy

字段	示例内容
Strategy name	Retail AI Model Portfolio 2026Q3
Business domains	客服、KYC、AML、支付风险、代码 Agent、客户-facing AI
Portfolio principle	高频稳定任务 small / specialist 优先；复杂推理 frontier；高风险动作 human approval
Frontier approved roles	teacher、complex reasoner、customer-facing draft、long-tail fallback、synthetic evaluator
Small model approved roles	classifier、extractor、router、guardrail、edge preprocessor
Prohibited pattern	frontier 直接进入支付授权同步拦截；small model 自动完成投诉裁决
Cost policy	每个 use case 设置 monthly budget、cost per successful task、fallback cost cap
Latency policy	客服入口 p95 < 150ms；支付同步路径 p99 < 50ms；复杂客户回复 p95 < 5s
Privacy policy	KYC 原始图像和高敏 PII 不出受控边界；外部 frontier 调用使用脱敏上下文
Governance model	model gateway + inventory + release gate + monitoring pack + quarterly portfolio review
Review cadence	每月成本/延迟/质量 review；每季度模型组合和 vendor dependency review

12.2 Teacher-Student Eval Plan

字段	示例内容
Use case	客服意图分类 small model v3
Teacher	frontier model with prompt `cs-intent-teacher-v2`
Student	120M 参数分类模型，INT8 CPU 部署
Baseline	当前规则路由 + 人工首判
Gold set	20,000 条人工复核样本，按意图、渠道、产品、风险等级分层
Hard negative	欺诈 vs 账户登录、投诉 vs 普通咨询、费用争议 vs 账单解释
Metrics	macro F1、critical intent recall、ECE、handoff precision、p95 latency、cost per 1k requests
Release threshold	critical intent recall >= 0.98；macro F1 >= baseline + 5pp；ECE <= 0.05；p95 <= 150ms
Fallback threshold	max probability < 0.72 或 OOD score > threshold 时升级澄清 / frontier / human
Shadow test	10% 生产流量旁路 14 天，无客户可见影响
Approval	Customer Ops、ML Platform、Model Risk、Compliance signoff

12.3 Distillation Data Governance Checklist

控制项	通过证据
Data lineage	每个样本有 source system、time window、business owner、retention class
Data minimization	只保留任务必需字段；原始 PII 使用 token、hash 或受控引用
Consent / permissible use	客户数据使用符合内部政策、合同、隐私声明和地区要求
Label policy	人工标签、teacher 标签、合成标签分开记录，不混淆来源
Teacher prompt version	teacher 输出可追溯到 prompt、model、temperature、policy version
Expert audit	高风险类别、低一致样本、teacher-student disagreement 有专家复核
Bias and fairness slice	按渠道、语言、地区、客群、产品类型检查性能差异
Synthetic data control	合成样本标记为 synthetic，不能覆盖真实高风险样本评估
Leakage scan	训练集、验证集、测试集按客户、case、时间窗口隔离
Deletion path	客户删除、数据保留到期、政策变化可触发样本移除和模型再评估

12.4 Small-model Deployment Decision Tree

1. 任务是否是稳定、窄边界、可量化的 workflow step？
   - 是：进入 2
   - 否：使用 frontier / human-assisted workflow，沉淀数据后再评估

2. 错误是否会直接影响客户权益、监管结论或资金动作？
   - 是：small model 只能做辅助、排序、提醒或证据整理，必须有 human / policy gate
   - 否：进入 3

3. 是否有独立 gold set、hard negatives 和高风险切片？
   - 是：进入 4
   - 否：先建设 eval pack 和 label governance

4. 小模型是否达到质量、校准、延迟和成本门槛？
   - 是：进入 shadow deployment
   - 否：调整数据、蒸馏策略、模型大小或继续使用 cascade

5. Shadow deployment 是否显示生产分布稳定且 fallback 可控？
   - 是：灰度发布并启用 monitoring pack
   - 否：回到 route policy、数据切片或模型训练阶段

12.5 Latency / Cost / Privacy Scorecard

评分采用 1 到 5，5 表示约束最强或收益最高。总分不是自动决策，必须结合风险等级和客户影响解释。

Use case	Latency need	Cost pressure	Privacy sensitivity	Quality risk	Small-model fit	Recommended route
客服意图分类	5	5	3	3	5	small first + frontier fallback
KYC OCR 后分类	4	3	5	4	4	private specialist + manual review
AML alert triage	3	3	5	5	3	specialist triage + frontier copilot + HITL
支付风险同步	5	4	4	5	4	low-latency specialist + rules；frontier async
代码 Agent 路由	4	4	3	4	4	small router + frontier for complex tasks
客户-facing fallback	3	3	4	5	2	frontier draft + guardrail + human path

12.6 Release Gate

Gate	通过标准
Scope gate	approved use、prohibited use、risk tier、workflow owner 明确
Data gate	lineage、PII、label source、license、retention、deletion path 可审计
Eval gate	gold set、hard slices、baseline comparison、teacher-student analysis 完成
Compression gate	量化 / 剪枝 / runtime 优化后的 artifact 通过同一 eval pack
Cascade gate	confidence threshold、OOD、fallback、human handoff 在 shadow traffic 中验证
Security gate	model artifact signed，dependency scanned，secrets and prompt injection controls tested
Compliance gate	客户-facing、KYC、AML、支付风险等高影响场景完成 policy review
Observability gate	latency、cost、quality、drift、fallback、override、incident dashboard 已上线
Rollback gate	previous model、route policy、index、prompt、runtime 可在规定窗口内恢复
Business gate	owner 接受 residual risk，运营团队有处理低置信度和异常样本的流程

12.7 Monitoring Pack

监控对象	指标
Quality	task success、critical recall、classification drift、groundedness、citation support
Calibration	confidence distribution、ECE、abstention rate、low-confidence routing
Cascade	fast path share、fallback rate、bad route rate、frontier escalation cost
Latency	p50 / p95 / p99 by model、queue wait、retrieval time、runtime errors
Cost	cost per request、cost per successful task、teacher generation cost、shadow eval cost
Privacy / safety	PII block、policy block、unsafe output、external call data class
Human loop	override rate、review time、analyst acceptance、handoff resolution
Drift	input distribution、label distribution、new intent emergence、OCR noise shift
Reliability	model timeout、gateway error、edge update failure、fallback success
Governance	release version, route policy version, model owner review, incident closure time

13. 30天训练计划

Day	训练主题	产出
1	建立模型组合地图：列出现有 AI use case 的 workflow step 和模型依赖	Model portfolio inventory v1
2	为每个 step 标注 risk tier、latency budget、cost pressure、privacy class	Risk / latency / privacy matrix
3	选一个高频分类场景，定义 small model candidate	Use case framing one-pager
4	设计 frontier teacher 的允许角色和禁止角色	Teacher policy note
5	设计 gold set、hard negative 和关键切片	Eval dataset blueprint
6	对客服意图分类做 teacher-student eval plan	Eval plan artifact
7	复盘 Day 1-6，形成 portfolio strategy memo	Strategy memo
8	设计 KYC OCR 后分类模型链路	KYC model architecture
9	梳理 OCR noise、低清晰度、非标准证件切片	KYC hard slice pack
10	设计 AML alert triage 中 specialist model 与 frontier copilot 边界	AML triage control design
11	设计支付风险同步链路的 latency gate	Payment risk latency gate
12	设计 code Agent router 的 route policy	Code Agent route policy
13	设计客户-facing fallback 的风险路径	Customer fallback decision table
14	复盘六个金融零售案例，形成 cross-case pattern map	Pattern map
15	深入 quantization：制定 PTQ / QAT / runtime 选择原则	Quantization ADR
16	设计 compression regression eval	Compression eval checklist
17	设计 SLM + RAG 架构，明确 retriever、reranker、generator 分工	SLM + RAG architecture note
18	设计 cascade 阈值和 confidence calibration	Cascade threshold memo
19	设计 on-device / edge model 隐私和更新控制	Edge governance note
20	建立 domain model inventory 字段	Domain model registry schema
21	复盘 Day 15-20，形成 deployment decision tree	Decision tree
22	设计 distillation data governance checklist	Data governance pack
23	设计 release gate，覆盖数据、eval、压缩、cascade、安全、合规	Release gate v1
24	设计 monitoring pack，覆盖 quality、latency、cost、drift、human loop	Monitoring dashboard spec
25	设计 model lifecycle 和 refresh trigger	Lifecycle operating model
26	设计 benchmark pitfall review 流程	Benchmark challenge memo
27	写一份 CTO Staff 视角的 build / buy / route 决策 memo	Executive memo
28	写一份 AI Platform PM 视角的 PRD backlog	Platform backlog
29	完成 5 道面试题的 30 秒和 2 分钟回答	Interview answer pack
30	综合演练：为一个金融零售企业设计 12 个月模型组合路线图	12-month model strategy roadmap

14. 面试回答

Q1: 你如何决定一个场景用 frontier model 还是 small model？

30秒版本：我不会按模型大小决策，而是按 workflow step、风险等级、延迟预算、隐私边界、成本压力和失败代价决策。高频稳定分类和抽取优先 small / specialist model；复杂推理、长尾问题、teacher 数据生成和客户可见高质量草稿用 frontier；高风险动作必须有人或 policy gate。

2分钟版本：我会先把业务流程拆成分类、检索、抽取、生成、判断、执行。以客服为例，入口意图分类是高频、短文本、标签稳定的任务，适合用蒸馏后的小模型，并在低置信度时升级 frontier 或人工。复杂投诉回复则需要 frontier 处理跨政策推理和自然语言质量，但输出要经过 RAG citation、合规 guardrail 和人工确认。支付风险同步链路则不同，frontier 不适合进入毫秒级授权路径，只能做异步解释和规则发现。这样的模型组合既控制成本和延迟，也保留复杂场景能力。

Q2: 如何证明蒸馏出来的小模型可以上线？

30秒版本：只看 teacher-student agreement 不够。必须有独立 gold set、关键高风险切片、baseline 对比、置信度校准、压缩后回归测试、shadow deployment 和 fallback 验证。

2分钟版本：我的上线证据会分七层：第一，teacher 质量审计，确认 teacher 标签和 rationale 不是错误来源；第二，student 对人工 gold set 的效果；第三，student 与 teacher 的差异分析；第四，与现有规则或人工首判 baseline 对比；第五，量化或 runtime 优化后的 artifact 级回归测试；第六，cascade 阈值和 human fallback 的端到端验证；第七，在生产 shadow 流量中观察漂移、延迟、成本和误路由。对 AML 或 KYC 这类场景，还要按高风险样本和监管敏感类别做 severity-weighted eval。

Q3: 量化会带来哪些产品和治理风险？

30秒版本：量化的风险是质量和校准在关键切片上回退，而不是平均分下降一点。上线前必须用同一 eval pack 比较量化前后表现，记录硬件、runtime、校准数据和回滚方案。

2分钟版本：量化把权重或激活降到更低精度，会降低内存和推理成本，但也可能改变边界样本判断、置信度分布和长尾稳定性。产品上要证明成本和延迟收益足以覆盖质量风险；架构上要确认 ONNX Runtime、GPU/NPU/CPU、batch、sequence length 都符合生产 profile；治理上要把量化后的 artifact 当成新模型版本，重新过 eval gate、security gate 和 release gate。对支付风险或客户-facing 场景，我会要求 hard negative replay、critical recall、p99 latency 和 fallback success 同时通过。

Q4: 如何设计客户-facing AI 的 fallback？

30秒版本： fallback 不是模型失败话术，而是多级风险路径：小模型低置信度升级 frontier，frontier 无证据则转人工或返回可验证信息，policy block 触发合规话术和 human handoff，高价值或高情绪客户直接人工优先。

2分钟版本：客户-facing AI 的核心是让客户体验可控。入口用 small classifier 判断意图、风险和情绪；普通问题走 RAG 和受控回答；复杂问题升级 frontier 生成草稿，但必须有 citation 和 policy guardrail；涉及费用减免、账户动作、投诉升级、法律或投资建议时不能由模型直接承诺。fallback 还要覆盖超时、低置信度、知识冲突和敏感内容拦截。监控上看 policy block、人工覆盖、客户负反馈、重复追问和最终解决率，而不是只看回答次数。

Q5: 为什么公开 benchmark 容易误导企业模型策略？

30秒版本：公开 benchmark 很少等同于企业分布、语言、数据噪声、合规边界和错误代价。模型策略需要 use-case-specific eval，尤其是高风险切片、端到端路由、压缩版本和人机流程指标。

2分钟版本： leaderboard 可以作为初筛，但不能作为上线依据。金融零售场景有 OCR noise、口语化客服、地区政策、产品差异、客户权益影响和监管敏感边界。一个模型在公开任务上平均分高，不代表它能处理 AML 的 false negative、支付风险的 p99 latency、KYC 的低清晰度证件或客户投诉的合规话术。我的做法是把公开 benchmark 降级为候选筛选，把真实上线决策交给内部 gold set、hard negative、production shadow、route policy eval 和 monitoring pack。

15. 参考来源链接

Hinton, Vinyals, Dean, “Distilling the Knowledge in a Neural Network”: https://arxiv.org/abs/1503.02531
Sanh, Debut, Chaumond, Wolf, “DistilBERT, a distilled version of BERT: smaller, faster, cheaper and lighter”: https://arxiv.org/abs/1910.01108
ONNX Runtime Quantization: https://onnxruntime.ai/docs/performance/model-optimizations/quantization.html
Hugging Face Transformers Quantization: https://huggingface.co/docs/transformers/main_classes/quantization
Hugging Face Optimum: https://huggingface.co/docs/optimum/index
Hugging Face SetFit Knowledge Distillation: https://huggingface.co/docs/setfit/how_to/knowledge_distillation
Hugging Face Optimum Intel optimization notes: https://huggingface.co/docs/optimum-intel/neural_compressor/optimization
NIST AI Risk Management Framework: https://www.nist.gov/itl/ai-risk-management-framework
NIST AI RMF 1.0 publication: https://www.nist.gov/publications/artificial-intelligence-risk-management-framework-ai-rmf-10
NIST AI 600-1 Generative AI Profile: https://www.nist.gov/publications/artificial-intelligence-risk-management-framework-generative-artificial-intelligence