返回 Papers
AI 扩展计划 / Playbooks

AI Frontier Model Strategy / Distillation / Small Models Playbook

以下来源作为本文的技术与治理锚点。正式项目需要按访问日期复核版本、许可证、供应商条款和内部模型风险政策。

728AI_FRONTIER_MODEL_STRATEGY_DISTILLATION_SMALL_MODELS_PLAYBOOK.md

AI Frontier Model Strategy / Distillation / Small Models Playbook

定位:面向 AI Product Architect / AI Platform PM / ML Platform / CTO Staff / Enterprise Architect,训练“模型组合策略”能力:什么时候用 frontier model,什么时候用 small / specialist model,如何用蒸馏、压缩、量化、路由和治理把能力、成本、延迟、隐私和风险放进同一个可运营体系。

核心判断:frontier model 决定能力上限,small model 决定规模化运营边界。企业 AI 架构成熟度不在于接入了多少大模型,而在于能否把高能力模型、安全治理、低延迟路径、隐私边界和生命周期控制组织成可评估、可回滚、可审计的 model portfolio。


1. Source Anchors

以下来源作为本文的技术与治理锚点。正式项目需要按访问日期复核版本、许可证、供应商条款和内部模型风险政策。

AnchorLink本文使用方式
Hinton / Vinyals / Dean, Distilling the Knowledge in a Neural Networkhttps://arxiv.org/abs/1503.02531用 teacher-student、soft target、specialist model 的思想理解蒸馏不是“模型变小”,而是知识迁移和部署约束重构。
DistilBERT paperhttps://arxiv.org/abs/1910.01108用预训练阶段蒸馏、三重损失、边缘部署实验理解通用模型压缩到可部署表示模型的产品意义。
ONNX Runtime quantization docshttps://onnxruntime.ai/docs/performance/model-optimizations/quantization.html用 PTQ / QDQ / calibration / INT8 部署语言连接模型优化和生产推理。
Hugging Face Transformers Quantizationhttps://huggingface.co/docs/transformers/main_classes/quantization用 8-bit / 4-bit、AWQ、GPTQ、bitsandbytes 等能力理解 LLM 推理资源压缩的工程选型。
Hugging Face Optimumhttps://huggingface.co/docs/optimum/index用硬件目标优化、推理加速和部署工具链理解模型压缩不是孤立训练动作。
Hugging Face SetFit Knowledge Distillationhttps://huggingface.co/docs/setfit/how_to/knowledge_distillation用少样本分类、小模型、未标注数据蒸馏理解企业意图分类和运营分类器的落地路径。
NIST AI RMFhttps://www.nist.gov/itl/ai-risk-management-framework用 Govern / Map / Measure / Manage 把模型组合、数据、评估、监控和变更控制纳入风险管理语言。
NIST GenAI Profilehttps://www.nist.gov/publications/artificial-intelligence-risk-management-framework-generative-artificial-intelligence用 GenAI 风险画像补充 frontier / distilled / specialist model 在客户影响、内容风险和供应商依赖上的控制。

2. 一句话定位

Model strategy = 把不同能力、成本、延迟、隐私、可解释性和治理强度的模型组合成一个可运营系统,而不是为每个 use case 机械选择“最大模型”或“最便宜模型”。

在企业 AI 平台中,模型不是单点依赖,而是资产组合:

模型类型战略角色典型任务平台能力要求
Frontier model能力上限、复杂推理、生成高质量合成数据、teacher、fallback复杂问答、推理、政策解释、难例评审、agent planningmodel gateway、prompt registry、eval harness、cost guardrail、data boundary
Mid-size general model平衡能力与成本,承担主干工作流内部助手、摘要、结构化抽取、case draftrouting、RAG、缓存、SLO、质量监控
Small language model高频低成本任务、可私有化部署、低延迟路径分类、抽取、改写、短回答、检索增强摘要distillation pipeline、quantization、release gate、edge / CPU serving
Specialist model领域窄任务的高确定性组件KYC 文档分类、AML alert triage、支付风险信号、意图识别domain dataset、calibration、threshold、human review loop
Embedding / reranker model知识检索和语义匹配控制面RAG 检索、相似案例、政策条款匹配index version、retrieval eval、metadata filter
Guardrail / policy model风险拦截和流程升级PII 检测、越权意图、客户可见内容风险policy-as-code、audit log、red-team cases
On-device / edge model隐私、离线、实时交互客户端分类、OCR 后处理、语音端侧意图model signing、device telemetry、privacy budget

关键不是“哪个模型最好”,而是“哪一段工作流需要什么能力、失败代价和运营边界”。


3. 为什么重要

金融零售 AI 的高价值场景通常同时具备高交易量、强监管、强隐私、强延迟约束和高客户影响。只依赖 frontier model 会把成本、供应商风险、数据边界和延迟暴露放大;只依赖小模型又会在复杂推理、长尾问题和客户可见体验上失守。

战略问题单模型思路的风险模型组合思路
成本用大模型处理所有意图分类、抽取和路由,单位经济性失控高频确定性步骤用 small / specialist model,低置信度升级 frontier
延迟支付风控、客服入口、移动端交互无法承受长尾响应时间本地或近端小模型先决策,复杂路径异步复核
隐私敏感 KYC / AML / 客户投诉数据过度暴露给外部供应商on-prem / VPC / edge 小模型处理敏感前置步骤,必要时脱敏后升级
质量大模型在窄任务上表现不稳定,小模型在长尾问题上能力不足teacher-student eval + cascade,把确定性和创造性分层
治理模型升级、prompt 改动、量化参数变化难追踪model registry + route policy + release gate + monitoring pack
韧性单一 vendor 或单一模型故障导致业务中断多模型 fallback、degraded mode、human handoff
审计只保留最终回答,无法解释为什么选择某模型记录 route reason、confidence、fallback、model version、data lineage

对 AI Product Architect 来说,模型策略的产品问题是:用什么模型在什么风险等级、什么渠道、什么延迟预算、什么成本上限、什么人工复核策略下解决哪一段业务动作。


4. Frontier vs Small Model Strategy

4.1 Frontier model 适合承担的角色

角色适用条件产出证据
Complex reasoner需要多步推理、跨文档整合、例外判断,且延迟可接受reasoning eval、expert review、引用正确率、拒答质量
Teacher用高质量输出、soft label、rationale、hard negative 训练 studentteacher prompt version、label quality audit、student uplift
Long-tail fallbacksmall model 低置信度、OOD、客户升级、监管敏感问题fallback trigger log、resolution rate、human override
Synthetic data generator生成覆盖边界条件、反例、变体话术和红队样本data provenance、dedup、toxicity / leakage scan
Policy interpreter将复杂政策转成结构化规则、rubric、case annotationsubject matter expert signoff、policy citation evidence
Agent planner分解复杂任务、选择工具、生成执行计划,但不直接执行高风险动作tool policy approval、HITL record、plan quality eval

4.2 Small / specialist model 适合承担的角色

角色适用条件产出证据
Fast classifier类别边界稳定、标签体系明确、错误成本可用 fallback 控制macro F1、calibration、threshold curve、confusion matrix
Extractor输出 schema 稳定、文本结构半固定、可校验field-level precision / recall、schema violation rate
Router决定使用哪个模型、知识库、工具或人工队列routing accuracy、cost saving、bad route severity
Guardrail拦截敏感输入、越权请求、客户可见风险policy recall、false block rate、red-team pass rate
Edge assistant需要端侧隐私、离线、低延迟或低带宽device latency p95、battery / memory footprint、secure update
Batch triage大量 case 先排序、聚类、摘要,供人工复核analyst acceptance rate、review time reduction、missed critical rate

4.3 三条决策原则

原则说明金融零售判断例
能力分层先把 workflow 拆成分类、检索、抽取、生成、判断、执行,再逐段选模型AML triage 不应让大模型直接“决定可疑”,而应拆成信号解释、相似案例、优先级建议和人工复核
风险分层风险等级越高,越要把模型输出限制在 decision support、evidence citation 和 human approval 内客户-facing 投诉回复可以由 frontier 起草,但发送前要经过 policy guardrail 和人工确认
成本分层高频、短文本、低熵任务优先小模型;长尾、复杂、高价值任务升级大模型客服意图分类每天百万级请求,默认小模型;VIP 投诉和复杂多产品问题升级 frontier

5. Knowledge Distillation 与 Model Compression

5.1 蒸馏不是单纯缩小模型

在企业场景,knowledge distillation 是把 teacher 的行为、概率分布、解释模式、边界判断和领域偏好迁移到 student,使 student 在受控任务上达到可部署的延迟、成本、隐私和可治理要求。

蒸馏对象用法适合任务风险
Soft label distillationstudent 学习 teacher 对各类别的概率分布意图分类、风险等级、文档类型teacher calibration 差会被继承
Hard label distillationteacher 输出最终标签,人工抽样校验批量标注、冷启动分类器容易把 teacher 错误固化成标签噪声
Rationale distillationteacher 生成简短理由或证据引用,student 学习解释模式AML triage、KYC exception reasonrationale 可能看似合理但不忠实
Feature / representation distillation对齐中间表示或 embedding 空间检索、rerank、语义匹配工程复杂,版本兼容要求高
Preference distillationstudent 学习成对偏好或排序回复质量排序、case prioritization偏好数据可能混入业务偏见
Policy distillation把政策边界、拒答、升级规则蒸馏给小模型客户-facing fallback、合规话术政策变化后需要快速刷新

5.2 Model compression 技术版图

技术核心作用产品架构关注点
Knowledge distillation用 teacher 训练 student,在目标任务上保留关键行为teacher 质量、数据治理、student eval、版本血缘
Quantization用低精度表示降低内存和推理成本精度损失、校准数据、硬件支持、P95 延迟、回滚包
Pruning删除冗余权重、层或注意力头稀疏算子支持、部署 runtime、精度回归
Low-rank adaptation / compression用低秩结构减少参数更新和部署成本多租户 adapter 管理、合并策略、版本治理
Sparsity / MoE routing只激活部分参数或专家负载均衡、尾延迟、可解释路由
Speculative decoding小模型先生成候选,大模型验证适合生成延迟优化,但不能替代质量 eval
Caching / KV cache optimization降低重复上下文和生成成本缓存一致性、权限、敏感数据、失效策略

5.3 Quantization 的架构含义

量化的 PM 问题不是“INT8 是否更快”,而是量化后是否仍满足风险分层的质量、校准、稳定性和审计要求。

决策点架构问题Gate evidence
PTQ vs QAT校准数据能否代表生产分布;是否需要训练阶段适配量化误差calibration set profile、pre/post quant eval、hard slice report
INT8 vs INT4内存和成本收益是否值得质量损失latency / memory / quality curve、fallback rate impact
CPU vs GPU vs NPU部署位置是否影响隐私、延迟和扩展成本hardware benchmark、capacity plan、failure mode
Static vs dynamic quantization输入分布是否稳定,batch 和 sequence length 是否可预测workload profile、drift monitor
Runtime selectionONNX Runtime、TensorRT、OpenVINO、mobile runtime 是否支持目标模型算子compatibility test、rollback artifact

6. 架构模式

Pattern A: Model Portfolio Gateway

Use case request
  -> policy / risk tiering
  -> route policy
  -> model gateway
      -> small model
      -> specialist model
      -> frontier model
      -> embedding / reranker
  -> eval / guardrail
  -> response / action / human handoff
  -> trace + cost + quality + audit log

适用:企业内多个 AI use case 共用模型接入、成本、审计和 fallback。

关键设计:

能力要求
Route policy按 use case、risk tier、channel、latency budget、data class、confidence、cost cap 选择模型
Model allowlist模型来源、版本、区域、数据处理条款、批准用途可追踪
Trace每次请求记录 route reason、model version、fallback、confidence、cost、latency
Budget按团队、use case、模型、环境设置 quota 和异常告警
Fallback模型不可用、超时、低置信度、policy block 时进入降级路径

Pattern B: Teacher-Student Distillation Factory

Domain corpus + production logs + expert labels
  -> data filtering / PII controls / label policy
  -> frontier teacher generation
  -> expert audit + disagreement review
  -> student training / distillation / quantization
  -> teacher-student eval + independent gold eval
  -> shadow deployment
  -> release gate
  -> monitoring + refresh loop

适用:客服意图、KYC OCR 后分类、AML triage、支付风险文本信号、代码 Agent 路由。

关键控制:

  • teacher prompt 和模型版本必须固定并登记。
  • 蒸馏数据必须记录来源、许可、PII 处理、标签生成方式和人工抽检结果。
  • eval 不能只看 teacher-student agreement;必须有独立 gold set 和关键业务切片。
  • student 的低置信度路径必须可升级到 frontier 或人工。
  • 量化、剪枝、runtime 优化后要重新跑 release gate。

Pattern C: SLM + RAG

User question
  -> small query classifier
  -> metadata-aware retrieval
  -> reranker
  -> small generator / extractor for narrow answer
  -> frontier fallback for complex synthesis
  -> citation / policy guardrail

适用:政策问答、分行运营手册、客服内部知识助手、KYC 操作规范、代码库问答。

设计要点:

组件小模型优先的原因升级条件
Query classifier快速判断问题类型、产品线、风险等级多意图、低置信度、客户权益影响
Retriever / reranker成本低、可离线优化、可审计检索结果冲突或证据不足
Extractive answer对结构化政策条款和短答案更稳定需要跨文档推理或解释例外
Frontier fallback处理复杂整合、长尾语义和自然语言质量输出必须经过 citation 和 policy gate

Pattern D: Routing / Cascade

Small model first
  -> confidence high + risk low: direct answer / action
  -> confidence medium: ask clarification or retrieve more evidence
  -> confidence low / risk high: frontier model or human review

适用:高吞吐入口、成本敏感、长尾问题比例低的流程。

Cascade 的设计不是“先便宜后贵”,而是风险分级:

Route条件动作
Fast path低风险、类别稳定、置信度高、无敏感动作small model 直接返回或写入低风险状态
Evidence path中风险、需要依据、需要引用small model + RAG + guardrail
Frontier path多产品、复杂政策、客户投诉、监管敏感frontier 生成建议,人工或 policy gate 确认
Human path高金额、高客户影响、模型冲突、监控异常人工处理并回流标签

Pattern E: On-device / Edge Model

适用:移动端、分行设备、KYC 采集、低带宽环境、隐私敏感前处理。

决策维度架构要求
Model size设备内存、启动时间、电池、NPU 支持
Privacy原始图像、证件信息、语音片段是否可留在端侧
Update模型签名、灰度、撤回、版本兼容
Telemetry只上传必要指标和错误码,避免上传敏感原文
Fallback端侧低置信度时走服务端 OCR、人工审核或重新采集

Pattern F: Low-latency Risk Path

Payment event
  -> deterministic rules + feature store
  -> specialist risk model
  -> small text / behavior classifier
  -> synchronous decision within latency budget
  -> asynchronous frontier challenger for explanation, pattern discovery, analyst review

适用:支付风险、账户接管、异常登录、交易拦截建议。

核心原则:frontier model 不应处在同步支付授权的关键路径;它更适合做异步 challenger、规则发现、case explanation 和 analyst copilot。

Pattern G: Code Agent Small-model Router

Developer task
  -> small router classifies task type and repo risk
  -> retrieval of code context
  -> small model handles lint / search / boilerplate / test routing
  -> frontier model handles architecture change and ambiguous debugging
  -> policy gate for destructive commands and secret exposure

适用:企业内部代码 Agent、DevEx 平台、受控自动化。

关键指标:

  • route accuracy by task type。
  • unnecessary frontier call reduction。
  • bad route severity。
  • secret / credential exposure block rate。
  • developer acceptance rate。
  • test pass rate after agent changes。

Pattern H: Customer-facing AI Fallback

客户可见 AI 不能把 fallback 设计成“模型失败后说抱歉”。成熟设计需要多级降级:

触发Fallback
小模型低置信度升级 frontier 但限制输出范围
frontier 输出无可靠引用返回可解释的人工升级或知识检索结果
policy guardrail 拦截转人工或给出合规安全话术
高价值客户 / 高情绪投诉直接 human handoff,AI 生成内部摘要
模型服务超时使用缓存答案、静态流程指引或人工排队

7. 金融零售案例

7.1 客服意图分类

设计项推荐策略
模型组合small classifier 作为入口;frontier teacher 生成长尾表达、同义改写和边界样本
数据历史工单、聊天首轮、IVR 语音转文本、人工标签、失败转人工原因
Evalmacro F1、top-2 recall、high-risk intent recall、OOD detection、handoff precision
路由高置信度直接进入技能组;低置信度询问澄清;投诉、欺诈、困难客户升级
监控意图漂移、新产品话术、错误技能组转派率、平均处理时长

产品判断:客服入口的价值不在“回答多智能”,而在把客户请求快速、准确、安全地送到正确流程。

7.2 KYC OCR 后分类

设计项推荐策略
模型组合OCR engine + specialist document classifier + field extractor;frontier 用于疑难解释和样本生成
数据证件图像元数据、OCR 文本、人工审核标签、拒绝原因、国家/地区文档类型
Evaldocument type accuracy、field-level recall、fraud indicator recall、uncertain routing rate
隐私原始图像优先在受控环境或端侧处理;蒸馏数据脱敏并保留 lineage
Fallback低质量图像重新采集;低置信度进入人工审核;高风险信号触发增强尽调

关键风险:OCR 文本错误会被 downstream 小模型放大,因此 eval 必须包含 OCR noise slice。

7.3 AML Alert Triage

设计项推荐策略
模型组合specialist model 做 alert priority;frontier 生成 analyst summary 和相似案例解释;人工保持最终判断
数据历史 alert、SAR / non-SAR 标签、规则命中、交易图谱特征、分析员备注
Evalhigh-risk recall、false negative severity、analyst acceptance、case review time、explanation support
Governance不让模型决定可疑交易报告结论;模型只做 triage、evidence grouping、draft narrative
监控新洗钱模式、规则变更、地理/客群切片漂移、analyst override

产品判断:AML 的小模型价值在降低分析员认知负担和排序工作量,而不是替代合规判断。

7.4 支付风险低延迟

设计项推荐策略
模型组合同步链路使用规则、特征模型和小模型;frontier 只做异步 challenger 和解释
数据交易事件、设备指纹、行为特征、商户风险、争议结果
Evalfraud capture、false decline、p95 / p99 latency、cost per decision、customer harm
延迟同步路径目标以毫秒级预算管理;frontier 不进入 authorization blocking path
Fallback模型超时走规则兜底;高金额或冲突信号进入 step-up authentication

关键取舍:支付风控不是追求最高离线 AUC,而是在低延迟、低误杀和高可用下控制损失。

7.5 代码 Agent 小模型路由

设计项推荐策略
模型组合small router 识别任务风险和代码上下文;frontier 处理架构变更、复杂 debug 和跨模块推理
数据issue、PR、测试日志、代码搜索轨迹、agent 成败记录
Evalroute accuracy、test pass、review rejection、unnecessary frontier calls、unsafe command block
Governancedestructive command、secret access、production config change 需要 policy gate
监控模型路由错误、失败重试、开发者采纳率、代码质量回归

产品判断:代码 Agent 的小模型不是为了“写所有代码”,而是把常见低风险步骤快速处理,并把高风险上下文送给更强模型或人工。

7.6 Customer-facing AI Fallback

设计项推荐策略
模型组合small intent / safety classifier + RAG + frontier answer generator + policy guardrail
数据客户问题、可公开政策、投诉样本、拒答样本、人工升级记录
Evalanswer correctness、citation support、unsafe advice rate、handoff quality、customer satisfaction
Governance不能让模型承诺费用减免、账户动作、法律/投资建议;高风险话术转人工
监控policy block、客户负反馈、重复追问、人工覆盖率、渠道差异

成熟 fallback 要让客户感到流程仍然可控,而不是暴露“模型能力不足”。


8. 产品决策框架

8.1 Latency / Cost / Privacy / Quality 四维取舍

决策场景延迟成本隐私质量推荐策略
客服意图入口极高中高small classifier + frontier teacher + low-confidence cascade
KYC OCR 后分类极高edge / private specialist model + manual review fallback
AML alert triage极高specialist triage + frontier analyst copilot + HITL
支付风险同步决策极高极高deterministic rules + low-latency specialist model;frontier 异步
内部政策 RAG中高SLM + RAG for simple answers;frontier for complex synthesis
客户-facing 投诉回复极高frontier draft + policy guardrail + human handoff for high risk

8.2 Small model 进入生产的判断线

判断线进入生产的条件
Task stability标签体系、输入分布、业务动作在一个 release 周期内稳定
Evaluation maturity有独立 gold set、hard negative、关键切片和置信度阈值
Fallback design低置信度、OOD、policy conflict、模型超时都有明确路径
Governancemodel card、data lineage、owner、批准用途、变更记录完整
Economics节省的成本和延迟大于训练、评估、监控、刷新和人工复核成本
Operational readiness监控、告警、rollback、版本灰度、incident response 已纳入平台

9. Teacher-Student Eval Plan

Teacher-student eval 的目标不是证明 student “像 teacher”,而是证明 student 在目标业务边界内比现有方案更可靠、更便宜、更快,并且失败时可控。

9.1 Eval 结构

Eval 层目的样本
Teacher quality audit确认 teacher 标签和 rationale 可用teacher 输出、人工复核、争议样本
Student vs gold证明 student 对真实标签有效专家 gold set、历史 closed cases、平衡切片
Student vs teacher观察蒸馏一致性和差异同一输入下 teacher / student 输出对比
Student vs baseline证明业务价值现有规则、传统模型、人工首判
Compression eval评估量化、剪枝、runtime 优化后的回归pre/post optimization paired eval
Cascade eval验证路由阈值和 fallback 是否降低风险fast path、fallback path、human path 样本
Production shadow生产流量旁路验证真实请求、无客户影响、监控 trace

9.2 指标组合

任务主要指标必看切片
意图分类macro F1、top-k recall、ECE calibration、OOD recall投诉、欺诈、困难客户、方言/错字、新产品
OCR 后分类document type accuracy、field recall、schema violation低清晰度、非标准证件、跨地区、OCR noise
AML triagehigh-risk recall、false negative severity、analyst acceptance高金额、跨境、现金密集、历史 SAR 类似样本
支付风险fraud capture、false decline、p99 latency、decision cost新设备、高金额、商户类别、老年客户、国际交易
客户-facing 回复groundedness、citation support、unsafe advice、handoff quality费用争议、投诉升级、监管敏感、情绪高压

9.3 常见失败模式

失败模式表现控制
Teacher error inheritancestudent 高度复刻 teacher 的错误边界独立 gold set、专家争议池、teacher ensemble
Agreement trap只看 student 和 teacher 一致率引入业务 baseline、人工标签、severity-weighted eval
Slice blindness总体分数好,高风险客群差强制 reporting by product、channel、customer segment、risk tier
Confidence miscalibrationstudent 高置信度犯错calibration curve、threshold tuning、abstention class
Rationale launderingstudent 学到看似合理的解释evidence faithfulness eval、citation verification
Compression regression量化后边界样本失效paired eval、hard negative replay、rollback model

10. Domain Model Governance

Small model 的治理强度不能因为模型小而降低。模型越靠近高频生产路径,越需要清晰 owner、数据血缘、变更控制和监控。

10.1 Domain model inventory

字段示例值
Model asset idslm-cs-intent-en-us-v3
Use case客服入口意图分类
Business ownerCustomer Operations
Technical ownerML Platform
Risk tierMedium,包含投诉和欺诈升级路径
Approved use首轮意图路由、技能组分派、低置信度澄清
Prohibited use自动拒绝客户诉求、自动承诺费用减免、替代人工投诉判断
Teacher modelfrontier-teacher-policy-2026q2
Training data lineage历史工单、人工标签、teacher synthetic variants、PII masked
Eval packgold set、hard negative、high-risk slice、shadow traffic
DeploymentCPU inference service + model gateway route policy
Fallbackfrontier review 或 human queue
Monitoringdrift、calibration、handoff、misroute、customer complaint
Refresh trigger新产品上线、意图分布漂移、投诉误路由上升、teacher upgrade

10.2 Benchmark pitfalls

Pitfall为什么危险更好的做法
只看公开 leaderboard与企业分布、语言、政策、错误代价不一致建立 use-case-specific eval pack
只看平均准确率高风险类别可能被多数类掩盖severity-weighted metric 和 critical slice recall
只测原模型不测压缩版本量化、runtime、prompt、route policy 都可能改变行为release artifact 级别 eval
只测离线不测路由线上 cascade 决策可能制造新错误end-to-end route eval 和 shadow deployment
只测英文或标准文本金融零售有口语、OCR noise、缩写、代码混合语言生产分布重放和噪声增强
只测模型不测人机流程小模型可能增加人工负担或错误信任analyst acceptance、override、review time、complaint outcome
teacher 当真值frontier teacher 也会幻觉和偏置专家 gold set、双人复核、disagreement workflow

11. Model Lifecycle

Use case framing
  -> model portfolio decision
  -> data sourcing and governance
  -> teacher / baseline selection
  -> distillation / fine-tuning / compression
  -> offline eval
  -> cascade and fallback design
  -> shadow deployment
  -> release gate
  -> production monitoring
  -> refresh / rollback / sunset
阶段关键产出退出条件
Framinguse case、risk tier、workflow step、success metric明确模型是否影响客户权益或高风险决策
Portfolio decisionfrontier / mid / small / specialist / edge / human split每个 workflow step 有模型责任和 fallback
Data governancelineage、PII、label policy、license、retention数据可用、可审计、可删除、可复现
Training / distillationteacher prompt、student config、compression plan训练产物可追踪,模型 artifact 可复现
Evalgold set、slice report、threshold、baseline comparison达到 release threshold,关键风险有控制
Shadowproduction-like trace、成本、延迟、fallback无客户影响验证线上分布
Releasemodel card、approval、rollback、monitoring发布门禁通过,owner 接受运营责任
Monitoringquality、drift、latency、cost、override、incident指标在 SLO 内,异常进入 issue loop
Refresh新数据、新政策、新 teacher、新压缩配置重新评估并版本化发布
Sunset停用理由、替代路径、数据保留路由移除,依赖系统确认

变更触发器:

  • teacher model 或供应商版本变化。
  • 新产品、新政策、新渠道或新地区上线。
  • 生产输入分布、客户群体或欺诈模式漂移。
  • 量化、runtime、硬件、batching、cache 策略变化。
  • 低置信度比例、人工覆盖率、投诉率、误路由率异常。
  • 内部审计、模型风险或监管检查发现控制缺口。

12. 可落地交付物模板

12.1 Model Portfolio Strategy

字段示例内容
Strategy nameRetail AI Model Portfolio 2026Q3
Business domains客服、KYC、AML、支付风险、代码 Agent、客户-facing AI
Portfolio principle高频稳定任务 small / specialist 优先;复杂推理 frontier;高风险动作 human approval
Frontier approved rolesteacher、complex reasoner、customer-facing draft、long-tail fallback、synthetic evaluator
Small model approved rolesclassifier、extractor、router、guardrail、edge preprocessor
Prohibited patternfrontier 直接进入支付授权同步拦截;small model 自动完成投诉裁决
Cost policy每个 use case 设置 monthly budget、cost per successful task、fallback cost cap
Latency policy客服入口 p95 < 150ms;支付同步路径 p99 < 50ms;复杂客户回复 p95 < 5s
Privacy policyKYC 原始图像和高敏 PII 不出受控边界;外部 frontier 调用使用脱敏上下文
Governance modelmodel gateway + inventory + release gate + monitoring pack + quarterly portfolio review
Review cadence每月成本/延迟/质量 review;每季度模型组合和 vendor dependency review

12.2 Teacher-Student Eval Plan

字段示例内容
Use case客服意图分类 small model v3
Teacherfrontier model with prompt cs-intent-teacher-v2
Student120M 参数分类模型,INT8 CPU 部署
Baseline当前规则路由 + 人工首判
Gold set20,000 条人工复核样本,按意图、渠道、产品、风险等级分层
Hard negative欺诈 vs 账户登录、投诉 vs 普通咨询、费用争议 vs 账单解释
Metricsmacro F1、critical intent recall、ECE、handoff precision、p95 latency、cost per 1k requests
Release thresholdcritical intent recall >= 0.98;macro F1 >= baseline + 5pp;ECE <= 0.05;p95 <= 150ms
Fallback thresholdmax probability < 0.72 或 OOD score > threshold 时升级澄清 / frontier / human
Shadow test10% 生产流量旁路 14 天,无客户可见影响
ApprovalCustomer Ops、ML Platform、Model Risk、Compliance signoff

12.3 Distillation Data Governance Checklist

控制项通过证据
Data lineage每个样本有 source system、time window、business owner、retention class
Data minimization只保留任务必需字段;原始 PII 使用 token、hash 或受控引用
Consent / permissible use客户数据使用符合内部政策、合同、隐私声明和地区要求
Label policy人工标签、teacher 标签、合成标签分开记录,不混淆来源
Teacher prompt versionteacher 输出可追溯到 prompt、model、temperature、policy version
Expert audit高风险类别、低一致样本、teacher-student disagreement 有专家复核
Bias and fairness slice按渠道、语言、地区、客群、产品类型检查性能差异
Synthetic data control合成样本标记为 synthetic,不能覆盖真实高风险样本评估
Leakage scan训练集、验证集、测试集按客户、case、时间窗口隔离
Deletion path客户删除、数据保留到期、政策变化可触发样本移除和模型再评估

12.4 Small-model Deployment Decision Tree

1. 任务是否是稳定、窄边界、可量化的 workflow step?
   - 是:进入 2
   - 否:使用 frontier / human-assisted workflow,沉淀数据后再评估

2. 错误是否会直接影响客户权益、监管结论或资金动作?
   - 是:small model 只能做辅助、排序、提醒或证据整理,必须有 human / policy gate
   - 否:进入 3

3. 是否有独立 gold set、hard negatives 和高风险切片?
   - 是:进入 4
   - 否:先建设 eval pack 和 label governance

4. 小模型是否达到质量、校准、延迟和成本门槛?
   - 是:进入 shadow deployment
   - 否:调整数据、蒸馏策略、模型大小或继续使用 cascade

5. Shadow deployment 是否显示生产分布稳定且 fallback 可控?
   - 是:灰度发布并启用 monitoring pack
   - 否:回到 route policy、数据切片或模型训练阶段

12.5 Latency / Cost / Privacy Scorecard

评分采用 1 到 5,5 表示约束最强或收益最高。总分不是自动决策,必须结合风险等级和客户影响解释。

Use caseLatency needCost pressurePrivacy sensitivityQuality riskSmall-model fitRecommended route
客服意图分类55335small first + frontier fallback
KYC OCR 后分类43544private specialist + manual review
AML alert triage33553specialist triage + frontier copilot + HITL
支付风险同步54454low-latency specialist + rules;frontier async
代码 Agent 路由44344small router + frontier for complex tasks
客户-facing fallback33452frontier draft + guardrail + human path

12.6 Release Gate

Gate通过标准
Scope gateapproved use、prohibited use、risk tier、workflow owner 明确
Data gatelineage、PII、label source、license、retention、deletion path 可审计
Eval gategold set、hard slices、baseline comparison、teacher-student analysis 完成
Compression gate量化 / 剪枝 / runtime 优化后的 artifact 通过同一 eval pack
Cascade gateconfidence threshold、OOD、fallback、human handoff 在 shadow traffic 中验证
Security gatemodel artifact signed,dependency scanned,secrets and prompt injection controls tested
Compliance gate客户-facing、KYC、AML、支付风险等高影响场景完成 policy review
Observability gatelatency、cost、quality、drift、fallback、override、incident dashboard 已上线
Rollback gateprevious model、route policy、index、prompt、runtime 可在规定窗口内恢复
Business gateowner 接受 residual risk,运营团队有处理低置信度和异常样本的流程

12.7 Monitoring Pack

监控对象指标
Qualitytask success、critical recall、classification drift、groundedness、citation support
Calibrationconfidence distribution、ECE、abstention rate、low-confidence routing
Cascadefast path share、fallback rate、bad route rate、frontier escalation cost
Latencyp50 / p95 / p99 by model、queue wait、retrieval time、runtime errors
Costcost per request、cost per successful task、teacher generation cost、shadow eval cost
Privacy / safetyPII block、policy block、unsafe output、external call data class
Human loopoverride rate、review time、analyst acceptance、handoff resolution
Driftinput distribution、label distribution、new intent emergence、OCR noise shift
Reliabilitymodel timeout、gateway error、edge update failure、fallback success
Governancerelease version, route policy version, model owner review, incident closure time

13. 30天训练计划

Day训练主题产出
1建立模型组合地图:列出现有 AI use case 的 workflow step 和模型依赖Model portfolio inventory v1
2为每个 step 标注 risk tier、latency budget、cost pressure、privacy classRisk / latency / privacy matrix
3选一个高频分类场景,定义 small model candidateUse case framing one-pager
4设计 frontier teacher 的允许角色和禁止角色Teacher policy note
5设计 gold set、hard negative 和关键切片Eval dataset blueprint
6对客服意图分类做 teacher-student eval planEval plan artifact
7复盘 Day 1-6,形成 portfolio strategy memoStrategy memo
8设计 KYC OCR 后分类模型链路KYC model architecture
9梳理 OCR noise、低清晰度、非标准证件切片KYC hard slice pack
10设计 AML alert triage 中 specialist model 与 frontier copilot 边界AML triage control design
11设计支付风险同步链路的 latency gatePayment risk latency gate
12设计 code Agent router 的 route policyCode Agent route policy
13设计客户-facing fallback 的风险路径Customer fallback decision table
14复盘六个金融零售案例,形成 cross-case pattern mapPattern map
15深入 quantization:制定 PTQ / QAT / runtime 选择原则Quantization ADR
16设计 compression regression evalCompression eval checklist
17设计 SLM + RAG 架构,明确 retriever、reranker、generator 分工SLM + RAG architecture note
18设计 cascade 阈值和 confidence calibrationCascade threshold memo
19设计 on-device / edge model 隐私和更新控制Edge governance note
20建立 domain model inventory 字段Domain model registry schema
21复盘 Day 15-20,形成 deployment decision treeDecision tree
22设计 distillation data governance checklistData governance pack
23设计 release gate,覆盖数据、eval、压缩、cascade、安全、合规Release gate v1
24设计 monitoring pack,覆盖 quality、latency、cost、drift、human loopMonitoring dashboard spec
25设计 model lifecycle 和 refresh triggerLifecycle operating model
26设计 benchmark pitfall review 流程Benchmark challenge memo
27写一份 CTO Staff 视角的 build / buy / route 决策 memoExecutive memo
28写一份 AI Platform PM 视角的 PRD backlogPlatform backlog
29完成 5 道面试题的 30 秒和 2 分钟回答Interview answer pack
30综合演练:为一个金融零售企业设计 12 个月模型组合路线图12-month model strategy roadmap

14. 面试回答

Q1: 你如何决定一个场景用 frontier model 还是 small model?

30秒版本: 我不会按模型大小决策,而是按 workflow step、风险等级、延迟预算、隐私边界、成本压力和失败代价决策。高频稳定分类和抽取优先 small / specialist model;复杂推理、长尾问题、teacher 数据生成和客户可见高质量草稿用 frontier;高风险动作必须有人或 policy gate。

2分钟版本: 我会先把业务流程拆成分类、检索、抽取、生成、判断、执行。以客服为例,入口意图分类是高频、短文本、标签稳定的任务,适合用蒸馏后的小模型,并在低置信度时升级 frontier 或人工。复杂投诉回复则需要 frontier 处理跨政策推理和自然语言质量,但输出要经过 RAG citation、合规 guardrail 和人工确认。支付风险同步链路则不同,frontier 不适合进入毫秒级授权路径,只能做异步解释和规则发现。这样的模型组合既控制成本和延迟,也保留复杂场景能力。

Q2: 如何证明蒸馏出来的小模型可以上线?

30秒版本: 只看 teacher-student agreement 不够。必须有独立 gold set、关键高风险切片、baseline 对比、置信度校准、压缩后回归测试、shadow deployment 和 fallback 验证。

2分钟版本: 我的上线证据会分七层:第一,teacher 质量审计,确认 teacher 标签和 rationale 不是错误来源;第二,student 对人工 gold set 的效果;第三,student 与 teacher 的差异分析;第四,与现有规则或人工首判 baseline 对比;第五,量化或 runtime 优化后的 artifact 级回归测试;第六,cascade 阈值和 human fallback 的端到端验证;第七,在生产 shadow 流量中观察漂移、延迟、成本和误路由。对 AML 或 KYC 这类场景,还要按高风险样本和监管敏感类别做 severity-weighted eval。

Q3: 量化会带来哪些产品和治理风险?

30秒版本: 量化的风险是质量和校准在关键切片上回退,而不是平均分下降一点。上线前必须用同一 eval pack 比较量化前后表现,记录硬件、runtime、校准数据和回滚方案。

2分钟版本: 量化把权重或激活降到更低精度,会降低内存和推理成本,但也可能改变边界样本判断、置信度分布和长尾稳定性。产品上要证明成本和延迟收益足以覆盖质量风险;架构上要确认 ONNX Runtime、GPU/NPU/CPU、batch、sequence length 都符合生产 profile;治理上要把量化后的 artifact 当成新模型版本,重新过 eval gate、security gate 和 release gate。对支付风险或客户-facing 场景,我会要求 hard negative replay、critical recall、p99 latency 和 fallback success 同时通过。

Q4: 如何设计客户-facing AI 的 fallback?

30秒版本: fallback 不是模型失败话术,而是多级风险路径:小模型低置信度升级 frontier,frontier 无证据则转人工或返回可验证信息,policy block 触发合规话术和 human handoff,高价值或高情绪客户直接人工优先。

2分钟版本: 客户-facing AI 的核心是让客户体验可控。入口用 small classifier 判断意图、风险和情绪;普通问题走 RAG 和受控回答;复杂问题升级 frontier 生成草稿,但必须有 citation 和 policy guardrail;涉及费用减免、账户动作、投诉升级、法律或投资建议时不能由模型直接承诺。fallback 还要覆盖超时、低置信度、知识冲突和敏感内容拦截。监控上看 policy block、人工覆盖、客户负反馈、重复追问和最终解决率,而不是只看回答次数。

Q5: 为什么公开 benchmark 容易误导企业模型策略?

30秒版本: 公开 benchmark 很少等同于企业分布、语言、数据噪声、合规边界和错误代价。模型策略需要 use-case-specific eval,尤其是高风险切片、端到端路由、压缩版本和人机流程指标。

2分钟版本: leaderboard 可以作为初筛,但不能作为上线依据。金融零售场景有 OCR noise、口语化客服、地区政策、产品差异、客户权益影响和监管敏感边界。一个模型在公开任务上平均分高,不代表它能处理 AML 的 false negative、支付风险的 p99 latency、KYC 的低清晰度证件或客户投诉的合规话术。我的做法是把公开 benchmark 降级为候选筛选,把真实上线决策交给内部 gold set、hard negative、production shadow、route policy eval 和 monitoring pack。


15. 参考来源链接