AI Frontier Model Strategy / Distillation / Small Models Playbook
以下来源作为本文的技术与治理锚点。正式项目需要按访问日期复核版本、许可证、供应商条款和内部模型风险政策。
AI Frontier Model Strategy / Distillation / Small Models Playbook
定位:面向 AI Product Architect / AI Platform PM / ML Platform / CTO Staff / Enterprise Architect,训练“模型组合策略”能力:什么时候用 frontier model,什么时候用 small / specialist model,如何用蒸馏、压缩、量化、路由和治理把能力、成本、延迟、隐私和风险放进同一个可运营体系。
核心判断:frontier model 决定能力上限,small model 决定规模化运营边界。企业 AI 架构成熟度不在于接入了多少大模型,而在于能否把高能力模型、安全治理、低延迟路径、隐私边界和生命周期控制组织成可评估、可回滚、可审计的 model portfolio。
1. Source Anchors
以下来源作为本文的技术与治理锚点。正式项目需要按访问日期复核版本、许可证、供应商条款和内部模型风险政策。
| Anchor | Link | 本文使用方式 |
|---|---|---|
| Hinton / Vinyals / Dean, Distilling the Knowledge in a Neural Network | https://arxiv.org/abs/1503.02531 | 用 teacher-student、soft target、specialist model 的思想理解蒸馏不是“模型变小”,而是知识迁移和部署约束重构。 |
| DistilBERT paper | https://arxiv.org/abs/1910.01108 | 用预训练阶段蒸馏、三重损失、边缘部署实验理解通用模型压缩到可部署表示模型的产品意义。 |
| ONNX Runtime quantization docs | https://onnxruntime.ai/docs/performance/model-optimizations/quantization.html | 用 PTQ / QDQ / calibration / INT8 部署语言连接模型优化和生产推理。 |
| Hugging Face Transformers Quantization | https://huggingface.co/docs/transformers/main_classes/quantization | 用 8-bit / 4-bit、AWQ、GPTQ、bitsandbytes 等能力理解 LLM 推理资源压缩的工程选型。 |
| Hugging Face Optimum | https://huggingface.co/docs/optimum/index | 用硬件目标优化、推理加速和部署工具链理解模型压缩不是孤立训练动作。 |
| Hugging Face SetFit Knowledge Distillation | https://huggingface.co/docs/setfit/how_to/knowledge_distillation | 用少样本分类、小模型、未标注数据蒸馏理解企业意图分类和运营分类器的落地路径。 |
| NIST AI RMF | https://www.nist.gov/itl/ai-risk-management-framework | 用 Govern / Map / Measure / Manage 把模型组合、数据、评估、监控和变更控制纳入风险管理语言。 |
| NIST GenAI Profile | https://www.nist.gov/publications/artificial-intelligence-risk-management-framework-generative-artificial-intelligence | 用 GenAI 风险画像补充 frontier / distilled / specialist model 在客户影响、内容风险和供应商依赖上的控制。 |
2. 一句话定位
Model strategy = 把不同能力、成本、延迟、隐私、可解释性和治理强度的模型组合成一个可运营系统,而不是为每个 use case 机械选择“最大模型”或“最便宜模型”。
在企业 AI 平台中,模型不是单点依赖,而是资产组合:
| 模型类型 | 战略角色 | 典型任务 | 平台能力要求 |
|---|---|---|---|
| Frontier model | 能力上限、复杂推理、生成高质量合成数据、teacher、fallback | 复杂问答、推理、政策解释、难例评审、agent planning | model gateway、prompt registry、eval harness、cost guardrail、data boundary |
| Mid-size general model | 平衡能力与成本,承担主干工作流 | 内部助手、摘要、结构化抽取、case draft | routing、RAG、缓存、SLO、质量监控 |
| Small language model | 高频低成本任务、可私有化部署、低延迟路径 | 分类、抽取、改写、短回答、检索增强摘要 | distillation pipeline、quantization、release gate、edge / CPU serving |
| Specialist model | 领域窄任务的高确定性组件 | KYC 文档分类、AML alert triage、支付风险信号、意图识别 | domain dataset、calibration、threshold、human review loop |
| Embedding / reranker model | 知识检索和语义匹配控制面 | RAG 检索、相似案例、政策条款匹配 | index version、retrieval eval、metadata filter |
| Guardrail / policy model | 风险拦截和流程升级 | PII 检测、越权意图、客户可见内容风险 | policy-as-code、audit log、red-team cases |
| On-device / edge model | 隐私、离线、实时交互 | 客户端分类、OCR 后处理、语音端侧意图 | model signing、device telemetry、privacy budget |
关键不是“哪个模型最好”,而是“哪一段工作流需要什么能力、失败代价和运营边界”。
3. 为什么重要
金融零售 AI 的高价值场景通常同时具备高交易量、强监管、强隐私、强延迟约束和高客户影响。只依赖 frontier model 会把成本、供应商风险、数据边界和延迟暴露放大;只依赖小模型又会在复杂推理、长尾问题和客户可见体验上失守。
| 战略问题 | 单模型思路的风险 | 模型组合思路 |
|---|---|---|
| 成本 | 用大模型处理所有意图分类、抽取和路由,单位经济性失控 | 高频确定性步骤用 small / specialist model,低置信度升级 frontier |
| 延迟 | 支付风控、客服入口、移动端交互无法承受长尾响应时间 | 本地或近端小模型先决策,复杂路径异步复核 |
| 隐私 | 敏感 KYC / AML / 客户投诉数据过度暴露给外部供应商 | on-prem / VPC / edge 小模型处理敏感前置步骤,必要时脱敏后升级 |
| 质量 | 大模型在窄任务上表现不稳定,小模型在长尾问题上能力不足 | teacher-student eval + cascade,把确定性和创造性分层 |
| 治理 | 模型升级、prompt 改动、量化参数变化难追踪 | model registry + route policy + release gate + monitoring pack |
| 韧性 | 单一 vendor 或单一模型故障导致业务中断 | 多模型 fallback、degraded mode、human handoff |
| 审计 | 只保留最终回答,无法解释为什么选择某模型 | 记录 route reason、confidence、fallback、model version、data lineage |
对 AI Product Architect 来说,模型策略的产品问题是:用什么模型在什么风险等级、什么渠道、什么延迟预算、什么成本上限、什么人工复核策略下解决哪一段业务动作。
4. Frontier vs Small Model Strategy
4.1 Frontier model 适合承担的角色
| 角色 | 适用条件 | 产出证据 |
|---|---|---|
| Complex reasoner | 需要多步推理、跨文档整合、例外判断,且延迟可接受 | reasoning eval、expert review、引用正确率、拒答质量 |
| Teacher | 用高质量输出、soft label、rationale、hard negative 训练 student | teacher prompt version、label quality audit、student uplift |
| Long-tail fallback | small model 低置信度、OOD、客户升级、监管敏感问题 | fallback trigger log、resolution rate、human override |
| Synthetic data generator | 生成覆盖边界条件、反例、变体话术和红队样本 | data provenance、dedup、toxicity / leakage scan |
| Policy interpreter | 将复杂政策转成结构化规则、rubric、case annotation | subject matter expert signoff、policy citation evidence |
| Agent planner | 分解复杂任务、选择工具、生成执行计划,但不直接执行高风险动作 | tool policy approval、HITL record、plan quality eval |
4.2 Small / specialist model 适合承担的角色
| 角色 | 适用条件 | 产出证据 |
|---|---|---|
| Fast classifier | 类别边界稳定、标签体系明确、错误成本可用 fallback 控制 | macro F1、calibration、threshold curve、confusion matrix |
| Extractor | 输出 schema 稳定、文本结构半固定、可校验 | field-level precision / recall、schema violation rate |
| Router | 决定使用哪个模型、知识库、工具或人工队列 | routing accuracy、cost saving、bad route severity |
| Guardrail | 拦截敏感输入、越权请求、客户可见风险 | policy recall、false block rate、red-team pass rate |
| Edge assistant | 需要端侧隐私、离线、低延迟或低带宽 | device latency p95、battery / memory footprint、secure update |
| Batch triage | 大量 case 先排序、聚类、摘要,供人工复核 | analyst acceptance rate、review time reduction、missed critical rate |
4.3 三条决策原则
| 原则 | 说明 | 金融零售判断例 |
|---|---|---|
| 能力分层 | 先把 workflow 拆成分类、检索、抽取、生成、判断、执行,再逐段选模型 | AML triage 不应让大模型直接“决定可疑”,而应拆成信号解释、相似案例、优先级建议和人工复核 |
| 风险分层 | 风险等级越高,越要把模型输出限制在 decision support、evidence citation 和 human approval 内 | 客户-facing 投诉回复可以由 frontier 起草,但发送前要经过 policy guardrail 和人工确认 |
| 成本分层 | 高频、短文本、低熵任务优先小模型;长尾、复杂、高价值任务升级大模型 | 客服意图分类每天百万级请求,默认小模型;VIP 投诉和复杂多产品问题升级 frontier |
5. Knowledge Distillation 与 Model Compression
5.1 蒸馏不是单纯缩小模型
在企业场景,knowledge distillation 是把 teacher 的行为、概率分布、解释模式、边界判断和领域偏好迁移到 student,使 student 在受控任务上达到可部署的延迟、成本、隐私和可治理要求。
| 蒸馏对象 | 用法 | 适合任务 | 风险 |
|---|---|---|---|
| Soft label distillation | student 学习 teacher 对各类别的概率分布 | 意图分类、风险等级、文档类型 | teacher calibration 差会被继承 |
| Hard label distillation | teacher 输出最终标签,人工抽样校验 | 批量标注、冷启动分类器 | 容易把 teacher 错误固化成标签噪声 |
| Rationale distillation | teacher 生成简短理由或证据引用,student 学习解释模式 | AML triage、KYC exception reason | rationale 可能看似合理但不忠实 |
| Feature / representation distillation | 对齐中间表示或 embedding 空间 | 检索、rerank、语义匹配 | 工程复杂,版本兼容要求高 |
| Preference distillation | student 学习成对偏好或排序 | 回复质量排序、case prioritization | 偏好数据可能混入业务偏见 |
| Policy distillation | 把政策边界、拒答、升级规则蒸馏给小模型 | 客户-facing fallback、合规话术 | 政策变化后需要快速刷新 |
5.2 Model compression 技术版图
| 技术 | 核心作用 | 产品架构关注点 |
|---|---|---|
| Knowledge distillation | 用 teacher 训练 student,在目标任务上保留关键行为 | teacher 质量、数据治理、student eval、版本血缘 |
| Quantization | 用低精度表示降低内存和推理成本 | 精度损失、校准数据、硬件支持、P95 延迟、回滚包 |
| Pruning | 删除冗余权重、层或注意力头 | 稀疏算子支持、部署 runtime、精度回归 |
| Low-rank adaptation / compression | 用低秩结构减少参数更新和部署成本 | 多租户 adapter 管理、合并策略、版本治理 |
| Sparsity / MoE routing | 只激活部分参数或专家 | 负载均衡、尾延迟、可解释路由 |
| Speculative decoding | 小模型先生成候选,大模型验证 | 适合生成延迟优化,但不能替代质量 eval |
| Caching / KV cache optimization | 降低重复上下文和生成成本 | 缓存一致性、权限、敏感数据、失效策略 |
5.3 Quantization 的架构含义
量化的 PM 问题不是“INT8 是否更快”,而是量化后是否仍满足风险分层的质量、校准、稳定性和审计要求。
| 决策点 | 架构问题 | Gate evidence |
|---|---|---|
| PTQ vs QAT | 校准数据能否代表生产分布;是否需要训练阶段适配量化误差 | calibration set profile、pre/post quant eval、hard slice report |
| INT8 vs INT4 | 内存和成本收益是否值得质量损失 | latency / memory / quality curve、fallback rate impact |
| CPU vs GPU vs NPU | 部署位置是否影响隐私、延迟和扩展成本 | hardware benchmark、capacity plan、failure mode |
| Static vs dynamic quantization | 输入分布是否稳定,batch 和 sequence length 是否可预测 | workload profile、drift monitor |
| Runtime selection | ONNX Runtime、TensorRT、OpenVINO、mobile runtime 是否支持目标模型算子 | compatibility test、rollback artifact |
6. 架构模式
Pattern A: Model Portfolio Gateway
Use case request
-> policy / risk tiering
-> route policy
-> model gateway
-> small model
-> specialist model
-> frontier model
-> embedding / reranker
-> eval / guardrail
-> response / action / human handoff
-> trace + cost + quality + audit log
适用:企业内多个 AI use case 共用模型接入、成本、审计和 fallback。
关键设计:
| 能力 | 要求 |
|---|---|
| Route policy | 按 use case、risk tier、channel、latency budget、data class、confidence、cost cap 选择模型 |
| Model allowlist | 模型来源、版本、区域、数据处理条款、批准用途可追踪 |
| Trace | 每次请求记录 route reason、model version、fallback、confidence、cost、latency |
| Budget | 按团队、use case、模型、环境设置 quota 和异常告警 |
| Fallback | 模型不可用、超时、低置信度、policy block 时进入降级路径 |
Pattern B: Teacher-Student Distillation Factory
Domain corpus + production logs + expert labels
-> data filtering / PII controls / label policy
-> frontier teacher generation
-> expert audit + disagreement review
-> student training / distillation / quantization
-> teacher-student eval + independent gold eval
-> shadow deployment
-> release gate
-> monitoring + refresh loop
适用:客服意图、KYC OCR 后分类、AML triage、支付风险文本信号、代码 Agent 路由。
关键控制:
- teacher prompt 和模型版本必须固定并登记。
- 蒸馏数据必须记录来源、许可、PII 处理、标签生成方式和人工抽检结果。
- eval 不能只看 teacher-student agreement;必须有独立 gold set 和关键业务切片。
- student 的低置信度路径必须可升级到 frontier 或人工。
- 量化、剪枝、runtime 优化后要重新跑 release gate。
Pattern C: SLM + RAG
User question
-> small query classifier
-> metadata-aware retrieval
-> reranker
-> small generator / extractor for narrow answer
-> frontier fallback for complex synthesis
-> citation / policy guardrail
适用:政策问答、分行运营手册、客服内部知识助手、KYC 操作规范、代码库问答。
设计要点:
| 组件 | 小模型优先的原因 | 升级条件 |
|---|---|---|
| Query classifier | 快速判断问题类型、产品线、风险等级 | 多意图、低置信度、客户权益影响 |
| Retriever / reranker | 成本低、可离线优化、可审计 | 检索结果冲突或证据不足 |
| Extractive answer | 对结构化政策条款和短答案更稳定 | 需要跨文档推理或解释例外 |
| Frontier fallback | 处理复杂整合、长尾语义和自然语言质量 | 输出必须经过 citation 和 policy gate |
Pattern D: Routing / Cascade
Small model first
-> confidence high + risk low: direct answer / action
-> confidence medium: ask clarification or retrieve more evidence
-> confidence low / risk high: frontier model or human review
适用:高吞吐入口、成本敏感、长尾问题比例低的流程。
Cascade 的设计不是“先便宜后贵”,而是风险分级:
| Route | 条件 | 动作 |
|---|---|---|
| Fast path | 低风险、类别稳定、置信度高、无敏感动作 | small model 直接返回或写入低风险状态 |
| Evidence path | 中风险、需要依据、需要引用 | small model + RAG + guardrail |
| Frontier path | 多产品、复杂政策、客户投诉、监管敏感 | frontier 生成建议,人工或 policy gate 确认 |
| Human path | 高金额、高客户影响、模型冲突、监控异常 | 人工处理并回流标签 |
Pattern E: On-device / Edge Model
适用:移动端、分行设备、KYC 采集、低带宽环境、隐私敏感前处理。
| 决策维度 | 架构要求 |
|---|---|
| Model size | 设备内存、启动时间、电池、NPU 支持 |
| Privacy | 原始图像、证件信息、语音片段是否可留在端侧 |
| Update | 模型签名、灰度、撤回、版本兼容 |
| Telemetry | 只上传必要指标和错误码,避免上传敏感原文 |
| Fallback | 端侧低置信度时走服务端 OCR、人工审核或重新采集 |
Pattern F: Low-latency Risk Path
Payment event
-> deterministic rules + feature store
-> specialist risk model
-> small text / behavior classifier
-> synchronous decision within latency budget
-> asynchronous frontier challenger for explanation, pattern discovery, analyst review
适用:支付风险、账户接管、异常登录、交易拦截建议。
核心原则:frontier model 不应处在同步支付授权的关键路径;它更适合做异步 challenger、规则发现、case explanation 和 analyst copilot。
Pattern G: Code Agent Small-model Router
Developer task
-> small router classifies task type and repo risk
-> retrieval of code context
-> small model handles lint / search / boilerplate / test routing
-> frontier model handles architecture change and ambiguous debugging
-> policy gate for destructive commands and secret exposure
适用:企业内部代码 Agent、DevEx 平台、受控自动化。
关键指标:
- route accuracy by task type。
- unnecessary frontier call reduction。
- bad route severity。
- secret / credential exposure block rate。
- developer acceptance rate。
- test pass rate after agent changes。
Pattern H: Customer-facing AI Fallback
客户可见 AI 不能把 fallback 设计成“模型失败后说抱歉”。成熟设计需要多级降级:
| 触发 | Fallback |
|---|---|
| 小模型低置信度 | 升级 frontier 但限制输出范围 |
| frontier 输出无可靠引用 | 返回可解释的人工升级或知识检索结果 |
| policy guardrail 拦截 | 转人工或给出合规安全话术 |
| 高价值客户 / 高情绪投诉 | 直接 human handoff,AI 生成内部摘要 |
| 模型服务超时 | 使用缓存答案、静态流程指引或人工排队 |
7. 金融零售案例
7.1 客服意图分类
| 设计项 | 推荐策略 |
|---|---|
| 模型组合 | small classifier 作为入口;frontier teacher 生成长尾表达、同义改写和边界样本 |
| 数据 | 历史工单、聊天首轮、IVR 语音转文本、人工标签、失败转人工原因 |
| Eval | macro F1、top-2 recall、high-risk intent recall、OOD detection、handoff precision |
| 路由 | 高置信度直接进入技能组;低置信度询问澄清;投诉、欺诈、困难客户升级 |
| 监控 | 意图漂移、新产品话术、错误技能组转派率、平均处理时长 |
产品判断:客服入口的价值不在“回答多智能”,而在把客户请求快速、准确、安全地送到正确流程。
7.2 KYC OCR 后分类
| 设计项 | 推荐策略 |
|---|---|
| 模型组合 | OCR engine + specialist document classifier + field extractor;frontier 用于疑难解释和样本生成 |
| 数据 | 证件图像元数据、OCR 文本、人工审核标签、拒绝原因、国家/地区文档类型 |
| Eval | document type accuracy、field-level recall、fraud indicator recall、uncertain routing rate |
| 隐私 | 原始图像优先在受控环境或端侧处理;蒸馏数据脱敏并保留 lineage |
| Fallback | 低质量图像重新采集;低置信度进入人工审核;高风险信号触发增强尽调 |
关键风险:OCR 文本错误会被 downstream 小模型放大,因此 eval 必须包含 OCR noise slice。
7.3 AML Alert Triage
| 设计项 | 推荐策略 |
|---|---|
| 模型组合 | specialist model 做 alert priority;frontier 生成 analyst summary 和相似案例解释;人工保持最终判断 |
| 数据 | 历史 alert、SAR / non-SAR 标签、规则命中、交易图谱特征、分析员备注 |
| Eval | high-risk recall、false negative severity、analyst acceptance、case review time、explanation support |
| Governance | 不让模型决定可疑交易报告结论;模型只做 triage、evidence grouping、draft narrative |
| 监控 | 新洗钱模式、规则变更、地理/客群切片漂移、analyst override |
产品判断:AML 的小模型价值在降低分析员认知负担和排序工作量,而不是替代合规判断。
7.4 支付风险低延迟
| 设计项 | 推荐策略 |
|---|---|
| 模型组合 | 同步链路使用规则、特征模型和小模型;frontier 只做异步 challenger 和解释 |
| 数据 | 交易事件、设备指纹、行为特征、商户风险、争议结果 |
| Eval | fraud capture、false decline、p95 / p99 latency、cost per decision、customer harm |
| 延迟 | 同步路径目标以毫秒级预算管理;frontier 不进入 authorization blocking path |
| Fallback | 模型超时走规则兜底;高金额或冲突信号进入 step-up authentication |
关键取舍:支付风控不是追求最高离线 AUC,而是在低延迟、低误杀和高可用下控制损失。
7.5 代码 Agent 小模型路由
| 设计项 | 推荐策略 |
|---|---|
| 模型组合 | small router 识别任务风险和代码上下文;frontier 处理架构变更、复杂 debug 和跨模块推理 |
| 数据 | issue、PR、测试日志、代码搜索轨迹、agent 成败记录 |
| Eval | route accuracy、test pass、review rejection、unnecessary frontier calls、unsafe command block |
| Governance | destructive command、secret access、production config change 需要 policy gate |
| 监控 | 模型路由错误、失败重试、开发者采纳率、代码质量回归 |
产品判断:代码 Agent 的小模型不是为了“写所有代码”,而是把常见低风险步骤快速处理,并把高风险上下文送给更强模型或人工。
7.6 Customer-facing AI Fallback
| 设计项 | 推荐策略 |
|---|---|
| 模型组合 | small intent / safety classifier + RAG + frontier answer generator + policy guardrail |
| 数据 | 客户问题、可公开政策、投诉样本、拒答样本、人工升级记录 |
| Eval | answer correctness、citation support、unsafe advice rate、handoff quality、customer satisfaction |
| Governance | 不能让模型承诺费用减免、账户动作、法律/投资建议;高风险话术转人工 |
| 监控 | policy block、客户负反馈、重复追问、人工覆盖率、渠道差异 |
成熟 fallback 要让客户感到流程仍然可控,而不是暴露“模型能力不足”。
8. 产品决策框架
8.1 Latency / Cost / Privacy / Quality 四维取舍
| 决策场景 | 延迟 | 成本 | 隐私 | 质量 | 推荐策略 |
|---|---|---|---|---|---|
| 客服意图入口 | 极高 | 高 | 中 | 中高 | small classifier + frontier teacher + low-confidence cascade |
| KYC OCR 后分类 | 高 | 中 | 极高 | 高 | edge / private specialist model + manual review fallback |
| AML alert triage | 中 | 中 | 高 | 极高 | specialist triage + frontier analyst copilot + HITL |
| 支付风险同步决策 | 极高 | 高 | 高 | 极高 | deterministic rules + low-latency specialist model;frontier 异步 |
| 内部政策 RAG | 中 | 中 | 中高 | 高 | SLM + RAG for simple answers;frontier for complex synthesis |
| 客户-facing 投诉回复 | 中 | 中 | 高 | 极高 | frontier draft + policy guardrail + human handoff for high risk |
8.2 Small model 进入生产的判断线
| 判断线 | 进入生产的条件 |
|---|---|
| Task stability | 标签体系、输入分布、业务动作在一个 release 周期内稳定 |
| Evaluation maturity | 有独立 gold set、hard negative、关键切片和置信度阈值 |
| Fallback design | 低置信度、OOD、policy conflict、模型超时都有明确路径 |
| Governance | model card、data lineage、owner、批准用途、变更记录完整 |
| Economics | 节省的成本和延迟大于训练、评估、监控、刷新和人工复核成本 |
| Operational readiness | 监控、告警、rollback、版本灰度、incident response 已纳入平台 |
9. Teacher-Student Eval Plan
Teacher-student eval 的目标不是证明 student “像 teacher”,而是证明 student 在目标业务边界内比现有方案更可靠、更便宜、更快,并且失败时可控。
9.1 Eval 结构
| Eval 层 | 目的 | 样本 |
|---|---|---|
| Teacher quality audit | 确认 teacher 标签和 rationale 可用 | teacher 输出、人工复核、争议样本 |
| Student vs gold | 证明 student 对真实标签有效 | 专家 gold set、历史 closed cases、平衡切片 |
| Student vs teacher | 观察蒸馏一致性和差异 | 同一输入下 teacher / student 输出对比 |
| Student vs baseline | 证明业务价值 | 现有规则、传统模型、人工首判 |
| Compression eval | 评估量化、剪枝、runtime 优化后的回归 | pre/post optimization paired eval |
| Cascade eval | 验证路由阈值和 fallback 是否降低风险 | fast path、fallback path、human path 样本 |
| Production shadow | 生产流量旁路验证 | 真实请求、无客户影响、监控 trace |
9.2 指标组合
| 任务 | 主要指标 | 必看切片 |
|---|---|---|
| 意图分类 | macro F1、top-k recall、ECE calibration、OOD recall | 投诉、欺诈、困难客户、方言/错字、新产品 |
| OCR 后分类 | document type accuracy、field recall、schema violation | 低清晰度、非标准证件、跨地区、OCR noise |
| AML triage | high-risk recall、false negative severity、analyst acceptance | 高金额、跨境、现金密集、历史 SAR 类似样本 |
| 支付风险 | fraud capture、false decline、p99 latency、decision cost | 新设备、高金额、商户类别、老年客户、国际交易 |
| 客户-facing 回复 | groundedness、citation support、unsafe advice、handoff quality | 费用争议、投诉升级、监管敏感、情绪高压 |
9.3 常见失败模式
| 失败模式 | 表现 | 控制 |
|---|---|---|
| Teacher error inheritance | student 高度复刻 teacher 的错误边界 | 独立 gold set、专家争议池、teacher ensemble |
| Agreement trap | 只看 student 和 teacher 一致率 | 引入业务 baseline、人工标签、severity-weighted eval |
| Slice blindness | 总体分数好,高风险客群差 | 强制 reporting by product、channel、customer segment、risk tier |
| Confidence miscalibration | student 高置信度犯错 | calibration curve、threshold tuning、abstention class |
| Rationale laundering | student 学到看似合理的解释 | evidence faithfulness eval、citation verification |
| Compression regression | 量化后边界样本失效 | paired eval、hard negative replay、rollback model |
10. Domain Model Governance
Small model 的治理强度不能因为模型小而降低。模型越靠近高频生产路径,越需要清晰 owner、数据血缘、变更控制和监控。
10.1 Domain model inventory
| 字段 | 示例值 |
|---|---|
| Model asset id | slm-cs-intent-en-us-v3 |
| Use case | 客服入口意图分类 |
| Business owner | Customer Operations |
| Technical owner | ML Platform |
| Risk tier | Medium,包含投诉和欺诈升级路径 |
| Approved use | 首轮意图路由、技能组分派、低置信度澄清 |
| Prohibited use | 自动拒绝客户诉求、自动承诺费用减免、替代人工投诉判断 |
| Teacher model | frontier-teacher-policy-2026q2 |
| Training data lineage | 历史工单、人工标签、teacher synthetic variants、PII masked |
| Eval pack | gold set、hard negative、high-risk slice、shadow traffic |
| Deployment | CPU inference service + model gateway route policy |
| Fallback | frontier review 或 human queue |
| Monitoring | drift、calibration、handoff、misroute、customer complaint |
| Refresh trigger | 新产品上线、意图分布漂移、投诉误路由上升、teacher upgrade |
10.2 Benchmark pitfalls
| Pitfall | 为什么危险 | 更好的做法 |
|---|---|---|
| 只看公开 leaderboard | 与企业分布、语言、政策、错误代价不一致 | 建立 use-case-specific eval pack |
| 只看平均准确率 | 高风险类别可能被多数类掩盖 | severity-weighted metric 和 critical slice recall |
| 只测原模型不测压缩版本 | 量化、runtime、prompt、route policy 都可能改变行为 | release artifact 级别 eval |
| 只测离线不测路由 | 线上 cascade 决策可能制造新错误 | end-to-end route eval 和 shadow deployment |
| 只测英文或标准文本 | 金融零售有口语、OCR noise、缩写、代码混合语言 | 生产分布重放和噪声增强 |
| 只测模型不测人机流程 | 小模型可能增加人工负担或错误信任 | analyst acceptance、override、review time、complaint outcome |
| teacher 当真值 | frontier teacher 也会幻觉和偏置 | 专家 gold set、双人复核、disagreement workflow |
11. Model Lifecycle
Use case framing
-> model portfolio decision
-> data sourcing and governance
-> teacher / baseline selection
-> distillation / fine-tuning / compression
-> offline eval
-> cascade and fallback design
-> shadow deployment
-> release gate
-> production monitoring
-> refresh / rollback / sunset
| 阶段 | 关键产出 | 退出条件 |
|---|---|---|
| Framing | use case、risk tier、workflow step、success metric | 明确模型是否影响客户权益或高风险决策 |
| Portfolio decision | frontier / mid / small / specialist / edge / human split | 每个 workflow step 有模型责任和 fallback |
| Data governance | lineage、PII、label policy、license、retention | 数据可用、可审计、可删除、可复现 |
| Training / distillation | teacher prompt、student config、compression plan | 训练产物可追踪,模型 artifact 可复现 |
| Eval | gold set、slice report、threshold、baseline comparison | 达到 release threshold,关键风险有控制 |
| Shadow | production-like trace、成本、延迟、fallback | 无客户影响验证线上分布 |
| Release | model card、approval、rollback、monitoring | 发布门禁通过,owner 接受运营责任 |
| Monitoring | quality、drift、latency、cost、override、incident | 指标在 SLO 内,异常进入 issue loop |
| Refresh | 新数据、新政策、新 teacher、新压缩配置 | 重新评估并版本化发布 |
| Sunset | 停用理由、替代路径、数据保留 | 路由移除,依赖系统确认 |
变更触发器:
- teacher model 或供应商版本变化。
- 新产品、新政策、新渠道或新地区上线。
- 生产输入分布、客户群体或欺诈模式漂移。
- 量化、runtime、硬件、batching、cache 策略变化。
- 低置信度比例、人工覆盖率、投诉率、误路由率异常。
- 内部审计、模型风险或监管检查发现控制缺口。
12. 可落地交付物模板
12.1 Model Portfolio Strategy
| 字段 | 示例内容 |
|---|---|
| Strategy name | Retail AI Model Portfolio 2026Q3 |
| Business domains | 客服、KYC、AML、支付风险、代码 Agent、客户-facing AI |
| Portfolio principle | 高频稳定任务 small / specialist 优先;复杂推理 frontier;高风险动作 human approval |
| Frontier approved roles | teacher、complex reasoner、customer-facing draft、long-tail fallback、synthetic evaluator |
| Small model approved roles | classifier、extractor、router、guardrail、edge preprocessor |
| Prohibited pattern | frontier 直接进入支付授权同步拦截;small model 自动完成投诉裁决 |
| Cost policy | 每个 use case 设置 monthly budget、cost per successful task、fallback cost cap |
| Latency policy | 客服入口 p95 < 150ms;支付同步路径 p99 < 50ms;复杂客户回复 p95 < 5s |
| Privacy policy | KYC 原始图像和高敏 PII 不出受控边界;外部 frontier 调用使用脱敏上下文 |
| Governance model | model gateway + inventory + release gate + monitoring pack + quarterly portfolio review |
| Review cadence | 每月成本/延迟/质量 review;每季度模型组合和 vendor dependency review |
12.2 Teacher-Student Eval Plan
| 字段 | 示例内容 |
|---|---|
| Use case | 客服意图分类 small model v3 |
| Teacher | frontier model with prompt cs-intent-teacher-v2 |
| Student | 120M 参数分类模型,INT8 CPU 部署 |
| Baseline | 当前规则路由 + 人工首判 |
| Gold set | 20,000 条人工复核样本,按意图、渠道、产品、风险等级分层 |
| Hard negative | 欺诈 vs 账户登录、投诉 vs 普通咨询、费用争议 vs 账单解释 |
| Metrics | macro F1、critical intent recall、ECE、handoff precision、p95 latency、cost per 1k requests |
| Release threshold | critical intent recall >= 0.98;macro F1 >= baseline + 5pp;ECE <= 0.05;p95 <= 150ms |
| Fallback threshold | max probability < 0.72 或 OOD score > threshold 时升级澄清 / frontier / human |
| Shadow test | 10% 生产流量旁路 14 天,无客户可见影响 |
| Approval | Customer Ops、ML Platform、Model Risk、Compliance signoff |
12.3 Distillation Data Governance Checklist
| 控制项 | 通过证据 |
|---|---|
| Data lineage | 每个样本有 source system、time window、business owner、retention class |
| Data minimization | 只保留任务必需字段;原始 PII 使用 token、hash 或受控引用 |
| Consent / permissible use | 客户数据使用符合内部政策、合同、隐私声明和地区要求 |
| Label policy | 人工标签、teacher 标签、合成标签分开记录,不混淆来源 |
| Teacher prompt version | teacher 输出可追溯到 prompt、model、temperature、policy version |
| Expert audit | 高风险类别、低一致样本、teacher-student disagreement 有专家复核 |
| Bias and fairness slice | 按渠道、语言、地区、客群、产品类型检查性能差异 |
| Synthetic data control | 合成样本标记为 synthetic,不能覆盖真实高风险样本评估 |
| Leakage scan | 训练集、验证集、测试集按客户、case、时间窗口隔离 |
| Deletion path | 客户删除、数据保留到期、政策变化可触发样本移除和模型再评估 |
12.4 Small-model Deployment Decision Tree
1. 任务是否是稳定、窄边界、可量化的 workflow step?
- 是:进入 2
- 否:使用 frontier / human-assisted workflow,沉淀数据后再评估
2. 错误是否会直接影响客户权益、监管结论或资金动作?
- 是:small model 只能做辅助、排序、提醒或证据整理,必须有 human / policy gate
- 否:进入 3
3. 是否有独立 gold set、hard negatives 和高风险切片?
- 是:进入 4
- 否:先建设 eval pack 和 label governance
4. 小模型是否达到质量、校准、延迟和成本门槛?
- 是:进入 shadow deployment
- 否:调整数据、蒸馏策略、模型大小或继续使用 cascade
5. Shadow deployment 是否显示生产分布稳定且 fallback 可控?
- 是:灰度发布并启用 monitoring pack
- 否:回到 route policy、数据切片或模型训练阶段
12.5 Latency / Cost / Privacy Scorecard
评分采用 1 到 5,5 表示约束最强或收益最高。总分不是自动决策,必须结合风险等级和客户影响解释。
| Use case | Latency need | Cost pressure | Privacy sensitivity | Quality risk | Small-model fit | Recommended route |
|---|---|---|---|---|---|---|
| 客服意图分类 | 5 | 5 | 3 | 3 | 5 | small first + frontier fallback |
| KYC OCR 后分类 | 4 | 3 | 5 | 4 | 4 | private specialist + manual review |
| AML alert triage | 3 | 3 | 5 | 5 | 3 | specialist triage + frontier copilot + HITL |
| 支付风险同步 | 5 | 4 | 4 | 5 | 4 | low-latency specialist + rules;frontier async |
| 代码 Agent 路由 | 4 | 4 | 3 | 4 | 4 | small router + frontier for complex tasks |
| 客户-facing fallback | 3 | 3 | 4 | 5 | 2 | frontier draft + guardrail + human path |
12.6 Release Gate
| Gate | 通过标准 |
|---|---|
| Scope gate | approved use、prohibited use、risk tier、workflow owner 明确 |
| Data gate | lineage、PII、label source、license、retention、deletion path 可审计 |
| Eval gate | gold set、hard slices、baseline comparison、teacher-student analysis 完成 |
| Compression gate | 量化 / 剪枝 / runtime 优化后的 artifact 通过同一 eval pack |
| Cascade gate | confidence threshold、OOD、fallback、human handoff 在 shadow traffic 中验证 |
| Security gate | model artifact signed,dependency scanned,secrets and prompt injection controls tested |
| Compliance gate | 客户-facing、KYC、AML、支付风险等高影响场景完成 policy review |
| Observability gate | latency、cost、quality、drift、fallback、override、incident dashboard 已上线 |
| Rollback gate | previous model、route policy、index、prompt、runtime 可在规定窗口内恢复 |
| Business gate | owner 接受 residual risk,运营团队有处理低置信度和异常样本的流程 |
12.7 Monitoring Pack
| 监控对象 | 指标 |
|---|---|
| Quality | task success、critical recall、classification drift、groundedness、citation support |
| Calibration | confidence distribution、ECE、abstention rate、low-confidence routing |
| Cascade | fast path share、fallback rate、bad route rate、frontier escalation cost |
| Latency | p50 / p95 / p99 by model、queue wait、retrieval time、runtime errors |
| Cost | cost per request、cost per successful task、teacher generation cost、shadow eval cost |
| Privacy / safety | PII block、policy block、unsafe output、external call data class |
| Human loop | override rate、review time、analyst acceptance、handoff resolution |
| Drift | input distribution、label distribution、new intent emergence、OCR noise shift |
| Reliability | model timeout、gateway error、edge update failure、fallback success |
| Governance | release version, route policy version, model owner review, incident closure time |
13. 30天训练计划
| Day | 训练主题 | 产出 |
|---|---|---|
| 1 | 建立模型组合地图:列出现有 AI use case 的 workflow step 和模型依赖 | Model portfolio inventory v1 |
| 2 | 为每个 step 标注 risk tier、latency budget、cost pressure、privacy class | Risk / latency / privacy matrix |
| 3 | 选一个高频分类场景,定义 small model candidate | Use case framing one-pager |
| 4 | 设计 frontier teacher 的允许角色和禁止角色 | Teacher policy note |
| 5 | 设计 gold set、hard negative 和关键切片 | Eval dataset blueprint |
| 6 | 对客服意图分类做 teacher-student eval plan | Eval plan artifact |
| 7 | 复盘 Day 1-6,形成 portfolio strategy memo | Strategy memo |
| 8 | 设计 KYC OCR 后分类模型链路 | KYC model architecture |
| 9 | 梳理 OCR noise、低清晰度、非标准证件切片 | KYC hard slice pack |
| 10 | 设计 AML alert triage 中 specialist model 与 frontier copilot 边界 | AML triage control design |
| 11 | 设计支付风险同步链路的 latency gate | Payment risk latency gate |
| 12 | 设计 code Agent router 的 route policy | Code Agent route policy |
| 13 | 设计客户-facing fallback 的风险路径 | Customer fallback decision table |
| 14 | 复盘六个金融零售案例,形成 cross-case pattern map | Pattern map |
| 15 | 深入 quantization:制定 PTQ / QAT / runtime 选择原则 | Quantization ADR |
| 16 | 设计 compression regression eval | Compression eval checklist |
| 17 | 设计 SLM + RAG 架构,明确 retriever、reranker、generator 分工 | SLM + RAG architecture note |
| 18 | 设计 cascade 阈值和 confidence calibration | Cascade threshold memo |
| 19 | 设计 on-device / edge model 隐私和更新控制 | Edge governance note |
| 20 | 建立 domain model inventory 字段 | Domain model registry schema |
| 21 | 复盘 Day 15-20,形成 deployment decision tree | Decision tree |
| 22 | 设计 distillation data governance checklist | Data governance pack |
| 23 | 设计 release gate,覆盖数据、eval、压缩、cascade、安全、合规 | Release gate v1 |
| 24 | 设计 monitoring pack,覆盖 quality、latency、cost、drift、human loop | Monitoring dashboard spec |
| 25 | 设计 model lifecycle 和 refresh trigger | Lifecycle operating model |
| 26 | 设计 benchmark pitfall review 流程 | Benchmark challenge memo |
| 27 | 写一份 CTO Staff 视角的 build / buy / route 决策 memo | Executive memo |
| 28 | 写一份 AI Platform PM 视角的 PRD backlog | Platform backlog |
| 29 | 完成 5 道面试题的 30 秒和 2 分钟回答 | Interview answer pack |
| 30 | 综合演练:为一个金融零售企业设计 12 个月模型组合路线图 | 12-month model strategy roadmap |
14. 面试回答
Q1: 你如何决定一个场景用 frontier model 还是 small model?
30秒版本: 我不会按模型大小决策,而是按 workflow step、风险等级、延迟预算、隐私边界、成本压力和失败代价决策。高频稳定分类和抽取优先 small / specialist model;复杂推理、长尾问题、teacher 数据生成和客户可见高质量草稿用 frontier;高风险动作必须有人或 policy gate。
2分钟版本: 我会先把业务流程拆成分类、检索、抽取、生成、判断、执行。以客服为例,入口意图分类是高频、短文本、标签稳定的任务,适合用蒸馏后的小模型,并在低置信度时升级 frontier 或人工。复杂投诉回复则需要 frontier 处理跨政策推理和自然语言质量,但输出要经过 RAG citation、合规 guardrail 和人工确认。支付风险同步链路则不同,frontier 不适合进入毫秒级授权路径,只能做异步解释和规则发现。这样的模型组合既控制成本和延迟,也保留复杂场景能力。
Q2: 如何证明蒸馏出来的小模型可以上线?
30秒版本: 只看 teacher-student agreement 不够。必须有独立 gold set、关键高风险切片、baseline 对比、置信度校准、压缩后回归测试、shadow deployment 和 fallback 验证。
2分钟版本: 我的上线证据会分七层:第一,teacher 质量审计,确认 teacher 标签和 rationale 不是错误来源;第二,student 对人工 gold set 的效果;第三,student 与 teacher 的差异分析;第四,与现有规则或人工首判 baseline 对比;第五,量化或 runtime 优化后的 artifact 级回归测试;第六,cascade 阈值和 human fallback 的端到端验证;第七,在生产 shadow 流量中观察漂移、延迟、成本和误路由。对 AML 或 KYC 这类场景,还要按高风险样本和监管敏感类别做 severity-weighted eval。
Q3: 量化会带来哪些产品和治理风险?
30秒版本: 量化的风险是质量和校准在关键切片上回退,而不是平均分下降一点。上线前必须用同一 eval pack 比较量化前后表现,记录硬件、runtime、校准数据和回滚方案。
2分钟版本: 量化把权重或激活降到更低精度,会降低内存和推理成本,但也可能改变边界样本判断、置信度分布和长尾稳定性。产品上要证明成本和延迟收益足以覆盖质量风险;架构上要确认 ONNX Runtime、GPU/NPU/CPU、batch、sequence length 都符合生产 profile;治理上要把量化后的 artifact 当成新模型版本,重新过 eval gate、security gate 和 release gate。对支付风险或客户-facing 场景,我会要求 hard negative replay、critical recall、p99 latency 和 fallback success 同时通过。
Q4: 如何设计客户-facing AI 的 fallback?
30秒版本: fallback 不是模型失败话术,而是多级风险路径:小模型低置信度升级 frontier,frontier 无证据则转人工或返回可验证信息,policy block 触发合规话术和 human handoff,高价值或高情绪客户直接人工优先。
2分钟版本: 客户-facing AI 的核心是让客户体验可控。入口用 small classifier 判断意图、风险和情绪;普通问题走 RAG 和受控回答;复杂问题升级 frontier 生成草稿,但必须有 citation 和 policy guardrail;涉及费用减免、账户动作、投诉升级、法律或投资建议时不能由模型直接承诺。fallback 还要覆盖超时、低置信度、知识冲突和敏感内容拦截。监控上看 policy block、人工覆盖、客户负反馈、重复追问和最终解决率,而不是只看回答次数。
Q5: 为什么公开 benchmark 容易误导企业模型策略?
30秒版本: 公开 benchmark 很少等同于企业分布、语言、数据噪声、合规边界和错误代价。模型策略需要 use-case-specific eval,尤其是高风险切片、端到端路由、压缩版本和人机流程指标。
2分钟版本: leaderboard 可以作为初筛,但不能作为上线依据。金融零售场景有 OCR noise、口语化客服、地区政策、产品差异、客户权益影响和监管敏感边界。一个模型在公开任务上平均分高,不代表它能处理 AML 的 false negative、支付风险的 p99 latency、KYC 的低清晰度证件或客户投诉的合规话术。我的做法是把公开 benchmark 降级为候选筛选,把真实上线决策交给内部 gold set、hard negative、production shadow、route policy eval 和 monitoring pack。
15. 参考来源链接
- Hinton, Vinyals, Dean, “Distilling the Knowledge in a Neural Network”: https://arxiv.org/abs/1503.02531
- Sanh, Debut, Chaumond, Wolf, “DistilBERT, a distilled version of BERT: smaller, faster, cheaper and lighter”: https://arxiv.org/abs/1910.01108
- ONNX Runtime Quantization: https://onnxruntime.ai/docs/performance/model-optimizations/quantization.html
- Hugging Face Transformers Quantization: https://huggingface.co/docs/transformers/main_classes/quantization
- Hugging Face Optimum: https://huggingface.co/docs/optimum/index
- Hugging Face SetFit Knowledge Distillation: https://huggingface.co/docs/setfit/how_to/knowledge_distillation
- Hugging Face Optimum Intel optimization notes: https://huggingface.co/docs/optimum-intel/neural_compressor/optimization
- NIST AI Risk Management Framework: https://www.nist.gov/itl/ai-risk-management-framework
- NIST AI RMF 1.0 publication: https://www.nist.gov/publications/artificial-intelligence-risk-management-framework-ai-rmf-10
- NIST AI 600-1 Generative AI Profile: https://www.nist.gov/publications/artificial-intelligence-risk-management-framework-generative-artificial-intelligence