返回 Papers
AI 底层逻辑 / 经典论文

Knowledge Distillation / Small Models:蒸馏、量化与模型组合

一句话:

263ai-foundations/papers/41-knowledge-distillation-small-models-quantization.md

Knowledge Distillation / Small Models 解读

面向对象: AI Product Architect / AI Platform PM / ML Platform / Enterprise Architect / Engineering Productivity PM。 核心问题: 为什么企业 AI 不应该永远把所有任务交给最大模型?知识蒸馏、小模型、量化和路由如何组成成本、延迟、隐私和可靠性的模型组合策略? 学习目标: 理解 teacher-student distillation、soft labels、specialist models、quantization、small model deployment 和 model cascade,并映射到金融零售客服、KYC、AML、支付风控和代码 Agent。


Source Anchors

SourceLink用途
Distilling the Knowledge in a Neural Networkhttps://arxiv.org/abs/1503.02531理解 teacher-student 和 soft target 的基本思想
DistilBERT paperhttps://arxiv.org/abs/1910.01108理解 Transformer 时代的蒸馏和轻量模型
ONNX Runtime quantization docshttps://onnxruntime.ai/docs/performance/model-optimizations/quantization.html理解模型量化对部署成本和性能的影响
Hugging Face quantization docshttps://huggingface.co/docs/transformers/en/main_classes/quantization理解 LLM/Transformer 量化生态
NIST AI RMFhttps://www.nist.gov/itl/ai-risk-management-framework把模型组合策略纳入风险、测量和治理

一句话:

小模型策略不是“降级版 AI”,而是把不同风险、延迟、成本、隐私和任务类型映射到合适模型的产品架构能力。


1. 为什么最大模型不是默认答案

Frontier model 强在:

  • 通用推理。
  • 复杂语言理解。
  • 多任务泛化。
  • 长上下文。
  • 少样本适应。

但企业生产系统还关心:

  • 单次请求成本。
  • 首 token 延迟。
  • 峰值容量。
  • 数据边界。
  • 可重复性。
  • 线上 SLO。
  • 部署环境。
  • 审计和版本控制。

很多任务并不需要最大模型:

任务可能更适合
意图分类小分类模型
文档类型识别轻量视觉/文本模型
固定字段抽取小模型 + schema validator
RAG 召回重排embedding + reranker
风险初筛gradient boosting / small transformer
低风险客服模板small model + policy guardrail
代码变更分类specialist model

高级架构问题:

哪些任务应该用 frontier model,哪些应该被蒸馏成 specialist model,哪些应该用规则或传统 ML?


2. Knowledge Distillation 核心机制

知识蒸馏的基本思想:

large teacher model
  -> produces soft labels / logits / rationales / traces
  -> student model learns to mimic useful behavior
  -> smaller model serves production tasks

为什么 soft labels 有价值:

  • 它们包含类别之间的相似性信息。
  • 不只是告诉学生“正确答案”,还告诉学生“哪些错误更接近正确”。
  • 可以把 ensemble 或大模型能力压缩到更小模型。

产品映射:

机制产品含义
Teacher高质量但昂贵的大模型、专家模型或 ensemble
Student低成本、低延迟、可本地部署的小模型
Soft label大模型对候选答案的偏好分布
Distillation data任务分布、边界案例、风险案例、失败案例
Eval gate学生模型是否足够替代老师处理某类任务

3. DistilBERT 与 Transformer 压缩

DistilBERT 的启发:

  • Transformer 表示可以被压缩。
  • 蒸馏可以保留相当一部分语言理解能力。
  • 小模型在延迟和部署成本上更有优势。

企业架构含义:

  • 对固定、高频、低复杂度任务,小模型可能更稳定。
  • 小模型更适合低延迟和边缘部署。
  • 小模型更容易做容量规划。
  • 但小模型边界更窄,需要清晰 routing 和 fallback。

小模型不是“万能替代”,它需要任务边界:

if task is in-domain and low/medium risk:
  use specialist small model
else if high uncertainty or high impact:
  route to large model or human review

4. Quantization 与部署成本

量化的直觉:

用更低精度表示模型权重和激活,以减少内存和计算成本。

常见效果:

  • 减少显存/内存。
  • 提高吞吐。
  • 降低延迟。
  • 支持更便宜硬件或边缘部署。
  • 可能损失精度或稳定性。

产品/架构判断:

问题需要回答
质量量化后任务指标下降多少
稳定性长尾、边界、合规场景是否退化
延迟p50/p95/p99 是否满足 SLO
成本单次调用、每 case、每月峰值成本是否下降
隐私是否支持本地或私有环境部署
回滚量化版本失败时能否切回原模型

5. Model Portfolio Strategy

成熟 AI 平台应该维护模型组合:

Model tier适合任务控制
Frontier model复杂推理、低频高价值、未知任务高成本预算、强 eval、人工复核
General medium model常规生成、摘要、分类、RAG answerroute policy、SLO/cost monitoring
Specialist small model高频稳定任务teacher-student eval、漂移监控
Traditional ML/rules结构化、确定性、低延迟reason code、规则治理
Human expert高风险、模糊、客户权益影响workflow、evidence、SLA

路由策略:

request
  -> task/risk classifier
  -> cache lookup
  -> small model if in-domain
  -> larger model if uncertain
  -> human if high risk or policy boundary
  -> trace and feedback

6. 金融零售案例

6.1 客服意图分类

高频、低复杂度:

  • 查询余额。
  • 更改地址。
  • 报失卡。
  • 争议交易。
  • 投诉。

可以用小模型做 first-pass intent routing,复杂或高风险进入大模型/人工。

6.2 KYC 文档分类

小模型适合:

  • 文档类型分类。
  • 清晰度评分。
  • 缺页检测。

不适合单独完成:

  • 真伪判断。
  • 法规充分性最终判断。
  • 高风险客户最终 onboarding 决策。

6.3 支付风险低延迟

支付授权链路要求低延迟。小模型、规则和特征服务可能比大模型更合适:

real-time features
  -> small risk model
  -> rules/policy
  -> approve / step-up / decline / review

LLM 可以用于事后解释、案例摘要和 analyst support,不一定进入毫秒级路径。


7. Teacher-Student Eval

学生模型上线前要证明:

Eval问题
Agreement学生和老师在标准样本上是否一致
Boundary学生是否知道何时拒答或升级
Slice不同客户群、产品、渠道是否退化
Robustness噪声、拼写、OCR 错误、长尾是否稳定
Safety是否违反政策、隐私、合规边界
Cost/SLO是否达到成本和延迟目标
Drift线上分布变化后是否仍可靠

关键原则:

  • 学生模型不能被评估成“像老师一样会聊天”。
  • 它只需要在批准任务边界内达标。
  • 超出边界必须路由或升级。

8. 面试表达

30 秒版本

知识蒸馏是用大模型或 ensemble 作为 teacher,把任务能力迁移到更小、更快、更便宜的 student model。企业 AI 不应该所有任务都用最大模型,而应建立模型组合和路由策略。高频稳定任务可以用小模型,复杂高风险任务用大模型或人工。关键是 teacher-student eval、任务边界、fallback、SLO、成本和治理。

2 分钟版本

我会把模型策略分成 frontier、medium、specialist small、traditional ML/rules 和 human expert。蒸馏适合把固定任务能力从大模型压缩到小模型,例如客服意图分类、KYC 文档分类、代码变更分类。量化可以降低内存和推理成本,但必须做质量、边界、slice 和安全评估。生产架构中需要 route policy: 小模型处理 in-domain 低中风险任务,置信不足或高风险时升级到大模型或人工。这样能在不牺牲控制的前提下降低成本、延迟和容量压力。

架构师版本

Small model strategy 是 AI 平台的 model portfolio management。它包括 teacher data generation、distillation dataset governance、student training、quantization、model registry、routing gateway、eval gate、monitoring 和 rollback。目标不是追小,而是把任务、风险、成本、延迟和隐私部署边界匹配到合适模型。


9. 作品集任务

设计一个客服意图小模型蒸馏方案:

  1. 定义 20 个意图和 5 个升级类别。
  2. 用 frontier model 生成 teacher labels,并设计人工抽检。
  3. 设计 student model 评测集: 常规、边界、投诉、欺诈、隐私、噪声。
  4. 定义 route policy: small model / large model / human。
  5. 比较成本、延迟、准确率和升级率。
  6. 写一页 release gate 和 rollback plan。