AI 底层逻辑 / 经典论文

Knowledge Distillation / Small Models：蒸馏、量化与模型组合

一句话:

263 行ai-foundations/papers/41-knowledge-distillation-small-models-quantization.md

Knowledge Distillation / Small Models 解读

面向对象: AI Product Architect / AI Platform PM / ML Platform / Enterprise Architect / Engineering Productivity PM。核心问题: 为什么企业 AI 不应该永远把所有任务交给最大模型？知识蒸馏、小模型、量化和路由如何组成成本、延迟、隐私和可靠性的模型组合策略？学习目标: 理解 teacher-student distillation、soft labels、specialist models、quantization、small model deployment 和 model cascade，并映射到金融零售客服、KYC、AML、支付风控和代码 Agent。

Source Anchors

Source	Link	用途
Distilling the Knowledge in a Neural Network	https://arxiv.org/abs/1503.02531	理解 teacher-student 和 soft target 的基本思想
DistilBERT paper	https://arxiv.org/abs/1910.01108	理解 Transformer 时代的蒸馏和轻量模型
ONNX Runtime quantization docs	https://onnxruntime.ai/docs/performance/model-optimizations/quantization.html	理解模型量化对部署成本和性能的影响
Hugging Face quantization docs	https://huggingface.co/docs/transformers/en/main_classes/quantization	理解 LLM/Transformer 量化生态
NIST AI RMF	https://www.nist.gov/itl/ai-risk-management-framework	把模型组合策略纳入风险、测量和治理

一句话:

小模型策略不是“降级版 AI”，而是把不同风险、延迟、成本、隐私和任务类型映射到合适模型的产品架构能力。

1. 为什么最大模型不是默认答案

Frontier model 强在:

通用推理。
复杂语言理解。
多任务泛化。
长上下文。
少样本适应。

但企业生产系统还关心:

单次请求成本。
首 token 延迟。
峰值容量。
数据边界。
可重复性。
线上 SLO。
部署环境。
审计和版本控制。

很多任务并不需要最大模型:

任务	可能更适合
意图分类	小分类模型
文档类型识别	轻量视觉/文本模型
固定字段抽取	小模型 + schema validator
RAG 召回重排	embedding + reranker
风险初筛	gradient boosting / small transformer
低风险客服模板	small model + policy guardrail
代码变更分类	specialist model

高级架构问题:

哪些任务应该用 frontier model，哪些应该被蒸馏成 specialist model，哪些应该用规则或传统 ML？

2. Knowledge Distillation 核心机制

知识蒸馏的基本思想:

large teacher model
  -> produces soft labels / logits / rationales / traces
  -> student model learns to mimic useful behavior
  -> smaller model serves production tasks

为什么 soft labels 有价值:

它们包含类别之间的相似性信息。
不只是告诉学生“正确答案”，还告诉学生“哪些错误更接近正确”。
可以把 ensemble 或大模型能力压缩到更小模型。

产品映射:

机制	产品含义
Teacher	高质量但昂贵的大模型、专家模型或 ensemble
Student	低成本、低延迟、可本地部署的小模型
Soft label	大模型对候选答案的偏好分布
Distillation data	任务分布、边界案例、风险案例、失败案例
Eval gate	学生模型是否足够替代老师处理某类任务

3. DistilBERT 与 Transformer 压缩

DistilBERT 的启发:

Transformer 表示可以被压缩。
蒸馏可以保留相当一部分语言理解能力。
小模型在延迟和部署成本上更有优势。

企业架构含义:

对固定、高频、低复杂度任务，小模型可能更稳定。
小模型更适合低延迟和边缘部署。
小模型更容易做容量规划。
但小模型边界更窄，需要清晰 routing 和 fallback。

小模型不是“万能替代”，它需要任务边界:

if task is in-domain and low/medium risk:
  use specialist small model
else if high uncertainty or high impact:
  route to large model or human review

4. Quantization 与部署成本

量化的直觉:

用更低精度表示模型权重和激活，以减少内存和计算成本。

常见效果:

减少显存/内存。
提高吞吐。
降低延迟。
支持更便宜硬件或边缘部署。
可能损失精度或稳定性。

产品/架构判断:

问题	需要回答
质量	量化后任务指标下降多少
稳定性	长尾、边界、合规场景是否退化
延迟	p50/p95/p99 是否满足 SLO
成本	单次调用、每 case、每月峰值成本是否下降
隐私	是否支持本地或私有环境部署
回滚	量化版本失败时能否切回原模型

5. Model Portfolio Strategy

成熟 AI 平台应该维护模型组合:

Model tier	适合任务	控制
Frontier model	复杂推理、低频高价值、未知任务	高成本预算、强 eval、人工复核
General medium model	常规生成、摘要、分类、RAG answer	route policy、SLO/cost monitoring
Specialist small model	高频稳定任务	teacher-student eval、漂移监控
Traditional ML/rules	结构化、确定性、低延迟	reason code、规则治理
Human expert	高风险、模糊、客户权益影响	workflow、evidence、SLA

路由策略:

request
  -> task/risk classifier
  -> cache lookup
  -> small model if in-domain
  -> larger model if uncertain
  -> human if high risk or policy boundary
  -> trace and feedback

6. 金融零售案例

6.1 客服意图分类

高频、低复杂度:

查询余额。
更改地址。
报失卡。
争议交易。
投诉。

可以用小模型做 first-pass intent routing，复杂或高风险进入大模型/人工。

6.2 KYC 文档分类

小模型适合:

文档类型分类。
清晰度评分。
缺页检测。

不适合单独完成:

真伪判断。
法规充分性最终判断。
高风险客户最终 onboarding 决策。

6.3 支付风险低延迟

支付授权链路要求低延迟。小模型、规则和特征服务可能比大模型更合适:

real-time features
  -> small risk model
  -> rules/policy
  -> approve / step-up / decline / review

LLM 可以用于事后解释、案例摘要和 analyst support，不一定进入毫秒级路径。

7. Teacher-Student Eval

学生模型上线前要证明:

Eval	问题
Agreement	学生和老师在标准样本上是否一致
Boundary	学生是否知道何时拒答或升级
Slice	不同客户群、产品、渠道是否退化
Robustness	噪声、拼写、OCR 错误、长尾是否稳定
Safety	是否违反政策、隐私、合规边界
Cost/SLO	是否达到成本和延迟目标
Drift	线上分布变化后是否仍可靠

关键原则:

学生模型不能被评估成“像老师一样会聊天”。
它只需要在批准任务边界内达标。
超出边界必须路由或升级。

8. 面试表达

30 秒版本

知识蒸馏是用大模型或 ensemble 作为 teacher，把任务能力迁移到更小、更快、更便宜的 student model。企业 AI 不应该所有任务都用最大模型，而应建立模型组合和路由策略。高频稳定任务可以用小模型，复杂高风险任务用大模型或人工。关键是 teacher-student eval、任务边界、fallback、SLO、成本和治理。

2 分钟版本

我会把模型策略分成 frontier、medium、specialist small、traditional ML/rules 和 human expert。蒸馏适合把固定任务能力从大模型压缩到小模型，例如客服意图分类、KYC 文档分类、代码变更分类。量化可以降低内存和推理成本，但必须做质量、边界、slice 和安全评估。生产架构中需要 route policy: 小模型处理 in-domain 低中风险任务，置信不足或高风险时升级到大模型或人工。这样能在不牺牲控制的前提下降低成本、延迟和容量压力。

架构师版本

Small model strategy 是 AI 平台的 model portfolio management。它包括 teacher data generation、distillation dataset governance、student training、quantization、model registry、routing gateway、eval gate、monitoring 和 rollback。目标不是追小，而是把任务、风险、成本、延迟和隐私部署边界匹配到合适模型。

9. 作品集任务

设计一个客服意图小模型蒸馏方案:

定义 20 个意图和 5 个升级类别。
用 frontier model 生成 teacher labels，并设计人工抽检。
设计 student model 评测集: 常规、边界、投诉、欺诈、隐私、噪声。
定义 route policy: small model / large model / human。
比较成本、延迟、准确率和升级率。
写一页 release gate 和 rollback plan。