Knowledge Distillation / Small Models:蒸馏、量化与模型组合
一句话:
Knowledge Distillation / Small Models 解读
面向对象: AI Product Architect / AI Platform PM / ML Platform / Enterprise Architect / Engineering Productivity PM。 核心问题: 为什么企业 AI 不应该永远把所有任务交给最大模型?知识蒸馏、小模型、量化和路由如何组成成本、延迟、隐私和可靠性的模型组合策略? 学习目标: 理解 teacher-student distillation、soft labels、specialist models、quantization、small model deployment 和 model cascade,并映射到金融零售客服、KYC、AML、支付风控和代码 Agent。
Source Anchors
| Source | Link | 用途 |
|---|---|---|
| Distilling the Knowledge in a Neural Network | https://arxiv.org/abs/1503.02531 | 理解 teacher-student 和 soft target 的基本思想 |
| DistilBERT paper | https://arxiv.org/abs/1910.01108 | 理解 Transformer 时代的蒸馏和轻量模型 |
| ONNX Runtime quantization docs | https://onnxruntime.ai/docs/performance/model-optimizations/quantization.html | 理解模型量化对部署成本和性能的影响 |
| Hugging Face quantization docs | https://huggingface.co/docs/transformers/en/main_classes/quantization | 理解 LLM/Transformer 量化生态 |
| NIST AI RMF | https://www.nist.gov/itl/ai-risk-management-framework | 把模型组合策略纳入风险、测量和治理 |
一句话:
小模型策略不是“降级版 AI”,而是把不同风险、延迟、成本、隐私和任务类型映射到合适模型的产品架构能力。
1. 为什么最大模型不是默认答案
Frontier model 强在:
- 通用推理。
- 复杂语言理解。
- 多任务泛化。
- 长上下文。
- 少样本适应。
但企业生产系统还关心:
- 单次请求成本。
- 首 token 延迟。
- 峰值容量。
- 数据边界。
- 可重复性。
- 线上 SLO。
- 部署环境。
- 审计和版本控制。
很多任务并不需要最大模型:
| 任务 | 可能更适合 |
|---|---|
| 意图分类 | 小分类模型 |
| 文档类型识别 | 轻量视觉/文本模型 |
| 固定字段抽取 | 小模型 + schema validator |
| RAG 召回重排 | embedding + reranker |
| 风险初筛 | gradient boosting / small transformer |
| 低风险客服模板 | small model + policy guardrail |
| 代码变更分类 | specialist model |
高级架构问题:
哪些任务应该用 frontier model,哪些应该被蒸馏成 specialist model,哪些应该用规则或传统 ML?
2. Knowledge Distillation 核心机制
知识蒸馏的基本思想:
large teacher model
-> produces soft labels / logits / rationales / traces
-> student model learns to mimic useful behavior
-> smaller model serves production tasks
为什么 soft labels 有价值:
- 它们包含类别之间的相似性信息。
- 不只是告诉学生“正确答案”,还告诉学生“哪些错误更接近正确”。
- 可以把 ensemble 或大模型能力压缩到更小模型。
产品映射:
| 机制 | 产品含义 |
|---|---|
| Teacher | 高质量但昂贵的大模型、专家模型或 ensemble |
| Student | 低成本、低延迟、可本地部署的小模型 |
| Soft label | 大模型对候选答案的偏好分布 |
| Distillation data | 任务分布、边界案例、风险案例、失败案例 |
| Eval gate | 学生模型是否足够替代老师处理某类任务 |
3. DistilBERT 与 Transformer 压缩
DistilBERT 的启发:
- Transformer 表示可以被压缩。
- 蒸馏可以保留相当一部分语言理解能力。
- 小模型在延迟和部署成本上更有优势。
企业架构含义:
- 对固定、高频、低复杂度任务,小模型可能更稳定。
- 小模型更适合低延迟和边缘部署。
- 小模型更容易做容量规划。
- 但小模型边界更窄,需要清晰 routing 和 fallback。
小模型不是“万能替代”,它需要任务边界:
if task is in-domain and low/medium risk:
use specialist small model
else if high uncertainty or high impact:
route to large model or human review
4. Quantization 与部署成本
量化的直觉:
用更低精度表示模型权重和激活,以减少内存和计算成本。
常见效果:
- 减少显存/内存。
- 提高吞吐。
- 降低延迟。
- 支持更便宜硬件或边缘部署。
- 可能损失精度或稳定性。
产品/架构判断:
| 问题 | 需要回答 |
|---|---|
| 质量 | 量化后任务指标下降多少 |
| 稳定性 | 长尾、边界、合规场景是否退化 |
| 延迟 | p50/p95/p99 是否满足 SLO |
| 成本 | 单次调用、每 case、每月峰值成本是否下降 |
| 隐私 | 是否支持本地或私有环境部署 |
| 回滚 | 量化版本失败时能否切回原模型 |
5. Model Portfolio Strategy
成熟 AI 平台应该维护模型组合:
| Model tier | 适合任务 | 控制 |
|---|---|---|
| Frontier model | 复杂推理、低频高价值、未知任务 | 高成本预算、强 eval、人工复核 |
| General medium model | 常规生成、摘要、分类、RAG answer | route policy、SLO/cost monitoring |
| Specialist small model | 高频稳定任务 | teacher-student eval、漂移监控 |
| Traditional ML/rules | 结构化、确定性、低延迟 | reason code、规则治理 |
| Human expert | 高风险、模糊、客户权益影响 | workflow、evidence、SLA |
路由策略:
request
-> task/risk classifier
-> cache lookup
-> small model if in-domain
-> larger model if uncertain
-> human if high risk or policy boundary
-> trace and feedback
6. 金融零售案例
6.1 客服意图分类
高频、低复杂度:
- 查询余额。
- 更改地址。
- 报失卡。
- 争议交易。
- 投诉。
可以用小模型做 first-pass intent routing,复杂或高风险进入大模型/人工。
6.2 KYC 文档分类
小模型适合:
- 文档类型分类。
- 清晰度评分。
- 缺页检测。
不适合单独完成:
- 真伪判断。
- 法规充分性最终判断。
- 高风险客户最终 onboarding 决策。
6.3 支付风险低延迟
支付授权链路要求低延迟。小模型、规则和特征服务可能比大模型更合适:
real-time features
-> small risk model
-> rules/policy
-> approve / step-up / decline / review
LLM 可以用于事后解释、案例摘要和 analyst support,不一定进入毫秒级路径。
7. Teacher-Student Eval
学生模型上线前要证明:
| Eval | 问题 |
|---|---|
| Agreement | 学生和老师在标准样本上是否一致 |
| Boundary | 学生是否知道何时拒答或升级 |
| Slice | 不同客户群、产品、渠道是否退化 |
| Robustness | 噪声、拼写、OCR 错误、长尾是否稳定 |
| Safety | 是否违反政策、隐私、合规边界 |
| Cost/SLO | 是否达到成本和延迟目标 |
| Drift | 线上分布变化后是否仍可靠 |
关键原则:
- 学生模型不能被评估成“像老师一样会聊天”。
- 它只需要在批准任务边界内达标。
- 超出边界必须路由或升级。
8. 面试表达
30 秒版本
知识蒸馏是用大模型或 ensemble 作为 teacher,把任务能力迁移到更小、更快、更便宜的 student model。企业 AI 不应该所有任务都用最大模型,而应建立模型组合和路由策略。高频稳定任务可以用小模型,复杂高风险任务用大模型或人工。关键是 teacher-student eval、任务边界、fallback、SLO、成本和治理。
2 分钟版本
我会把模型策略分成 frontier、medium、specialist small、traditional ML/rules 和 human expert。蒸馏适合把固定任务能力从大模型压缩到小模型,例如客服意图分类、KYC 文档分类、代码变更分类。量化可以降低内存和推理成本,但必须做质量、边界、slice 和安全评估。生产架构中需要 route policy: 小模型处理 in-domain 低中风险任务,置信不足或高风险时升级到大模型或人工。这样能在不牺牲控制的前提下降低成本、延迟和容量压力。
架构师版本
Small model strategy 是 AI 平台的 model portfolio management。它包括 teacher data generation、distillation dataset governance、student training、quantization、model registry、routing gateway、eval gate、monitoring 和 rollback。目标不是追小,而是把任务、风险、成本、延迟和隐私部署边界匹配到合适模型。
9. 作品集任务
设计一个客服意图小模型蒸馏方案:
- 定义 20 个意图和 5 个升级类别。
- 用 frontier model 生成 teacher labels,并设计人工抽检。
- 设计 student model 评测集: 常规、边界、投诉、欺诈、隐私、噪声。
- 定义 route policy: small model / large model / human。
- 比较成本、延迟、准确率和升级率。
- 写一页 release gate 和 rollback plan。