Arch Day 145
Arch Day 145: Fine-tuning vs RAG决策 — LoRA/DPO与知识蒸馏
Fine-tuning和RAG不是二选一,而是解决不同问题的互补方案——RAG管知识(易变部分),Fine-tuning管行为(稳定部分)。关键是知道什么时候用什么。
2026-08-22
第六阶段 - LLM与AI架构FineTuningRAGLoRAQLoRADPORLHF蒸馏合成数据
日期: 2026-08-22 (Day 145) 阶段: 第六阶段 - LLM与AI架构 标签: #FineTuning #RAG #LoRA #QLoRA #DPO #RLHF #蒸馏 #合成数据
核心概念
一句话定义
Fine-tuning和RAG不是二选一,而是解决不同问题的互补方案——RAG管知识(易变部分),Fine-tuning管行为(稳定部分)。关键是知道什么时候用什么。
知识点详解
1. 决策框架
Step 1: Prompt Engineering (数小时)
├── 满足 → 结束
└── 不满足 →
├── 需要实时/私有知识 → RAG ($70-$1000/月)
└── 需要特定行为/风格 → Fine-tuning (数月+6x推理成本)
| 维度 | Prompt Engineering | RAG | Fine-tuning |
|---|---|---|---|
| 成本 | 最低 | 中等 | 最高(6x推理) |
| 上线 | 小时 | 天-周 | 周-月 |
| 知识更新 | 改prompt | 更新索引 | 需重新训练 |
| 行为控制 | 有限 | 有限 | 最强 |
2. LoRA/QLoRA
| 技术 | 训练参数 | 硬件 | 成本 |
|---|---|---|---|
| Full Fine-tuning | 100% | 4x A100 | 极高 |
| LoRA | 0.1-1% | 1x A100 | 降低80% |
| QLoRA | 0.1-1%+4bit量化 | 1x 48GB | 极低 |
LoRA微调Llama 3.2 8B(1000样本): 约**$5-$15**。
3. DPO vs RLHF
| 维度 | RLHF (PPO) | DPO |
|---|---|---|
| 复杂度 | 高(需Reward Model) | 低(直接从偏好学习) |
| 稳定性 | 较不稳定 | 更稳定 |
| 成本 | 高(3个模型) | 中(2个模型) |
| 2026状态 | Legacy | 新标准 |
4. 知识蒸馏
大模型→小模型知识转移:
- Microsoft案例: Llama 405B→8B, NLI准确率提升21%
- 成本对比: 自定义RoBERTa分析$2.7 vs GPT-4约$3,061
- 2026趋势: "模型缩小年"——蒸馏获得高性价比专用小模型
5. 合成数据
- 100个精心制作样本 > 10,000个日志样本
- 最佳数据量: 最低200-500, 良好1K-3K, 强5K+
- 质量控制 > 数量
面试题
问题:什么时候该用Fine-tuning而不是RAG?
回答:Fine-tuning适合:1) 需要特定输出风格/格式(如JSON schema一致性);2) 领域术语理解(医学/法律);3) 需要减少推理延迟(知识内化比检索快);4) 训练数据稳定不常变。不适合:知识频繁更新、需要来源引用、数据量不足。混合方案最佳——Fine-tuning管行为,RAG管知识。