返回架构笔记
Arch Day 145

Arch Day 145: Fine-tuning vs RAG决策 — LoRA/DPO与知识蒸馏

Fine-tuning和RAG不是二选一,而是解决不同问题的互补方案——RAG管知识(易变部分),Fine-tuning管行为(稳定部分)。关键是知道什么时候用什么。

2026-08-22
第六阶段 - LLM与AI架构
FineTuningRAGLoRAQLoRADPORLHF蒸馏合成数据

日期: 2026-08-22 (Day 145) 阶段: 第六阶段 - LLM与AI架构 标签: #FineTuning #RAG #LoRA #QLoRA #DPO #RLHF #蒸馏 #合成数据


核心概念

一句话定义

Fine-tuning和RAG不是二选一,而是解决不同问题的互补方案——RAG管知识(易变部分),Fine-tuning管行为(稳定部分)。关键是知道什么时候用什么。


知识点详解

1. 决策框架

Step 1: Prompt Engineering (数小时)
├── 满足 → 结束
└── 不满足 →
    ├── 需要实时/私有知识 → RAG ($70-$1000/月)
    └── 需要特定行为/风格 → Fine-tuning (数月+6x推理成本)
维度Prompt EngineeringRAGFine-tuning
成本最低中等最高(6x推理)
上线小时天-周周-月
知识更新改prompt更新索引需重新训练
行为控制有限有限最强

2. LoRA/QLoRA

技术训练参数硬件成本
Full Fine-tuning100%4x A100极高
LoRA0.1-1%1x A100降低80%
QLoRA0.1-1%+4bit量化1x 48GB极低

LoRA微调Llama 3.2 8B(1000样本): 约**$5-$15**。

3. DPO vs RLHF

维度RLHF (PPO)DPO
复杂度高(需Reward Model)低(直接从偏好学习)
稳定性较不稳定更稳定
成本高(3个模型)中(2个模型)
2026状态Legacy新标准

4. 知识蒸馏

大模型→小模型知识转移:

  • Microsoft案例: Llama 405B→8B, NLI准确率提升21%
  • 成本对比: 自定义RoBERTa分析$2.7 vs GPT-4约$3,061
  • 2026趋势: "模型缩小年"——蒸馏获得高性价比专用小模型

5. 合成数据

  • 100个精心制作样本 > 10,000个日志样本
  • 最佳数据量: 最低200-500, 良好1K-3K, 强5K+
  • 质量控制 > 数量

面试题

问题:什么时候该用Fine-tuning而不是RAG?

回答:Fine-tuning适合:1) 需要特定输出风格/格式(如JSON schema一致性);2) 领域术语理解(医学/法律);3) 需要减少推理延迟(知识内化比检索快);4) 训练数据稳定不常变。不适合:知识频繁更新、需要来源引用、数据量不足。混合方案最佳——Fine-tuning管行为,RAG管知识。