Arch Day 145

Arch Day 145: Fine-tuning vs RAG决策 — LoRA/DPO与知识蒸馏

Fine-tuning和RAG不是二选一，而是解决不同问题的互补方案——RAG管知识(易变部分)，Fine-tuning管行为(稳定部分)。关键是知道什么时候用什么。

2026-08-22

第六阶段 - LLM与AI架构

FineTuningRAGLoRAQLoRADPORLHF蒸馏合成数据

日期: 2026-08-22 (Day 145) 阶段: 第六阶段 - LLM与AI架构标签: #FineTuning #RAG #LoRA #QLoRA #DPO #RLHF #蒸馏 #合成数据

核心概念

一句话定义

Fine-tuning和RAG不是二选一，而是解决不同问题的互补方案——RAG管知识(易变部分)，Fine-tuning管行为(稳定部分)。关键是知道什么时候用什么。

知识点详解

1. 决策框架

Step 1: Prompt Engineering (数小时)
├── 满足 → 结束
└── 不满足 →
    ├── 需要实时/私有知识 → RAG ($70-$1000/月)
    └── 需要特定行为/风格 → Fine-tuning (数月+6x推理成本)

维度	Prompt Engineering	RAG	Fine-tuning
成本	最低	中等	最高(6x推理)
上线	小时	天-周	周-月
知识更新	改prompt	更新索引	需重新训练
行为控制	有限	有限	最强

2. LoRA/QLoRA

技术	训练参数	硬件	成本
Full Fine-tuning	100%	4x A100	极高
LoRA	0.1-1%	1x A100	降低80%
QLoRA	0.1-1%+4bit量化	1x 48GB	极低

LoRA微调Llama 3.2 8B(1000样本): 约**$5-$15**。

3. DPO vs RLHF

维度	RLHF (PPO)	DPO
复杂度	高(需Reward Model)	低(直接从偏好学习)
稳定性	较不稳定	更稳定
成本	高(3个模型)	中(2个模型)
2026状态	Legacy	新标准

4. 知识蒸馏

大模型→小模型知识转移：

Microsoft案例: Llama 405B→8B, NLI准确率提升21%
成本对比: 自定义RoBERTa分析$2.7 vs GPT-4约$3,061
2026趋势: "模型缩小年"——蒸馏获得高性价比专用小模型

5. 合成数据

100个精心制作样本 > 10,000个日志样本
最佳数据量: 最低200-500, 良好1K-3K, 强5K+
质量控制 > 数量

面试题

问题：什么时候该用Fine-tuning而不是RAG？

回答：Fine-tuning适合：1) 需要特定输出风格/格式(如JSON schema一致性)；2) 领域术语理解(医学/法律)；3) 需要减少推理延迟(知识内化比检索快)；4) 训练数据稳定不常变。不适合：知识频繁更新、需要来源引用、数据量不足。混合方案最佳——Fine-tuning管行为，RAG管知识。