AI Day 2

AI Day 2: 模型量化与本地部署 — 让大模型跑在你的电脑上

量化（Quantization）= 用更低精度的数字表示模型权重，以减少显存占用和加速推理，同时尽量保持模型质量。

2026-04-04

日期：2026-04-04 主题：数值精度、量化方法（GPTQ/AWQ/GGUF/EXL2）、本地部署工具（Ollama/llama.cpp/vLLM）、8GB 显存实战硬件：RTX 4060 Laptop GPU (8GB VRAM) 产出：学习笔记 + 面试表达 + 本地部署实操

学习路径树

AI/LLM 深度技术学习 50天计划
├── 第一阶段：模型基础 (Day 1-15)
│   ├── Day 1:  Transformer架构与LLM基础 ✅
│   ├── Day 2:  模型量化与本地部署 ← 你在这里
│   ├── Day 3:  训练过程深度：Pre-training / SFT / RLHF / DPO
│   ├── Day 4:  Prompt Engineering与上下文学习(ICL)原理
│   ├── Day 5:  RAG架构：检索增强生成全链路
│   ├── Day 6:  向量数据库与Embedding模型
│   ├── Day 7:  Fine-tuning实战：LoRA / QLoRA / Adapter
│   ├── Day 8:  推理优化：vLLM / TensorRT-LLM / SGLang
│   ├── Day 9:  长上下文技术：RoPE扩展 / Ring Attention
│   ├── Day 10: 多模态模型：Vision-Language架构
│   ├── Day 11: Reasoning模型：CoT / o1 / R1 / Extended Thinking
│   ├── Day 12: Agent框架：ReAct / Tool Use / Planning
│   ├── Day 13: MCP协议与Tool生态
│   ├── Day 14: 模型评估：Benchmark / Arena / 安全评估
│   └── Day 15: 阶段复习与架构总结
│
├── 第二阶段：工程实践 (Day 16-30)
│   ├── Day 16-20: LLM应用架构设计（微服务/网关/缓存/监控）
│   ├── Day 21-25: 生产级RAG系统（Chunking/Rerank/评估/迭代）
│   └── Day 26-30: Agent系统工程化（状态管理/错误恢复/成本控制）
│
├── 第三阶段：金融零售AI应用 (Day 31-42)
│   ├── Day 31-35: 金融AI（风控模型/智能投顾/合规/反欺诈）
│   ├── Day 36-40: 零售AI（推荐系统/智能客服/供应链预测/营销）
│   └── Day 41-42: CeFi x DeFi x AI融合架构
│
└── 第四阶段：面试冲刺 (Day 43-50)
    ├── Day 43-46: 系统设计面试（LLM平台/RAG/Agent/推荐）
    ├── Day 47-49: 产品/架构面试模拟
    └── Day 50: 总结与作品集

今日目标

类型	内容
学习	理解量化原理（FP32→INT4）、主流量化方法、本地部署工具生态
实操	用 Ollama 在 RTX 4060 Laptop 上跑通 7B/14B 模型
产出	量化方法对比表 + 8GB 显存推荐配置 + 面试表达

一、核心概念：什么是模型量化

1.1 一句话定义

量化（Quantization）= 用更低精度的数字表示模型权重，以减少显存占用和加速推理，同时尽量保持模型质量。

1.2 金融背景类比

量化就像"压缩账本精度"：

传统记账（FP32）：  ¥12,345.6789  — 精确到厘（32位浮点）
简化记账（FP16）：  ¥12,345.68    — 精确到分（16位浮点）
粗略记账（INT8）：  ¥12,346       — 精确到元（8位整数）
极简记账（INT4）：  ¥12,350       — 精确到十元（4位整数）

对大部分业务场景（日报、趋势分析、预算估算），精确到元甚至十元已经够用。
只有对账清算才需要精确到厘。大模型推理同理——绝大部分权重的微小精度变化不影响输出质量。

1.3 为什么需要量化？

核心矛盾：参数量 × 精度 = 显存需求

显存 ≈ 参数量(B) × 每参数字节数 × 1.2（KV Cache + 开销）

7B 模型为例：
  FP32: 7 × 4 bytes = 28 GB  → ❌ 远超 8GB
  FP16: 7 × 2 bytes = 14 GB  → ❌ 超过 8GB
  INT8: 7 × 1 byte  =  7 GB  → ⚠️ 勉强
  INT4: 7 × 0.5 byte = 3.5GB → ✅ 充裕（还剩4.5GB给KV Cache）

量化是 8GB 显存跑大模型的必经之路。

二、知识点1：数值精度基础

2.1 精度类型图解

FP32 (32-bit 浮点):     每参数 = 4 bytes
┌──────┬──────────┬───────────────────────┐
│ 1bit │  8 bits  │       23 bits         │  精度最高，训练用
│ 符号 │  指数    │       尾数            │
└──────┴──────────┴───────────────────────┘

FP16 (16-bit 浮点):     每参数 = 2 bytes
┌──────┬──────┬──────────┐
│ 1bit │5 bits│ 10 bits  │  推理常用，但指数范围小→溢出风险
└──────┴──────┴──────────┘

BF16 (Brain Float 16):  每参数 = 2 bytes
┌──────┬──────────┬───────┐
│ 1bit │  8 bits  │ 7 bits│  指数范围=FP32，精度略低于FP16
└──────┴──────────┴───────┘

INT8 (8-bit 整数):      每参数 = 1 byte
┌────────────────┐
│    8 bits      │  量化推理常用，-128~127
└────────────────┘

INT4 (4-bit 整数):      每参数 = 0.5 byte
┌────────┐
│ 4 bits │  极致压缩，-8~7
└────────┘

2.2 显存占用速查表

精度	每参数字节	7B 模型	13B 模型	70B 模型
FP32	4 bytes	28 GB	52 GB	280 GB
FP16/BF16	2 bytes	14 GB	26 GB	140 GB
INT8	1 byte	7 GB	13 GB	70 GB
INT4	0.5 byte	3.5 GB	6.5 GB	35 GB

2.3 BF16 vs FP16

FP16：指数5 bits → 范围≈6.5×10⁴，训练时大梯度易溢出，需 Loss Scaling
BF16：指数8 bits → 范围=FP32=3.4×10³⁸，无需 Loss Scaling，可直接替代 FP32 训练
结论：训练优先 BF16（稳定简单），推理 FP16/BF16 均可，量化后用 INT4/INT8

三、知识点2：量化方法详解

3.1 两大范式

PTQ（Post-Training Quantization，训练后量化）
  模型训练完后直接将权重映射到低精度，不需重新训练
  代表：GPTQ、AWQ、GGUF、EXL2 → 90%场景的选择

QAT（Quantization-Aware Training，量化感知训练）
  训练中模拟低精度运算，模型学会在低精度下保持性能
  代表：QLoRA、原生INT8训练 → 企业级追求极致精度

3.2 GPTQ — 逐层量化先驱

逐层处理权重矩阵，用 128-1024 条校准数据测量量化误差
用 Hessian 矩阵近似找最优量化方案，最小化每层输出误差
✅ 4-bit 损失小，GPU 推理极快 | ❌ 量化过程需 GPU + 校准数据，仅 GPU 推理

3.3 AWQ — 激活感知量化

核心洞察：不是所有权重同等重要，仅 1% 的"显著通道"（激活值大的权重）保持高精度即可大幅降低损失
✅ 比 GPTQ 量化更快，精度通常略优 | ❌ 仅 GPU 推理

3.4 GGUF — llama.cpp 生态

GPT-Generated Unified Format，支持 Q2_K ~ Q8_0 多级量化
"_K" = K-Quant（不同层用不同精度的智能混合量化）
✅ CPU+GPU 混合推理，生态最大（Ollama/LM Studio/Jan 都用） | ❌ 纯 GPU 速度略慢于 GPTQ/AWQ

GGUF 量化级别对比（7B 模型）：

量化级别	位数	大小	质量	推荐
Q3_K_M	~3.3 bit	~3.3 GB	可用	极端显存限制
Q4_K_M	~4.5 bit	~4.1 GB	好	日常首选
Q5_K_M	~5.5 bit	~4.8 GB	很好	追求质量
Q6_K	~6.5 bit	~5.5 GB	极好	接近原始精度
Q8_0	8 bit	~7.0 GB	最佳	显存充裕时

3.5 EXL2 — Exllama 可变比特率

支持可变比特率（如 3.5/4.0/5.0/6.5 bpw），不同层不同位宽，显存利用率最优
✅ NVIDIA GPU 推理最快，支持 Flash Attention 2 | ❌ 仅 NVIDIA GPU，生态较小

3.6 最新方法（2025-2026）

方法	来源	核心创新	状态
NF4	bitsandbytes	NormalFloat 4-bit，假设权重正态分布，量化误差最小	成熟，QLoRA 标配
HQQ	Mobius Labs	Half-Quadratic Quantization，无需校准数据	2024 发布
AQLM	Yandex	Additive Quantization，2-bit 下精度保持最好	2024 发布
QuIP#	Cornell	正交随机变换 + 不均匀量化	研究阶段
FP8	NVIDIA	硬件原生 E4M3/E5M2，H100/Ada GPU 支持	生产就绪

3.7 量化方法对比总表

方法	精度保持	推理速度	显存节省	CPU支持	工具链	推荐场景
GPTQ	★★★★	★★★★★	★★★★	❌	★★★★	纯 GPU 推理服务
AWQ	★★★★★	★★★★★	★★★★	❌	★★★★	生产环境推荐
GGUF	★★★★	★★★	★★★★	✅	★★★★★	本地部署首选
EXL2	★★★★	★★★★★	★★★★★	❌	★★★	极致 GPU 性能
NF4	★★★★	★★★	★★★★	✅	★★★★	QLoRA 训练

四、知识点3：本地部署工具生态（2025-2026）

4.1 Ollama — 一行命令方案

# 安装：https://ollama.com 下载
ollama run qwen2.5:7b              # 一行跑模型
ollama run qwen2.5-coder:7b        # 代码模型
ollama pull llama3.3:8b             # 只下载不运行
ollama list                         # 查看已有模型

零配置，自动检测 GPU，内置 GGUF 模型库
内置 OpenAI 兼容 API（localhost:11434/v1/）
2025-2026：支持多模态（LLaVA/Qwen-VL）、工具调用、并发请求

4.2 llama.cpp — GGUF 之父

# 编译 + 启用 CUDA
cmake -B build -DGGML_CUDA=ON && cmake --build build --config Release
# 启动 API 服务
./build/bin/llama-server -m model.gguf --port 8080 --n-gpu-layers 35

性能最优的 GGUF 引擎，Ollama 底层就是 llama.cpp
支持 CPU（AVX2/AVX512）、CUDA、Metal、Vulkan
2025-2026：Flash Attention 2、Speculative Decoding、Grammar Sampling

4.3 vLLM — 高性能推理服务器

pip install vllm
vllm serve Qwen/Qwen2.5-7B-Instruct-AWQ --quantization awq --max-model-len 4096

PagedAttention：类似虚拟内存的 KV Cache 管理，显存利用率最高
Continuous Batching：自动合批，吞吐量 2-4x 提升
2025-2026：Speculative Decoding、LoRA 热切换、Prefix Caching
注意：8GB 显存需严格控制 max-model-len

4.4 其他工具

工具	定位	特点
TGI	HuggingFace 官方推理服务	与 HF Hub 深度集成，Flash Attention 2，生产级监控
LM Studio	桌面 GUI 工具	最友好界面，可视化搜索/下载/运行 GGUF 模型
Jan	开源桌面 AI 助手	类 ChatGPT 界面，支持插件和本地 RAG
LocalAI	OpenAI API 本地替代	100% API 兼容（含语音/图像/Embedding）

4.5 工具对比总表

工具	易用性	GPU性能	CPU支持	API兼容	适用场景
Ollama	★★★★★	★★★★	✅	OpenAI	入门首选
llama.cpp	★★★	★★★★	✅	OpenAI	底层控制
vLLM	★★★	★★★★★	❌	OpenAI	生产服务
TGI	★★★	★★★★★	❌	OpenAI	HF 生态
LM Studio	★★★★★	★★★★	✅	OpenAI	非开发者
LocalAI	★★★★	★★★	✅	OpenAI 100%	全功能替代

RTX 4060 Laptop 推荐：日常用 Ollama，开发调试用 LM Studio，API 服务用 vLLM。

五、知识点4：8GB 显存能跑什么？

5.1 模型 × 量化 × 显存矩阵

模型	参数量	Q4_K_M	Q5_K_M	Q6_K	FP16
Qwen 2.5 7B	7.6B	~4.7 GB ✅	~5.5 GB ✅	~6.3 GB ⚠️	❌
Llama 3.3 8B	8.0B	~5.0 GB ✅	~5.8 GB ✅	~6.6 GB ⚠️	❌
Mistral 7B v0.3	7.2B	~4.4 GB ✅	~5.1 GB ✅	~5.9 GB ✅	❌
Gemma 2 9B	9.2B	~5.6 GB ✅	~6.5 GB ⚠️	❌	❌
Phi-4 14B	14.0B	~8.2 GB ⚠️	❌	❌	❌
Qwen 2.5 14B	14.2B	~8.4 GB ⚠️	❌	❌	❌

✅ 流畅运行 | ⚠️ 勉强可跑（需限制 context） | ❌ 无法运行

5.2 推荐模型（2025-2026最新）

Tier 1：最佳适配（Q4_K_M 舒适运行）

模型	特点	适用场景	Ollama 命令
Qwen 2.5 7B	中英双语最强 7B，代码/数学/推理突出	通用助手、中文场景	`ollama run qwen2.5:7b`
Llama 3.3 8B	英文最强开源 8B，工具调用能力好	英文场景、Agent 开发	`ollama run llama3.3:8b`
Mistral 7B v0.3	体积最小，推理最快	速度敏感场景	`ollama run mistral:7b`

Tier 2：显存紧张但值得尝试

模型	特点	注意事项
Gemma 2 9B	9B 级别质量最高	Q4 约 5.6GB，限制 context 到 4K-8K
Phi-4 14B	推理能力极强，"小模型天花板"	Q4 约 8.2GB，需关闭其他 GPU 应用

代码专用：Qwen 2.5 Coder 7B（ollama run qwen2.5-coder:7b）

5.3 推荐配置方案

方案 A：通用对话（最流畅）           方案 B：高质量输出
  模型：Qwen 2.5 7B Q4_K_M            模型：Qwen 2.5 7B Q5_K_M
  显存：~4.7 GB | 上下文：16K          显存：~5.5 GB | 上下文：8K
  速度：~30 tokens/s ✅               速度：~25 tokens/s ✅

方案 C：极致能力（激进）             方案 D：代码开发
  模型：Phi-4 14B Q4_K_M               模型：Qwen 2.5 Coder 7B Q4_K_M
  显存：~8.2 GB | 上下文：4K           显存：~4.7 GB | 上下文：16K
  速度：~12 tokens/s ⚠️               速度：~30 tokens/s ✅

六、知识点5：推理性能优化

6.1 KV Cache 量化

默认 KV Cache 用 FP16 存储，上下文越长占用越大。量化为 INT8 可节省 50% 显存：

# llama.cpp 支持
--cache-type-k q8_0 --cache-type-v q8_0
# 效果：7B Q4 + FP16 KV → 最大 ~8K context
#       7B Q4 + INT8 KV → 最大 ~16K context

6.2 Flash Attention 2/3

标准 Attention 显存 O(N²)，Flash Attention 降到 O(N)，速度 2-4x
Flash Attention 3（2024-2025）：针对 Ada/Hopper GPU 进一步优化，利用 FP8 Tensor Core
RTX 4060 支持 Flash Attention 2，Ollama 默认启用

6.3 Speculative Decoding（推测解码）

用小模型"猜"接下来 N 个 token，大模型一次性验证。猜对直接接受，猜错重新生成。典型加速 1.5-2.5x，输出质量完全一致。

6.4 Continuous Batching

请求随到随加入推理，完成一个即释放位置。吞吐量 2-4x 提升。vLLM / TGI / llama.cpp server 均支持。

6.5 性能基准参考（RTX 4060 Laptop 8GB）

模型	量化	生成速度	首 Token 延迟
Qwen 2.5 7B	Q4_K_M	~30 t/s	~0.3s
Llama 3.3 8B	Q4_K_M	~28 t/s	~0.3s
Mistral 7B v0.3	Q4_K_M	~35 t/s	~0.2s
Gemma 2 9B	Q4_K_M	~22 t/s	~0.5s
Phi-4 14B	Q4_K_M	~12 t/s	~0.8s

七、知识点6：OpenAI 兼容 API

7.1 为什么重要

几乎所有 AI 框架（LangChain/LlamaIndex/AutoGen/CrewAI/Dify）都基于 OpenAI API 格式。本地模型提供相同 API → 开发用本地模型（免费快速），生产切换云端（一行配置），代码零修改。

7.2 各工具 API 地址

工具	API 地址
Ollama	`http://localhost:11434/v1/`
vLLM	`http://localhost:8000/v1/`
llama.cpp	`http://localhost:8080/v1/`
LM Studio	`http://localhost:1234/v1/`
LocalAI	`http://localhost:8080/v1/`

7.3 代码示例

from openai import OpenAI

# 本地 Ollama — 只需改 base_url
client = OpenAI(base_url="http://localhost:11434/v1/", api_key="not-needed")
response = client.chat.completions.create(
    model="qwen2.5:7b",
    messages=[{"role": "user", "content": "解释什么是量化"}],
    temperature=0.7
)
# 切换到 OpenAI → 只改 base_url 和 api_key，其余代码完全相同

八、今日思考

Q1：量化损失不可避免，什么场景下不能用量化模型？

精确数学计算：INT4 量化模型在多位数运算中错误率显著上升，金融对账等场景应用 FP16+
低资源语言：量化主要在英文/中文数据上校准，藏语、蒙古语等可能退化更严重
极端长链推理：Q2/Q3 级别在多步逻辑推理上明显退化，Q4 是质量/大小的最佳平衡点

Q2：为什么不直接训练小模型，而是量化大模型？

大模型知识密度更高——量化只降低数值精度，知识保留大部分；小模型参数本身少，能学到的东西有限。实验证明（2024-2025 多篇论文）：7B Q4 > 3B FP16（几乎所有 benchmark）。同等显存下，量化大模型通常优于原精度小模型。

Q3：本地部署 vs 云端 API 如何选择？

维度	本地部署	云端 API
成本	一次性硬件	按 token 付费
隐私	数据不出本机	上传第三方
质量	受限于模型大小	GPT-4o/Claude 质量最高
可用性	不依赖网络	依赖 API 可用性

建议：开发/测试用本地（免费快速），生产 MVP 用云端（质量高），金融/合规用本地或私有云。

九、面试表达

Q：解释模型量化的原理和实际应用

30秒版本：

模型量化是用更低精度的数字（4-bit 整数代替 16-bit 浮点）存储权重，将显存压缩到原来的 1/4，保持 90-95% 质量。主流方法有 GPTQ（GPU推理快）、AWQ（精度保持好）、GGUF（CPU/GPU混合，生态最大）。配合 Ollama 等工具，一行命令即可在笔记本上跑 7B 模型。

2分钟版本：

为什么需要：7B 模型 FP16 需要 14GB 显存，量化到 INT4 只需 3.5GB，普通笔记本就能运行。

核心方法差异：GPTQ 逐层量化需校准数据、GPU 推理速度快；AWQ 激活感知保护重要权重、精度更优；GGUF 是 llama.cpp 格式、最大优势是 CPU+GPU 混合推理和最大的生态支持。

实际应用：个人用 Ollama 一行命令跑 Qwen 2.5 7B；企业用 vLLM 部署 AWQ 量化模型做 API 服务，配合 PagedAttention 吞吐量提升 3-4x；所有工具提供 OpenAI 兼容 API，代码零修改切换。

PM 视角：量化使 AI 部署成本大幅下降——不是所有场景需要 GPT-4，针对特定任务的量化小模型可在边缘设备运行，打开离线 AI、隐私 AI、嵌入式 AI 等产品方向。

十、学习资源

官方文档

资源	链接	说明
Ollama 官网	https://ollama.com	本地部署入门首选
llama.cpp	https://github.com/ggerganov/llama.cpp	GGUF 推理引擎
vLLM	https://docs.vllm.ai	高性能推理服务
HuggingFace Quantization	https://huggingface.co/docs/transformers/quantization	量化指南
LM Studio	https://lmstudio.ai	GUI 工具

资源	说明
A Visual Guide to Quantization	图解量化，入门必读
GPTQ 论文	量化理论基础
AWQ 论文	激活感知量化原理
vLLM PagedAttention	vLLM 核心创新
bartowski (HuggingFace)	高质量 GGUF 量化模型发布者

十一、明日预告

Day 3: Prompt Engineering 高级技巧

Chain-of-Thought / Tree-of-Thought / Graph-of-Thought
System Prompt 设计模式与 Few-shot Learning
Structured Output（JSON Mode / Function Calling）
Prompt 注入攻击与防护
小模型 Prompt 的特殊注意事项

完成后

在学习进度记录中将 当前学到 改为 Day 3，最后更新 改为当天日期。