Arch Day 141: RAG架构演进 — 从Naive RAG到Agentic RAG
RAG(Retrieval-Augmented Generation)不是"给LLM加个搜索",而是将外部知识注入大模型推理过程的系统工程——从文档分块、向量化、检索、重排到生成,每一步都影响最终质量。2026年,一体式RAG已死,生产系统走向混合架构。
日期: 2026-08-18 (Day 141) 阶段: 第六阶段 - LLM与AI架构 标签: #RAG #检索增强生成 #Chunking #Reranking #GraphRAG #AgenticRAG
核心概念
一句话定义
RAG(Retrieval-Augmented Generation)不是"给LLM加个搜索",而是将外部知识注入大模型推理过程的系统工程——从文档分块、向量化、检索、重排到生成,每一步都影响最终质量。2026年,一体式RAG已死,生产系统走向混合架构。
为什么关注
- 近**60%**的生产级GenAI应用使用RAG而非Fine-tuning来grounding模型
- RAG是产品经理最常接触的LLM应用模式——客服、知识库、文档助手都是RAG
知识点详解
1. RAG架构演进路线
| 架构 | 特征 | 适用场景 | 成熟度 |
|---|---|---|---|
| Naive RAG | 分块→向量化→检索→生成 | 原型验证 | 成熟 |
| Advanced RAG | +query rewrite +reranking | 生产级QA | 成熟 |
| Modular RAG | 可插拔组件、多数据源 | 企业多领域 | 成熟 |
| Self-RAG | 模型自主决定是否检索、自评估质量 | 高准确率场景 | 生产就绪 |
| Agentic RAG | Agent循环封装检索,可迭代至满意 | 复杂多跳推理 | 快速成熟 |
| Graph RAG | 知识图谱+向量检索,实体关系推理 | 金融风控/合规 | 快速成熟 |
| Multimodal RAG | 跨模态检索(文本+图像+表格) | 文档理解 | 新兴 |
2. Chunking策略对比
| 策略 | 优势 | 推荐场景 |
|---|---|---|
| Fixed-size 512 tokens | 实现简单、一致性好 | 通用首选 |
| Recursive | 保留文档结构 | 技术文档/法规 |
| Semantic | 理论上最语义完整 | 非结构化长文 |
| Late Chunking | 用VLM处理整页,无需OCR | PDF/图表 |
关键发现: Vectara 2026基准测试——递归512-token以69%准确率排名第一,语义分块仅54%。微软Azure推荐起始参数:512 tokens + 25% overlap。
3. Hybrid Search + Reranking
Hybrid Search已成2026生产标准:向量语义检索(Dense) + BM25关键词(Sparse) + 结构化过滤。
Reranking提升检索质量最高48%(Databricks研究):
| 模型 | 延迟 | 部署 | 特点 |
|---|---|---|---|
| Zerank 2 | ~500ms | API | 最高精度,比Cohere便宜40x |
| Cohere Rerank v4.0 | ~600ms | API | 最成熟商业方案 |
| Jina Reranker v3 | 188ms | API/自部署 | 唯一top-tier <200ms |
| BGE-reranker-v2-m3 | 50-100ms | 自部署 | Apache 2.0开源 |
4. RAG评估框架
| 框架 | 核心指标 | 特点 |
|---|---|---|
| RAGAS | Faithfulness/Relevancy/Context | RAG评估事实标准 |
| DeepEval | 14+指标, LLM-as-Judge | Pytest集成、CI/CD友好 |
| Arize Phoenix | 幻觉检测、OpenTelemetry | 20x执行加速 |
5. 生产RAG挑战与解决
| 挑战 | 解决方案 |
|---|---|
| Embedding漂移 | 定期reindex + 版本化模型 |
| 多租户隔离 | Namespace隔离 + 元数据过滤 |
| 幻觉控制 | Self-RAG验证 + 忠实度评分 + 来源引用 |
| 文档更新 | 增量索引 + CDC |
面试题
问题:如何设计一个企业级知识库RAG系统?
回答:1) 数据层:混合Chunking(结构化文档用Recursive,非结构化用Fixed-size 512);2) 检索层:Hybrid Search(向量+BM25) + Reranking(Cohere/BGE);3) 生成层:System Prompt约束+来源引用+Structured Output;4) 评估层:RAGAS持续监控Faithfulness;5) 运营层:增量索引、多租户隔离、语义缓存。