返回架构笔记
Arch Day 141

Arch Day 141: RAG架构演进 — 从Naive RAG到Agentic RAG

RAG(Retrieval-Augmented Generation)不是"给LLM加个搜索",而是将外部知识注入大模型推理过程的系统工程——从文档分块、向量化、检索、重排到生成,每一步都影响最终质量。2026年,一体式RAG已死,生产系统走向混合架构。

2026-08-18
第六阶段 - LLM与AI架构
RAG检索增强生成ChunkingRerankingGraphRAGAgenticRAG

日期: 2026-08-18 (Day 141) 阶段: 第六阶段 - LLM与AI架构 标签: #RAG #检索增强生成 #Chunking #Reranking #GraphRAG #AgenticRAG


核心概念

一句话定义

RAG(Retrieval-Augmented Generation)不是"给LLM加个搜索",而是将外部知识注入大模型推理过程的系统工程——从文档分块、向量化、检索、重排到生成,每一步都影响最终质量。2026年,一体式RAG已死,生产系统走向混合架构。

为什么关注

  • 近**60%**的生产级GenAI应用使用RAG而非Fine-tuning来grounding模型
  • RAG是产品经理最常接触的LLM应用模式——客服、知识库、文档助手都是RAG

知识点详解

1. RAG架构演进路线

架构特征适用场景成熟度
Naive RAG分块→向量化→检索→生成原型验证成熟
Advanced RAG+query rewrite +reranking生产级QA成熟
Modular RAG可插拔组件、多数据源企业多领域成熟
Self-RAG模型自主决定是否检索、自评估质量高准确率场景生产就绪
Agentic RAGAgent循环封装检索,可迭代至满意复杂多跳推理快速成熟
Graph RAG知识图谱+向量检索,实体关系推理金融风控/合规快速成熟
Multimodal RAG跨模态检索(文本+图像+表格)文档理解新兴

2. Chunking策略对比

策略优势推荐场景
Fixed-size 512 tokens实现简单、一致性好通用首选
Recursive保留文档结构技术文档/法规
Semantic理论上最语义完整非结构化长文
Late Chunking用VLM处理整页,无需OCRPDF/图表

关键发现: Vectara 2026基准测试——递归512-token以69%准确率排名第一,语义分块仅54%。微软Azure推荐起始参数:512 tokens + 25% overlap

3. Hybrid Search + Reranking

Hybrid Search已成2026生产标准:向量语义检索(Dense) + BM25关键词(Sparse) + 结构化过滤。

Reranking提升检索质量最高48%(Databricks研究):

模型延迟部署特点
Zerank 2~500msAPI最高精度,比Cohere便宜40x
Cohere Rerank v4.0~600msAPI最成熟商业方案
Jina Reranker v3188msAPI/自部署唯一top-tier <200ms
BGE-reranker-v2-m350-100ms自部署Apache 2.0开源

4. RAG评估框架

框架核心指标特点
RAGASFaithfulness/Relevancy/ContextRAG评估事实标准
DeepEval14+指标, LLM-as-JudgePytest集成、CI/CD友好
Arize Phoenix幻觉检测、OpenTelemetry20x执行加速

5. 生产RAG挑战与解决

挑战解决方案
Embedding漂移定期reindex + 版本化模型
多租户隔离Namespace隔离 + 元数据过滤
幻觉控制Self-RAG验证 + 忠实度评分 + 来源引用
文档更新增量索引 + CDC

面试题

问题:如何设计一个企业级知识库RAG系统?

回答:1) 数据层:混合Chunking(结构化文档用Recursive,非结构化用Fixed-size 512);2) 检索层:Hybrid Search(向量+BM25) + Reranking(Cohere/BGE);3) 生成层:System Prompt约束+来源引用+Structured Output;4) 评估层:RAGAS持续监控Faithfulness;5) 运营层:增量索引、多租户隔离、语义缓存。