返回 Papers
方法论

Agentic RAG(2026)+ Agent Lab 改造清单

1. 查询改写 / 分解(query rewriting/decomposition):检索前先改写——把 2-hop 问题拆成 2 个子查询、扩展实体、用领域词汇重述。

2026-05-29
103AGENTIC_RAG_2026.md

Agentic RAG (2026):从"检索一次"到"会思考的检索"——附本项目 Agent Lab 改造清单

日期:2026-05-29 定位:把 2025–2026 的 RAG SOTA 讲清,并直接落到本仓库的 Agent Lab——诊断现有 hybridSearch / knowledgeAgent 的差距,给出按"先简单后复杂"原则排序的改造清单。学习 → 反哺代码。 一句话:naive RAG(chunk→embed→cosine→塞进 prompt)已死,不是 RAG 死了;2026 的标配是 hybrid(dense+BM25 用 RRF 融合)→ reranker → 必要时再上 agentic 回路,并用 RAGAS 量化。


1. RAG 2026 全景(分层)

层级做法何时够用
Naivechunk→embed→cosine→塞 prompt原型,不是生产
Advancedhybrid(语义+词法)+ metadata 过滤 + reranker + 更聪明的分块2026 的"及格线"
Agentic把检索包进决策回路:LLM 决定是否检索、给检索结果打分、不够就改写查询重试多跳/歧义/高风险域
Adaptive查询分类器按复杂度路由到上面不同管线2026 新兴最佳实践(成本-质量最优)

Anthropic / 社区共识:"先用最简单可行的(hybrid + reranker),用 RAGAS 量化,只有当指标证明不够时再加 query 变换 / agentic 回路 / 知识图谱。"


2. Agentic RAG 的三个核心能力

  1. 查询改写 / 分解(query rewriting/decomposition):检索前先改写——把 2-hop 问题拆成 2 个子查询、扩展实体、用领域词汇重述。
  2. 迭代检索(iterative retrieval):retrieve → read → 判断证据够不够 → 不够再 retrieve,直到够用或撞 step 预算。
  3. 自我纠正(self-correction):生成答案后对照检索上下文核查,有"无支撑的论断"就补检索或改写答案(Self-RAG / CRAG 纠正式 RAG)。

基准:Meta CRAG Benchmark 显示即便 SOTA RAG 也只能63% 不幻觉作答(纯 LLM 仅 34%);FAIR-RAG(arXiv 2510.22344, 2025-10)在 HotpotQA 上 F1 0.453,超最强迭代基线 Iter-Retgen 8.3 分;另见 SoK: Agentic RAG 综述(arXiv 2603.07379, 2026-03)。


3. Anthropic Contextual Retrieval(2024-09-19,权威打底)

核心:索引前给每个 chunk 预置 50–100 token 的"上下文说明"(用 Claude 把"整篇文档 + 该 chunk"喂进去,生成"这段在全文里讲什么"),再分别做语义嵌入和 BM25。

失败率下降(原文精确数字):

  • 仅 contextual embeddings:-35%(5.7% → 3.7%)

  • + contextual BM25:-49%(→ 2.9%)

  • + reranking:-67%(→ 1.9%)

  • Hybrid = 向量 + BM25,用 Reciprocal Rank Fusion(RRF)去重融合;contextual hybrid 优于 vanilla hybrid。

  • Reranking:先粗召回 top-150,用 cross-encoder 重排后只留 top-20 进 prompt——两阶段(hybrid 召回 → 神经重排)大幅碾压单阶段。

  • 何时值得:知识库 >200K tokens 才划算;更小的库直接用 prompt caching。(本项目 1,234 篇笔记 ≫ 200K tokens,符合。)


4. 评估与 2026 技术栈

  • RAGAS 逐查询指标,生产目标:faithfulness ≥0.9、answer relevancy ≥0.85、context precision ≥0.8;测试集要覆盖简单事实题、需向量库知识题、需最新网络信息题、复杂多跳题。
  • 2026 默认栈:LangGraph(编排,把"路由/检索/打分/生成/校验"做成图节点)+ LlamaIndex Workflows(检索)+ Ragas/Phoenix/Langfuse(评估/可观测)。
  • 代价:agentic RAG 比一次过 RAG 多 3–10× token、2–5× 延迟——只在多跳/歧义/高风险域(法律/医疗/金融)值这个价。

5. RAG vs 长上下文

  • "RAG 负责找,长上下文负责推理(RAG does the finding, long context does the reasoning)。"
  • 窄而静态的任务,长上下文(甚至一个准的 grep + 大窗口)更便宜好维护;复杂/大库仍需检索。
  • GraphRAG 擅长关系型查询(合规分析、研究综述、竞品情报);简单事实检索 vector RAG 更快更省。

6. 🔧 本项目 Agent Lab 诊断 + 改造清单(学习 → 行动)

现状诊断(对照 src/agent):

  • src/agent/rag/hybridSearch.ts 名义"BM25+向量+hybrid",实际:① 生产 embeddings degraded(向量全空)→ 永远只走 BM25;② 是 vector-OR-bm25 二选一,不是 RRF 融合;③ 无 reranker
  • src/agent/knowledge/knowledgeAgent.ts:有 searchNotes/getNote 工具,但不是 agentic——没有"改写查询 / 迭代 / 给结果打分重试"的回路。
  • 无 RAGAS 式离线评估,质量无基线(__tests__ 全是 mock 单测)。

改造清单(按"先简单后复杂",每步可独立上线 + 量化):

  1. 真 RRF 融合(S):hybridSearch 两路都跑,用纯 TS 1/(k+rank) 合并去重(不依赖外部模型,兼容静态导出)。先把"名实不符"修成"名副其实"。
  2. 修 degraded + contextual chunking(M):scripts/build-agent-embeddings.ts 注入 key 生成真向量并断言 degraded===false;给每 chunk 预置 50–100 token 上下文(对标 Anthropic,-35%→-49%)。
  3. LLM-as-reranker(M):粗召回 top-N → 让 sub-agent 模型对 query-chunk 相关性打分 → 留 top-5(无 Cohere 也能做,-67% 的关键一环)。
  4. agentic 回路(M):knowledgeAgent 注入"结果不足则改写 query 重试 ≤2 轮 + 命中打分",对标 CRAG。
  5. RAGAS 式 golden eval(L,接 [#8 eval harness]):20–30 条 golden 问答 + faithfulness/context-precision 断言,进 vitest+CI——先量化再优化,否则上面每一步都没法证明有效。

注:第 1、3、4 步不需要 embedding key(纯 TS RRF + LLM 重排/回路),即使不修向量也能立刻提升;第 2 步是唯一需要持续烧 key 的,按预算决定走"诚实删空 bundle"还是"真向量"。


7. 学习资源(按发布日期)

资料类型日期
Anthropic《Introducing Contextual Retrieval》官方(权威)2024-09-19
FAIR-RAG(arXiv 2510.22344)论文2025-10
SoK: Agentic RAG(arXiv 2603.07379)综述2026-03
Meta CRAG Benchmark基准2024–2026
RAGAS / Phoenix / Langfuse 文档评估工具2026
LangGraph Agentic RAG(2026 Edition)实战2026-03
"RAG Is Not Dead … 2026" / Adaptive RAG综述2026

8. SOTA 检查 (2026-05-29 更新)

  • 当前主流:hybrid(dense+BM25 RRF)+ reranker 是 2026 生产及格线;agentic(CRAG/Self-RAG/多跳)按需叠加;adaptive RAG(查询路由)是新兴最佳实践;评估用 RAGAS,编排用 LangGraph。
  • 是否仍是 SOTA:是。"naive RAG 已死"是 2026 共识;但别一上来全套 agentic(3–10× token),Anthropic/社区都强调"先简单 + 量化 + 按需加复杂"。
  • 需要持续盯:①reranker 模型迭代(Cohere Rerank、BGE 新版);②长上下文价格下降是否进一步挤压 RAG 边界;③agentic RAG 评测基准(CRAG/HotpotQA)新 SOTA;④本项目 Agent Lab 改造后用 RAGAS 跑出的真实分数。
  • 过时风险提示:本文数字(35/49/67%、RAGAS 阈值、token 倍数)为 2024-09~2026-03 区间;再次引用前重核论文/官方,标时点

本文遵循项目《全局时效性硬规则》:主线资料近 12 个月内并标 YYYY-MM;Contextual Retrieval 数字以 Anthropic 一手公告为准。第 6 节改造清单与 [[project-optimization-roadmap]] 的 #2(RRF/embeddings)、#8(eval harness)对齐。