方法论

Agentic RAG（2026）+ Agent Lab 改造清单

1. 查询改写 / 分解(query rewriting/decomposition):检索前先改写——把 2-hop 问题拆成 2 个子查询、扩展实体、用领域词汇重述。

2026-05-29

103 行AGENTIC_RAG_2026.md

Agentic RAG (2026)：从"检索一次"到"会思考的检索"——附本项目 Agent Lab 改造清单

日期：2026-05-29 定位：把 2025–2026 的 RAG SOTA 讲清,并直接落到本仓库的 Agent Lab——诊断现有 hybridSearch / knowledgeAgent 的差距,给出按"先简单后复杂"原则排序的改造清单。学习 → 反哺代码。 一句话:naive RAG(chunk→embed→cosine→塞进 prompt)已死,不是 RAG 死了;2026 的标配是 hybrid(dense+BM25 用 RRF 融合)→ reranker → 必要时再上 agentic 回路,并用 RAGAS 量化。

1. RAG 2026 全景（分层）

层级	做法	何时够用
Naive	chunk→embed→cosine→塞 prompt	原型,不是生产
Advanced	hybrid(语义+词法)+ metadata 过滤 + reranker + 更聪明的分块	2026 的"及格线"
Agentic	把检索包进决策回路:LLM 决定是否检索、给检索结果打分、不够就改写查询重试	多跳/歧义/高风险域
Adaptive	查询分类器按复杂度路由到上面不同管线	2026 新兴最佳实践(成本-质量最优)

Anthropic / 社区共识:"先用最简单可行的(hybrid + reranker),用 RAGAS 量化,只有当指标证明不够时再加 query 变换 / agentic 回路 / 知识图谱。"

2. Agentic RAG 的三个核心能力

查询改写 / 分解(query rewriting/decomposition):检索前先改写——把 2-hop 问题拆成 2 个子查询、扩展实体、用领域词汇重述。
迭代检索(iterative retrieval):retrieve → read → 判断证据够不够 → 不够再 retrieve,直到够用或撞 step 预算。
自我纠正(self-correction):生成答案后对照检索上下文核查,有"无支撑的论断"就补检索或改写答案(Self-RAG / CRAG 纠正式 RAG)。

基准:Meta CRAG Benchmark 显示即便 SOTA RAG 也只能63% 不幻觉作答(纯 LLM 仅 34%);FAIR-RAG(arXiv 2510.22344, 2025-10)在 HotpotQA 上 F1 0.453,超最强迭代基线 Iter-Retgen 8.3 分;另见 SoK: Agentic RAG 综述(arXiv 2603.07379, 2026-03)。

3. Anthropic Contextual Retrieval（2024-09-19，权威打底）

核心:索引前给每个 chunk 预置 50–100 token 的"上下文说明"(用 Claude 把"整篇文档 + 该 chunk"喂进去,生成"这段在全文里讲什么"),再分别做语义嵌入和 BM25。

失败率下降(原文精确数字):

仅 contextual embeddings:-35%(5.7% → 3.7%)
+ contextual BM25:-49%(→ 2.9%)
+ reranking:-67%(→ 1.9%)
Hybrid = 向量 + BM25,用 Reciprocal Rank Fusion(RRF)去重融合;contextual hybrid 优于 vanilla hybrid。
Reranking:先粗召回 top-150,用 cross-encoder 重排后只留 top-20 进 prompt——两阶段(hybrid 召回 → 神经重排)大幅碾压单阶段。
何时值得:知识库 >200K tokens 才划算;更小的库直接用 prompt caching。(本项目 1,234 篇笔记 ≫ 200K tokens,符合。)

4. 评估与 2026 技术栈

RAGAS 逐查询指标,生产目标:faithfulness ≥0.9、answer relevancy ≥0.85、context precision ≥0.8;测试集要覆盖简单事实题、需向量库知识题、需最新网络信息题、复杂多跳题。
2026 默认栈:LangGraph(编排,把"路由/检索/打分/生成/校验"做成图节点)+ LlamaIndex Workflows(检索)+ Ragas/Phoenix/Langfuse(评估/可观测)。
代价:agentic RAG 比一次过 RAG 多 3–10× token、2–5× 延迟——只在多跳/歧义/高风险域(法律/医疗/金融)值这个价。

5. RAG vs 长上下文

"RAG 负责找,长上下文负责推理(RAG does the finding, long context does the reasoning)。"
窄而静态的任务,长上下文(甚至一个准的 grep + 大窗口)更便宜好维护;复杂/大库仍需检索。
GraphRAG 擅长关系型查询(合规分析、研究综述、竞品情报);简单事实检索 vector RAG 更快更省。

6. 🔧 本项目 Agent Lab 诊断 + 改造清单（学习 → 行动）

现状诊断(对照 src/agent):

src/agent/rag/hybridSearch.ts 名义"BM25+向量+hybrid",实际:① 生产 embeddings degraded(向量全空)→ 永远只走 BM25;② 是 vector-OR-bm25 二选一,不是 RRF 融合;③ 无 reranker。
src/agent/knowledge/knowledgeAgent.ts:有 searchNotes/getNote 工具,但不是 agentic——没有"改写查询 / 迭代 / 给结果打分重试"的回路。
无 RAGAS 式离线评估,质量无基线(__tests__ 全是 mock 单测)。

改造清单(按"先简单后复杂",每步可独立上线 + 量化):

真 RRF 融合(S):hybridSearch 两路都跑,用纯 TS 1/(k+rank) 合并去重(不依赖外部模型,兼容静态导出)。先把"名实不符"修成"名副其实"。
修 degraded + contextual chunking(M):scripts/build-agent-embeddings.ts 注入 key 生成真向量并断言 degraded===false;给每 chunk 预置 50–100 token 上下文(对标 Anthropic,-35%→-49%)。
LLM-as-reranker(M):粗召回 top-N → 让 sub-agent 模型对 query-chunk 相关性打分 → 留 top-5(无 Cohere 也能做,-67% 的关键一环)。
agentic 回路(M):knowledgeAgent 注入"结果不足则改写 query 重试 ≤2 轮 + 命中打分",对标 CRAG。
RAGAS 式 golden eval(L,接 [#8 eval harness]):20–30 条 golden 问答 + faithfulness/context-precision 断言,进 vitest+CI——先量化再优化,否则上面每一步都没法证明有效。

注:第 1、3、4 步不需要 embedding key(纯 TS RRF + LLM 重排/回路),即使不修向量也能立刻提升;第 2 步是唯一需要持续烧 key 的,按预算决定走"诚实删空 bundle"还是"真向量"。

7. 学习资源（按发布日期）

资料	类型	日期
Anthropic《Introducing Contextual Retrieval》	官方(权威)	2024-09-19
FAIR-RAG(arXiv 2510.22344)	论文	2025-10
SoK: Agentic RAG(arXiv 2603.07379)	综述	2026-03
Meta CRAG Benchmark	基准	2024–2026
RAGAS / Phoenix / Langfuse 文档	评估工具	2026
LangGraph Agentic RAG(2026 Edition)	实战	2026-03
"RAG Is Not Dead … 2026" / Adaptive RAG	综述	2026

8. SOTA 检查 (2026-05-29 更新)

当前主流:hybrid(dense+BM25 RRF)+ reranker 是 2026 生产及格线;agentic(CRAG/Self-RAG/多跳)按需叠加;adaptive RAG(查询路由)是新兴最佳实践;评估用 RAGAS,编排用 LangGraph。
是否仍是 SOTA:是。"naive RAG 已死"是 2026 共识;但别一上来全套 agentic(3–10× token),Anthropic/社区都强调"先简单 + 量化 + 按需加复杂"。
需要持续盯:①reranker 模型迭代(Cohere Rerank、BGE 新版);②长上下文价格下降是否进一步挤压 RAG 边界;③agentic RAG 评测基准(CRAG/HotpotQA)新 SOTA;④本项目 Agent Lab 改造后用 RAGAS 跑出的真实分数。
过时风险提示:本文数字(35/49/67%、RAGAS 阈值、token 倍数)为 2024-09~2026-03 区间;再次引用前重核论文/官方,标时点。

本文遵循项目《全局时效性硬规则》:主线资料近 12 个月内并标 YYYY-MM;Contextual Retrieval 数字以 Anthropic 一手公告为准。第 6 节改造清单与 [[project-optimization-roadmap]] 的 #2(RRF/embeddings)、#8(eval harness)对齐。