Agentic RAG(2026)+ Agent Lab 改造清单
1. 查询改写 / 分解(query rewriting/decomposition):检索前先改写——把 2-hop 问题拆成 2 个子查询、扩展实体、用领域词汇重述。
Agentic RAG (2026):从"检索一次"到"会思考的检索"——附本项目 Agent Lab 改造清单
日期:2026-05-29 定位:把 2025–2026 的 RAG SOTA 讲清,并直接落到本仓库的 Agent Lab——诊断现有
hybridSearch/knowledgeAgent的差距,给出按"先简单后复杂"原则排序的改造清单。学习 → 反哺代码。 一句话:naive RAG(chunk→embed→cosine→塞进 prompt)已死,不是 RAG 死了;2026 的标配是 hybrid(dense+BM25 用 RRF 融合)→ reranker → 必要时再上 agentic 回路,并用 RAGAS 量化。
1. RAG 2026 全景(分层)
| 层级 | 做法 | 何时够用 |
|---|---|---|
| Naive | chunk→embed→cosine→塞 prompt | 原型,不是生产 |
| Advanced | hybrid(语义+词法)+ metadata 过滤 + reranker + 更聪明的分块 | 2026 的"及格线" |
| Agentic | 把检索包进决策回路:LLM 决定是否检索、给检索结果打分、不够就改写查询重试 | 多跳/歧义/高风险域 |
| Adaptive | 查询分类器按复杂度路由到上面不同管线 | 2026 新兴最佳实践(成本-质量最优) |
Anthropic / 社区共识:"先用最简单可行的(hybrid + reranker),用 RAGAS 量化,只有当指标证明不够时再加 query 变换 / agentic 回路 / 知识图谱。"
2. Agentic RAG 的三个核心能力
- 查询改写 / 分解(query rewriting/decomposition):检索前先改写——把 2-hop 问题拆成 2 个子查询、扩展实体、用领域词汇重述。
- 迭代检索(iterative retrieval):retrieve → read → 判断证据够不够 → 不够再 retrieve,直到够用或撞 step 预算。
- 自我纠正(self-correction):生成答案后对照检索上下文核查,有"无支撑的论断"就补检索或改写答案(Self-RAG / CRAG 纠正式 RAG)。
基准:Meta CRAG Benchmark 显示即便 SOTA RAG 也只能63% 不幻觉作答(纯 LLM 仅 34%);FAIR-RAG(arXiv 2510.22344, 2025-10)在 HotpotQA 上 F1 0.453,超最强迭代基线 Iter-Retgen 8.3 分;另见 SoK: Agentic RAG 综述(arXiv 2603.07379, 2026-03)。
3. Anthropic Contextual Retrieval(2024-09-19,权威打底)
核心:索引前给每个 chunk 预置 50–100 token 的"上下文说明"(用 Claude 把"整篇文档 + 该 chunk"喂进去,生成"这段在全文里讲什么"),再分别做语义嵌入和 BM25。
失败率下降(原文精确数字):
-
仅 contextual embeddings:-35%(5.7% → 3.7%)
-
+ contextual BM25:-49%(→ 2.9%)
-
+ reranking:-67%(→ 1.9%)
-
Hybrid = 向量 + BM25,用 Reciprocal Rank Fusion(RRF)去重融合;contextual hybrid 优于 vanilla hybrid。
-
Reranking:先粗召回 top-150,用 cross-encoder 重排后只留 top-20 进 prompt——两阶段(hybrid 召回 → 神经重排)大幅碾压单阶段。
-
何时值得:知识库 >200K tokens 才划算;更小的库直接用 prompt caching。(本项目 1,234 篇笔记 ≫ 200K tokens,符合。)
4. 评估与 2026 技术栈
- RAGAS 逐查询指标,生产目标:faithfulness ≥0.9、answer relevancy ≥0.85、context precision ≥0.8;测试集要覆盖简单事实题、需向量库知识题、需最新网络信息题、复杂多跳题。
- 2026 默认栈:LangGraph(编排,把"路由/检索/打分/生成/校验"做成图节点)+ LlamaIndex Workflows(检索)+ Ragas/Phoenix/Langfuse(评估/可观测)。
- 代价:agentic RAG 比一次过 RAG 多 3–10× token、2–5× 延迟——只在多跳/歧义/高风险域(法律/医疗/金融)值这个价。
5. RAG vs 长上下文
- "RAG 负责找,长上下文负责推理(RAG does the finding, long context does the reasoning)。"
- 窄而静态的任务,长上下文(甚至一个准的 grep + 大窗口)更便宜好维护;复杂/大库仍需检索。
- GraphRAG 擅长关系型查询(合规分析、研究综述、竞品情报);简单事实检索 vector RAG 更快更省。
6. 🔧 本项目 Agent Lab 诊断 + 改造清单(学习 → 行动)
现状诊断(对照 src/agent):
src/agent/rag/hybridSearch.ts名义"BM25+向量+hybrid",实际:① 生产 embeddings degraded(向量全空)→ 永远只走 BM25;② 是 vector-OR-bm25 二选一,不是 RRF 融合;③ 无 reranker。src/agent/knowledge/knowledgeAgent.ts:有searchNotes/getNote工具,但不是 agentic——没有"改写查询 / 迭代 / 给结果打分重试"的回路。- 无 RAGAS 式离线评估,质量无基线(
__tests__全是 mock 单测)。
改造清单(按"先简单后复杂",每步可独立上线 + 量化):
- 真 RRF 融合(S):
hybridSearch两路都跑,用纯 TS1/(k+rank)合并去重(不依赖外部模型,兼容静态导出)。先把"名实不符"修成"名副其实"。 - 修 degraded + contextual chunking(M):
scripts/build-agent-embeddings.ts注入 key 生成真向量并断言degraded===false;给每 chunk 预置 50–100 token 上下文(对标 Anthropic,-35%→-49%)。 - LLM-as-reranker(M):粗召回 top-N → 让 sub-agent 模型对 query-chunk 相关性打分 → 留 top-5(无 Cohere 也能做,-67% 的关键一环)。
- agentic 回路(M):
knowledgeAgent注入"结果不足则改写 query 重试 ≤2 轮 + 命中打分",对标 CRAG。 - RAGAS 式 golden eval(L,接 [#8 eval harness]):20–30 条 golden 问答 + faithfulness/context-precision 断言,进 vitest+CI——先量化再优化,否则上面每一步都没法证明有效。
注:第 1、3、4 步不需要 embedding key(纯 TS RRF + LLM 重排/回路),即使不修向量也能立刻提升;第 2 步是唯一需要持续烧 key 的,按预算决定走"诚实删空 bundle"还是"真向量"。
7. 学习资源(按发布日期)
| 资料 | 类型 | 日期 |
|---|---|---|
| Anthropic《Introducing Contextual Retrieval》 | 官方(权威) | 2024-09-19 |
| FAIR-RAG(arXiv 2510.22344) | 论文 | 2025-10 |
| SoK: Agentic RAG(arXiv 2603.07379) | 综述 | 2026-03 |
| Meta CRAG Benchmark | 基准 | 2024–2026 |
| RAGAS / Phoenix / Langfuse 文档 | 评估工具 | 2026 |
| LangGraph Agentic RAG(2026 Edition) | 实战 | 2026-03 |
| "RAG Is Not Dead … 2026" / Adaptive RAG | 综述 | 2026 |
8. SOTA 检查 (2026-05-29 更新)
- 当前主流:hybrid(dense+BM25 RRF)+ reranker 是 2026 生产及格线;agentic(CRAG/Self-RAG/多跳)按需叠加;adaptive RAG(查询路由)是新兴最佳实践;评估用 RAGAS,编排用 LangGraph。
- 是否仍是 SOTA:是。"naive RAG 已死"是 2026 共识;但别一上来全套 agentic(3–10× token),Anthropic/社区都强调"先简单 + 量化 + 按需加复杂"。
- 需要持续盯:①reranker 模型迭代(Cohere Rerank、BGE 新版);②长上下文价格下降是否进一步挤压 RAG 边界;③agentic RAG 评测基准(CRAG/HotpotQA)新 SOTA;④本项目 Agent Lab 改造后用 RAGAS 跑出的真实分数。
- 过时风险提示:本文数字(35/49/67%、RAGAS 阈值、token 倍数)为 2024-09~2026-03 区间;再次引用前重核论文/官方,标时点。
本文遵循项目《全局时效性硬规则》:主线资料近 12 个月内并标 YYYY-MM;Contextual Retrieval 数字以 Anthropic 一手公告为准。第 6 节改造清单与 [[project-optimization-roadmap]] 的 #2(RRF/embeddings)、#8(eval harness)对齐。