返回 Papers
AI 扩展计划 / Playbooks

AI Retrieval / Eval / GraphRAG Playbook

已有资料已经覆盖了三个基础层:

856AI_RETRIEVAL_EVAL_GRAPH_RAG_PLAYBOOK.md

Retrieval / Eval / GraphRAG 实战手册

面向对象: AI PM / AI BA / AI Architect / 金融零售业务架构师。 核心目标: 不再把 RAG 当成“向量库 + 大模型问答”, 而是训练把企业知识系统做成可评估、可审计、可上线、可复盘、可转作品集的能力。


1. 定位: 这份手册补什么能力缺口

已有资料已经覆盖了三个基础层:

已有资料已覆盖能力本手册继续补强
docs/ai-foundations/papers/02-retrieval-augmented-generation.md理解 RAG 原论文、retriever/generator、企业 RAG 架构、权限、版本、引用和失败类型把 RAG 架构进一步变成可执行的 retrieval eval stack、发布门禁、失败分诊和作品集资产
docs/ai-foundations/papers/08-llm-as-judge-evaluation.md理解 LLM-as-Judge、G-Eval、golden set、rubric、release gate 和 judge bias把 judge 放进 RAG 专用评估链路, 明确哪些指标能支撑上线决策、哪些必须专家复核
docs/AI_DATA_PRODUCT_MANAGEMENT_PLAYBOOK.md理解 AI data product、source-of-truth、contract、metadata、lineage、quality SLO、golden set、feedback loop把知识库、chunk、实体、图谱、评测集和引用证据都当成数据产品运营

这份手册重点不重复 RAG 基础, 而是解决五个更高级的能力缺口:

  1. 能把“回答准确”拆成可测指标: query set、gold docs、chunk recall、context precision、answer faithfulness、citation support、permission/version tests。
  2. 能解释评估指标对业务上线的意义: 指标不是学术报表, 而是决定能否 pilot、能否扩大范围、能否进入高风险流程的证据。
  3. 能判断普通 RAG 与 GraphRAG 的边界: 什么时候需要实体关系、社区摘要、多跳路径, 什么时候普通 hybrid RAG 就足够。
  4. 能把金融零售场景做成可审计知识系统: AML investigation、KYC checklist、credit policy assistant、merchant risk review、retail product knowledge assistant。
  5. 能沉淀作品集: 不只展示 demo UI, 还展示 eval matrix、ADR、source readiness checklist、failure triage、release gate memo 和 interview story。

一句话:

企业 RAG 的核心竞争力不是“能回答”, 而是“能证明它基于正确来源、正确权限、正确版本、正确证据链回答, 且失败可定位、可修复、可复盘”。


2. 能力地图: 从 RAG Demo 到 Enterprise Knowledge System

层级Demo 级做法生产级做法作品集表达
知识源上传若干 PDFsource-of-truth、owner、版本、有效期、权限、文档生命周期Knowledge Source Readiness Checklist
切分固定长度 chunk结构感知 chunk、父子层级、表格保真、引用锚点chunking ADR + recall 对比
检索top-k vector searchhybrid retrieval、metadata filter、rerank、query rewrite、permission filterRetrieval Eval Matrix
生成prompt 要求基于资料回答claim-level groundedness、拒答、冲突提示、引用支持answer faithfulness + citation support 报告
评估人工试几个问题golden set、retrieval metrics、LLM judge、expert review、release gateEval report + no-go / pilot memo
治理文档更新后手动重建ingestion SLA、版本下线、audit log、incident workflowoperating model + failure triage table
GraphRAG看到图谱就加图谱用实体关系、多跳和社区摘要解决特定问题GraphRAG Decision ADR

成熟表达不是“我做了一个 RAG”, 而是:

我把某个业务知识域产品化成了一个可治理的 knowledge product, 设计了 retrieval eval stack, 用 golden set 验证检索、引用、权限和版本, 并用 ADR 判断是否需要 GraphRAG。


3. Retrieval Eval Stack

Retrieval eval stack 要把 RAG 失败拆成多个层级。否则最终答案错了, 团队只会争论“模型不行”还是“文档不行”, 无法定位真正瓶颈。

3.1 Query Set

Query set 是检索评估的入口, 不是随手写的问题列表。每条 query 都应代表一种业务任务、风险等级和评估意图。

Query 类型目的金融零售例子设计要点
高频问题验证核心用户价值客服问“提前还款手续费怎么收”来自真实工单、客服日志、运营 FAQ
边界问题验证规则限制“非居民企业开立账户需要哪些额外文件”包含地区、客户类型、产品、日期
版本问题验证新旧政策选择“2026 年新商户风险评级规则如何适用”同时放入旧版与新版干扰源
权限问题验证访问隔离分行员工问总部调查手册细节同问多角色, 预期结果不同
无答案问题验证拒答问内部库没有覆盖的监管解释不能用相似但不相关资料硬答
冲突问题验证冲突处理产品手册和合规批复口径不一致应提示冲突、适用范围和人工确认
多跳问题验证关系推理商户、受益人、设备、交易模式之间的风险关系适合评估 GraphRAG 或 graph-enhanced RAG

Query set 的最小字段:

字段说明
query_id唯一编号, 例如 KYC-EDGE-014
user_role发问角色, 例如 analyst、branch staff、credit officer
business_scenario场景说明, 例如 KYC remediation、merchant onboarding
risk_tierlow / medium / high / regulated
query_text用户自然语言问题
expected_behavior应回答、应拒答、应升级人工、应提示冲突
gold_doc_ids支撑答案的权威文档
hard_negative_doc_ids相似但不应引用的文档
permission_profile该角色允许检索的来源范围
version_date问题发生时应适用的政策日期
failure_tags用于切片统计的标签, 如 stale_source、permission、multi_hop

PM 关注 query set 是否覆盖真实价值和上线风险。BA 关注样本是否表达业务语义和异常路径。架构师关注样本是否能驱动检索、权限、版本、引用和日志设计。

3.2 Gold Docs

Gold docs 是每条 query 应该召回的权威证据。没有 gold docs, retrieval recall 无法计算, citation support 也无法严肃验证。

Gold docs 不等于“参考答案所在文档名”。生产级 gold docs 至少要精确到 section、page、paragraph、table row 或 chunk。

Gold docs 层级适用情况示例
document-level早期探索或文档很短KYC Policy v5.2
section-level政策、手册、SOPKYC Policy v5.2 / 3.4 Non-resident Entity
paragraph-level需要验证引用支撑第 12 页第 3 段
table-row-level费率表、文件清单、风险评级矩阵Merchant MCC Risk Table / row: money service business
graph-node / edge-levelGraphRAG 或知识图谱merchant -> beneficial_owner -> high_risk_jurisdiction

Gold docs 的维护原则:

  • 每个 gold doc 必须来自 approved source, 不能引用草稿、过期文档或个人笔记。
  • 每个 gold doc 要带版本、生效日期、失效日期和 owner。
  • 每条 query 可以有多个 gold docs, 但要标明 primary evidence 与 supporting evidence。
  • hard negatives 与 gold docs 一样重要, 因为金融场景常见“相似但错误”的政策误引。

3.3 Chunk Recall

Chunk recall 衡量系统是否把正确证据片段召回到候选列表中。它回答的是:

正确证据有没有被找出来?

常见指标:

指标解释上线意义
recall@kgold chunk 是否出现在 top-k 候选中retriever 的底线能力。recall@10 低时, 生成模型再强也会猜
MRR第一个正确 chunk 的排名倒数正确资料越靠前, context packing 和回答稳定性越高
hit rate是否至少命中一个 gold source适合早期 smoke test
hard-negative avoidance相似错误文档是否被排在 gold 前面关系到政策误引、地区误引、版本误引

PM 解读:

  • 高频低风险客服助手可以接受较高 top-k 后再由 reranker 和生成层筛选。
  • 高风险合规、信贷、AML 场景不能只看“top-10 命中”, 更要看 gold 是否进入最终 context。

BA 解读:

  • 如果某类 query recall 低, 往往不是模型问题, 而是同义词、业务术语、政策结构、metadata 或 gold 标注问题。
  • BA 应补充业务词表、别名、产品代码、地区映射、客户类型定义。

架构师解读:

  • recall 低时先比较 BM25、dense、hybrid、rerank、query rewrite 和 chunk 策略。
  • 记录每次 query 的 candidate trace, 否则无法解释为什么没召回。

3.4 Context Precision

Context precision 衡量最终放进 prompt context 的内容有多少是真正相关、可用、当前有效、权限允许的证据。它回答的是:

模型看到的上下文是否干净?

常见问题:

  • top-k 召回了正确文档, 但 context 中混入大量相似错误资料。
  • 新旧版本同时进入 context, 生成答案混合口径。
  • 低可信来源排在前面, 权威政策被挤出 token budget。
  • 用户无权访问的 chunk 在检索后才被过滤, 日志或缓存已经泄漏。

Context precision 的评估维度:

维度判断问题失败影响
relevancechunk 是否直接回答 query无关内容诱导模型
authority来源是否权威引用 FAQ 代替政策
freshness是否当前有效引用过期政策
permission是否允许该用户看到权限泄漏
diversity是否覆盖必要多个方面只检到定义, 漏掉例外
conflict control是否识别冲突来源混合新旧规则

上线决策:

  • context precision 低但 recall 高, 说明 retriever 初召回可用, 重点优化 rerank、metadata filter、context packing。
  • context precision 高但 recall 低, 说明系统很保守, 可能回答覆盖不足, 需要扩展 query rewrite、synonym、chunking。
  • 高风险场景应把“无权 chunk 进入 context”定义为 critical failure, 阈值为 0。

3.5 Answer Faithfulness

Answer faithfulness 衡量回答中的断言是否由给定 context 支撑。它回答的是:

模型有没有基于证据说话?

Faithfulness 不等于 correctness。回答可能忠实于 context, 但 context 本身错了或过期。因此要与 retrieval 和 source readiness 联合看。

评估方法:

方法适用注意点
claim extraction + evidence check高风险政策、合规、信贷解释把回答拆成关键断言逐条验证
LLM judge groundedness大规模回归初筛judge 必须看到 query、context、answer 和 rubric
expert reviewAML、信贷、合规边界专家判断不可完全外包给模型
rule check禁止语、必须拒答、格式、引用字段deterministic check 应优先于 judge

上线决策:

  • 如果 faithfulness 低, 不应扩大用户范围, 即使答案看起来流畅。
  • 高风险场景中 unsupported critical claim 必须为 0。
  • 如果 faithfulness 高但用户仍不满意, 可能是 query set、gold docs、context completeness 或 UX 问题。

3.6 Citation Support

Citation support 衡量引用是否真实支撑回答中的关键断言。它回答的是:

引用是证据, 还是装饰?

成熟系统不满足于答案末尾列几个链接, 而要做到 claim-level citation:

引用层级成熟度风险
answer-level links链接存在但不一定支持具体断言
paragraph-level citations可以定位段落依据, 但仍可能混合断言
claim-level citations每个关键事实点绑定来源
evidence-span citations很高指向具体句子、表格行、规则字段或图谱边

Citation support 指标:

指标解释上线意义
citation coverage关键断言中有引用的比例低覆盖说明审计证据不足
citation accuracy引用是否支持断言高风险场景核心指标
citation freshness引用来源是否当前有效控制过期政策风险
citation permission correctness用户是否有权打开引用防止“答案不泄漏但引用泄漏”
citation granularity是否能定位到 section/page/span影响审计和用户信任

PM 解读:

  • 对员工助手, 引用可以提升信任和采纳。
  • 对受监管流程, 引用是上线证据和审计证据, 不是体验增强项。

BA 解读:

  • BA 应定义哪些断言必须引用: 金额阈值、资格条件、拒绝原因、合规要求、例外流程、客户沟通口径。

架构师解读:

  • citation 要从 ingestion 就开始设计: page、section、table row、chunk_id、source_version、permission_group 都要保留。

3.7 Permission / Version Tests

权限和版本测试是金融零售 RAG 的强制门禁。它们不是普通准确率指标, 而是风险控制。

测试类型设计方式通过标准
role-based same query同一个问题用 analyst、branch staff、external vendor 三种角色测试每个角色只能检索并引用有权资料
region-based policy同一产品在不同地区问适用政策不跨地区误引
effective-date testquery 指定业务日期, index 中放新旧版本使用该日期有效版本
expired-source hard negative将过期政策作为相似干扰源不引用 expired source
draft-source exclusion知识库中存在草稿production query 不召回草稿
citation entitlement用户点击引用时检查权限答案引用与源文档访问一致
cache isolation不同角色连续查询低权限用户不读取高权限缓存结果
audit replay回放历史 query能复现当时使用的模型、prompt、source version

上线决策:

  • 权限泄漏、草稿误用、过期关键政策误引都应定义为 critical failure。
  • 任何 critical failure 未关闭前, 不进入生产或只允许隔离环境演示。
  • 版本测试要纳入每次 ingestion、chunking、embedding、rerank、prompt 或模型变更后的回归。

4. RAGAS / Retrieval Metrics / LLM Judge 的 PM、BA、架构师解读

RAGAS 的关键价值是把 RAG 评估拆成多个可自动化或半自动化维度, 例如 faithfulness、answer relevance、context precision、context recall 等。它不是上线决策的全部, 但很适合作为评估框架的起点。

4.1 不要只堆指标: 指标要回答上线问题

上线问题对应指标决策含义
系统能否找到正确证据recall@k、context recall、gold doc hit rate找不到证据时, 不能靠 prompt 修复
模型看到的证据是否干净context precision、hard-negative rate、version filter pass决定是否需要 rerank、metadata filter、context packing 优化
回答是否基于证据faithfulness、unsupported claim rate决定能否进入 pilot 或高风险流程
引用是否可审计citation coverage、citation accuracy、citation granularity决定能否被合规、内审和运营信任
无答案时是否拒答refusal accuracy、over-answer rate决定是否会编造政策或误导用户
权限是否可靠permission leakage rate、entitlement mismatch决定是否允许接入真实内部资料
版本是否可靠current-version accuracy、stale-source rate决定是否能服务政策和监管场景
是否比上一版更好slice regression、critical failure count决定是否 release 或 rollback

4.2 PM 解读: 指标如何支撑产品决策

PM 不需要把每个公式背下来, 但必须能把指标翻译成上线策略:

指标结果产品判断
高频 query recall@5 高, faithfulness 高, citation support 高可进入受控 pilot, 收集真实反馈
recall 高但 faithfulness 低用户价值存在, 但生成层不稳; 需要更强 prompt、claim verification 或低风险场景先试
context precision 低用户会看到混乱答案; 优化前不扩大场景
citation accuracy 低不适合合规、信贷、AML; 只能做探索型助手
permission tests 有失败不接入真实敏感资料, 先修架构
version tests 有失败不适合政策问答, 先修文档生命周期和 metadata

PM 的上线 memo 应避免写“准确率达到 85% 所以上线”。更好的表达是:

在 180 条 golden set 中, 高频客服场景 faithfulness 94%、citation accuracy 96%、无 critical permission/version failure; 但信贷拒绝原因场景 unsupported claim 仍有 3 条, 因此建议先上线客服知识助手 pilot, 信贷场景保留人工复核并继续修复。

4.3 BA 解读: 指标如何反推需求和样本

BA 的关键工作是让指标背后有业务语义。

指标问题BA 要补的内容
recall 低补业务术语、同义词、产品代码、政策层级、客户类型映射
hard negative 命中高标注相似但错误的政策, 明确地区、版本、产品差异
refusal accuracy 低定义哪些问题必须拒答、要求补充信息或升级人工
faithfulness 低拆解回答中的关键断言, 明确哪些字段必须来自证据
citation support 低定义必须引用的断言类型和可接受来源
version failure明确政策生效、废止、过渡期和例外条款

BA 不只是写用户故事, 还要写 eval stories:

作为 KYC 审核员,
当我询问非居民企业开户缺少哪些材料时,
系统必须基于当前有效 KYC 政策和客户类型定义返回缺件清单,
每个缺件项必须引用政策章节,
如果客户地区或实体类型不明确, 系统必须要求补充信息而不是猜测。

4.4 架构师解读: 指标如何驱动系统设计

架构师要把指标映射到可观测性和改造点。

指标失败可能原因架构改造
recall@k 低chunk 切分差、embedding 不适配、query rewrite 弱、BM25 缺失比较 chunk 策略、hybrid retrieval、领域词表、rerank
context precision 低相似文档混入、metadata 缺失、rerank 不稳加强 metadata filter、source authority score、dedupe、context packing
faithfulness 低prompt 不约束、上下文冲突、模型补全grounded prompt、claim verifier、低置信拒答
citation accuracy 低引用锚点丢失、后处理随意贴源ingestion 保留 source span、claim-source alignment
permission failure检索后过滤、缓存未隔离、index 混租retrieval-time entitlement、tenant/role scoped index、cache key 带权限
stale source文档生命周期缺失、index 未下线旧文档source versioning、effective_date filter、re-index trigger

架构师的目标不是让所有指标一次达标, 而是让每个失败都有 trace、owner 和修复路径。

4.5 LLM Judge 的使用边界

LLM judge 适合:

  • 判断回答是否覆盖关键点。
  • 初筛 faithfulness、groundedness、tone、completeness。
  • 对比两个 prompt、两个 retriever、两个 reranker。
  • 给 failure tags 和 triage reason。

LLM judge 不适合作为唯一依据:

  • 最终合规判断。
  • AML SAR/STR 是否提交。
  • 信贷拒绝是否符合法规。
  • 权限是否泄漏。
  • 版本是否当前有效。
  • 引用是否真实可打开。

推荐组合:

评估对象首选方法
JSON 格式、禁用词、必须字段deterministic checks
source version、permission、citation iddeterministic + access control replay
open-ended answer qualityLLM judge + sampled human review
高风险政策解释LLM judge 初筛 + domain expert review
release decisionmetrics + critical failure + risk sign-off + rollback plan

5. GraphRAG / Knowledge Graph RAG 决策

GraphRAG 不是“更高级的 RAG”默认替代品。它适合知识关系复杂、问题跨实体、跨文档、跨社区、跨路径时使用。普通 RAG 能解决的问题, 不要为了图谱而图谱。

5.1 普通 RAG 足够的情况

普通 hybrid RAG 通常足够:

情况例子原因
答案主要来自单一政策段落“信用卡提前还款手续费怎么收”top-k + citation 足够
文档结构清晰、章节边界明确KYC 文件清单、产品 FAQ结构感知 chunk 可解决
用户问题以查找和解释为主“这个表格字段是什么意思”不需要关系推理
关系可以通过 metadata filter 表达region、product、customer_segment不必建图
业务更新频繁但关系稳定性低临时促销政策图谱维护成本可能大于收益
项目处于早期探索20-50 条 query smoke test先用普通 RAG 建 baseline

判断原则:

如果答案的关键证据能通过 1-3 个权威 chunk 找到, 且关系不影响结论, 先用普通 RAG。

5.2 需要实体关系的情况

需要 entity relationship 的信号:

信号说明金融零售例子
同一实体跨多源出现客户、商户、账户、设备、受益人分散在不同系统AML investigation 需要统一主体视图
关系本身是证据beneficial owner、shared device、common address、transaction counterparty商户风险审查
多跳关系影响判断A 与 B 无直接交易, 但共享控制人和设备AML network typology
名称歧义严重同名客户、商户别名、集团子公司KYC / merchant onboarding
需要解释“为什么相关”不是找文档, 而是解释风险路径case narrative 和风险图

GraphRAG 在这些场景中的价值:

  • entity resolution: 识别同一客户、商户、设备或受益人。
  • relationship retrieval: 根据关系路径找到证据。
  • path explanation: 把多跳路径转成可审计解释。
  • risk context expansion: 从一个告警扩展到相关实体和历史模式。

5.3 需要社区摘要的情况

Microsoft GraphRAG 的核心启发之一是将文本转成实体和关系, 构建图谱, 再通过社区检测和摘要支持全局性、跨文档问题。社区摘要适合回答“一个知识域整体上有哪些主题、风险、模式、群组”。

适合 community summaries:

场景问题为什么普通 RAG 不够
AML typology landscape“过去一年高风险商户网络有哪些共同模式”单个 chunk 无法代表网络社区
投诉主题归因“零售贷款客户投诉主要集中在哪些流程和政策冲突”需要跨工单聚类和主题摘要
产品知识域梳理“某产品线常见政策例外有哪些”需要跨文档、跨 FAQ、跨案例汇总
商户生态风险“哪些商户群组共享设备、地址或结算路径”关系社区本身是答案

社区摘要的治理要求:

  • 摘要要记录生成时间、输入来源范围、社区算法版本和摘要模型版本。
  • 社区摘要不能覆盖底层证据; 高风险结论必须能 drill down 到节点、边和文档。
  • 社区摘要需要定期刷新, 否则会变成新的过期知识源。

5.4 需要多跳路径的情况

Multi-hop path 是 GraphRAG 的高价值区域。典型问题不是“找一段政策”, 而是:

这个商户为什么被标为高风险?
因为它与三个被关停商户共享设备指纹,
其受益人与高风险行业实体存在历史关联,
并且近 30 天交易模式与某 AML typology 的路径相似。

多跳路径适合:

  • AML investigation: customer -> account -> counterparty -> jurisdiction -> typology。
  • Merchant risk review: merchant -> owner -> device -> linked merchant -> chargeback pattern。
  • Credit policy assistant: borrower -> employer -> income type -> policy exception -> required document。
  • KYC checklist: entity type -> ownership structure -> jurisdiction -> required document -> enhanced due diligence。

多跳路径的风险:

  • 路径越长, 误连和误解风险越高。
  • 图谱边的来源、置信度和更新时间必须可见。
  • 不能把“路径存在”直接等同于“风险成立”。
  • 高风险结论要保留人工判断, GraphRAG 输出应是 evidence map 和 rationale draft。

5.5 GraphRAG 决策矩阵

决策问题普通 RAGGraph-enhanced RAGFull GraphRAG
主要任务文档问答、政策解释文档问答 + 实体/关系过滤全局主题、社区摘要、多跳推理
知识结构文档章节清晰文档和结构化实体并存关系网络是主要知识
典型证据chunk、section、table rowchunk + entity + relationshipcommunity summary + path + source evidence
成本低到中
数据治理要求文档 metadataentity resolution、edge provenance图谱生命周期、社区摘要版本、路径审计
最适合场景KYC policy、客服知识库、产品 FAQmerchant review、credit exception、case evidenceAML network、风险主题分析、跨域知识地图
上线前提retrieval eval 达标文档 eval + entity/edge eval图谱质量 eval + path faithfulness + expert review

推荐路径:

  1. 先做普通 RAG baseline, 建立 query set、gold docs、retrieval metrics 和 answer eval。
  2. 识别普通 RAG 失败中是否存在“关系缺失”而不是“检索差”。
  3. 如果失败主要来自实体歧义、多跳关系、跨文档主题, 再引入 graph-enhanced RAG。
  4. 只有当业务问题需要全局社区摘要和路径解释时, 才建设 full GraphRAG。

6. 金融零售场景 Playbook

6.1 AML Investigation

维度设计
用户AML investigator、case QA、financial crime analyst
核心任务从告警、交易、KYC、历史案例、typology 中生成 investigation brief 和 evidence map
知识源AML typology、监管通报、调查 SOP、历史 SAR/STR 样例、case notes、交易摘要、客户/账户/对手方关系
Retrieval evaltypology recall、case evidence recall、counterparty evidence recall、stale typology avoidance
Answer eval不下最终 SAR 结论、证据覆盖、缺失证据提示、引用支持、风险语言合规
GraphRAG 价值customer-account-counterparty-jurisdiction-typology 多跳路径; 共享地址/设备/受益人网络; 风险社区摘要
Release gatepermission leakage = 0; final-decision automation = 0; critical unsupported claim = 0; 高风险样本专家通过
作品集 artifactAML Retrieval Eval Matrix + GraphRAG ADR + failure triage report + case narrative eval rubric

关键设计:

  • AI 输出应是 investigation assistance, 不是监管报送决策。
  • 每个风险描述必须引用交易证据、typology 或 case source。
  • 如果缺少 KYC、对手方或资金来源信息, 应显式列为 missing evidence。
  • 图谱路径必须显示边的来源和时间, 不允许把弱关联写成确定事实。

6.2 KYC Checklist

维度设计
用户KYC analyst、branch onboarding staff、relationship manager
核心任务根据客户类型、地区、产品、风险等级生成所需文件、缺件清单和例外升级路径
知识源KYC policy、客户类型定义、文件清单、EDD 规则、地区监管要求、例外审批 SOP
Retrieval evalpolicy section recall、document checklist recall、hard negative by region/customer type
Answer eval文件要求正确、适用范围清晰、缺少信息时追问、不要求无授权资料
GraphRAG 价值entity type -> ownership structure -> jurisdiction -> required documents 的路径可解释
普通 RAG 是否足够多数 checklist 问答普通 hybrid RAG 足够; 复杂 ownership 和跨地区结构可加 graph
Release gaterequired document accuracy 高阈值; stale policy = 0; unauthorized data request = 0
作品集 artifactKYC Knowledge Source Readiness Checklist + golden set + refusal tests

关键设计:

  • query set 必须覆盖 individual、sole proprietor、corporate、trust、non-resident、high-risk country。
  • gold docs 要精确到文件清单表格行和 EDD 条款。
  • 答案应区分“必须提交”“条件触发”“建议人工确认”。

6.3 Credit Policy Assistant

维度设计
用户credit officer、loan product PM、underwriting QA、branch manager
核心任务解释贷款准入、收入证明、例外审批、拒绝原因草稿和补件建议
知识源credit policy、underwriting SOP、income verification rules、product terms、fair lending guidance、adverse action templates
Retrieval evalpolicy recall、exception rule recall、template recall、protected-class hard negative
Answer evalpolicy-grounded、无歧视性因素、不得暴露评分模型敏感逻辑、引用准确
GraphRAG 价值borrower attributes -> policy rule -> exception path -> required evidence; 通常 graph-enhanced RAG 即可
Release gatefair lending critical failure = 0; unsupported rejection reason = 0; human review trigger 正确
作品集 artifactCredit Release Gate Memo + citation support report + PM/BA eval stories

关键设计:

  • AI 不能自动做授信裁决, 只能解释政策和起草人工复核材料。
  • adverse action 相关输出必须走更严格 rubric 和专家复核。
  • 如果资料来自模型评分而非政策条款, 输出要清楚区分“政策依据”和“模型信号”。

6.4 Merchant Risk Review

维度设计
用户acquiring risk analyst、merchant onboarding PM、fraud operations
核心任务审查商户行业、MCC、实控人、设备、地址、交易模式、拒付/欺诈风险
知识源merchant application、MCC risk policy、beneficial owner records、device fingerprint、chargeback records、fraud typology、terminated merchant file
Retrieval evalMCC policy recall、risk rule recall、linked merchant evidence recall
Answer eval风险因素有证据、不得把关联直接写成定罪、明确缺失资料和复核建议
GraphRAG 价值merchant-owner-device-address-linked merchant 多跳关系非常强
Release gatelinked-entity path citation 通过; permission leakage = 0; high-risk recommendation requires human review
作品集 artifactMerchant GraphRAG Decision ADR + entity/edge readiness checklist + path faithfulness eval

关键设计:

  • Merchant risk 是 GraphRAG 的强候选, 因为关系本身经常是核心证据。
  • 图谱边要有 provenance: 哪个系统、哪个字段、什么时间、置信度多少。
  • 输出要区分 direct evidence、indirect link、risk indicator、required review action。

6.5 Retail Product Knowledge Assistant

维度设计
用户customer service agent、branch staff、product operations、training team
核心任务回答产品政策、费率、促销、资格、操作流程、异常处理话术
知识源product manual、FAQ、fee table、campaign terms、SOP、approved customer-facing script
Retrieval evalproduct policy recall、fee table row recall、campaign version test
Answer eval对客口径准确、语气合规、引用内部资料但输出适合客户、过期促销不误用
GraphRAG 价值大多数情况普通 RAG 足够; 若要做产品知识地图和跨产品比较, 可用轻量 graph
Release gatefee/campaign citation accuracy 高阈值; stale campaign = 0; unauthorized commitment = 0
作品集 artifactProduct Knowledge Retrieval Eval Matrix + answer rubric + pilot scope memo

关键设计:

  • 内部依据与对客话术要分层, 不能把内部操作细节直接对客输出。
  • 促销和费率表要 table-row citation, 不能只引用整个 PDF。
  • 适合先做低风险 pilot, 快速积累 feedback loop 和 retrieval failure taxonomy。

7. 30 天 Lab: Retrieval / Eval / GraphRAG 作品集训练

Lab 目标: 用 30 天做出一套可展示的“金融零售知识助手评估与 GraphRAG 决策包”。建议选择一个主场景, 如 KYC checklist、merchant risk review 或 retail product knowledge assistant。

Day任务Artifact
1选择一个金融零售 use case, 写清用户、流程、风险等级、AI 边界1 页 Use Case Brief
2列出 source-of-truth、辅助来源、禁止来源、owner 和更新频率Knowledge Source Inventory
3为每个来源补 metadata: doc_type、region、product、effective_date、permission_group、ownerSource Metadata Sheet
4用 readiness checklist 评估知识源, 标出 production blockerKnowledge Source Readiness Checklist v1
5设计 30 条 query set, 覆盖高频、边界、无答案、权限、版本、冲突Query Set v1
6为每条 query 标注 gold docs、hard negatives、expected behaviorGolden Set Register v1
7设计 chunk strategy: fixed、section-aware、parent-child 至少比较两种Chunking Decision Note
8选 10 条 query 做手工 retrieval baseline, 记录召回和失败原因Manual Retrieval Baseline
9定义 retrieval metrics: recall@5、recall@10、MRR、hard-negative rateRetrieval Metrics Spec
10设计 context precision rubric: relevance、authority、freshness、permission、conflictContext Precision Rubric
11设计 answer faithfulness rubric, 把回答拆成 claim 并检查证据Faithfulness Rubric
12设计 citation support 标准: coverage、accuracy、granularity、freshness、permissionCitation Support Spec
13设计 permission tests: 同问不同角色、引用跳转、缓存隔离Permission Test Pack
14设计 version tests: 新旧政策、过期文档、草稿排除、指定业务日期Version Test Pack
15完成 Retrieval Eval Matrix 模板并填入前 15 条样本Retrieval Eval Matrix v1
16用 LLM judge 设计结构化评估 prompt, 输出 score、failure_tags、critical_failureJudge Prompt + JSON Schema
17设计 human review sampling: 哪些样本必须专家复核, 哪些抽检Human Review Plan
18建立 failure taxonomy: no retrieval、wrong retrieval、stale source、permission leak、citation mismatchFailure Taxonomy
19对 10 个失败样本做 triage, 归因到 source、chunk、retrieval、rerank、generation、citationFailure Triage Table v1
20写 release gate: smoke、retrieval、grounding、citation、permission、version、risk sign-offRelease Gate Spec
21判断是否需要 GraphRAG: 列出实体、关系、多跳问题和普通 RAG 失败证据GraphRAG Need Assessment
22如果需要 graph, 定义 entity types、edge types、provenance、confidence、refreshEntity / Edge Model v1
23写 GraphRAG Decision ADR, 明确普通 RAG、graph-enhanced RAG、full GraphRAG 取舍GraphRAG Decision ADR
24为 GraphRAG 设计 path faithfulness eval: 路径是否存在、边是否有来源、结论是否过度推断Path Faithfulness Rubric
25设计 community summary 的使用边界和刷新机制Community Summary Governance Note
26写 pilot scope: 哪些用户、哪些问题、哪些输出必须人工复核Pilot Scope Memo
27写 monitoring dashboard 指标: no-result、citation accuracy、permission failure、feedback、cost、latencyMonitoring Metric Pack
28写 incident workflow: 权限泄漏、过期政策误引、unsupported claim、引用错配Knowledge AI Incident Playbook
29整理作品集 case study: problem、architecture、eval、release gate、risk controls、ROIPortfolio Case Study v1
30准备面试故事: 30 秒、2 分钟、CTO 深挖、PM 深挖、BA 深挖Interview Story Pack

30 天验收标准:

  • 有一个完整 query set, 不是零散问题。
  • 每条样本至少包含 gold docs、expected behavior、risk tier 和 failure tags。
  • 能解释普通 RAG 为什么够用, 或 GraphRAG 为什么必要。
  • 有 release gate, 且 critical failure 明确为阻断项。
  • 有作品集材料, 能展示 PM、BA、架构师三种视角。

8. 模板

8.1 Retrieval Eval Matrix

使用方式: 每一行是一条 query 的评估结果。初期可手工填, 后续可由 eval runner 自动生成。

字段填写说明示例
eval_id评估运行编号KYC-EVAL-2026-06-29-01
query_idquery set 中的唯一编号KYC-EDGE-014
user_role权限角色branch_staff
query_text用户问题非居民企业开户还缺哪些文件?
expected_behavior期望行为询问实体类型和地区, 并引用当前 KYC policy
gold_doc_ids权威来源KYC-POLICY-v5.2-s3.4; DOC-MATRIX-v5.2-row-17
hard_negative_doc_ids相似但错误来源KYC-POLICY-v4.9-s3.4; DRAFT-KYC-2026
retrieved_top_5top-5 chunk idschunk_883, chunk_221, chunk_905, chunk_107, chunk_114
chunk_recall_at_5gold chunk 是否命中1
mrr第一个 gold chunk 排名倒数0.5
context_precision_score1-5 或百分比4/5
stale_source_flag是否引用过期来源false
permission_pass权限是否通过true
answer_faithfulness回答是否由 context 支撑pass
citation_coverage关键断言引用覆盖率100%
citation_accuracy引用是否支持断言95%
refusal_correct无答案/缺信息时是否正确拒答或追问true
critical_failure是否有阻断发布的问题false
failure_tags失败标签missing_region_clarification
owner修复 ownerKYC BA
fix_action明确修复动作补充地区澄清 prompt; golden set 加 5 条地区边界样本

评分建议:

Release band建议
critical failure > 0不发布, 先修权限、版本、关键断言或安全问题
retrieval recall 高但 citation 低可继续内部测试, 不进入审计要求高的流程
retrieval、faithfulness、citation 均稳定且无 critical failure可进入受控 pilot
指标稳定且 production feedback 闭环有效扩大用户范围或场景范围

8.2 GraphRAG Decision ADR

# ADR: [场景名] 是否采用 GraphRAG

## Status
Accepted for pilot / Deferred / Rejected for current scope

## Context
- 业务场景: merchant risk review
- 用户: acquiring risk analyst
- 当前 RAG baseline: 普通 hybrid RAG 在政策解释上表现稳定, 但在 linked merchant 和 shared device 风险解释上失败较多
- 关键失败证据: 30 条 query 中 8 条需要跨商户、设备、实控人关系; 普通 RAG 只能找到单个文档, 无法解释路径

## Decision
采用 graph-enhanced RAG, 暂不采用 full GraphRAG。

## Rationale
- 需要实体关系: merchant、beneficial_owner、device、address、chargeback_case
- 需要多跳路径: merchant -> device -> linked merchant -> terminated merchant file
- 不需要全局社区摘要作为第一阶段能力, 因为 pilot 用户主要审单, 不是做全域风险研究
- 图谱边可以从现有 onboarding、device fingerprint、case management 中获得 provenance

## Alternatives Considered
| 方案 | 优点 | 风险 | 结论 |
|---|---|---|---|
| 普通 hybrid RAG | 成本低, 上线快 | 无法解释 linked entity path | 不足以覆盖核心风险问题 |
| graph-enhanced RAG | 能保留文档问答并加入关系证据 | 需要 entity resolution 和 edge provenance | 采用 |
| full GraphRAG | 支持社区摘要和全局主题 | 构建和治理成本高 | 留到第二阶段 |

## Scope
- 纳入实体: merchant、owner、device、address、case、MCC
- 纳入关系: owns、shares_device、shares_address、has_chargeback_case、matches_typology
- 不纳入范围: 自动拒绝商户、自动关闭 case、客户外部沟通

## Evaluation
- path existence accuracy >= 95%
- edge provenance coverage = 100%
- path faithfulness critical failure = 0
- permission leakage = 0
- risk explanation unsupported claim = 0

## Consequences
- 需要建立 entity/edge data contract
- 需要维护 graph refresh job 和边来源审计
- 需要新增 path-level eval 和专家复核
- 需要 UI 展示路径证据和底层来源

8.3 Knowledge Source Readiness Checklist

评分建议: 1 = 不可用于 pilot, 3 = 可用于受控 pilot, 5 = 可进入生产评审。

维度评分问题1 分表现3 分表现5 分表现
Source-of-truth是否权威来源不明或个人维护owner 已确认权威系统/库, 冲突处理明确
Approval status是否可用于生产草稿混入人工标记 approved生命周期机器可读, draft 自动排除
Versioning是否有版本和有效期无版本有版本但不完整version、effective_date、expiry_date 完整
Metadata是否支持检索过滤只有文件名有基础标签product、region、customer_type、permission、owner 完整
Chunkability是否适合切分扫描件/OCR 差/表格丢失可解析正文标题、页码、表格、段落结构保留
Citation anchor是否可精确引用只能引用文件可引用章节可引用 page、section、paragraph、table row
Permission是否可执行权限只靠文件夹权限文档级权限chunk/field/role 权限可机器执行
Freshness是否可更新手动上传且无通知定期同步source change 触发 re-index 和回归
Ownership是否有人负责无 owner有业务 ownerbusiness/data/risk/technical owner 明确
Auditability是否可审计无 lineage能追文档来源能追 source -> chunk -> context -> answer -> citation
Eval readiness是否可做 gold docs无法定位证据可人工标注 gold section可系统化生成/维护 gold docs 和 hard negatives
Risk controls是否覆盖 PII/retention未分类高风险来源人工限制PII、consent、retention、purpose limitation 可执行

Readiness gate:

总分结论
12-28不进入 RAG pilot, 先做知识治理
29-42可做低风险 prototype, 禁止真实高风险用户依赖
43-54可做受控 pilot, 必须人工复核和监控
55-60可进入 production review, 仍需 release gate 和定期复核

8.4 Failure Triage Table

使用方式: 每个失败样本都要定位到链路环节, 否则无法形成可执行 backlog。

Failure type典型表现判断方法责任 owner修复动作
no retrievalgold docs 未进入 top-k查看 recall@k、query traceArchitect + BA改 chunk、query rewrite、synonym、hybrid search
wrong retrieval相似错误文档排在前面hard-negative 命中Architect + BA增强 metadata filter、rerank、source authority
stale source引用旧政策source version checkData owner修 version metadata、expiry filter、re-index
draft source草稿进入答案approval_status checkData owner + Riskdraft 排除、source lifecycle gate
permission leak用户看到无权内容entitlement replayArchitect + Security检索前权限、索引隔离、cache 隔离
context conflict上下文含冲突来源context reviewBA + PM冲突检测、适用范围澄清、人工升级
unsupported claim回答含证据未支持断言claim-level faithfulness checkPrompt owner + PM修改 prompt、加 verifier、降低自动化范围
citation mismatch引用不支持断言citation support checkArchitect + BA保留 source span、claim-source 对齐
over-answer无答案仍编答案refusal testPM + Prompt owner拒答策略、缺信息追问、confidence gate
graph path overclaim有弱关系却写成确定风险path faithfulness reviewGraph owner + Risk边置信度、路径措辞、专家复核
judge biasjudge 偏好长答案或顺序A/B order swap、human calibrationEval owner调整 rubric、多 judge、抽样专家复核

Failure severity:

Severity定义发布动作
Critical可能造成权限泄漏、监管误导、错误拒绝/承诺、关键政策误引阻断发布
Major影响核心用户任务, 但有人工作为兜底修复后再扩大范围
Minor影响表达、格式或低风险细节可进入 backlog, 不阻断低风险 pilot

9. Release Gate 设计

Retrieval/Eval/GraphRAG 项目应把上线门禁写清楚。门禁不是“平均分达标”, 而是分层证据。

Gate指标建议阈值示例阻断条件
Source readinessreadiness scorepilot >= 43/60权威来源不清、无权限模型
Retrievalrecall@5、MRR、hard-negative rate核心 query recall@5 >= 90%gold docs 大量找不到
Contextcontext precision高风险样本 >= 4/5无权、过期、草稿进入 context
Faithfulnessunsupported claim ratecritical unsupported claim = 0编造政策、编造证据
Citationcoverage、accuracy、freshness高风险 citation accuracy >= 95%引用不支持关键断言
Refusalrefusal accuracy无答案/缺信息正确处理 >= 90%无资料仍给确定答案
Permissionleakage rate0任一权限泄漏
Versionstale-source ratecritical stale source = 0引用过期核心政策
Graph pathpath faithfulnesshigh-risk path overclaim = 0弱关系写成确定结论
Human review专家复核高风险样本通过专家否决
Opsmonitoring、rollback、incident已配置无法追踪和回滚

发布建议:

  • Prototype: 可使用公开或脱敏资料, 允许指标不完整, 但必须标明不可用于真实决策。
  • Controlled pilot: 必须有 query set、gold docs、retrieval eval、citation check、权限/版本测试和人工复核。
  • Production review: 必须有 release gate、monitoring、incident workflow、owner model、audit replay。
  • High-risk workflow: AML、信贷、KYC、商户风险等必须保留 human-in-the-loop 和专家抽检。

10. 面试表达

10.1 30 秒版本

我不会把企业 RAG 只理解成向量检索。我的做法是先把知识源产品化, 明确 source-of-truth、版本、权限和引用锚点; 然后建立 retrieval eval stack, 用 query set、gold docs、chunk recall、context precision、faithfulness、citation support、权限和版本测试来做发布门禁。如果问题涉及实体关系、多跳路径或全局主题, 我会用 ADR 判断是否需要 GraphRAG, 而不是默认上图谱。

10.2 2 分钟版本

在企业知识助手里, 最危险的问题不是模型不会说话, 而是它基于错误资料、错误权限或错误版本说得很流畅。我会从三个层面设计。

第一是知识源治理。把政策、SOP、FAQ、案例、表格都当成 AI data product, 明确 owner、source-of-truth、metadata、effective date、permission group、citation anchor 和更新机制。

第二是 retrieval eval。每个场景建立 query set 和 golden set, 为每条 query 标注 gold docs、hard negatives、expected behavior、risk tier。然后分别评估 chunk recall、context precision、answer faithfulness、citation support、refusal、permission 和 version。这样最终答案错了时, 能定位是没检到、检错了、上下文混乱、模型幻觉、引用错配还是权限/版本问题。

第三是架构决策。普通 RAG 适合政策解释、KYC checklist、客服知识库这类答案主要来自文档片段的任务。GraphRAG 适合 AML、商户风险、复杂 KYC ownership 这类关系本身就是证据的任务。我会先用普通 RAG baseline 验证失败是否来自关系缺失, 再决定 graph-enhanced RAG 或 full GraphRAG。

上线时我不会只说一个准确率, 而会用 release gate: 权限泄漏为 0、critical unsupported claim 为 0、过期关键政策误引为 0、citation accuracy 达标、高风险样本专家复核通过。这样 PM 能决定 pilot 范围, BA 能维护业务样本, 架构师能设计可审计系统。

10.3 CTO 深挖

追问回答要点
为什么不直接用长上下文?长上下文适合单个案件包或少量文档, 但不能替代 source lifecycle、权限过滤、版本下线、引用锚点、检索评估和审计回放。企业知识库需要可运营的 retrieval layer。
如何定位 RAG 错误?记录 trace: query rewrite、permission filter、candidate chunks、rerank score、context packing、source version、prompt/model version、answer、citation。按 no retrieval、wrong retrieval、stale source、context conflict、unsupported claim、citation mismatch 分诊。
GraphRAG 最大技术风险是什么?entity resolution 错误、edge provenance 不完整、路径过度解释、社区摘要过期。控制方式是 edge-level source、confidence、refresh、path faithfulness eval 和专家复核。
权限怎么做才可靠?权限必须在检索前或检索中执行, 不能等生成后遮蔽。索引、query、cache、context、citation jump、logs 都要携带 entitlement。权限测试要用同一 query 多角色回放。
如何防止每次改 prompt 都回归?建 eval runner 和 release gate。模型、prompt、chunking、index、reranker、metadata 任一变更都跑 smoke set、regression set、risk set 和 permission/version tests。

10.4 PM 深挖

追问回答要点
如何决定先做哪个场景?看用户频率、知识源 readiness、风险等级、人工兜底、ROI 和 eval 可行性。通常先做低风险高频知识助手, 再扩展到 KYC、信贷、AML 等高风险流程。
指标达标但用户不采用怎么办?检查用户 workflow: 答案是否太长、引用是否可用、是否缺少下一步动作、是否需要对客话术、是否与审批系统割裂。eval 要加入 adoption feedback。
如何定义 pilot 范围?限定用户角色、知识域、问题类型和输出用途。高风险输出加人工复核, 不允许自动外发、自动拒绝或自动报送。
如何讲 ROI?用减少查找时间、降低返工、提升 first-contact resolution、减少错误引用、缩短 case handling time、提升 QA 覆盖率来量化。
GraphRAG 值得投入吗?只有当关系证据直接影响核心任务时才值得。能用 metadata filter 和普通 RAG 解决的问题, 先不上 full GraphRAG。

10.5 BA 深挖

追问回答要点
BA 在 RAG 项目中最关键的产出是什么?query set、gold docs、hard negatives、expected behavior、metadata definition、failure taxonomy 和验收规则。
如何写 RAG 需求?不写“回答准确”, 而写“必须基于当前有效政策, 每个金额阈值引用表格行, 缺少地区时追问, 无权资料不得检索, 过期政策不得引用”。
如何处理冲突资料?先定义 source-of-truth 和冲突优先级。答案应提示冲突和适用范围, 高风险场景升级人工。
如何做 hard negatives?选相似但错误的文档: 旧版政策、其他地区政策、相似产品政策、草稿、低可信 FAQ。hard negatives 能测试系统是否真的理解业务边界。
如何维护 golden set?按场景、风险、失败模式、版本变化和线上反馈持续更新。每个样本有 owner、review date、version 和 leakage control。

11. Source Anchors

SourceLink本手册使用方式
Retrieval-Augmented Generation for Knowledge-Intensive NLP Taskshttps://arxiv.org/abs/2005.11401RAG 的 retriever/generator、外部知识、knowledge-intensive task 基础
RAGAS: Automated Evaluation of Retrieval Augmented Generationhttps://arxiv.org/abs/2309.15217RAG 专用评估维度, 如 faithfulness、answer relevance、context precision、context recall
Microsoft GraphRAG Docshttps://microsoft.github.io/graphrag/图谱化索引、实体关系、社区摘要、全局/局部查询的工程启发
NIST AI RMF Generative AI Profilehttps://www.nist.gov/publications/artificial-intelligence-risk-management-framework-generative-artificial-intelligence将 eval、治理、风险、透明度和监控放入 GenAI 风险管理闭环

12. 一页总结

Retrieval / Eval / GraphRAG 能力的成熟标志, 不是会搭一个问答 demo, 而是能回答下面这些问题:

  • 正确知识源是谁拥有的, 哪个版本当前有效, 谁有权访问?
  • 对哪些 query, 哪些 gold docs 必须被召回?
  • chunk recall、context precision、faithfulness、citation support 分别是多少?
  • 无答案、权限、版本、冲突、hard negative 是否有测试?
  • LLM judge 评什么, deterministic checks 评什么, 专家评什么?
  • GraphRAG 是因为关系证据必要而引入, 还是为了技术包装而引入?
  • 失败能否定位到 source、chunk、retrieval、rerank、context、generation、citation、graph path 或权限层?
  • release gate 是否能支撑 pilot、production review 和高风险场景审计?

对 AI PM, 这是一套产品上线证据。 对 AI BA, 这是一套业务需求和验收资产。 对 AI Architect, 这是一套可治理、可观测、可审计的知识系统架构。

作品集最有说服力的不是“我用了哪个模型”, 而是“我能把企业知识从资料堆变成可信 AI 能力, 并证明它在什么边界内可以上线”。