AI 扩展计划 / Playbooks

AI Retrieval / Eval / GraphRAG Playbook

已有资料已经覆盖了三个基础层:

856 行AI_RETRIEVAL_EVAL_GRAPH_RAG_PLAYBOOK.md

Retrieval / Eval / GraphRAG 实战手册

面向对象: AI PM / AI BA / AI Architect / 金融零售业务架构师。核心目标: 不再把 RAG 当成“向量库 + 大模型问答”, 而是训练把企业知识系统做成可评估、可审计、可上线、可复盘、可转作品集的能力。

1. 定位: 这份手册补什么能力缺口

已有资料已经覆盖了三个基础层:

已有资料	已覆盖能力	本手册继续补强
`docs/ai-foundations/papers/02-retrieval-augmented-generation.md`	理解 RAG 原论文、retriever/generator、企业 RAG 架构、权限、版本、引用和失败类型	把 RAG 架构进一步变成可执行的 retrieval eval stack、发布门禁、失败分诊和作品集资产
`docs/ai-foundations/papers/08-llm-as-judge-evaluation.md`	理解 LLM-as-Judge、G-Eval、golden set、rubric、release gate 和 judge bias	把 judge 放进 RAG 专用评估链路, 明确哪些指标能支撑上线决策、哪些必须专家复核
`docs/AI_DATA_PRODUCT_MANAGEMENT_PLAYBOOK.md`	理解 AI data product、source-of-truth、contract、metadata、lineage、quality SLO、golden set、feedback loop	把知识库、chunk、实体、图谱、评测集和引用证据都当成数据产品运营

这份手册重点不重复 RAG 基础, 而是解决五个更高级的能力缺口:

能把“回答准确”拆成可测指标: query set、gold docs、chunk recall、context precision、answer faithfulness、citation support、permission/version tests。
能解释评估指标对业务上线的意义: 指标不是学术报表, 而是决定能否 pilot、能否扩大范围、能否进入高风险流程的证据。
能判断普通 RAG 与 GraphRAG 的边界: 什么时候需要实体关系、社区摘要、多跳路径, 什么时候普通 hybrid RAG 就足够。
能把金融零售场景做成可审计知识系统: AML investigation、KYC checklist、credit policy assistant、merchant risk review、retail product knowledge assistant。
能沉淀作品集: 不只展示 demo UI, 还展示 eval matrix、ADR、source readiness checklist、failure triage、release gate memo 和 interview story。

一句话:

企业 RAG 的核心竞争力不是“能回答”, 而是“能证明它基于正确来源、正确权限、正确版本、正确证据链回答, 且失败可定位、可修复、可复盘”。

2. 能力地图: 从 RAG Demo 到 Enterprise Knowledge System

层级	Demo 级做法	生产级做法	作品集表达
知识源	上传若干 PDF	source-of-truth、owner、版本、有效期、权限、文档生命周期	Knowledge Source Readiness Checklist
切分	固定长度 chunk	结构感知 chunk、父子层级、表格保真、引用锚点	chunking ADR + recall 对比
检索	top-k vector search	hybrid retrieval、metadata filter、rerank、query rewrite、permission filter	Retrieval Eval Matrix
生成	prompt 要求基于资料回答	claim-level groundedness、拒答、冲突提示、引用支持	answer faithfulness + citation support 报告
评估	人工试几个问题	golden set、retrieval metrics、LLM judge、expert review、release gate	Eval report + no-go / pilot memo
治理	文档更新后手动重建	ingestion SLA、版本下线、audit log、incident workflow	operating model + failure triage table
GraphRAG	看到图谱就加图谱	用实体关系、多跳和社区摘要解决特定问题	GraphRAG Decision ADR

成熟表达不是“我做了一个 RAG”, 而是:

我把某个业务知识域产品化成了一个可治理的 knowledge product, 设计了 retrieval eval stack, 用 golden set 验证检索、引用、权限和版本, 并用 ADR 判断是否需要 GraphRAG。

3. Retrieval Eval Stack

Retrieval eval stack 要把 RAG 失败拆成多个层级。否则最终答案错了, 团队只会争论“模型不行”还是“文档不行”, 无法定位真正瓶颈。

3.1 Query Set

Query set 是检索评估的入口, 不是随手写的问题列表。每条 query 都应代表一种业务任务、风险等级和评估意图。

Query 类型	目的	金融零售例子	设计要点
高频问题	验证核心用户价值	客服问“提前还款手续费怎么收”	来自真实工单、客服日志、运营 FAQ
边界问题	验证规则限制	“非居民企业开立账户需要哪些额外文件”	包含地区、客户类型、产品、日期
版本问题	验证新旧政策选择	“2026 年新商户风险评级规则如何适用”	同时放入旧版与新版干扰源
权限问题	验证访问隔离	分行员工问总部调查手册细节	同问多角色, 预期结果不同
无答案问题	验证拒答	问内部库没有覆盖的监管解释	不能用相似但不相关资料硬答
冲突问题	验证冲突处理	产品手册和合规批复口径不一致	应提示冲突、适用范围和人工确认
多跳问题	验证关系推理	商户、受益人、设备、交易模式之间的风险关系	适合评估 GraphRAG 或 graph-enhanced RAG

Query set 的最小字段:

字段	说明
query_id	唯一编号, 例如 `KYC-EDGE-014`
user_role	发问角色, 例如 analyst、branch staff、credit officer
business_scenario	场景说明, 例如 KYC remediation、merchant onboarding
risk_tier	low / medium / high / regulated
query_text	用户自然语言问题
expected_behavior	应回答、应拒答、应升级人工、应提示冲突
gold_doc_ids	支撑答案的权威文档
hard_negative_doc_ids	相似但不应引用的文档
permission_profile	该角色允许检索的来源范围
version_date	问题发生时应适用的政策日期
failure_tags	用于切片统计的标签, 如 stale_source、permission、multi_hop

PM 关注 query set 是否覆盖真实价值和上线风险。BA 关注样本是否表达业务语义和异常路径。架构师关注样本是否能驱动检索、权限、版本、引用和日志设计。

3.2 Gold Docs

Gold docs 是每条 query 应该召回的权威证据。没有 gold docs, retrieval recall 无法计算, citation support 也无法严肃验证。

Gold docs 不等于“参考答案所在文档名”。生产级 gold docs 至少要精确到 section、page、paragraph、table row 或 chunk。

Gold docs 层级	适用情况	示例
document-level	早期探索或文档很短	`KYC Policy v5.2`
section-level	政策、手册、SOP	`KYC Policy v5.2 / 3.4 Non-resident Entity`
paragraph-level	需要验证引用支撑	第 12 页第 3 段
table-row-level	费率表、文件清单、风险评级矩阵	`Merchant MCC Risk Table / row: money service business`
graph-node / edge-level	GraphRAG 或知识图谱	`merchant -> beneficial_owner -> high_risk_jurisdiction`

Gold docs 的维护原则:

每个 gold doc 必须来自 approved source, 不能引用草稿、过期文档或个人笔记。
每个 gold doc 要带版本、生效日期、失效日期和 owner。
每条 query 可以有多个 gold docs, 但要标明 primary evidence 与 supporting evidence。
hard negatives 与 gold docs 一样重要, 因为金融场景常见“相似但错误”的政策误引。

3.3 Chunk Recall

Chunk recall 衡量系统是否把正确证据片段召回到候选列表中。它回答的是:

正确证据有没有被找出来?

常见指标:

指标	解释	上线意义
recall@k	gold chunk 是否出现在 top-k 候选中	retriever 的底线能力。recall@10 低时, 生成模型再强也会猜
MRR	第一个正确 chunk 的排名倒数	正确资料越靠前, context packing 和回答稳定性越高
hit rate	是否至少命中一个 gold source	适合早期 smoke test
hard-negative avoidance	相似错误文档是否被排在 gold 前面	关系到政策误引、地区误引、版本误引

PM 解读:

高频低风险客服助手可以接受较高 top-k 后再由 reranker 和生成层筛选。
高风险合规、信贷、AML 场景不能只看“top-10 命中”, 更要看 gold 是否进入最终 context。

BA 解读:

如果某类 query recall 低, 往往不是模型问题, 而是同义词、业务术语、政策结构、metadata 或 gold 标注问题。
BA 应补充业务词表、别名、产品代码、地区映射、客户类型定义。

架构师解读:

recall 低时先比较 BM25、dense、hybrid、rerank、query rewrite 和 chunk 策略。
记录每次 query 的 candidate trace, 否则无法解释为什么没召回。

3.4 Context Precision

Context precision 衡量最终放进 prompt context 的内容有多少是真正相关、可用、当前有效、权限允许的证据。它回答的是:

模型看到的上下文是否干净?

常见问题:

top-k 召回了正确文档, 但 context 中混入大量相似错误资料。
新旧版本同时进入 context, 生成答案混合口径。
低可信来源排在前面, 权威政策被挤出 token budget。
用户无权访问的 chunk 在检索后才被过滤, 日志或缓存已经泄漏。

Context precision 的评估维度:

维度	判断问题	失败影响
relevance	chunk 是否直接回答 query	无关内容诱导模型
authority	来源是否权威	引用 FAQ 代替政策
freshness	是否当前有效	引用过期政策
permission	是否允许该用户看到	权限泄漏
diversity	是否覆盖必要多个方面	只检到定义, 漏掉例外
conflict control	是否识别冲突来源	混合新旧规则

上线决策:

context precision 低但 recall 高, 说明 retriever 初召回可用, 重点优化 rerank、metadata filter、context packing。
context precision 高但 recall 低, 说明系统很保守, 可能回答覆盖不足, 需要扩展 query rewrite、synonym、chunking。
高风险场景应把“无权 chunk 进入 context”定义为 critical failure, 阈值为 0。

3.5 Answer Faithfulness

Answer faithfulness 衡量回答中的断言是否由给定 context 支撑。它回答的是:

模型有没有基于证据说话?

Faithfulness 不等于 correctness。回答可能忠实于 context, 但 context 本身错了或过期。因此要与 retrieval 和 source readiness 联合看。

评估方法:

方法	适用	注意点
claim extraction + evidence check	高风险政策、合规、信贷解释	把回答拆成关键断言逐条验证
LLM judge groundedness	大规模回归初筛	judge 必须看到 query、context、answer 和 rubric
expert review	AML、信贷、合规边界	专家判断不可完全外包给模型
rule check	禁止语、必须拒答、格式、引用字段	deterministic check 应优先于 judge

上线决策:

如果 faithfulness 低, 不应扩大用户范围, 即使答案看起来流畅。
高风险场景中 unsupported critical claim 必须为 0。
如果 faithfulness 高但用户仍不满意, 可能是 query set、gold docs、context completeness 或 UX 问题。

3.6 Citation Support

Citation support 衡量引用是否真实支撑回答中的关键断言。它回答的是:

引用是证据, 还是装饰?

成熟系统不满足于答案末尾列几个链接, 而要做到 claim-level citation:

引用层级	成熟度	风险
answer-level links	低	链接存在但不一定支持具体断言
paragraph-level citations	中	可以定位段落依据, 但仍可能混合断言
claim-level citations	高	每个关键事实点绑定来源
evidence-span citations	很高	指向具体句子、表格行、规则字段或图谱边

Citation support 指标:

指标	解释	上线意义
citation coverage	关键断言中有引用的比例	低覆盖说明审计证据不足
citation accuracy	引用是否支持断言	高风险场景核心指标
citation freshness	引用来源是否当前有效	控制过期政策风险
citation permission correctness	用户是否有权打开引用	防止“答案不泄漏但引用泄漏”
citation granularity	是否能定位到 section/page/span	影响审计和用户信任

PM 解读:

对员工助手, 引用可以提升信任和采纳。
对受监管流程, 引用是上线证据和审计证据, 不是体验增强项。

BA 解读:

BA 应定义哪些断言必须引用: 金额阈值、资格条件、拒绝原因、合规要求、例外流程、客户沟通口径。

架构师解读:

citation 要从 ingestion 就开始设计: page、section、table row、chunk_id、source_version、permission_group 都要保留。

3.7 Permission / Version Tests

权限和版本测试是金融零售 RAG 的强制门禁。它们不是普通准确率指标, 而是风险控制。

测试类型	设计方式	通过标准
role-based same query	同一个问题用 analyst、branch staff、external vendor 三种角色测试	每个角色只能检索并引用有权资料
region-based policy	同一产品在不同地区问适用政策	不跨地区误引
effective-date test	query 指定业务日期, index 中放新旧版本	使用该日期有效版本
expired-source hard negative	将过期政策作为相似干扰源	不引用 expired source
draft-source exclusion	知识库中存在草稿	production query 不召回草稿
citation entitlement	用户点击引用时检查权限	答案引用与源文档访问一致
cache isolation	不同角色连续查询	低权限用户不读取高权限缓存结果
audit replay	回放历史 query	能复现当时使用的模型、prompt、source version

上线决策:

权限泄漏、草稿误用、过期关键政策误引都应定义为 critical failure。
任何 critical failure 未关闭前, 不进入生产或只允许隔离环境演示。
版本测试要纳入每次 ingestion、chunking、embedding、rerank、prompt 或模型变更后的回归。

4. RAGAS / Retrieval Metrics / LLM Judge 的 PM、BA、架构师解读

RAGAS 的关键价值是把 RAG 评估拆成多个可自动化或半自动化维度, 例如 faithfulness、answer relevance、context precision、context recall 等。它不是上线决策的全部, 但很适合作为评估框架的起点。

4.1 不要只堆指标: 指标要回答上线问题

上线问题	对应指标	决策含义
系统能否找到正确证据	recall@k、context recall、gold doc hit rate	找不到证据时, 不能靠 prompt 修复
模型看到的证据是否干净	context precision、hard-negative rate、version filter pass	决定是否需要 rerank、metadata filter、context packing 优化
回答是否基于证据	faithfulness、unsupported claim rate	决定能否进入 pilot 或高风险流程
引用是否可审计	citation coverage、citation accuracy、citation granularity	决定能否被合规、内审和运营信任
无答案时是否拒答	refusal accuracy、over-answer rate	决定是否会编造政策或误导用户
权限是否可靠	permission leakage rate、entitlement mismatch	决定是否允许接入真实内部资料
版本是否可靠	current-version accuracy、stale-source rate	决定是否能服务政策和监管场景
是否比上一版更好	slice regression、critical failure count	决定是否 release 或 rollback

4.2 PM 解读: 指标如何支撑产品决策

PM 不需要把每个公式背下来, 但必须能把指标翻译成上线策略:

指标结果	产品判断
高频 query recall@5 高, faithfulness 高, citation support 高	可进入受控 pilot, 收集真实反馈
recall 高但 faithfulness 低	用户价值存在, 但生成层不稳; 需要更强 prompt、claim verification 或低风险场景先试
context precision 低	用户会看到混乱答案; 优化前不扩大场景
citation accuracy 低	不适合合规、信贷、AML; 只能做探索型助手
permission tests 有失败	不接入真实敏感资料, 先修架构
version tests 有失败	不适合政策问答, 先修文档生命周期和 metadata

PM 的上线 memo 应避免写“准确率达到 85% 所以上线”。更好的表达是:

在 180 条 golden set 中, 高频客服场景 faithfulness 94%、citation accuracy 96%、无 critical permission/version failure; 但信贷拒绝原因场景 unsupported claim 仍有 3 条, 因此建议先上线客服知识助手 pilot, 信贷场景保留人工复核并继续修复。

4.3 BA 解读: 指标如何反推需求和样本

BA 的关键工作是让指标背后有业务语义。

指标问题	BA 要补的内容
recall 低	补业务术语、同义词、产品代码、政策层级、客户类型映射
hard negative 命中高	标注相似但错误的政策, 明确地区、版本、产品差异
refusal accuracy 低	定义哪些问题必须拒答、要求补充信息或升级人工
faithfulness 低	拆解回答中的关键断言, 明确哪些字段必须来自证据
citation support 低	定义必须引用的断言类型和可接受来源
version failure	明确政策生效、废止、过渡期和例外条款

BA 不只是写用户故事, 还要写 eval stories:

作为 KYC 审核员,
当我询问非居民企业开户缺少哪些材料时,
系统必须基于当前有效 KYC 政策和客户类型定义返回缺件清单,
每个缺件项必须引用政策章节,
如果客户地区或实体类型不明确, 系统必须要求补充信息而不是猜测。

4.4 架构师解读: 指标如何驱动系统设计

架构师要把指标映射到可观测性和改造点。

指标失败	可能原因	架构改造
recall@k 低	chunk 切分差、embedding 不适配、query rewrite 弱、BM25 缺失	比较 chunk 策略、hybrid retrieval、领域词表、rerank
context precision 低	相似文档混入、metadata 缺失、rerank 不稳	加强 metadata filter、source authority score、dedupe、context packing
faithfulness 低	prompt 不约束、上下文冲突、模型补全	grounded prompt、claim verifier、低置信拒答
citation accuracy 低	引用锚点丢失、后处理随意贴源	ingestion 保留 source span、claim-source alignment
permission failure	检索后过滤、缓存未隔离、index 混租	retrieval-time entitlement、tenant/role scoped index、cache key 带权限
stale source	文档生命周期缺失、index 未下线旧文档	source versioning、effective_date filter、re-index trigger

架构师的目标不是让所有指标一次达标, 而是让每个失败都有 trace、owner 和修复路径。

4.5 LLM Judge 的使用边界

LLM judge 适合:

判断回答是否覆盖关键点。
初筛 faithfulness、groundedness、tone、completeness。
对比两个 prompt、两个 retriever、两个 reranker。
给 failure tags 和 triage reason。

LLM judge 不适合作为唯一依据:

最终合规判断。
AML SAR/STR 是否提交。
信贷拒绝是否符合法规。
权限是否泄漏。
版本是否当前有效。
引用是否真实可打开。

推荐组合:

评估对象	首选方法
JSON 格式、禁用词、必须字段	deterministic checks
source version、permission、citation id	deterministic + access control replay
open-ended answer quality	LLM judge + sampled human review
高风险政策解释	LLM judge 初筛 + domain expert review
release decision	metrics + critical failure + risk sign-off + rollback plan

5. GraphRAG / Knowledge Graph RAG 决策

GraphRAG 不是“更高级的 RAG”默认替代品。它适合知识关系复杂、问题跨实体、跨文档、跨社区、跨路径时使用。普通 RAG 能解决的问题, 不要为了图谱而图谱。

5.1 普通 RAG 足够的情况

普通 hybrid RAG 通常足够:

情况	例子	原因
答案主要来自单一政策段落	“信用卡提前还款手续费怎么收”	top-k + citation 足够
文档结构清晰、章节边界明确	KYC 文件清单、产品 FAQ	结构感知 chunk 可解决
用户问题以查找和解释为主	“这个表格字段是什么意思”	不需要关系推理
关系可以通过 metadata filter 表达	region、product、customer_segment	不必建图
业务更新频繁但关系稳定性低	临时促销政策	图谱维护成本可能大于收益
项目处于早期探索	20-50 条 query smoke test	先用普通 RAG 建 baseline

判断原则:

如果答案的关键证据能通过 1-3 个权威 chunk 找到, 且关系不影响结论, 先用普通 RAG。

5.2 需要实体关系的情况

需要 entity relationship 的信号:

信号	说明	金融零售例子
同一实体跨多源出现	客户、商户、账户、设备、受益人分散在不同系统	AML investigation 需要统一主体视图
关系本身是证据	beneficial owner、shared device、common address、transaction counterparty	商户风险审查
多跳关系影响判断	A 与 B 无直接交易, 但共享控制人和设备	AML network typology
名称歧义严重	同名客户、商户别名、集团子公司	KYC / merchant onboarding
需要解释“为什么相关”	不是找文档, 而是解释风险路径	case narrative 和风险图

GraphRAG 在这些场景中的价值:

entity resolution: 识别同一客户、商户、设备或受益人。
relationship retrieval: 根据关系路径找到证据。
path explanation: 把多跳路径转成可审计解释。
risk context expansion: 从一个告警扩展到相关实体和历史模式。

5.3 需要社区摘要的情况

Microsoft GraphRAG 的核心启发之一是将文本转成实体和关系, 构建图谱, 再通过社区检测和摘要支持全局性、跨文档问题。社区摘要适合回答“一个知识域整体上有哪些主题、风险、模式、群组”。

适合 community summaries:

场景	问题	为什么普通 RAG 不够
AML typology landscape	“过去一年高风险商户网络有哪些共同模式”	单个 chunk 无法代表网络社区
投诉主题归因	“零售贷款客户投诉主要集中在哪些流程和政策冲突”	需要跨工单聚类和主题摘要
产品知识域梳理	“某产品线常见政策例外有哪些”	需要跨文档、跨 FAQ、跨案例汇总
商户生态风险	“哪些商户群组共享设备、地址或结算路径”	关系社区本身是答案

社区摘要的治理要求:

摘要要记录生成时间、输入来源范围、社区算法版本和摘要模型版本。
社区摘要不能覆盖底层证据; 高风险结论必须能 drill down 到节点、边和文档。
社区摘要需要定期刷新, 否则会变成新的过期知识源。

5.4 需要多跳路径的情况

Multi-hop path 是 GraphRAG 的高价值区域。典型问题不是“找一段政策”, 而是:

这个商户为什么被标为高风险?
因为它与三个被关停商户共享设备指纹,
其受益人与高风险行业实体存在历史关联,
并且近 30 天交易模式与某 AML typology 的路径相似。

多跳路径适合:

AML investigation: customer -> account -> counterparty -> jurisdiction -> typology。
Merchant risk review: merchant -> owner -> device -> linked merchant -> chargeback pattern。
Credit policy assistant: borrower -> employer -> income type -> policy exception -> required document。
KYC checklist: entity type -> ownership structure -> jurisdiction -> required document -> enhanced due diligence。

多跳路径的风险:

路径越长, 误连和误解风险越高。
图谱边的来源、置信度和更新时间必须可见。
不能把“路径存在”直接等同于“风险成立”。
高风险结论要保留人工判断, GraphRAG 输出应是 evidence map 和 rationale draft。

5.5 GraphRAG 决策矩阵

决策问题	普通 RAG	Graph-enhanced RAG	Full GraphRAG
主要任务	文档问答、政策解释	文档问答 + 实体/关系过滤	全局主题、社区摘要、多跳推理
知识结构	文档章节清晰	文档和结构化实体并存	关系网络是主要知识
典型证据	chunk、section、table row	chunk + entity + relationship	community summary + path + source evidence
成本	低到中	中	高
数据治理要求	文档 metadata	entity resolution、edge provenance	图谱生命周期、社区摘要版本、路径审计
最适合场景	KYC policy、客服知识库、产品 FAQ	merchant review、credit exception、case evidence	AML network、风险主题分析、跨域知识地图
上线前提	retrieval eval 达标	文档 eval + entity/edge eval	图谱质量 eval + path faithfulness + expert review

推荐路径:

先做普通 RAG baseline, 建立 query set、gold docs、retrieval metrics 和 answer eval。
识别普通 RAG 失败中是否存在“关系缺失”而不是“检索差”。
如果失败主要来自实体歧义、多跳关系、跨文档主题, 再引入 graph-enhanced RAG。
只有当业务问题需要全局社区摘要和路径解释时, 才建设 full GraphRAG。

6. 金融零售场景 Playbook

6.1 AML Investigation

维度	设计
用户	AML investigator、case QA、financial crime analyst
核心任务	从告警、交易、KYC、历史案例、typology 中生成 investigation brief 和 evidence map
知识源	AML typology、监管通报、调查 SOP、历史 SAR/STR 样例、case notes、交易摘要、客户/账户/对手方关系
Retrieval eval	typology recall、case evidence recall、counterparty evidence recall、stale typology avoidance
Answer eval	不下最终 SAR 结论、证据覆盖、缺失证据提示、引用支持、风险语言合规
GraphRAG 价值	customer-account-counterparty-jurisdiction-typology 多跳路径; 共享地址/设备/受益人网络; 风险社区摘要
Release gate	permission leakage = 0; final-decision automation = 0; critical unsupported claim = 0; 高风险样本专家通过
作品集 artifact	AML Retrieval Eval Matrix + GraphRAG ADR + failure triage report + case narrative eval rubric

关键设计:

AI 输出应是 investigation assistance, 不是监管报送决策。
每个风险描述必须引用交易证据、typology 或 case source。
如果缺少 KYC、对手方或资金来源信息, 应显式列为 missing evidence。
图谱路径必须显示边的来源和时间, 不允许把弱关联写成确定事实。

6.2 KYC Checklist

维度	设计
用户	KYC analyst、branch onboarding staff、relationship manager
核心任务	根据客户类型、地区、产品、风险等级生成所需文件、缺件清单和例外升级路径
知识源	KYC policy、客户类型定义、文件清单、EDD 规则、地区监管要求、例外审批 SOP
Retrieval eval	policy section recall、document checklist recall、hard negative by region/customer type
Answer eval	文件要求正确、适用范围清晰、缺少信息时追问、不要求无授权资料
GraphRAG 价值	entity type -> ownership structure -> jurisdiction -> required documents 的路径可解释
普通 RAG 是否足够	多数 checklist 问答普通 hybrid RAG 足够; 复杂 ownership 和跨地区结构可加 graph
Release gate	required document accuracy 高阈值; stale policy = 0; unauthorized data request = 0
作品集 artifact	KYC Knowledge Source Readiness Checklist + golden set + refusal tests

关键设计:

query set 必须覆盖 individual、sole proprietor、corporate、trust、non-resident、high-risk country。
gold docs 要精确到文件清单表格行和 EDD 条款。
答案应区分“必须提交”“条件触发”“建议人工确认”。

6.3 Credit Policy Assistant

维度	设计
用户	credit officer、loan product PM、underwriting QA、branch manager
核心任务	解释贷款准入、收入证明、例外审批、拒绝原因草稿和补件建议
知识源	credit policy、underwriting SOP、income verification rules、product terms、fair lending guidance、adverse action templates
Retrieval eval	policy recall、exception rule recall、template recall、protected-class hard negative
Answer eval	policy-grounded、无歧视性因素、不得暴露评分模型敏感逻辑、引用准确
GraphRAG 价值	borrower attributes -> policy rule -> exception path -> required evidence; 通常 graph-enhanced RAG 即可
Release gate	fair lending critical failure = 0; unsupported rejection reason = 0; human review trigger 正确
作品集 artifact	Credit Release Gate Memo + citation support report + PM/BA eval stories

关键设计:

AI 不能自动做授信裁决, 只能解释政策和起草人工复核材料。
adverse action 相关输出必须走更严格 rubric 和专家复核。
如果资料来自模型评分而非政策条款, 输出要清楚区分“政策依据”和“模型信号”。

6.4 Merchant Risk Review

维度	设计
用户	acquiring risk analyst、merchant onboarding PM、fraud operations
核心任务	审查商户行业、MCC、实控人、设备、地址、交易模式、拒付/欺诈风险
知识源	merchant application、MCC risk policy、beneficial owner records、device fingerprint、chargeback records、fraud typology、terminated merchant file
Retrieval eval	MCC policy recall、risk rule recall、linked merchant evidence recall
Answer eval	风险因素有证据、不得把关联直接写成定罪、明确缺失资料和复核建议
GraphRAG 价值	merchant-owner-device-address-linked merchant 多跳关系非常强
Release gate	linked-entity path citation 通过; permission leakage = 0; high-risk recommendation requires human review
作品集 artifact	Merchant GraphRAG Decision ADR + entity/edge readiness checklist + path faithfulness eval

关键设计:

Merchant risk 是 GraphRAG 的强候选, 因为关系本身经常是核心证据。
图谱边要有 provenance: 哪个系统、哪个字段、什么时间、置信度多少。
输出要区分 direct evidence、indirect link、risk indicator、required review action。

6.5 Retail Product Knowledge Assistant

维度	设计
用户	customer service agent、branch staff、product operations、training team
核心任务	回答产品政策、费率、促销、资格、操作流程、异常处理话术
知识源	product manual、FAQ、fee table、campaign terms、SOP、approved customer-facing script
Retrieval eval	product policy recall、fee table row recall、campaign version test
Answer eval	对客口径准确、语气合规、引用内部资料但输出适合客户、过期促销不误用
GraphRAG 价值	大多数情况普通 RAG 足够; 若要做产品知识地图和跨产品比较, 可用轻量 graph
Release gate	fee/campaign citation accuracy 高阈值; stale campaign = 0; unauthorized commitment = 0
作品集 artifact	Product Knowledge Retrieval Eval Matrix + answer rubric + pilot scope memo

关键设计:

内部依据与对客话术要分层, 不能把内部操作细节直接对客输出。
促销和费率表要 table-row citation, 不能只引用整个 PDF。
适合先做低风险 pilot, 快速积累 feedback loop 和 retrieval failure taxonomy。

7. 30 天 Lab: Retrieval / Eval / GraphRAG 作品集训练

Lab 目标: 用 30 天做出一套可展示的“金融零售知识助手评估与 GraphRAG 决策包”。建议选择一个主场景, 如 KYC checklist、merchant risk review 或 retail product knowledge assistant。

Day	任务	Artifact
1	选择一个金融零售 use case, 写清用户、流程、风险等级、AI 边界	1 页 Use Case Brief
2	列出 source-of-truth、辅助来源、禁止来源、owner 和更新频率	Knowledge Source Inventory
3	为每个来源补 metadata: doc_type、region、product、effective_date、permission_group、owner	Source Metadata Sheet
4	用 readiness checklist 评估知识源, 标出 production blocker	Knowledge Source Readiness Checklist v1
5	设计 30 条 query set, 覆盖高频、边界、无答案、权限、版本、冲突	Query Set v1
6	为每条 query 标注 gold docs、hard negatives、expected behavior	Golden Set Register v1
7	设计 chunk strategy: fixed、section-aware、parent-child 至少比较两种	Chunking Decision Note
8	选 10 条 query 做手工 retrieval baseline, 记录召回和失败原因	Manual Retrieval Baseline
9	定义 retrieval metrics: recall@5、recall@10、MRR、hard-negative rate	Retrieval Metrics Spec
10	设计 context precision rubric: relevance、authority、freshness、permission、conflict	Context Precision Rubric
11	设计 answer faithfulness rubric, 把回答拆成 claim 并检查证据	Faithfulness Rubric
12	设计 citation support 标准: coverage、accuracy、granularity、freshness、permission	Citation Support Spec
13	设计 permission tests: 同问不同角色、引用跳转、缓存隔离	Permission Test Pack
14	设计 version tests: 新旧政策、过期文档、草稿排除、指定业务日期	Version Test Pack
15	完成 Retrieval Eval Matrix 模板并填入前 15 条样本	Retrieval Eval Matrix v1
16	用 LLM judge 设计结构化评估 prompt, 输出 score、failure_tags、critical_failure	Judge Prompt + JSON Schema
17	设计 human review sampling: 哪些样本必须专家复核, 哪些抽检	Human Review Plan
18	建立 failure taxonomy: no retrieval、wrong retrieval、stale source、permission leak、citation mismatch	Failure Taxonomy
19	对 10 个失败样本做 triage, 归因到 source、chunk、retrieval、rerank、generation、citation	Failure Triage Table v1
20	写 release gate: smoke、retrieval、grounding、citation、permission、version、risk sign-off	Release Gate Spec
21	判断是否需要 GraphRAG: 列出实体、关系、多跳问题和普通 RAG 失败证据	GraphRAG Need Assessment
22	如果需要 graph, 定义 entity types、edge types、provenance、confidence、refresh	Entity / Edge Model v1
23	写 GraphRAG Decision ADR, 明确普通 RAG、graph-enhanced RAG、full GraphRAG 取舍	GraphRAG Decision ADR
24	为 GraphRAG 设计 path faithfulness eval: 路径是否存在、边是否有来源、结论是否过度推断	Path Faithfulness Rubric
25	设计 community summary 的使用边界和刷新机制	Community Summary Governance Note
26	写 pilot scope: 哪些用户、哪些问题、哪些输出必须人工复核	Pilot Scope Memo
27	写 monitoring dashboard 指标: no-result、citation accuracy、permission failure、feedback、cost、latency	Monitoring Metric Pack
28	写 incident workflow: 权限泄漏、过期政策误引、unsupported claim、引用错配	Knowledge AI Incident Playbook
29	整理作品集 case study: problem、architecture、eval、release gate、risk controls、ROI	Portfolio Case Study v1
30	准备面试故事: 30 秒、2 分钟、CTO 深挖、PM 深挖、BA 深挖	Interview Story Pack

30 天验收标准:

有一个完整 query set, 不是零散问题。
每条样本至少包含 gold docs、expected behavior、risk tier 和 failure tags。
能解释普通 RAG 为什么够用, 或 GraphRAG 为什么必要。
有 release gate, 且 critical failure 明确为阻断项。
有作品集材料, 能展示 PM、BA、架构师三种视角。

8. 模板

8.1 Retrieval Eval Matrix

使用方式: 每一行是一条 query 的评估结果。初期可手工填, 后续可由 eval runner 自动生成。

字段	填写说明	示例
eval_id	评估运行编号	`KYC-EVAL-2026-06-29-01`
query_id	query set 中的唯一编号	`KYC-EDGE-014`
user_role	权限角色	`branch_staff`
query_text	用户问题	`非居民企业开户还缺哪些文件?`
expected_behavior	期望行为	`询问实体类型和地区, 并引用当前 KYC policy`
gold_doc_ids	权威来源	`KYC-POLICY-v5.2-s3.4; DOC-MATRIX-v5.2-row-17`
hard_negative_doc_ids	相似但错误来源	`KYC-POLICY-v4.9-s3.4; DRAFT-KYC-2026`
retrieved_top_5	top-5 chunk ids	`chunk_883, chunk_221, chunk_905, chunk_107, chunk_114`
chunk_recall_at_5	gold chunk 是否命中	`1`
mrr	第一个 gold chunk 排名倒数	`0.5`
context_precision_score	1-5 或百分比	`4/5`
stale_source_flag	是否引用过期来源	`false`
permission_pass	权限是否通过	`true`
answer_faithfulness	回答是否由 context 支撑	`pass`
citation_coverage	关键断言引用覆盖率	`100%`
citation_accuracy	引用是否支持断言	`95%`
refusal_correct	无答案/缺信息时是否正确拒答或追问	`true`
critical_failure	是否有阻断发布的问题	`false`
failure_tags	失败标签	`missing_region_clarification`
owner	修复 owner	`KYC BA`
fix_action	明确修复动作	`补充地区澄清 prompt; golden set 加 5 条地区边界样本`

评分建议:

Release band	建议
critical failure > 0	不发布, 先修权限、版本、关键断言或安全问题
retrieval recall 高但 citation 低	可继续内部测试, 不进入审计要求高的流程
retrieval、faithfulness、citation 均稳定且无 critical failure	可进入受控 pilot
指标稳定且 production feedback 闭环有效	扩大用户范围或场景范围

8.2 GraphRAG Decision ADR

# ADR: [场景名] 是否采用 GraphRAG

## Status
Accepted for pilot / Deferred / Rejected for current scope

## Context
- 业务场景: merchant risk review
- 用户: acquiring risk analyst
- 当前 RAG baseline: 普通 hybrid RAG 在政策解释上表现稳定, 但在 linked merchant 和 shared device 风险解释上失败较多
- 关键失败证据: 30 条 query 中 8 条需要跨商户、设备、实控人关系; 普通 RAG 只能找到单个文档, 无法解释路径

## Decision
采用 graph-enhanced RAG, 暂不采用 full GraphRAG。

## Rationale
- 需要实体关系: merchant、beneficial_owner、device、address、chargeback_case
- 需要多跳路径: merchant -> device -> linked merchant -> terminated merchant file
- 不需要全局社区摘要作为第一阶段能力, 因为 pilot 用户主要审单, 不是做全域风险研究
- 图谱边可以从现有 onboarding、device fingerprint、case management 中获得 provenance

## Alternatives Considered
| 方案 | 优点 | 风险 | 结论 |
|---|---|---|---|
| 普通 hybrid RAG | 成本低, 上线快 | 无法解释 linked entity path | 不足以覆盖核心风险问题 |
| graph-enhanced RAG | 能保留文档问答并加入关系证据 | 需要 entity resolution 和 edge provenance | 采用 |
| full GraphRAG | 支持社区摘要和全局主题 | 构建和治理成本高 | 留到第二阶段 |

## Scope
- 纳入实体: merchant、owner、device、address、case、MCC
- 纳入关系: owns、shares_device、shares_address、has_chargeback_case、matches_typology
- 不纳入范围: 自动拒绝商户、自动关闭 case、客户外部沟通

## Evaluation
- path existence accuracy >= 95%
- edge provenance coverage = 100%
- path faithfulness critical failure = 0
- permission leakage = 0
- risk explanation unsupported claim = 0

## Consequences
- 需要建立 entity/edge data contract
- 需要维护 graph refresh job 和边来源审计
- 需要新增 path-level eval 和专家复核
- 需要 UI 展示路径证据和底层来源

8.3 Knowledge Source Readiness Checklist

评分建议: 1 = 不可用于 pilot, 3 = 可用于受控 pilot, 5 = 可进入生产评审。

维度	评分问题	1 分表现	3 分表现	5 分表现
Source-of-truth	是否权威	来源不明或个人维护	owner 已确认	权威系统/库, 冲突处理明确
Approval status	是否可用于生产	草稿混入	人工标记 approved	生命周期机器可读, draft 自动排除
Versioning	是否有版本和有效期	无版本	有版本但不完整	version、effective_date、expiry_date 完整
Metadata	是否支持检索过滤	只有文件名	有基础标签	product、region、customer_type、permission、owner 完整
Chunkability	是否适合切分	扫描件/OCR 差/表格丢失	可解析正文	标题、页码、表格、段落结构保留
Citation anchor	是否可精确引用	只能引用文件	可引用章节	可引用 page、section、paragraph、table row
Permission	是否可执行权限	只靠文件夹权限	文档级权限	chunk/field/role 权限可机器执行
Freshness	是否可更新	手动上传且无通知	定期同步	source change 触发 re-index 和回归
Ownership	是否有人负责	无 owner	有业务 owner	business/data/risk/technical owner 明确
Auditability	是否可审计	无 lineage	能追文档来源	能追 source -> chunk -> context -> answer -> citation
Eval readiness	是否可做 gold docs	无法定位证据	可人工标注 gold section	可系统化生成/维护 gold docs 和 hard negatives
Risk controls	是否覆盖 PII/retention	未分类	高风险来源人工限制	PII、consent、retention、purpose limitation 可执行

Readiness gate:

总分	结论
12-28	不进入 RAG pilot, 先做知识治理
29-42	可做低风险 prototype, 禁止真实高风险用户依赖
43-54	可做受控 pilot, 必须人工复核和监控
55-60	可进入 production review, 仍需 release gate 和定期复核

8.4 Failure Triage Table

使用方式: 每个失败样本都要定位到链路环节, 否则无法形成可执行 backlog。

Failure type	典型表现	判断方法	责任 owner	修复动作
no retrieval	gold docs 未进入 top-k	查看 recall@k、query trace	Architect + BA	改 chunk、query rewrite、synonym、hybrid search
wrong retrieval	相似错误文档排在前面	hard-negative 命中	Architect + BA	增强 metadata filter、rerank、source authority
stale source	引用旧政策	source version check	Data owner	修 version metadata、expiry filter、re-index
draft source	草稿进入答案	approval_status check	Data owner + Risk	draft 排除、source lifecycle gate
permission leak	用户看到无权内容	entitlement replay	Architect + Security	检索前权限、索引隔离、cache 隔离
context conflict	上下文含冲突来源	context review	BA + PM	冲突检测、适用范围澄清、人工升级
unsupported claim	回答含证据未支持断言	claim-level faithfulness check	Prompt owner + PM	修改 prompt、加 verifier、降低自动化范围
citation mismatch	引用不支持断言	citation support check	Architect + BA	保留 source span、claim-source 对齐
over-answer	无答案仍编答案	refusal test	PM + Prompt owner	拒答策略、缺信息追问、confidence gate
graph path overclaim	有弱关系却写成确定风险	path faithfulness review	Graph owner + Risk	边置信度、路径措辞、专家复核
judge bias	judge 偏好长答案或顺序	A/B order swap、human calibration	Eval owner	调整 rubric、多 judge、抽样专家复核

Failure severity:

Severity	定义	发布动作
Critical	可能造成权限泄漏、监管误导、错误拒绝/承诺、关键政策误引	阻断发布
Major	影响核心用户任务, 但有人工作为兜底	修复后再扩大范围
Minor	影响表达、格式或低风险细节	可进入 backlog, 不阻断低风险 pilot

9. Release Gate 设计

Retrieval/Eval/GraphRAG 项目应把上线门禁写清楚。门禁不是“平均分达标”, 而是分层证据。

Gate	指标	建议阈值示例	阻断条件
Source readiness	readiness score	pilot >= 43/60	权威来源不清、无权限模型
Retrieval	recall@5、MRR、hard-negative rate	核心 query recall@5 >= 90%	gold docs 大量找不到
Context	context precision	高风险样本 >= 4/5	无权、过期、草稿进入 context
Faithfulness	unsupported claim rate	critical unsupported claim = 0	编造政策、编造证据
Citation	coverage、accuracy、freshness	高风险 citation accuracy >= 95%	引用不支持关键断言
Refusal	refusal accuracy	无答案/缺信息正确处理 >= 90%	无资料仍给确定答案
Permission	leakage rate	0	任一权限泄漏
Version	stale-source rate	critical stale source = 0	引用过期核心政策
Graph path	path faithfulness	high-risk path overclaim = 0	弱关系写成确定结论
Human review	专家复核	高风险样本通过	专家否决
Ops	monitoring、rollback、incident	已配置	无法追踪和回滚

发布建议:

Prototype: 可使用公开或脱敏资料, 允许指标不完整, 但必须标明不可用于真实决策。
Controlled pilot: 必须有 query set、gold docs、retrieval eval、citation check、权限/版本测试和人工复核。
Production review: 必须有 release gate、monitoring、incident workflow、owner model、audit replay。
High-risk workflow: AML、信贷、KYC、商户风险等必须保留 human-in-the-loop 和专家抽检。

10. 面试表达

10.1 30 秒版本

我不会把企业 RAG 只理解成向量检索。我的做法是先把知识源产品化, 明确 source-of-truth、版本、权限和引用锚点; 然后建立 retrieval eval stack, 用 query set、gold docs、chunk recall、context precision、faithfulness、citation support、权限和版本测试来做发布门禁。如果问题涉及实体关系、多跳路径或全局主题, 我会用 ADR 判断是否需要 GraphRAG, 而不是默认上图谱。

10.2 2 分钟版本

在企业知识助手里, 最危险的问题不是模型不会说话, 而是它基于错误资料、错误权限或错误版本说得很流畅。我会从三个层面设计。

第一是知识源治理。把政策、SOP、FAQ、案例、表格都当成 AI data product, 明确 owner、source-of-truth、metadata、effective date、permission group、citation anchor 和更新机制。

第二是 retrieval eval。每个场景建立 query set 和 golden set, 为每条 query 标注 gold docs、hard negatives、expected behavior、risk tier。然后分别评估 chunk recall、context precision、answer faithfulness、citation support、refusal、permission 和 version。这样最终答案错了时, 能定位是没检到、检错了、上下文混乱、模型幻觉、引用错配还是权限/版本问题。

第三是架构决策。普通 RAG 适合政策解释、KYC checklist、客服知识库这类答案主要来自文档片段的任务。GraphRAG 适合 AML、商户风险、复杂 KYC ownership 这类关系本身就是证据的任务。我会先用普通 RAG baseline 验证失败是否来自关系缺失, 再决定 graph-enhanced RAG 或 full GraphRAG。

上线时我不会只说一个准确率, 而会用 release gate: 权限泄漏为 0、critical unsupported claim 为 0、过期关键政策误引为 0、citation accuracy 达标、高风险样本专家复核通过。这样 PM 能决定 pilot 范围, BA 能维护业务样本, 架构师能设计可审计系统。

10.3 CTO 深挖

追问	回答要点
为什么不直接用长上下文?	长上下文适合单个案件包或少量文档, 但不能替代 source lifecycle、权限过滤、版本下线、引用锚点、检索评估和审计回放。企业知识库需要可运营的 retrieval layer。
如何定位 RAG 错误?	记录 trace: query rewrite、permission filter、candidate chunks、rerank score、context packing、source version、prompt/model version、answer、citation。按 no retrieval、wrong retrieval、stale source、context conflict、unsupported claim、citation mismatch 分诊。
GraphRAG 最大技术风险是什么?	entity resolution 错误、edge provenance 不完整、路径过度解释、社区摘要过期。控制方式是 edge-level source、confidence、refresh、path faithfulness eval 和专家复核。
权限怎么做才可靠?	权限必须在检索前或检索中执行, 不能等生成后遮蔽。索引、query、cache、context、citation jump、logs 都要携带 entitlement。权限测试要用同一 query 多角色回放。
如何防止每次改 prompt 都回归?	建 eval runner 和 release gate。模型、prompt、chunking、index、reranker、metadata 任一变更都跑 smoke set、regression set、risk set 和 permission/version tests。

10.4 PM 深挖

追问	回答要点
如何决定先做哪个场景?	看用户频率、知识源 readiness、风险等级、人工兜底、ROI 和 eval 可行性。通常先做低风险高频知识助手, 再扩展到 KYC、信贷、AML 等高风险流程。
指标达标但用户不采用怎么办?	检查用户 workflow: 答案是否太长、引用是否可用、是否缺少下一步动作、是否需要对客话术、是否与审批系统割裂。eval 要加入 adoption feedback。
如何定义 pilot 范围?	限定用户角色、知识域、问题类型和输出用途。高风险输出加人工复核, 不允许自动外发、自动拒绝或自动报送。
如何讲 ROI?	用减少查找时间、降低返工、提升 first-contact resolution、减少错误引用、缩短 case handling time、提升 QA 覆盖率来量化。
GraphRAG 值得投入吗?	只有当关系证据直接影响核心任务时才值得。能用 metadata filter 和普通 RAG 解决的问题, 先不上 full GraphRAG。

10.5 BA 深挖

追问	回答要点
BA 在 RAG 项目中最关键的产出是什么?	query set、gold docs、hard negatives、expected behavior、metadata definition、failure taxonomy 和验收规则。
如何写 RAG 需求?	不写“回答准确”, 而写“必须基于当前有效政策, 每个金额阈值引用表格行, 缺少地区时追问, 无权资料不得检索, 过期政策不得引用”。
如何处理冲突资料?	先定义 source-of-truth 和冲突优先级。答案应提示冲突和适用范围, 高风险场景升级人工。
如何做 hard negatives?	选相似但错误的文档: 旧版政策、其他地区政策、相似产品政策、草稿、低可信 FAQ。hard negatives 能测试系统是否真的理解业务边界。
如何维护 golden set?	按场景、风险、失败模式、版本变化和线上反馈持续更新。每个样本有 owner、review date、version 和 leakage control。

11. Source Anchors

Source	Link	本手册使用方式
Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks	https://arxiv.org/abs/2005.11401	RAG 的 retriever/generator、外部知识、knowledge-intensive task 基础
RAGAS: Automated Evaluation of Retrieval Augmented Generation	https://arxiv.org/abs/2309.15217	RAG 专用评估维度, 如 faithfulness、answer relevance、context precision、context recall
Microsoft GraphRAG Docs	https://microsoft.github.io/graphrag/	图谱化索引、实体关系、社区摘要、全局/局部查询的工程启发
NIST AI RMF Generative AI Profile	https://www.nist.gov/publications/artificial-intelligence-risk-management-framework-generative-artificial-intelligence	将 eval、治理、风险、透明度和监控放入 GenAI 风险管理闭环

12. 一页总结

Retrieval / Eval / GraphRAG 能力的成熟标志, 不是会搭一个问答 demo, 而是能回答下面这些问题:

正确知识源是谁拥有的, 哪个版本当前有效, 谁有权访问?
对哪些 query, 哪些 gold docs 必须被召回?
chunk recall、context precision、faithfulness、citation support 分别是多少?
无答案、权限、版本、冲突、hard negative 是否有测试?
LLM judge 评什么, deterministic checks 评什么, 专家评什么?
GraphRAG 是因为关系证据必要而引入, 还是为了技术包装而引入?
失败能否定位到 source、chunk、retrieval、rerank、context、generation、citation、graph path 或权限层?
release gate 是否能支撑 pilot、production review 和高风险场景审计?

对 AI PM, 这是一套产品上线证据。对 AI BA, 这是一套业务需求和验收资产。对 AI Architect, 这是一套可治理、可观测、可审计的知识系统架构。

作品集最有说服力的不是“我用了哪个模型”, 而是“我能把企业知识从资料堆变成可信 AI 能力, 并证明它在什么边界内可以上线”。