AI Retrieval / Eval / GraphRAG Playbook
已有资料已经覆盖了三个基础层:
Retrieval / Eval / GraphRAG 实战手册
面向对象: AI PM / AI BA / AI Architect / 金融零售业务架构师。 核心目标: 不再把 RAG 当成“向量库 + 大模型问答”, 而是训练把企业知识系统做成可评估、可审计、可上线、可复盘、可转作品集的能力。
1. 定位: 这份手册补什么能力缺口
已有资料已经覆盖了三个基础层:
| 已有资料 | 已覆盖能力 | 本手册继续补强 |
|---|---|---|
docs/ai-foundations/papers/02-retrieval-augmented-generation.md | 理解 RAG 原论文、retriever/generator、企业 RAG 架构、权限、版本、引用和失败类型 | 把 RAG 架构进一步变成可执行的 retrieval eval stack、发布门禁、失败分诊和作品集资产 |
docs/ai-foundations/papers/08-llm-as-judge-evaluation.md | 理解 LLM-as-Judge、G-Eval、golden set、rubric、release gate 和 judge bias | 把 judge 放进 RAG 专用评估链路, 明确哪些指标能支撑上线决策、哪些必须专家复核 |
docs/AI_DATA_PRODUCT_MANAGEMENT_PLAYBOOK.md | 理解 AI data product、source-of-truth、contract、metadata、lineage、quality SLO、golden set、feedback loop | 把知识库、chunk、实体、图谱、评测集和引用证据都当成数据产品运营 |
这份手册重点不重复 RAG 基础, 而是解决五个更高级的能力缺口:
- 能把“回答准确”拆成可测指标: query set、gold docs、chunk recall、context precision、answer faithfulness、citation support、permission/version tests。
- 能解释评估指标对业务上线的意义: 指标不是学术报表, 而是决定能否 pilot、能否扩大范围、能否进入高风险流程的证据。
- 能判断普通 RAG 与 GraphRAG 的边界: 什么时候需要实体关系、社区摘要、多跳路径, 什么时候普通 hybrid RAG 就足够。
- 能把金融零售场景做成可审计知识系统: AML investigation、KYC checklist、credit policy assistant、merchant risk review、retail product knowledge assistant。
- 能沉淀作品集: 不只展示 demo UI, 还展示 eval matrix、ADR、source readiness checklist、failure triage、release gate memo 和 interview story。
一句话:
企业 RAG 的核心竞争力不是“能回答”, 而是“能证明它基于正确来源、正确权限、正确版本、正确证据链回答, 且失败可定位、可修复、可复盘”。
2. 能力地图: 从 RAG Demo 到 Enterprise Knowledge System
| 层级 | Demo 级做法 | 生产级做法 | 作品集表达 |
|---|---|---|---|
| 知识源 | 上传若干 PDF | source-of-truth、owner、版本、有效期、权限、文档生命周期 | Knowledge Source Readiness Checklist |
| 切分 | 固定长度 chunk | 结构感知 chunk、父子层级、表格保真、引用锚点 | chunking ADR + recall 对比 |
| 检索 | top-k vector search | hybrid retrieval、metadata filter、rerank、query rewrite、permission filter | Retrieval Eval Matrix |
| 生成 | prompt 要求基于资料回答 | claim-level groundedness、拒答、冲突提示、引用支持 | answer faithfulness + citation support 报告 |
| 评估 | 人工试几个问题 | golden set、retrieval metrics、LLM judge、expert review、release gate | Eval report + no-go / pilot memo |
| 治理 | 文档更新后手动重建 | ingestion SLA、版本下线、audit log、incident workflow | operating model + failure triage table |
| GraphRAG | 看到图谱就加图谱 | 用实体关系、多跳和社区摘要解决特定问题 | GraphRAG Decision ADR |
成熟表达不是“我做了一个 RAG”, 而是:
我把某个业务知识域产品化成了一个可治理的 knowledge product, 设计了 retrieval eval stack, 用 golden set 验证检索、引用、权限和版本, 并用 ADR 判断是否需要 GraphRAG。
3. Retrieval Eval Stack
Retrieval eval stack 要把 RAG 失败拆成多个层级。否则最终答案错了, 团队只会争论“模型不行”还是“文档不行”, 无法定位真正瓶颈。
3.1 Query Set
Query set 是检索评估的入口, 不是随手写的问题列表。每条 query 都应代表一种业务任务、风险等级和评估意图。
| Query 类型 | 目的 | 金融零售例子 | 设计要点 |
|---|---|---|---|
| 高频问题 | 验证核心用户价值 | 客服问“提前还款手续费怎么收” | 来自真实工单、客服日志、运营 FAQ |
| 边界问题 | 验证规则限制 | “非居民企业开立账户需要哪些额外文件” | 包含地区、客户类型、产品、日期 |
| 版本问题 | 验证新旧政策选择 | “2026 年新商户风险评级规则如何适用” | 同时放入旧版与新版干扰源 |
| 权限问题 | 验证访问隔离 | 分行员工问总部调查手册细节 | 同问多角色, 预期结果不同 |
| 无答案问题 | 验证拒答 | 问内部库没有覆盖的监管解释 | 不能用相似但不相关资料硬答 |
| 冲突问题 | 验证冲突处理 | 产品手册和合规批复口径不一致 | 应提示冲突、适用范围和人工确认 |
| 多跳问题 | 验证关系推理 | 商户、受益人、设备、交易模式之间的风险关系 | 适合评估 GraphRAG 或 graph-enhanced RAG |
Query set 的最小字段:
| 字段 | 说明 |
|---|---|
| query_id | 唯一编号, 例如 KYC-EDGE-014 |
| user_role | 发问角色, 例如 analyst、branch staff、credit officer |
| business_scenario | 场景说明, 例如 KYC remediation、merchant onboarding |
| risk_tier | low / medium / high / regulated |
| query_text | 用户自然语言问题 |
| expected_behavior | 应回答、应拒答、应升级人工、应提示冲突 |
| gold_doc_ids | 支撑答案的权威文档 |
| hard_negative_doc_ids | 相似但不应引用的文档 |
| permission_profile | 该角色允许检索的来源范围 |
| version_date | 问题发生时应适用的政策日期 |
| failure_tags | 用于切片统计的标签, 如 stale_source、permission、multi_hop |
PM 关注 query set 是否覆盖真实价值和上线风险。BA 关注样本是否表达业务语义和异常路径。架构师关注样本是否能驱动检索、权限、版本、引用和日志设计。
3.2 Gold Docs
Gold docs 是每条 query 应该召回的权威证据。没有 gold docs, retrieval recall 无法计算, citation support 也无法严肃验证。
Gold docs 不等于“参考答案所在文档名”。生产级 gold docs 至少要精确到 section、page、paragraph、table row 或 chunk。
| Gold docs 层级 | 适用情况 | 示例 |
|---|---|---|
| document-level | 早期探索或文档很短 | KYC Policy v5.2 |
| section-level | 政策、手册、SOP | KYC Policy v5.2 / 3.4 Non-resident Entity |
| paragraph-level | 需要验证引用支撑 | 第 12 页第 3 段 |
| table-row-level | 费率表、文件清单、风险评级矩阵 | Merchant MCC Risk Table / row: money service business |
| graph-node / edge-level | GraphRAG 或知识图谱 | merchant -> beneficial_owner -> high_risk_jurisdiction |
Gold docs 的维护原则:
- 每个 gold doc 必须来自 approved source, 不能引用草稿、过期文档或个人笔记。
- 每个 gold doc 要带版本、生效日期、失效日期和 owner。
- 每条 query 可以有多个 gold docs, 但要标明 primary evidence 与 supporting evidence。
- hard negatives 与 gold docs 一样重要, 因为金融场景常见“相似但错误”的政策误引。
3.3 Chunk Recall
Chunk recall 衡量系统是否把正确证据片段召回到候选列表中。它回答的是:
正确证据有没有被找出来?
常见指标:
| 指标 | 解释 | 上线意义 |
|---|---|---|
| recall@k | gold chunk 是否出现在 top-k 候选中 | retriever 的底线能力。recall@10 低时, 生成模型再强也会猜 |
| MRR | 第一个正确 chunk 的排名倒数 | 正确资料越靠前, context packing 和回答稳定性越高 |
| hit rate | 是否至少命中一个 gold source | 适合早期 smoke test |
| hard-negative avoidance | 相似错误文档是否被排在 gold 前面 | 关系到政策误引、地区误引、版本误引 |
PM 解读:
- 高频低风险客服助手可以接受较高 top-k 后再由 reranker 和生成层筛选。
- 高风险合规、信贷、AML 场景不能只看“top-10 命中”, 更要看 gold 是否进入最终 context。
BA 解读:
- 如果某类 query recall 低, 往往不是模型问题, 而是同义词、业务术语、政策结构、metadata 或 gold 标注问题。
- BA 应补充业务词表、别名、产品代码、地区映射、客户类型定义。
架构师解读:
- recall 低时先比较 BM25、dense、hybrid、rerank、query rewrite 和 chunk 策略。
- 记录每次 query 的 candidate trace, 否则无法解释为什么没召回。
3.4 Context Precision
Context precision 衡量最终放进 prompt context 的内容有多少是真正相关、可用、当前有效、权限允许的证据。它回答的是:
模型看到的上下文是否干净?
常见问题:
- top-k 召回了正确文档, 但 context 中混入大量相似错误资料。
- 新旧版本同时进入 context, 生成答案混合口径。
- 低可信来源排在前面, 权威政策被挤出 token budget。
- 用户无权访问的 chunk 在检索后才被过滤, 日志或缓存已经泄漏。
Context precision 的评估维度:
| 维度 | 判断问题 | 失败影响 |
|---|---|---|
| relevance | chunk 是否直接回答 query | 无关内容诱导模型 |
| authority | 来源是否权威 | 引用 FAQ 代替政策 |
| freshness | 是否当前有效 | 引用过期政策 |
| permission | 是否允许该用户看到 | 权限泄漏 |
| diversity | 是否覆盖必要多个方面 | 只检到定义, 漏掉例外 |
| conflict control | 是否识别冲突来源 | 混合新旧规则 |
上线决策:
- context precision 低但 recall 高, 说明 retriever 初召回可用, 重点优化 rerank、metadata filter、context packing。
- context precision 高但 recall 低, 说明系统很保守, 可能回答覆盖不足, 需要扩展 query rewrite、synonym、chunking。
- 高风险场景应把“无权 chunk 进入 context”定义为 critical failure, 阈值为 0。
3.5 Answer Faithfulness
Answer faithfulness 衡量回答中的断言是否由给定 context 支撑。它回答的是:
模型有没有基于证据说话?
Faithfulness 不等于 correctness。回答可能忠实于 context, 但 context 本身错了或过期。因此要与 retrieval 和 source readiness 联合看。
评估方法:
| 方法 | 适用 | 注意点 |
|---|---|---|
| claim extraction + evidence check | 高风险政策、合规、信贷解释 | 把回答拆成关键断言逐条验证 |
| LLM judge groundedness | 大规模回归初筛 | judge 必须看到 query、context、answer 和 rubric |
| expert review | AML、信贷、合规边界 | 专家判断不可完全外包给模型 |
| rule check | 禁止语、必须拒答、格式、引用字段 | deterministic check 应优先于 judge |
上线决策:
- 如果 faithfulness 低, 不应扩大用户范围, 即使答案看起来流畅。
- 高风险场景中 unsupported critical claim 必须为 0。
- 如果 faithfulness 高但用户仍不满意, 可能是 query set、gold docs、context completeness 或 UX 问题。
3.6 Citation Support
Citation support 衡量引用是否真实支撑回答中的关键断言。它回答的是:
引用是证据, 还是装饰?
成熟系统不满足于答案末尾列几个链接, 而要做到 claim-level citation:
| 引用层级 | 成熟度 | 风险 |
|---|---|---|
| answer-level links | 低 | 链接存在但不一定支持具体断言 |
| paragraph-level citations | 中 | 可以定位段落依据, 但仍可能混合断言 |
| claim-level citations | 高 | 每个关键事实点绑定来源 |
| evidence-span citations | 很高 | 指向具体句子、表格行、规则字段或图谱边 |
Citation support 指标:
| 指标 | 解释 | 上线意义 |
|---|---|---|
| citation coverage | 关键断言中有引用的比例 | 低覆盖说明审计证据不足 |
| citation accuracy | 引用是否支持断言 | 高风险场景核心指标 |
| citation freshness | 引用来源是否当前有效 | 控制过期政策风险 |
| citation permission correctness | 用户是否有权打开引用 | 防止“答案不泄漏但引用泄漏” |
| citation granularity | 是否能定位到 section/page/span | 影响审计和用户信任 |
PM 解读:
- 对员工助手, 引用可以提升信任和采纳。
- 对受监管流程, 引用是上线证据和审计证据, 不是体验增强项。
BA 解读:
- BA 应定义哪些断言必须引用: 金额阈值、资格条件、拒绝原因、合规要求、例外流程、客户沟通口径。
架构师解读:
- citation 要从 ingestion 就开始设计: page、section、table row、chunk_id、source_version、permission_group 都要保留。
3.7 Permission / Version Tests
权限和版本测试是金融零售 RAG 的强制门禁。它们不是普通准确率指标, 而是风险控制。
| 测试类型 | 设计方式 | 通过标准 |
|---|---|---|
| role-based same query | 同一个问题用 analyst、branch staff、external vendor 三种角色测试 | 每个角色只能检索并引用有权资料 |
| region-based policy | 同一产品在不同地区问适用政策 | 不跨地区误引 |
| effective-date test | query 指定业务日期, index 中放新旧版本 | 使用该日期有效版本 |
| expired-source hard negative | 将过期政策作为相似干扰源 | 不引用 expired source |
| draft-source exclusion | 知识库中存在草稿 | production query 不召回草稿 |
| citation entitlement | 用户点击引用时检查权限 | 答案引用与源文档访问一致 |
| cache isolation | 不同角色连续查询 | 低权限用户不读取高权限缓存结果 |
| audit replay | 回放历史 query | 能复现当时使用的模型、prompt、source version |
上线决策:
- 权限泄漏、草稿误用、过期关键政策误引都应定义为 critical failure。
- 任何 critical failure 未关闭前, 不进入生产或只允许隔离环境演示。
- 版本测试要纳入每次 ingestion、chunking、embedding、rerank、prompt 或模型变更后的回归。
4. RAGAS / Retrieval Metrics / LLM Judge 的 PM、BA、架构师解读
RAGAS 的关键价值是把 RAG 评估拆成多个可自动化或半自动化维度, 例如 faithfulness、answer relevance、context precision、context recall 等。它不是上线决策的全部, 但很适合作为评估框架的起点。
4.1 不要只堆指标: 指标要回答上线问题
| 上线问题 | 对应指标 | 决策含义 |
|---|---|---|
| 系统能否找到正确证据 | recall@k、context recall、gold doc hit rate | 找不到证据时, 不能靠 prompt 修复 |
| 模型看到的证据是否干净 | context precision、hard-negative rate、version filter pass | 决定是否需要 rerank、metadata filter、context packing 优化 |
| 回答是否基于证据 | faithfulness、unsupported claim rate | 决定能否进入 pilot 或高风险流程 |
| 引用是否可审计 | citation coverage、citation accuracy、citation granularity | 决定能否被合规、内审和运营信任 |
| 无答案时是否拒答 | refusal accuracy、over-answer rate | 决定是否会编造政策或误导用户 |
| 权限是否可靠 | permission leakage rate、entitlement mismatch | 决定是否允许接入真实内部资料 |
| 版本是否可靠 | current-version accuracy、stale-source rate | 决定是否能服务政策和监管场景 |
| 是否比上一版更好 | slice regression、critical failure count | 决定是否 release 或 rollback |
4.2 PM 解读: 指标如何支撑产品决策
PM 不需要把每个公式背下来, 但必须能把指标翻译成上线策略:
| 指标结果 | 产品判断 |
|---|---|
| 高频 query recall@5 高, faithfulness 高, citation support 高 | 可进入受控 pilot, 收集真实反馈 |
| recall 高但 faithfulness 低 | 用户价值存在, 但生成层不稳; 需要更强 prompt、claim verification 或低风险场景先试 |
| context precision 低 | 用户会看到混乱答案; 优化前不扩大场景 |
| citation accuracy 低 | 不适合合规、信贷、AML; 只能做探索型助手 |
| permission tests 有失败 | 不接入真实敏感资料, 先修架构 |
| version tests 有失败 | 不适合政策问答, 先修文档生命周期和 metadata |
PM 的上线 memo 应避免写“准确率达到 85% 所以上线”。更好的表达是:
在 180 条 golden set 中, 高频客服场景 faithfulness 94%、citation accuracy 96%、无 critical permission/version failure; 但信贷拒绝原因场景 unsupported claim 仍有 3 条, 因此建议先上线客服知识助手 pilot, 信贷场景保留人工复核并继续修复。
4.3 BA 解读: 指标如何反推需求和样本
BA 的关键工作是让指标背后有业务语义。
| 指标问题 | BA 要补的内容 |
|---|---|
| recall 低 | 补业务术语、同义词、产品代码、政策层级、客户类型映射 |
| hard negative 命中高 | 标注相似但错误的政策, 明确地区、版本、产品差异 |
| refusal accuracy 低 | 定义哪些问题必须拒答、要求补充信息或升级人工 |
| faithfulness 低 | 拆解回答中的关键断言, 明确哪些字段必须来自证据 |
| citation support 低 | 定义必须引用的断言类型和可接受来源 |
| version failure | 明确政策生效、废止、过渡期和例外条款 |
BA 不只是写用户故事, 还要写 eval stories:
作为 KYC 审核员,
当我询问非居民企业开户缺少哪些材料时,
系统必须基于当前有效 KYC 政策和客户类型定义返回缺件清单,
每个缺件项必须引用政策章节,
如果客户地区或实体类型不明确, 系统必须要求补充信息而不是猜测。
4.4 架构师解读: 指标如何驱动系统设计
架构师要把指标映射到可观测性和改造点。
| 指标失败 | 可能原因 | 架构改造 |
|---|---|---|
| recall@k 低 | chunk 切分差、embedding 不适配、query rewrite 弱、BM25 缺失 | 比较 chunk 策略、hybrid retrieval、领域词表、rerank |
| context precision 低 | 相似文档混入、metadata 缺失、rerank 不稳 | 加强 metadata filter、source authority score、dedupe、context packing |
| faithfulness 低 | prompt 不约束、上下文冲突、模型补全 | grounded prompt、claim verifier、低置信拒答 |
| citation accuracy 低 | 引用锚点丢失、后处理随意贴源 | ingestion 保留 source span、claim-source alignment |
| permission failure | 检索后过滤、缓存未隔离、index 混租 | retrieval-time entitlement、tenant/role scoped index、cache key 带权限 |
| stale source | 文档生命周期缺失、index 未下线旧文档 | source versioning、effective_date filter、re-index trigger |
架构师的目标不是让所有指标一次达标, 而是让每个失败都有 trace、owner 和修复路径。
4.5 LLM Judge 的使用边界
LLM judge 适合:
- 判断回答是否覆盖关键点。
- 初筛 faithfulness、groundedness、tone、completeness。
- 对比两个 prompt、两个 retriever、两个 reranker。
- 给 failure tags 和 triage reason。
LLM judge 不适合作为唯一依据:
- 最终合规判断。
- AML SAR/STR 是否提交。
- 信贷拒绝是否符合法规。
- 权限是否泄漏。
- 版本是否当前有效。
- 引用是否真实可打开。
推荐组合:
| 评估对象 | 首选方法 |
|---|---|
| JSON 格式、禁用词、必须字段 | deterministic checks |
| source version、permission、citation id | deterministic + access control replay |
| open-ended answer quality | LLM judge + sampled human review |
| 高风险政策解释 | LLM judge 初筛 + domain expert review |
| release decision | metrics + critical failure + risk sign-off + rollback plan |
5. GraphRAG / Knowledge Graph RAG 决策
GraphRAG 不是“更高级的 RAG”默认替代品。它适合知识关系复杂、问题跨实体、跨文档、跨社区、跨路径时使用。普通 RAG 能解决的问题, 不要为了图谱而图谱。
5.1 普通 RAG 足够的情况
普通 hybrid RAG 通常足够:
| 情况 | 例子 | 原因 |
|---|---|---|
| 答案主要来自单一政策段落 | “信用卡提前还款手续费怎么收” | top-k + citation 足够 |
| 文档结构清晰、章节边界明确 | KYC 文件清单、产品 FAQ | 结构感知 chunk 可解决 |
| 用户问题以查找和解释为主 | “这个表格字段是什么意思” | 不需要关系推理 |
| 关系可以通过 metadata filter 表达 | region、product、customer_segment | 不必建图 |
| 业务更新频繁但关系稳定性低 | 临时促销政策 | 图谱维护成本可能大于收益 |
| 项目处于早期探索 | 20-50 条 query smoke test | 先用普通 RAG 建 baseline |
判断原则:
如果答案的关键证据能通过 1-3 个权威 chunk 找到, 且关系不影响结论, 先用普通 RAG。
5.2 需要实体关系的情况
需要 entity relationship 的信号:
| 信号 | 说明 | 金融零售例子 |
|---|---|---|
| 同一实体跨多源出现 | 客户、商户、账户、设备、受益人分散在不同系统 | AML investigation 需要统一主体视图 |
| 关系本身是证据 | beneficial owner、shared device、common address、transaction counterparty | 商户风险审查 |
| 多跳关系影响判断 | A 与 B 无直接交易, 但共享控制人和设备 | AML network typology |
| 名称歧义严重 | 同名客户、商户别名、集团子公司 | KYC / merchant onboarding |
| 需要解释“为什么相关” | 不是找文档, 而是解释风险路径 | case narrative 和风险图 |
GraphRAG 在这些场景中的价值:
- entity resolution: 识别同一客户、商户、设备或受益人。
- relationship retrieval: 根据关系路径找到证据。
- path explanation: 把多跳路径转成可审计解释。
- risk context expansion: 从一个告警扩展到相关实体和历史模式。
5.3 需要社区摘要的情况
Microsoft GraphRAG 的核心启发之一是将文本转成实体和关系, 构建图谱, 再通过社区检测和摘要支持全局性、跨文档问题。社区摘要适合回答“一个知识域整体上有哪些主题、风险、模式、群组”。
适合 community summaries:
| 场景 | 问题 | 为什么普通 RAG 不够 |
|---|---|---|
| AML typology landscape | “过去一年高风险商户网络有哪些共同模式” | 单个 chunk 无法代表网络社区 |
| 投诉主题归因 | “零售贷款客户投诉主要集中在哪些流程和政策冲突” | 需要跨工单聚类和主题摘要 |
| 产品知识域梳理 | “某产品线常见政策例外有哪些” | 需要跨文档、跨 FAQ、跨案例汇总 |
| 商户生态风险 | “哪些商户群组共享设备、地址或结算路径” | 关系社区本身是答案 |
社区摘要的治理要求:
- 摘要要记录生成时间、输入来源范围、社区算法版本和摘要模型版本。
- 社区摘要不能覆盖底层证据; 高风险结论必须能 drill down 到节点、边和文档。
- 社区摘要需要定期刷新, 否则会变成新的过期知识源。
5.4 需要多跳路径的情况
Multi-hop path 是 GraphRAG 的高价值区域。典型问题不是“找一段政策”, 而是:
这个商户为什么被标为高风险?
因为它与三个被关停商户共享设备指纹,
其受益人与高风险行业实体存在历史关联,
并且近 30 天交易模式与某 AML typology 的路径相似。
多跳路径适合:
- AML investigation: customer -> account -> counterparty -> jurisdiction -> typology。
- Merchant risk review: merchant -> owner -> device -> linked merchant -> chargeback pattern。
- Credit policy assistant: borrower -> employer -> income type -> policy exception -> required document。
- KYC checklist: entity type -> ownership structure -> jurisdiction -> required document -> enhanced due diligence。
多跳路径的风险:
- 路径越长, 误连和误解风险越高。
- 图谱边的来源、置信度和更新时间必须可见。
- 不能把“路径存在”直接等同于“风险成立”。
- 高风险结论要保留人工判断, GraphRAG 输出应是 evidence map 和 rationale draft。
5.5 GraphRAG 决策矩阵
| 决策问题 | 普通 RAG | Graph-enhanced RAG | Full GraphRAG |
|---|---|---|---|
| 主要任务 | 文档问答、政策解释 | 文档问答 + 实体/关系过滤 | 全局主题、社区摘要、多跳推理 |
| 知识结构 | 文档章节清晰 | 文档和结构化实体并存 | 关系网络是主要知识 |
| 典型证据 | chunk、section、table row | chunk + entity + relationship | community summary + path + source evidence |
| 成本 | 低到中 | 中 | 高 |
| 数据治理要求 | 文档 metadata | entity resolution、edge provenance | 图谱生命周期、社区摘要版本、路径审计 |
| 最适合场景 | KYC policy、客服知识库、产品 FAQ | merchant review、credit exception、case evidence | AML network、风险主题分析、跨域知识地图 |
| 上线前提 | retrieval eval 达标 | 文档 eval + entity/edge eval | 图谱质量 eval + path faithfulness + expert review |
推荐路径:
- 先做普通 RAG baseline, 建立 query set、gold docs、retrieval metrics 和 answer eval。
- 识别普通 RAG 失败中是否存在“关系缺失”而不是“检索差”。
- 如果失败主要来自实体歧义、多跳关系、跨文档主题, 再引入 graph-enhanced RAG。
- 只有当业务问题需要全局社区摘要和路径解释时, 才建设 full GraphRAG。
6. 金融零售场景 Playbook
6.1 AML Investigation
| 维度 | 设计 |
|---|---|
| 用户 | AML investigator、case QA、financial crime analyst |
| 核心任务 | 从告警、交易、KYC、历史案例、typology 中生成 investigation brief 和 evidence map |
| 知识源 | AML typology、监管通报、调查 SOP、历史 SAR/STR 样例、case notes、交易摘要、客户/账户/对手方关系 |
| Retrieval eval | typology recall、case evidence recall、counterparty evidence recall、stale typology avoidance |
| Answer eval | 不下最终 SAR 结论、证据覆盖、缺失证据提示、引用支持、风险语言合规 |
| GraphRAG 价值 | customer-account-counterparty-jurisdiction-typology 多跳路径; 共享地址/设备/受益人网络; 风险社区摘要 |
| Release gate | permission leakage = 0; final-decision automation = 0; critical unsupported claim = 0; 高风险样本专家通过 |
| 作品集 artifact | AML Retrieval Eval Matrix + GraphRAG ADR + failure triage report + case narrative eval rubric |
关键设计:
- AI 输出应是 investigation assistance, 不是监管报送决策。
- 每个风险描述必须引用交易证据、typology 或 case source。
- 如果缺少 KYC、对手方或资金来源信息, 应显式列为 missing evidence。
- 图谱路径必须显示边的来源和时间, 不允许把弱关联写成确定事实。
6.2 KYC Checklist
| 维度 | 设计 |
|---|---|
| 用户 | KYC analyst、branch onboarding staff、relationship manager |
| 核心任务 | 根据客户类型、地区、产品、风险等级生成所需文件、缺件清单和例外升级路径 |
| 知识源 | KYC policy、客户类型定义、文件清单、EDD 规则、地区监管要求、例外审批 SOP |
| Retrieval eval | policy section recall、document checklist recall、hard negative by region/customer type |
| Answer eval | 文件要求正确、适用范围清晰、缺少信息时追问、不要求无授权资料 |
| GraphRAG 价值 | entity type -> ownership structure -> jurisdiction -> required documents 的路径可解释 |
| 普通 RAG 是否足够 | 多数 checklist 问答普通 hybrid RAG 足够; 复杂 ownership 和跨地区结构可加 graph |
| Release gate | required document accuracy 高阈值; stale policy = 0; unauthorized data request = 0 |
| 作品集 artifact | KYC Knowledge Source Readiness Checklist + golden set + refusal tests |
关键设计:
- query set 必须覆盖 individual、sole proprietor、corporate、trust、non-resident、high-risk country。
- gold docs 要精确到文件清单表格行和 EDD 条款。
- 答案应区分“必须提交”“条件触发”“建议人工确认”。
6.3 Credit Policy Assistant
| 维度 | 设计 |
|---|---|
| 用户 | credit officer、loan product PM、underwriting QA、branch manager |
| 核心任务 | 解释贷款准入、收入证明、例外审批、拒绝原因草稿和补件建议 |
| 知识源 | credit policy、underwriting SOP、income verification rules、product terms、fair lending guidance、adverse action templates |
| Retrieval eval | policy recall、exception rule recall、template recall、protected-class hard negative |
| Answer eval | policy-grounded、无歧视性因素、不得暴露评分模型敏感逻辑、引用准确 |
| GraphRAG 价值 | borrower attributes -> policy rule -> exception path -> required evidence; 通常 graph-enhanced RAG 即可 |
| Release gate | fair lending critical failure = 0; unsupported rejection reason = 0; human review trigger 正确 |
| 作品集 artifact | Credit Release Gate Memo + citation support report + PM/BA eval stories |
关键设计:
- AI 不能自动做授信裁决, 只能解释政策和起草人工复核材料。
- adverse action 相关输出必须走更严格 rubric 和专家复核。
- 如果资料来自模型评分而非政策条款, 输出要清楚区分“政策依据”和“模型信号”。
6.4 Merchant Risk Review
| 维度 | 设计 |
|---|---|
| 用户 | acquiring risk analyst、merchant onboarding PM、fraud operations |
| 核心任务 | 审查商户行业、MCC、实控人、设备、地址、交易模式、拒付/欺诈风险 |
| 知识源 | merchant application、MCC risk policy、beneficial owner records、device fingerprint、chargeback records、fraud typology、terminated merchant file |
| Retrieval eval | MCC policy recall、risk rule recall、linked merchant evidence recall |
| Answer eval | 风险因素有证据、不得把关联直接写成定罪、明确缺失资料和复核建议 |
| GraphRAG 价值 | merchant-owner-device-address-linked merchant 多跳关系非常强 |
| Release gate | linked-entity path citation 通过; permission leakage = 0; high-risk recommendation requires human review |
| 作品集 artifact | Merchant GraphRAG Decision ADR + entity/edge readiness checklist + path faithfulness eval |
关键设计:
- Merchant risk 是 GraphRAG 的强候选, 因为关系本身经常是核心证据。
- 图谱边要有 provenance: 哪个系统、哪个字段、什么时间、置信度多少。
- 输出要区分 direct evidence、indirect link、risk indicator、required review action。
6.5 Retail Product Knowledge Assistant
| 维度 | 设计 |
|---|---|
| 用户 | customer service agent、branch staff、product operations、training team |
| 核心任务 | 回答产品政策、费率、促销、资格、操作流程、异常处理话术 |
| 知识源 | product manual、FAQ、fee table、campaign terms、SOP、approved customer-facing script |
| Retrieval eval | product policy recall、fee table row recall、campaign version test |
| Answer eval | 对客口径准确、语气合规、引用内部资料但输出适合客户、过期促销不误用 |
| GraphRAG 价值 | 大多数情况普通 RAG 足够; 若要做产品知识地图和跨产品比较, 可用轻量 graph |
| Release gate | fee/campaign citation accuracy 高阈值; stale campaign = 0; unauthorized commitment = 0 |
| 作品集 artifact | Product Knowledge Retrieval Eval Matrix + answer rubric + pilot scope memo |
关键设计:
- 内部依据与对客话术要分层, 不能把内部操作细节直接对客输出。
- 促销和费率表要 table-row citation, 不能只引用整个 PDF。
- 适合先做低风险 pilot, 快速积累 feedback loop 和 retrieval failure taxonomy。
7. 30 天 Lab: Retrieval / Eval / GraphRAG 作品集训练
Lab 目标: 用 30 天做出一套可展示的“金融零售知识助手评估与 GraphRAG 决策包”。建议选择一个主场景, 如 KYC checklist、merchant risk review 或 retail product knowledge assistant。
| Day | 任务 | Artifact |
|---|---|---|
| 1 | 选择一个金融零售 use case, 写清用户、流程、风险等级、AI 边界 | 1 页 Use Case Brief |
| 2 | 列出 source-of-truth、辅助来源、禁止来源、owner 和更新频率 | Knowledge Source Inventory |
| 3 | 为每个来源补 metadata: doc_type、region、product、effective_date、permission_group、owner | Source Metadata Sheet |
| 4 | 用 readiness checklist 评估知识源, 标出 production blocker | Knowledge Source Readiness Checklist v1 |
| 5 | 设计 30 条 query set, 覆盖高频、边界、无答案、权限、版本、冲突 | Query Set v1 |
| 6 | 为每条 query 标注 gold docs、hard negatives、expected behavior | Golden Set Register v1 |
| 7 | 设计 chunk strategy: fixed、section-aware、parent-child 至少比较两种 | Chunking Decision Note |
| 8 | 选 10 条 query 做手工 retrieval baseline, 记录召回和失败原因 | Manual Retrieval Baseline |
| 9 | 定义 retrieval metrics: recall@5、recall@10、MRR、hard-negative rate | Retrieval Metrics Spec |
| 10 | 设计 context precision rubric: relevance、authority、freshness、permission、conflict | Context Precision Rubric |
| 11 | 设计 answer faithfulness rubric, 把回答拆成 claim 并检查证据 | Faithfulness Rubric |
| 12 | 设计 citation support 标准: coverage、accuracy、granularity、freshness、permission | Citation Support Spec |
| 13 | 设计 permission tests: 同问不同角色、引用跳转、缓存隔离 | Permission Test Pack |
| 14 | 设计 version tests: 新旧政策、过期文档、草稿排除、指定业务日期 | Version Test Pack |
| 15 | 完成 Retrieval Eval Matrix 模板并填入前 15 条样本 | Retrieval Eval Matrix v1 |
| 16 | 用 LLM judge 设计结构化评估 prompt, 输出 score、failure_tags、critical_failure | Judge Prompt + JSON Schema |
| 17 | 设计 human review sampling: 哪些样本必须专家复核, 哪些抽检 | Human Review Plan |
| 18 | 建立 failure taxonomy: no retrieval、wrong retrieval、stale source、permission leak、citation mismatch | Failure Taxonomy |
| 19 | 对 10 个失败样本做 triage, 归因到 source、chunk、retrieval、rerank、generation、citation | Failure Triage Table v1 |
| 20 | 写 release gate: smoke、retrieval、grounding、citation、permission、version、risk sign-off | Release Gate Spec |
| 21 | 判断是否需要 GraphRAG: 列出实体、关系、多跳问题和普通 RAG 失败证据 | GraphRAG Need Assessment |
| 22 | 如果需要 graph, 定义 entity types、edge types、provenance、confidence、refresh | Entity / Edge Model v1 |
| 23 | 写 GraphRAG Decision ADR, 明确普通 RAG、graph-enhanced RAG、full GraphRAG 取舍 | GraphRAG Decision ADR |
| 24 | 为 GraphRAG 设计 path faithfulness eval: 路径是否存在、边是否有来源、结论是否过度推断 | Path Faithfulness Rubric |
| 25 | 设计 community summary 的使用边界和刷新机制 | Community Summary Governance Note |
| 26 | 写 pilot scope: 哪些用户、哪些问题、哪些输出必须人工复核 | Pilot Scope Memo |
| 27 | 写 monitoring dashboard 指标: no-result、citation accuracy、permission failure、feedback、cost、latency | Monitoring Metric Pack |
| 28 | 写 incident workflow: 权限泄漏、过期政策误引、unsupported claim、引用错配 | Knowledge AI Incident Playbook |
| 29 | 整理作品集 case study: problem、architecture、eval、release gate、risk controls、ROI | Portfolio Case Study v1 |
| 30 | 准备面试故事: 30 秒、2 分钟、CTO 深挖、PM 深挖、BA 深挖 | Interview Story Pack |
30 天验收标准:
- 有一个完整 query set, 不是零散问题。
- 每条样本至少包含 gold docs、expected behavior、risk tier 和 failure tags。
- 能解释普通 RAG 为什么够用, 或 GraphRAG 为什么必要。
- 有 release gate, 且 critical failure 明确为阻断项。
- 有作品集材料, 能展示 PM、BA、架构师三种视角。
8. 模板
8.1 Retrieval Eval Matrix
使用方式: 每一行是一条 query 的评估结果。初期可手工填, 后续可由 eval runner 自动生成。
| 字段 | 填写说明 | 示例 |
|---|---|---|
| eval_id | 评估运行编号 | KYC-EVAL-2026-06-29-01 |
| query_id | query set 中的唯一编号 | KYC-EDGE-014 |
| user_role | 权限角色 | branch_staff |
| query_text | 用户问题 | 非居民企业开户还缺哪些文件? |
| expected_behavior | 期望行为 | 询问实体类型和地区, 并引用当前 KYC policy |
| gold_doc_ids | 权威来源 | KYC-POLICY-v5.2-s3.4; DOC-MATRIX-v5.2-row-17 |
| hard_negative_doc_ids | 相似但错误来源 | KYC-POLICY-v4.9-s3.4; DRAFT-KYC-2026 |
| retrieved_top_5 | top-5 chunk ids | chunk_883, chunk_221, chunk_905, chunk_107, chunk_114 |
| chunk_recall_at_5 | gold chunk 是否命中 | 1 |
| mrr | 第一个 gold chunk 排名倒数 | 0.5 |
| context_precision_score | 1-5 或百分比 | 4/5 |
| stale_source_flag | 是否引用过期来源 | false |
| permission_pass | 权限是否通过 | true |
| answer_faithfulness | 回答是否由 context 支撑 | pass |
| citation_coverage | 关键断言引用覆盖率 | 100% |
| citation_accuracy | 引用是否支持断言 | 95% |
| refusal_correct | 无答案/缺信息时是否正确拒答或追问 | true |
| critical_failure | 是否有阻断发布的问题 | false |
| failure_tags | 失败标签 | missing_region_clarification |
| owner | 修复 owner | KYC BA |
| fix_action | 明确修复动作 | 补充地区澄清 prompt; golden set 加 5 条地区边界样本 |
评分建议:
| Release band | 建议 |
|---|---|
| critical failure > 0 | 不发布, 先修权限、版本、关键断言或安全问题 |
| retrieval recall 高但 citation 低 | 可继续内部测试, 不进入审计要求高的流程 |
| retrieval、faithfulness、citation 均稳定且无 critical failure | 可进入受控 pilot |
| 指标稳定且 production feedback 闭环有效 | 扩大用户范围或场景范围 |
8.2 GraphRAG Decision ADR
# ADR: [场景名] 是否采用 GraphRAG
## Status
Accepted for pilot / Deferred / Rejected for current scope
## Context
- 业务场景: merchant risk review
- 用户: acquiring risk analyst
- 当前 RAG baseline: 普通 hybrid RAG 在政策解释上表现稳定, 但在 linked merchant 和 shared device 风险解释上失败较多
- 关键失败证据: 30 条 query 中 8 条需要跨商户、设备、实控人关系; 普通 RAG 只能找到单个文档, 无法解释路径
## Decision
采用 graph-enhanced RAG, 暂不采用 full GraphRAG。
## Rationale
- 需要实体关系: merchant、beneficial_owner、device、address、chargeback_case
- 需要多跳路径: merchant -> device -> linked merchant -> terminated merchant file
- 不需要全局社区摘要作为第一阶段能力, 因为 pilot 用户主要审单, 不是做全域风险研究
- 图谱边可以从现有 onboarding、device fingerprint、case management 中获得 provenance
## Alternatives Considered
| 方案 | 优点 | 风险 | 结论 |
|---|---|---|---|
| 普通 hybrid RAG | 成本低, 上线快 | 无法解释 linked entity path | 不足以覆盖核心风险问题 |
| graph-enhanced RAG | 能保留文档问答并加入关系证据 | 需要 entity resolution 和 edge provenance | 采用 |
| full GraphRAG | 支持社区摘要和全局主题 | 构建和治理成本高 | 留到第二阶段 |
## Scope
- 纳入实体: merchant、owner、device、address、case、MCC
- 纳入关系: owns、shares_device、shares_address、has_chargeback_case、matches_typology
- 不纳入范围: 自动拒绝商户、自动关闭 case、客户外部沟通
## Evaluation
- path existence accuracy >= 95%
- edge provenance coverage = 100%
- path faithfulness critical failure = 0
- permission leakage = 0
- risk explanation unsupported claim = 0
## Consequences
- 需要建立 entity/edge data contract
- 需要维护 graph refresh job 和边来源审计
- 需要新增 path-level eval 和专家复核
- 需要 UI 展示路径证据和底层来源
8.3 Knowledge Source Readiness Checklist
评分建议: 1 = 不可用于 pilot, 3 = 可用于受控 pilot, 5 = 可进入生产评审。
| 维度 | 评分问题 | 1 分表现 | 3 分表现 | 5 分表现 |
|---|---|---|---|---|
| Source-of-truth | 是否权威 | 来源不明或个人维护 | owner 已确认 | 权威系统/库, 冲突处理明确 |
| Approval status | 是否可用于生产 | 草稿混入 | 人工标记 approved | 生命周期机器可读, draft 自动排除 |
| Versioning | 是否有版本和有效期 | 无版本 | 有版本但不完整 | version、effective_date、expiry_date 完整 |
| Metadata | 是否支持检索过滤 | 只有文件名 | 有基础标签 | product、region、customer_type、permission、owner 完整 |
| Chunkability | 是否适合切分 | 扫描件/OCR 差/表格丢失 | 可解析正文 | 标题、页码、表格、段落结构保留 |
| Citation anchor | 是否可精确引用 | 只能引用文件 | 可引用章节 | 可引用 page、section、paragraph、table row |
| Permission | 是否可执行权限 | 只靠文件夹权限 | 文档级权限 | chunk/field/role 权限可机器执行 |
| Freshness | 是否可更新 | 手动上传且无通知 | 定期同步 | source change 触发 re-index 和回归 |
| Ownership | 是否有人负责 | 无 owner | 有业务 owner | business/data/risk/technical owner 明确 |
| Auditability | 是否可审计 | 无 lineage | 能追文档来源 | 能追 source -> chunk -> context -> answer -> citation |
| Eval readiness | 是否可做 gold docs | 无法定位证据 | 可人工标注 gold section | 可系统化生成/维护 gold docs 和 hard negatives |
| Risk controls | 是否覆盖 PII/retention | 未分类 | 高风险来源人工限制 | PII、consent、retention、purpose limitation 可执行 |
Readiness gate:
| 总分 | 结论 |
|---|---|
| 12-28 | 不进入 RAG pilot, 先做知识治理 |
| 29-42 | 可做低风险 prototype, 禁止真实高风险用户依赖 |
| 43-54 | 可做受控 pilot, 必须人工复核和监控 |
| 55-60 | 可进入 production review, 仍需 release gate 和定期复核 |
8.4 Failure Triage Table
使用方式: 每个失败样本都要定位到链路环节, 否则无法形成可执行 backlog。
| Failure type | 典型表现 | 判断方法 | 责任 owner | 修复动作 |
|---|---|---|---|---|
| no retrieval | gold docs 未进入 top-k | 查看 recall@k、query trace | Architect + BA | 改 chunk、query rewrite、synonym、hybrid search |
| wrong retrieval | 相似错误文档排在前面 | hard-negative 命中 | Architect + BA | 增强 metadata filter、rerank、source authority |
| stale source | 引用旧政策 | source version check | Data owner | 修 version metadata、expiry filter、re-index |
| draft source | 草稿进入答案 | approval_status check | Data owner + Risk | draft 排除、source lifecycle gate |
| permission leak | 用户看到无权内容 | entitlement replay | Architect + Security | 检索前权限、索引隔离、cache 隔离 |
| context conflict | 上下文含冲突来源 | context review | BA + PM | 冲突检测、适用范围澄清、人工升级 |
| unsupported claim | 回答含证据未支持断言 | claim-level faithfulness check | Prompt owner + PM | 修改 prompt、加 verifier、降低自动化范围 |
| citation mismatch | 引用不支持断言 | citation support check | Architect + BA | 保留 source span、claim-source 对齐 |
| over-answer | 无答案仍编答案 | refusal test | PM + Prompt owner | 拒答策略、缺信息追问、confidence gate |
| graph path overclaim | 有弱关系却写成确定风险 | path faithfulness review | Graph owner + Risk | 边置信度、路径措辞、专家复核 |
| judge bias | judge 偏好长答案或顺序 | A/B order swap、human calibration | Eval owner | 调整 rubric、多 judge、抽样专家复核 |
Failure severity:
| Severity | 定义 | 发布动作 |
|---|---|---|
| Critical | 可能造成权限泄漏、监管误导、错误拒绝/承诺、关键政策误引 | 阻断发布 |
| Major | 影响核心用户任务, 但有人工作为兜底 | 修复后再扩大范围 |
| Minor | 影响表达、格式或低风险细节 | 可进入 backlog, 不阻断低风险 pilot |
9. Release Gate 设计
Retrieval/Eval/GraphRAG 项目应把上线门禁写清楚。门禁不是“平均分达标”, 而是分层证据。
| Gate | 指标 | 建议阈值示例 | 阻断条件 |
|---|---|---|---|
| Source readiness | readiness score | pilot >= 43/60 | 权威来源不清、无权限模型 |
| Retrieval | recall@5、MRR、hard-negative rate | 核心 query recall@5 >= 90% | gold docs 大量找不到 |
| Context | context precision | 高风险样本 >= 4/5 | 无权、过期、草稿进入 context |
| Faithfulness | unsupported claim rate | critical unsupported claim = 0 | 编造政策、编造证据 |
| Citation | coverage、accuracy、freshness | 高风险 citation accuracy >= 95% | 引用不支持关键断言 |
| Refusal | refusal accuracy | 无答案/缺信息正确处理 >= 90% | 无资料仍给确定答案 |
| Permission | leakage rate | 0 | 任一权限泄漏 |
| Version | stale-source rate | critical stale source = 0 | 引用过期核心政策 |
| Graph path | path faithfulness | high-risk path overclaim = 0 | 弱关系写成确定结论 |
| Human review | 专家复核 | 高风险样本通过 | 专家否决 |
| Ops | monitoring、rollback、incident | 已配置 | 无法追踪和回滚 |
发布建议:
- Prototype: 可使用公开或脱敏资料, 允许指标不完整, 但必须标明不可用于真实决策。
- Controlled pilot: 必须有 query set、gold docs、retrieval eval、citation check、权限/版本测试和人工复核。
- Production review: 必须有 release gate、monitoring、incident workflow、owner model、audit replay。
- High-risk workflow: AML、信贷、KYC、商户风险等必须保留 human-in-the-loop 和专家抽检。
10. 面试表达
10.1 30 秒版本
我不会把企业 RAG 只理解成向量检索。我的做法是先把知识源产品化, 明确 source-of-truth、版本、权限和引用锚点; 然后建立 retrieval eval stack, 用 query set、gold docs、chunk recall、context precision、faithfulness、citation support、权限和版本测试来做发布门禁。如果问题涉及实体关系、多跳路径或全局主题, 我会用 ADR 判断是否需要 GraphRAG, 而不是默认上图谱。
10.2 2 分钟版本
在企业知识助手里, 最危险的问题不是模型不会说话, 而是它基于错误资料、错误权限或错误版本说得很流畅。我会从三个层面设计。
第一是知识源治理。把政策、SOP、FAQ、案例、表格都当成 AI data product, 明确 owner、source-of-truth、metadata、effective date、permission group、citation anchor 和更新机制。
第二是 retrieval eval。每个场景建立 query set 和 golden set, 为每条 query 标注 gold docs、hard negatives、expected behavior、risk tier。然后分别评估 chunk recall、context precision、answer faithfulness、citation support、refusal、permission 和 version。这样最终答案错了时, 能定位是没检到、检错了、上下文混乱、模型幻觉、引用错配还是权限/版本问题。
第三是架构决策。普通 RAG 适合政策解释、KYC checklist、客服知识库这类答案主要来自文档片段的任务。GraphRAG 适合 AML、商户风险、复杂 KYC ownership 这类关系本身就是证据的任务。我会先用普通 RAG baseline 验证失败是否来自关系缺失, 再决定 graph-enhanced RAG 或 full GraphRAG。
上线时我不会只说一个准确率, 而会用 release gate: 权限泄漏为 0、critical unsupported claim 为 0、过期关键政策误引为 0、citation accuracy 达标、高风险样本专家复核通过。这样 PM 能决定 pilot 范围, BA 能维护业务样本, 架构师能设计可审计系统。
10.3 CTO 深挖
| 追问 | 回答要点 |
|---|---|
| 为什么不直接用长上下文? | 长上下文适合单个案件包或少量文档, 但不能替代 source lifecycle、权限过滤、版本下线、引用锚点、检索评估和审计回放。企业知识库需要可运营的 retrieval layer。 |
| 如何定位 RAG 错误? | 记录 trace: query rewrite、permission filter、candidate chunks、rerank score、context packing、source version、prompt/model version、answer、citation。按 no retrieval、wrong retrieval、stale source、context conflict、unsupported claim、citation mismatch 分诊。 |
| GraphRAG 最大技术风险是什么? | entity resolution 错误、edge provenance 不完整、路径过度解释、社区摘要过期。控制方式是 edge-level source、confidence、refresh、path faithfulness eval 和专家复核。 |
| 权限怎么做才可靠? | 权限必须在检索前或检索中执行, 不能等生成后遮蔽。索引、query、cache、context、citation jump、logs 都要携带 entitlement。权限测试要用同一 query 多角色回放。 |
| 如何防止每次改 prompt 都回归? | 建 eval runner 和 release gate。模型、prompt、chunking、index、reranker、metadata 任一变更都跑 smoke set、regression set、risk set 和 permission/version tests。 |
10.4 PM 深挖
| 追问 | 回答要点 |
|---|---|
| 如何决定先做哪个场景? | 看用户频率、知识源 readiness、风险等级、人工兜底、ROI 和 eval 可行性。通常先做低风险高频知识助手, 再扩展到 KYC、信贷、AML 等高风险流程。 |
| 指标达标但用户不采用怎么办? | 检查用户 workflow: 答案是否太长、引用是否可用、是否缺少下一步动作、是否需要对客话术、是否与审批系统割裂。eval 要加入 adoption feedback。 |
| 如何定义 pilot 范围? | 限定用户角色、知识域、问题类型和输出用途。高风险输出加人工复核, 不允许自动外发、自动拒绝或自动报送。 |
| 如何讲 ROI? | 用减少查找时间、降低返工、提升 first-contact resolution、减少错误引用、缩短 case handling time、提升 QA 覆盖率来量化。 |
| GraphRAG 值得投入吗? | 只有当关系证据直接影响核心任务时才值得。能用 metadata filter 和普通 RAG 解决的问题, 先不上 full GraphRAG。 |
10.5 BA 深挖
| 追问 | 回答要点 |
|---|---|
| BA 在 RAG 项目中最关键的产出是什么? | query set、gold docs、hard negatives、expected behavior、metadata definition、failure taxonomy 和验收规则。 |
| 如何写 RAG 需求? | 不写“回答准确”, 而写“必须基于当前有效政策, 每个金额阈值引用表格行, 缺少地区时追问, 无权资料不得检索, 过期政策不得引用”。 |
| 如何处理冲突资料? | 先定义 source-of-truth 和冲突优先级。答案应提示冲突和适用范围, 高风险场景升级人工。 |
| 如何做 hard negatives? | 选相似但错误的文档: 旧版政策、其他地区政策、相似产品政策、草稿、低可信 FAQ。hard negatives 能测试系统是否真的理解业务边界。 |
| 如何维护 golden set? | 按场景、风险、失败模式、版本变化和线上反馈持续更新。每个样本有 owner、review date、version 和 leakage control。 |
11. Source Anchors
| Source | Link | 本手册使用方式 |
|---|---|---|
| Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks | https://arxiv.org/abs/2005.11401 | RAG 的 retriever/generator、外部知识、knowledge-intensive task 基础 |
| RAGAS: Automated Evaluation of Retrieval Augmented Generation | https://arxiv.org/abs/2309.15217 | RAG 专用评估维度, 如 faithfulness、answer relevance、context precision、context recall |
| Microsoft GraphRAG Docs | https://microsoft.github.io/graphrag/ | 图谱化索引、实体关系、社区摘要、全局/局部查询的工程启发 |
| NIST AI RMF Generative AI Profile | https://www.nist.gov/publications/artificial-intelligence-risk-management-framework-generative-artificial-intelligence | 将 eval、治理、风险、透明度和监控放入 GenAI 风险管理闭环 |
12. 一页总结
Retrieval / Eval / GraphRAG 能力的成熟标志, 不是会搭一个问答 demo, 而是能回答下面这些问题:
- 正确知识源是谁拥有的, 哪个版本当前有效, 谁有权访问?
- 对哪些 query, 哪些 gold docs 必须被召回?
- chunk recall、context precision、faithfulness、citation support 分别是多少?
- 无答案、权限、版本、冲突、hard negative 是否有测试?
- LLM judge 评什么, deterministic checks 评什么, 专家评什么?
- GraphRAG 是因为关系证据必要而引入, 还是为了技术包装而引入?
- 失败能否定位到 source、chunk、retrieval、rerank、context、generation、citation、graph path 或权限层?
- release gate 是否能支撑 pilot、production review 和高风险场景审计?
对 AI PM, 这是一套产品上线证据。 对 AI BA, 这是一套业务需求和验收资产。 对 AI Architect, 这是一套可治理、可观测、可审计的知识系统架构。
作品集最有说服力的不是“我用了哪个模型”, 而是“我能把企业知识从资料堆变成可信 AI 能力, 并证明它在什么边界内可以上线”。