返回 Papers
AI 扩展计划 / Playbooks

AI Knowledge Governance / Ontology Playbook

这些来源作为知识治理、AI 风险管理和语义建模的官方锚点, 不构成法律、合规、审计或采购意见。

984AI_KNOWLEDGE_GOVERNANCE_ONTOLOGY_PLAYBOOK.md

AI Knowledge Governance / Ontology Playbook

面向对象: AI PM / AI Architect / Data Product Manager / AI Governance / 金融零售知识产品负责人。 核心问题: 如何把企业政策、SOP、产品规则、调查证据和业务术语治理成可检索、可推理、可评估、可审计的 AI knowledge product。 学习目标: 能为 KYC、AML、信贷、客服、监管响应等场景设计知识权威层级、ontology/taxonomy、RAG/GraphRAG 架构、质量 SLO、发布门禁和作品集证据。 前提假设: 读者已具备成熟 BA/PM 能力, 本手册不讲需求入门, 只讲 AI 知识治理和产品架构决策。


Source Anchors

这些来源作为知识治理、AI 风险管理和语义建模的官方锚点, 不构成法律、合规、审计或采购意见。

AnchorLink在本手册中的用法
NIST AI RMFhttps://www.nist.gov/itl/ai-risk-management-framework用 Govern / Map / Measure / Manage 组织 AI knowledge product 的风险识别、度量、控制和持续治理
NIST AI 600-1 GenAI Profilehttps://www.nist.gov/publications/artificial-intelligence-risk-management-framework-generative-artificial-intelligence用于 GenAI 特有风险: hallucination、data leakage、prompt injection、synthetic content、evaluation、misuse
ISO/IEC 42001https://www.iso.org/standard/42001用 AI management system 视角设计责任、流程、变更、监控、持续改进和管理评审
W3C RDF 1.1 Conceptshttps://www.w3.org/TR/rdf11-concepts/用 triple、IRI、literal、RDF graph、named graph 思考可交换的知识表达和证据图谱
W3C OWL 2 Overviewhttps://www.w3.org/TR/owl2-overview/用 ontology、class、property、restriction、reasoning 思考严格语义、约束和一致性检查
W3C SKOS Primerhttps://www.w3.org/TR/skos-primer/用 concept scheme、prefLabel、altLabel、broader、narrower、related 管理业务词表、分类和同义词
W3C DCAT 3https://www.w3.org/TR/vocab-dcat-3/用 catalog、dataset、distribution、data service、access rights、versioning 描述知识资产目录、版本和分发方式

1. 定位: 从文档库到 AI Knowledge Product

企业 AI 项目失败时, 团队常把问题归因于模型能力, 但金融零售场景里更常见的根因是知识没有产品化:

  • 权威来源不清, 政策、FAQ、培训材料、分行口径互相冲突。
  • 文档有版本, 但检索结果没有 effective date、expiry date、approval status。
  • 向量库能搜到相似文本, 但无法证明引用是否支撑回答中的关键断言。
  • 业务词表、产品代码、风险类型、地区规则没有统一语义, 导致召回和评估切片失真。
  • 知识 owner、steward、reviewer、incident responder 不清, 上线后没人维护。
  • 评测集只测“答案像不像”, 不测权限、版本、证据链、冲突处理和拒答。

本手册的核心观点:

AI knowledge is production-ready only when it is authoritative, modeled, permissioned, versioned, measurable, traceable and owned.

AI PM / AI Architect 在这里要交付的不是“一个知识库”, 而是一套可运行的知识产品能力:

能力低成熟度表达高成熟度表达
Source上传 PDF 到向量库Source authority hierarchy + owner + effective period + approval workflow
Semantics用文件夹分类Taxonomy / ontology / entity-relation-claim model
Retrievaltop-k 相似度Hybrid retrieval + metadata filter + rerank + permission + version tests
Graph看到 GraphRAG 就上图谱用多跳关系、冲突解释、证据路径和实体解析证明图谱必要性
Quality人工试几个问题Knowledge quality SLO + golden set + release gate + incident trend
Governance合规上线前看一次RACI + change control + audit lineage + quarterly capability review
Portfolio展示聊天 UI展示 knowledge source registry、ontology ADR、eval report、release memo、incident playbook

2. Advanced Framework: KGov-7

KGov-7 是本手册的主框架, 适合用来做 AI knowledge governance 方案、架构评审和作品集目录。

核心问题关键决策核心产物
1. Knowledge Domain哪个业务知识域值得产品化先做 KYC、AML、信贷、客服还是监管响应Knowledge Product Canvas
2. Authority冲突发生时信谁source authority hierarchy、owner、approval statusSource Registry + Authority Matrix
3. Semantics知识如何被机器理解taxonomy、ontology、property graph、RDF graph 的边界Ontology ADR + Concept Scheme
4. Ingestion文档如何进入可用状态OCR、chunking、metadata、PII、permission、versionIngestion Control Checklist
5. Retrieval / Reasoning如何找到、组合和解释证据RAG、GraphRAG、hybrid search、rules、reasonerAI Pattern ADR + Retrieval Eval Matrix
6. Evaluation如何证明可上线SLO、golden set、claim-level citation、权限测试Eval Report + Release Gate Memo
7. Operations上线后如何维护stewardship、change control、incident、review cadenceRACI + Runbook + Quarterly Review

一句话能力表达:

我能把一个金融零售知识域从 source inventory 建模到 ontology、RAG/GraphRAG、eval gate、release control 和 incident operations, 并沉淀成可审计作品集。


3. Knowledge Product Lifecycle

知识产品生命周期不是文档管理流程, 而是 AI 消费视角下的端到端治理链路。

阶段决策问题必备控制退出标准作品集证据
Domain selection这个知识域是否适合 AI 产品化价值、风险、用户、流程插入点、no-AI alternative有明确 owner、用户角色、业务指标和风险边界Opportunity Canvas
Source inventory哪些来源进入范围source-of-truth、authoritative copy、draft exclusion、retention每个 source 有 owner、class、权限、版本字段Knowledge Source Registry
Authority design来源冲突如何处理authority rank、conflict rule、approval status、effective date冲突测试有预期行为Authority Matrix
Semantic modeling如何统一概念、实体和关系taxonomy、ontology、entity resolution、claim model核心概念、关系和断言类型可被评审Ontology / Taxonomy ADR
Ingestion hardening文档如何转成可靠知识OCR QA、table preservation、chunk ID、lineage、PII taggingingestion gate 通过, 不合格来源不入生产 indexIngestion Report
Retrieval architecture用 RAG 还是 GraphRAGquery types、multi-hop need、metadata filter、permissionsretrieval eval 达到 gate 阈值Retrieval Eval Matrix
Answer governance模型如何输出可信答案claim extraction、citation support、refusal、conflict disclosure高风险 critical claim 有证据支持Answer Quality Report
Release是否允许 pilot / productionSLO、incident plan、RACI、rollback、audit replayrelease gate 明确 go / limited / no-goRelease Gate Memo
Operations知识如何持续有效freshness monitor、change log、steward review、incident workflow月度质量趋势和变更复盘稳定Quarterly Review Pack
Retirement何时下线或替换知识expiry、deprecation、archival、index purge过期知识不再被检索、引用或缓存Retirement Log

关键原则:

  • 向量库不是 source of truth, 只能是消费层索引。
  • 文档可用不等于 AI 可用, 还要可定位、可验证、可授权、可过期、可回放。
  • ontology 不是画给专家看的图, 而是检索、推理、权限、评估和审计的共同语言。
  • 每个上线版本都要能回答: 当时用了哪些来源、哪些版本、哪些权限、哪些 prompt、哪些模型、哪些评测结果。

4. Source Authority Hierarchy

金融零售 AI 知识系统必须先定义 source authority hierarchy。否则当政策、SOP、FAQ、培训材料和历史工单冲突时, 模型会把“相似”误当“正确”。

4.1 Authority Levels

Level来源类型示例AI 使用边界冲突处理
A0 External binding authority监管规则、正式监管函、法院/仲裁约束性材料AML 法规、KYC 监管指引、消费者保护监管要求作为最高外部约束和解释边界, 需要合规确认与内部政策冲突时升级 Risk/Compliance
A1 Internal approved policy经批准的企业政策、制度、产品条款KYC Policy v6.1、Credit Risk Policy、Fee Policy可作为高风险回答的 primary evidence覆盖 SOP、FAQ、培训材料
A2 Approved procedure / SOP正式发布的操作手册、流程、控制清单Branch KYC SOP、Customer Service Refund SOP用于操作步骤、例外流程、人工升级不得推翻 A1 政策
A3 System of record业务系统事实记录Core banking ledger、CRM master、case management用于客户、账户、交易、case 状态事实与文档冲突时按事实类型决定
A4 Product / training knowledge培训材料、产品说明、内部 FAQNew credit card training deck、agent FAQ用于解释、话术和低风险引导不可作为高风险政策依据
A5 Operational notes工单、会议纪要、分行经验、analyst notesCase note、implementation memo用于背景、案例和候选知识需要 steward 审核后才能提升权威
A6 External reference行业报告、供应商文档、公开网页Vendor guide、industry article用于背景学习或 vendor 功能说明不得替代内部政策和合规解释

4.2 Conflict Rules

冲突类型例子系统预期行为人工责任
新旧版本冲突KYC Policy v5.4 与 v6.1 同时命中根据 query business date 和 effective period 选择版本, 并引用版本号Knowledge Owner 维护 effective / expiry
政策 vs SOPSOP 步骤没有覆盖新政策限制回答政策约束, 标记 SOP 可能过期, 升级流程 ownerProcess Owner 更新 SOP
总部 vs 地区总部政策和州/国家地区规则不同根据 jurisdiction filter 返回适用规则, 不跨地区引用Compliance 维护 jurisdiction mapping
FAQ vs 条款FAQ 简化说明与产品条款不一致高风险问题引用条款, FAQ 只作辅助解释Product Owner 修正 FAQ
系统事实 vs 文档说明客户状态已变更, SOP 仍描述旧状态对事实类问题以 system of record 为准, 对规则类问题以政策为准Data Owner 保障事实同步
调查证据冲突AML case 中交易证据与 analyst note 不一致展示冲突证据路径, 不做最终判断AML Analyst 复核

5. Taxonomy vs Ontology vs Knowledge Graph

5.1 决策边界

资产解决的问题不适合解决的问题金融零售例子作品集表达
Taxonomy分类、标签、导航、权限过滤、统计切片复杂关系推理和一致性检查风险类型、客户类型、产品线、文档类型Taxonomy tree + tag governance
Controlled vocabulary同义词、缩写、业务别名、搜索召回复杂业务规则UBO / beneficial owner / 最终受益人SKOS concept scheme
Ontology概念、实体、关系、约束、业务语义一致性快速一次性 FAQ demoCustomer、Account、BeneficialOwner、Case、PolicyClause 关系Ontology ADR + class/property catalog
Knowledge graph实体和关系实例化, 支持路径、邻居、社区、证据解释纯文档问答、低风险 FAQAML entity network、merchant risk networkGraph schema + evidence path examples
RDF graph标准化语义交换、named graph、IRI、跨系统互操作团队只会 property graph 且无互操作需求policy clause、claim、evidence span、source metadataRDF mapping profile
Property graph工程落地快, 适合查询路径和运营图谱需要标准语义推理和跨机构交换Neo4j AML investigation graphCypher query + graph screen
OWL ontology严格语义、class/property 约束、reasoning、一致性规则频繁变化且团队无 ontology 运维能力高风险客户定义、控制义务、产品资格约束OWL profile decision memo

5.2 选择路径

场景推荐路径判断理由
客服 SOP 助手Taxonomy + SKOS vocabulary + RAG核心是术语召回、版本过滤、引用和拒答, 不需要复杂图推理
信贷政策助手Taxonomy + lightweight ontology + RAG + rules需要客户类型、产品、地区、阈值、例外关系, 但最终决策仍由规则和人工
AML 调查图谱Ontology + knowledge graph + GraphRAG需要客户、账户、设备、商户、交易、名单、case 之间的多跳关系和证据路径
KYC 政策助手SKOS + policy clause ontology + RAG需要同义词、文档版本、条款引用、地区适用性和冲突提示
监管响应知识库DCAT catalog + ontology + evidence lineage需要材料目录、来源、版本、责任人、审计证据和复用

5.3 反模式

反模式为什么危险更好的做法
把文件夹目录当 taxonomy目录反映存放习惯, 不一定反映业务概念建立业务概念 scheme, 文档只作为资源挂载
把所有边都放进图谱图变成杂乱事实堆, 查询和审计困难只建与决策、检索、证据和风险相关的关系
用 embedding 代替同义词治理相似度无法表达权威术语、禁用词和地区语义用 SKOS 管理 prefLabel / altLabel / hiddenLabel
用 LLM 生成 ontology 后直接上线概念边界未经过 domain owner 验证LLM 草拟, steward 评审, eval 验证
用 GraphRAG 掩盖文档治理问题图谱无法修复过期、无权、冲突来源先做 source authority 和 metadata gate

6. RDF / OWL / SKOS / DCAT Mapping

标准不是为了“显得先进”, 而是让知识资产可交换、可审计、可治理。落地时可以采用完整 RDF/OWL, 也可以先用这些标准作为 conceptual mapping, 再映射到关系库、搜索索引或 property graph。

标准核心能力在 AI 知识治理中的映射最小落地方式
RDF 1.1用 subject-predicate-object 表达 graph data modelPolicyClause -> appliesTo -> CustomerSegmentClaim -> supportedBy -> EvidenceSpan 表达为可追踪关系为实体、文档、条款、断言、证据分配稳定 URI/ID
RDF named graph支持多个图和来源上下文用 named graph 表示不同 source、版本、jurisdiction、approval status每批 ingestion 生成 graph_id / source_version_id
OWL 2表达 class、property、restriction 和语义约束定义 HighRiskCustomerBeneficialOwnerKYCRequirementrequiresDocument 等概念及约束先维护 class/property catalog 和禁止冲突规则
SKOS管理 concept scheme、标签、同义词、层级和相关概念管理业务词表: KYC、CDD、EDD、UBO、merchant risk、complaint type每个概念有 prefLabel、altLabel、definition、owner
DCAT 3描述 catalog、dataset、distribution、data service、access rights、versioning建立 knowledge source catalog, 描述文档集、数据集、API、索引、权限、版本Source Registry 字段对齐 DCAT metadata

6.1 Standards-to-Artifact Mapping

作品集资产可借鉴标准必备字段
Knowledge Source RegistryDCATtitle、identifier、publisher、owner、access rights、release date、modified date、version、status、distribution
Concept SchemeSKOSconcept_id、prefLabel、altLabel、hiddenLabel、definition、broader、narrower、related、owner
Ontology CatalogOWLclass、property、domain、range、cardinality、constraint、disjointness、example
Evidence GraphRDFsubject、predicate、object、source_id、graph_id、valid_time、asserted_by
Claim ContractRDF + application ontologyclaim_id、claim_type、normalized_predicate、evidence_span、support_status、permission_group
Source Version ChainDCAT + provenance metadataprevious_version、current_version、replaces、effective_date、expiry_date、change_note

6.2 Practical URI / ID Strategy

对象示例 ID设计要求
Knowledge sourcesrc:kyc-policy-v6-1稳定、可版本化、可映射到文档管理系统
Policy clauseclause:kyc-v6-1-3-4-non-resident-entity精确到可引用粒度, 支持 citation
Conceptconcept:beneficial-owner不随语言变化, label 可多语言
Entity instancecustomer:internal-12345不在日志和作品集中暴露真实 PII
Claimclaim:kyc-doc-required-2026-014可绑定证据、版本、权限、审核状态
Graph versiongraph:kyc-prod-2026-06-15支持 audit replay 和 rollback

7. Entity / Relation / Claim Model

RAG 只处理“文本片段”会遇到三个限制:

  1. 无法稳定区分文档、条款、事实、解释和建议。
  2. 无法表达“这个断言由哪个证据支持, 在什么时间、地区、角色下有效”。
  3. 无法把用户反馈、事故和评测回流到具体知识单元。

因此高级知识治理要把 claim 作为一等对象。

7.1 Core Entities

Entity说明关键字段金融零售例子
Source权威来源资产source_id、authority_level、owner、approval_status、versionKYC Policy v6.1
Document具体文档或页面doc_id、source_id、format、language、distributionPDF、HTML、SharePoint page
Section / Clause可引用条款clause_id、heading、page、paragraph、effective_date3.4 Non-resident Entity
Concept业务概念concept_id、prefLabel、altLabel、definitionBeneficial owner、EDD、MSB
Entity Instance业务实体实例entity_id、entity_type、source_system、permission_groupcustomer、merchant、account、case
Relation实体之间的关系subject、predicate、object、valid_time、sourcecustomer owns account
Claim可验证断言claim_id、claim_type、statement、support_status、validity“非居民企业需额外提交税务居住证明”
Evidence Span支撑 claim 的证据片段evidence_id、doc_id、clause_id、offset/page/table_row第 12 页第 3 段
Decision / RecommendationAI 或人工建议decision_id、basis_claims、human_review_statusAML case escalation recommendation
Control治理或业务控制control_id、control_type、owner、test_methodPermission filter, citation validator

7.2 Relation Catalog

RelationDomain -> Range用途示例
definesSource / Clause -> Concept术语定义和引用KYC Policy defines BeneficialOwner
appliesToClause / Claim -> Segment / Jurisdiction / Product适用性过滤Clause appliesTo NonResidentEntity
requiresPolicy / Procedure -> Document / Action / Control缺件、流程和控制EDD requires SourceOfFundsDocument
overridesSource / Clause -> Source / Clause权威冲突处理Policy v6.1 overrides v5.4
supportedByClaim -> Evidence Spanclaim-level citationClaim supportedBy clause 3.4
contradictsClaim -> Claim冲突提示和 steward reviewFAQ claim contradicts policy claim
derivedFromClaim / Entity -> Source / RecordlineageRisk score derivedFrom transaction pattern
visibleToSource / Evidence / Claim -> Role / Entitlement权限控制Investigation note visibleTo AMLAnalyst
validDuringClaim / Relation -> Time Period版本和生效期Claim validDuring 2026-01-01 to 2026-12-31
reviewedByClaim / Source -> Steward / SME知识审核KYC steward reviewed claim

7.3 Claim Types

Claim type用途需要的证据强度示例
Policy claim政策义务、限制、资格、阈值A0 / A1 primary evidence“高风险客户必须执行 EDD”
Procedure claim操作步骤、人工升级、系统路径A2 primary evidence“缺少 UBO 文件时创建 remediation task”
Fact claim客户、账户、交易、case 状态A3 system-of-record evidence“Case C-2026-008 已分配给 analyst team A”
Interpretation claim对证据的解释或风险叙述多来源证据 + human review“该商户行为符合 structuring typology”
Recommendation claim建议动作policy + facts + HITL status“建议升级 EDD review”
Refusal claim不回答或升级人工的理由policy / permission / missing evidence“当前角色无权查看调查细节”

7.4 Claim Contract

字段填写要求示例
claim_id全局唯一, 可回放claim:kyc-nre-tax-doc-2026-001
claim_typepolicy / procedure / fact / interpretation / recommendation / refusalpolicy
statement面向用户的自然语言断言非居民企业开户需提供税务居住证明或等效文件。
normalized_predicate机器可评估谓词requiresDocument(NonResidentEntity, TaxResidencyEvidence)
source_authority最高支撑来源等级A1
evidence_ids支撑证据片段evidence:kyc-v6-1-p12-para3
effective_period生效期间2026-01-01/2026-12-31
jurisdiction适用地区US
permission_group可见角色kyc-analyst, compliance-reviewer
support_statussupported / partially_supported / contradicted / unsupportedsupported
reviewer业务或知识 stewardKYC Policy Steward
last_reviewed_at最近审核日期2026-06-15

8. Knowledge Ownership / Stewardship

AI 知识治理需要明确 owner, 但 owner 不是一个人包办所有责任。高成熟组织会把 business ownership、knowledge stewardship、data ownership、architecture ownership、risk oversight 拆开。

8.1 Roles

Role核心责任典型交付物
AI Product Owner价值、范围、路线图、用户采纳、release decisionProduct roadmap、release memo、adoption dashboard
Knowledge Product Owner知识域价值、权威来源、内容优先级、业务冲突决策Knowledge Product Canvas、authority matrix
Knowledge Steward术语、条款、claim、版本、审核和修复Concept scheme、claim review queue、change log
Domain SME专业正确性和边界场景复核Golden set review、expert adjudication
Data Owner系统事实、数据质量、retention、lineageData contract、quality SLO dashboard
AI Architect架构、集成、权限、索引、可观测、回滚C4、data flow、ADR、control design
EvalOps Ownergolden set、eval runner、release gate、质量趋势Eval report、regression suite
Risk / Compliance风险分类、控制要求、审计证据、人类监督Risk register、control attestation
Security / PrivacyIAM、PII、日志、供应商、访问审计Permission model、privacy review
Operations Lead日常流程运行、用户反馈、培训、incident intakeRunbook、feedback dashboard

8.2 RACI for Knowledge Change

ActivityProductKnowledge OwnerStewardSMEArchitectEvalOpsRiskSecurity
新来源纳入ARRCCCCC
权威等级确认CA/RRCIICI
taxonomy / ontology 变更CARRCCII
ingestion 发布ICRCA/RRCC
权限标签变更ICRIRCCA/R
golden set 更新CCRRIA/RCI
release gate 决策A/RCCCRRCC
事故定级和遏制ACRCRRA/RC

9. Version / Freshness / Permissions

9.1 Version Model

对象版本字段控制要求
Sourcesource_version、approval_status、published_at只有 approved 版本进入 production retrieval
Clauseclause_version、effective_date、expiry_date回答必须按 business date 选择有效条款
Conceptconcept_version、definition_change_type概念定义变化触发 retrieval 和 eval 回归
Ontologyontology_version、breaking_changeclass/property 破坏性变更需要 architecture gate
Indexindex_version、embedding_model、chunking_strategy可回放每次回答使用的 index
Promptprompt_version、policy_instructionsprompt 变更触发 regression eval
Modelmodel_id、provider_version、deployment模型变更记录在 release memo
Eval seteval_set_version、scenario_coveragerelease gate 使用固定版本

9.2 Freshness Controls

知识类型Freshness SLOBreach action
KYC / AML policy已发布变更 24 小时内进入 approved index高风险查询显示 stale warning, 超过阈值停用相关 route
Credit policy当日发布当日回归测试未通过 regression 不允许用于生产建议
Customer service SOP48 小时内更新 searchable SOP允许低风险 FAQ 继续, 涉及费用/承诺升级人工
System factsP95 同步延迟小于 30 分钟超过阈值不生成事实性断言
Regulator response evidence每次材料变更后生成 lineage snapshot未生成 snapshot 不纳入审计包

9.3 Permission Model

权限不能只控制文档下载, 还要控制 retrieval、prompt context、citation、logs、eval、feedback 和 cache。

必控点失败后果
Source access用户是否可访问原文引用链接泄露
Retrieval entitlementchunk 是否能被召回无权知识进入 context
Context packing最终 prompt 是否含无权内容模型输出泄露
Citation rendering用户是否可打开引用答案安全但证据泄露
Logs and tracesprompt、context、output 是否脱敏日志成为影子数据库
Eval samples生产样本是否可用于评测PII / restricted info 外泄
Cache不同角色是否隔离缓存低权限用户读取高权限答案
Feedback用户纠错是否保留敏感信息反馈池污染和合规风险

权限测试必须纳入 release gate:

测试设计方式通过标准
same query, different role分别用 branch staff、KYC analyst、compliance reviewer 查询返回内容和引用符合角色权限
denied citation test低权限用户问高权限问题拒答或升级, 不返回证据标题、摘要或链接
cache isolation test高权限查询后低权限重复查询低权限结果不复用高权限 context
audit replay test回放历史答案能还原 user role、source version、index、prompt、model

10. RAG and GraphRAG Fit

RAG 和 GraphRAG 是知识消费模式, 不是治理替代品。架构决策应从 query pattern、证据结构、风险等级和可解释性要求出发。

10.1 Pattern Decision Matrix

需求PreferAvoid决策理由
单文档政策解释、引用和拒答RAG + metadata filter + citation validatorGraphRAG-first主要挑战是权威、版本和引用, 不是多跳关系
多文档冲突和适用性判断RAG + ontology metadata + conflict detector纯向量 top-k需要 jurisdiction、effective date、authority rank
多实体调查路径GraphRAG + evidence retrieval + HITLlong-context 文档塞入需要解释客户、账户、设备、交易、名单、case 的关系
SOP 步骤导航RAG + workflow state + rulesLLM 自由编排流程流程步骤需要确定性控制和人工升级
信贷政策资格判断RAG + rules engine + human review让 LLM 直接做 credit decision高风险决策必须由可审计规则、模型和人工控制
监管材料检索DCAT catalog + RAG + lineage只做聊天问答审计需要材料目录、版本、责任人和证据链

10.2 GraphRAG Justification Checklist

只有当至少满足下列多个条件时, GraphRAG 才是强选项:

条件具体判断
多跳必要单个答案需要跨 customer、account、merchant、device、transaction、case 等多类实体
关系是证据关系路径本身是风险解释或调查依据
entity resolution 是核心同一客户、商户、设备、地址、UBO 的合并影响结论
需要社区或模式摘要AML typology、merchant ring、fraud network 需要群体结构
文档检索无法表达路径chunk 召回能给材料, 但无法解释关系链
审计要求路径可回放analyst 要看到为什么某条路径支持风险 narrative

10.3 RAG / GraphRAG Hybrid Architecture

Knowledge sources
  -> Source registry / authority / permissions
  -> Ingestion pipeline
      -> Document store + chunk index
      -> Concept scheme / ontology registry
      -> Entity resolution + relationship extraction
      -> Knowledge graph
  -> Retrieval orchestration
      -> query classification
      -> metadata filter
      -> vector / lexical retrieval
      -> graph neighborhood / path retrieval
      -> rerank and context packing
  -> Answer governance
      -> claim extraction
      -> citation support
      -> conflict / stale / permission checks
      -> human review route
  -> EvalOps and audit
      -> golden set
      -> quality SLO
      -> lineage replay
      -> incident learning

11. Policy / SOP / Document Ingestion Controls

高质量 ingestion 不是“把 PDF 切 chunk”。它要把 source authority、结构、语义、权限、版本、证据定位和评估需求一起带入索引。

11.1 Pre-Ingestion Gate

Check通过标准阻断条件
Source approvalsource 已被 owner 标记为 approved / production-eligible草稿、过期、来源不明
Authority levelA0-A6 等级明确冲突时无法决定信谁
Owner and stewardowner、steward、review cadence 明确上线后无人维护
Effective periodeffective / expiry / jurisdiction 明确版本无法过滤
Permission classrole、entitlement、PII class 明确无法做 retrieval permission
Format qualityOCR、表格、页码、标题结构可解析表格错位、扫描质量差
Retentionretention 和 deletion rule 明确过期知识无法清理
Usage boundary可用于 RAG / eval / training / analytics 的边界明确知识用途扩散

11.2 Ingestion Pipeline Controls

Step控制点输出
Parsing保留标题层级、页码、表格行列、脚注、附件structured document tree
Normalization统一日期、产品代码、地区、部门、术语normalized metadata
Chunkingsection-aware chunk, parent-child, table-preservingchunk_id + parent_id
Metadata enrichmentauthority、permission、version、jurisdiction、doc_typeretrieval filter fields
Concept taggingSKOS concept、synonym、product、risk typeconcept tags
Entity extractioncustomer、merchant、policy、control、case 等实体entity candidates
Claim extraction从条款中抽取 policy / procedure claimclaim registry
Validationsample QA、hard negative、permission testsingestion QA report
Index publish生成 index_version 和 lineage snapshotproduction index manifest

11.3 Ingestion Acceptance Metrics

MetricTarget说明
OCR critical table accuracy>= 99% sampled pass费率、阈值、文件清单、风险矩阵不能错行
Section anchor coverage>= 98%引用必须能定位到 section/page/paragraph/table row
Required metadata completeness100% for production sourcesauthority、owner、version、permission、effective date
Duplicate / near-duplicate review100% high-similarity reviewed防止旧政策和新政策同时有效
Permission tagging pass100% critical source sampled pass高风险来源不可缺权限标签
Claim extraction review>= 95% supported for critical claims关键政策断言必须可证据化

12. Knowledge Quality SLOs

AI knowledge quality SLO 要覆盖 source、semantics、retrieval、answer、operations。单看 answer accuracy 不够。

SLO定义建议目标Breach action
Source freshness生产 index 中知识与 approved source 的延迟P95 小于 24-48 小时, 按场景调整stale warning、route downgrade、owner alert
Authority correctness高风险回答引用最高适用权威来源critical sample 100%release no-go, 修复 authority matrix
Retrieval recallgold evidence 是否进入候选recall@10 >= 90% for core scenarios调整 metadata、hybrid search、synonym
Context precision最终 context 中相关且有权且有效的证据比例>= 85%, critical permission 100%优化 rerank、filter、context packing
Citation support关键断言被引用证据支持critical claim 100%, ordinary claim >= 95%加 citation validator 和 claim review
Version correctnessquery business date 选择正确版本100% sampled pass停止受影响 source route
Permission correctness检索、context、citation、cache 均按权限100%立即 incident, 关闭 route
Conflict detection已知冲突能被识别并提示>= 95% risk set pass增加 conflict rules 和 steward review
Refusal quality无答案、无权限、低证据问题正确拒答>= 95%更新 refusal policy 和 query classifier
Audit replay历史答案可重放 source/index/prompt/model100% release sample补 lineage 或禁止生产

SLO 的作品集表达不应只展示数字, 还要展示:

  • 样本来源和覆盖范围。
  • 失败分级和业务影响。
  • release decision 如何被指标驱动。
  • 失败如何进入 backlog、golden set 和 incident runbook。

13. Evidence Lineage

Evidence lineage 要能从最终答案追溯到:

User question
  -> user role / entitlement / business date
  -> query rewrite / classifier
  -> retrieval filters
  -> candidate chunks / graph paths
  -> selected context
  -> answer claims
  -> citations / evidence spans
  -> source versions
  -> owner review / release gate

13.1 Minimum Audit Record

字段说明
interaction_id单次问答或 workflow 的唯一 ID
user_role不记录不必要个人身份, 但记录权限角色
business_date适用政策日期
query_text_hash敏感场景使用 hash 或脱敏文本
query_intentpolicy question、procedure question、fact lookup、investigation narrative
retrieval_filtersauthority、jurisdiction、permission、effective date
candidate_ids初召回证据 ID
selected_context_ids进入 prompt 的证据 ID
graph_path_idsGraphRAG 使用的实体和关系路径
answer_claim_ids输出中的关键断言
citation_ids每个 claim 对应证据
model_prompt_index_versionsmodel、prompt、index、ontology、eval set 版本
safety_decisionanswered、refused、escalated、limited answer
human_review_statusnot_required、pending、approved、rejected

13.2 Claim-Level Citation Rule

断言类别Citation 要求示例
金额、阈值、日期必须 evidence-span citation手续费、贷款期限、EDD 阈值
资格条件必须政策条款 citation信贷申请资格、开户资格
操作步骤必须 SOP section citation客服退款流程
风险解释必须多证据 citation + human reviewAML suspicious pattern narrative
一般解释paragraph-level citation产品概念和流程说明
拒答citation 可选, 但必须记录 refusal reason无权限、无证据、冲突未解决

14. Release Gates

14.1 Gate Overview

Gate核心问题Go 条件No-Go 条件
G0 Domain Gate知识域是否值得做有明确业务结果、owner、用户、风险边界只有技术 demo, 无业务 owner
G1 Authority Gate来源是否权威可用source registry、authority matrix、conflict rules 完成草稿/过期/无 owner 来源进入范围
G2 Semantic Gate语义是否足够taxonomy / ontology / claim model 覆盖核心 query术语冲突、关系不清、claim 无证据
G3 Ingestion Gate文档是否可被 AI 消费metadata、permission、version、chunk QA 通过表格错位、权限缺失、版本缺失
G4 Retrieval Gate系统能否找到正确证据recall、context precision、hard-negative 测试达标gold evidence 找不到或旧政策排前
G5 Answer Gate输出是否可引用可拒答citation support、faithfulness、refusal、conflict 测试达标unsupported critical claim
G6 Risk Gate生产风险是否可控RACI、runbook、audit replay、rollback 完成权限泄漏、无 incident owner
G7 Pilot / Release Gate是否进入试点或生产limited user group、monitoring、feedback loop无质量 dashboard 或无人工升级路径
G8 Scale Gate是否扩大范围质量趋势稳定, ROI 和 adoption 证明有效incident 趋势恶化或知识维护不可持续

14.2 Release Gate Memo Template

Section填写要求示例表达
Use case业务场景、用户、风险等级KYC policy assistant for KYC analyst, regulated internal decision support
Knowledge scope包含和排除的来源包含 approved KYC policies and SOP, 排除 draft training decks
Authority decision最高权威和冲突规则A1 policy overrides FAQ; jurisdiction-specific rules override global SOP
Semantic scopetaxonomy / ontology / graph 范围SKOS terms for KYC docs; clause ontology for applicability
Eval summary样本、指标、失败240-query golden set; permission tests 100% pass; 7 low-risk synonym failures fixed
Risk controls权限、引用、拒答、HITLhigh-risk claims require claim-level citation; conflict escalates to compliance
Operational readinessowner、runbook、monitoringknowledge steward weekly review; stale source alert daily
Decisiongo / limited go / no-golimited go for 25 analysts, no customer-facing use
Conditions上线条件和复核时间monthly gate review; no auto decisioning

15. Incident Patterns

Pattern触发信号可能根因Immediate containmentCorrective action
Stale policy answer引用过期政策或旧 SOPeffective date 缺失, index 未刷新停用 affected source route, 显示 stale warning修复 version metadata, 加 freshness SLO alert
Unsupported claim答案中关键断言无证据prompt 过强, context 不足, model hallucination禁用相关 answer template, 升级人工加 claim validator, failure 入 golden set
Wrong citation引用存在但不支持断言citation 粒度太粗, rerank 错误回退到 paragraph-level 或拒答claim-level citation eval
Permission leakage无权用户看到高权限内容retrieval filter、cache、citation entitlement 缺陷关闭 route, 保存审计日志, 通知 Security/Risk修复 entitlement, 增加角色回归测试
Conflict not detectedFAQ 与政策冲突但系统直接回答authority matrix 不完整受影响主题改为人工确认增加 contradicts 关系和 conflict rules
Ontology drift新产品/政策概念未入词表steward cadence 不足用 fallback RAG 回答并提示范围限制每月 concept review, change impact eval
Graph relation errorAML 路径连接错误实体entity resolution false positive隐藏 graph explanation, analyst review调整 matching threshold, 加人工确认
Table extraction error阈值、费率、文件清单错位OCR/table parser 失败停用受影响表格引用table QA gate, 保留结构化表格
Prompt injection via document文档中的指令影响模型未隔离 evidence 与 instruction禁用 source, 安全复核content sanitization, instruction hierarchy
Eval blind spot生产失败未被 gate 捕获golden set 覆盖不足事故样本进入 regression set更新 scenario taxonomy 和 release criteria

16. Architecture / Product Mapping

ComponentProduct decisionArchitecture decisionGovernance evidence
Knowledge Source Registry哪些知识进入产品范围registry schema、DCAT mapping、owner workflowsource inventory、authority matrix
Taxonomy / Concept Service用户和系统如何统一术语SKOS store、synonym API、concept versioningconcept scheme、change log
Ontology Registry哪些实体、关系和约束被正式采用OWL / property graph schema / application ontologyontology ADR、class/property catalog
Ingestion Pipeline来源如何变成可消费知识parsers、chunking、metadata enrichment、QA gatesingestion report、index manifest
Permission Engine谁能检索和引用什么RBAC/ABAC、entitlement filter、cache isolationpermission model、test report
Retrieval OrchestratorRAG、GraphRAG、rules 如何组合query classifier、hybrid search、graph path retrieval、rerankretrieval eval matrix
Answer Governance Layer如何生成、拒答、引用、升级claim extraction、citation validator、conflict detectoranswer quality report
EvalOps Platform如何做回归和 release gategolden set、judge、expert review、SLO dashboardeval report、release memo
Audit / Lineage Store如何回放每次回答trace schema、source/index/prompt/model versioningaudit replay sample
Stewardship Console谁维护知识和修复事故review queue、approval workflow、incident queueRACI、runbook、quarterly review

16.1 C4-Level Boundary

Layer内容关键边界
ContextAI knowledge capability 服务 KYC、AML、Credit、Service 等业务流程不替代高风险最终决策
ContainerSource registry、ingestion、taxonomy/ontology、retrieval、graph、answer governance、EvalOps、auditsource-of-truth 与 index 分离
Componentparser、chunker、entity resolver、claim extractor、metadata filter、citation validator权限和版本在 retrieval 前生效
Code / Contractdata contract、claim contract、source metadata schema、eval schemaschema 变更走 gate

17. Financial Retail Cases

17.1 KYC Policy Assistant

维度设计
用户KYC analyst、branch operations、compliance reviewer
核心问题根据客户类型、地区、产品和业务日期返回适用 KYC 要求
Source hierarchyA0 regulator guidance, A1 KYC Policy, A2 onboarding SOP, A4 training FAQ
Semantic modelCustomerSegment、EntityType、Jurisdiction、KYCRequirement、DocumentRequirement、Exception
RAG fit强 RAG, 需要 metadata filter、claim-level citation、conflict detection
Graph fit轻量图谱用于客户类型、UBO、关联方和文件要求关系
Release gate权限 100%, version correctness 100%, high-risk policy claim citation 100%
Portfolio artifactKYC Source Registry + Clause Ontology + Release Gate Memo

关键设计决策:

  • 用 SKOS 管理 UBO / beneficial owner / ultimate beneficial owner / 最终受益人 等同义词。
  • 用 claim model 表达“某客户类型需要某文件”的政策断言。
  • 对 branch staff 隐藏调查细节, 但允许查看客户需提交文件清单。
  • 当 FAQ 与 policy 冲突时, 回答 policy 并提示 FAQ 需要 steward review。

17.2 AML Investigation Knowledge Graph

维度设计
用户AML analyst、case manager、risk reviewer
核心问题将客户、账户、商户、设备、交易、名单、历史 case 和 typology 连接成可解释证据路径
Source hierarchyA0 AML regulation, A1 AML policy, A3 transaction monitoring / case system, A5 analyst notes
Semantic modelCustomer、Account、Transaction、Merchant、Device、Address、UBO、Case、Typology、EvidenceItem
RAG fit用于政策解释、case narrative 草稿、typology definition
Graph fit强 GraphRAG, 因为风险解释依赖多跳关系和路径证据
Release gategraph path precision、entity resolution QA、human review required for interpretation claim
Portfolio artifactAML graph schema + evidence path examples + HITL narrative control

关键设计决策:

  • GraphRAG 输出不得直接生成 SAR filing decision, 只生成证据摘要、缺口清单和风险叙述草稿。
  • sameDeviceAssharesAddressWithcontrolledBy 等关系需要 source 和 confidence。
  • entity resolution false positive 被视为高风险 incident, 需要 analyst adjudication。
  • 每个 risk narrative claim 绑定 transaction、case note、policy typology 或 graph path evidence。

17.3 Credit Policy Assistant

维度设计
用户credit officer、underwriter、policy reviewer
核心问题根据产品、地区、客户类型、收入、抵押品和例外条件解释政策要求
Source hierarchyA1 credit policy, A2 underwriting SOP, A3 loan origination system, A4 training examples
Semantic modelProduct、EligibilityRule、Exception、CollateralType、IncomeEvidence、RiskGrade
RAG fit政策解释和引用强适合
Graph fit中等, 用于规则依赖和例外路径, 不替代规则引擎
Release gate不允许 LLM 做自动授信决定; recommendation claim 必须 HITL
Portfolio artifactPolicy-to-Rule Mapping + Claim Citation Report + No-AI Boundary ADR

关键设计决策:

  • 数值阈值、资格条件、例外流程必须从结构化政策表或规则服务读取。
  • LLM 可以解释政策、生成 memo 草稿和缺件清单, 不能成为 credit decision owner。
  • 当用户询问“是否批准”时, 系统转为 evidence checklist 和人工审批路径。

17.4 Customer Service SOP Assistant

维度设计
用户contact center agent、supervisor、quality analyst
核心问题快速找到已批准 SOP、话术、升级路径和客户承诺边界
Source hierarchyA1 product terms, A2 service SOP, A4 approved scripts / FAQ, A5 historical tickets
Semantic modelCustomerIntent、Product、SOPStep、EscalationReason、AllowedCommitment、ForbiddenCommitment
RAG fit强 RAG, 重点是版本、引用、权限和话术控制
Graph fit轻量, 用于 intent-to-SOP 和 escalation path
Release gate禁止越权承诺、费用减免、法律解释; 高风险意图升级 supervisor
Portfolio artifactSOP Taxonomy + Escalation Decision Table + Agent Answer Quality Dashboard

关键设计决策:

  • 用 taxonomy 统一投诉类型、产品、服务请求和升级原因。
  • 对费用、罚息、赔付、法律解释类问题设置 deterministic guardrail。
  • 客服答案必须显示 SOP 引用和允许承诺边界。

18. Templates / Portfolio Artifacts

18.1 Knowledge Product Canvas

Block填写要求示例
Product name知识产品名称KYC Policy Knowledge Product
Business workflow嵌入哪个流程Entity onboarding, periodic review, remediation
Users人类和系统消费者KYC analyst, branch staff, compliance reviewer, RAG API
Decisions supported支持但不替代的决策required documents, escalation, exception routing
Excluded decisions明确不做什么不自动决定客户是否通过 KYC
Source scope纳入来源approved policy, SOP, regulator guidance, system facts
Authority model冲突时信谁regulator > approved policy > SOP > FAQ
Semantic assetstaxonomy / ontology / graphcustomer segment taxonomy, KYC requirement ontology
Quality SLO质量目标permission 100%, critical citation 100%, freshness P95 < 24h
Risk controls控制措施refusal, conflict alert, HITL, audit replay
Operating model责任knowledge owner, steward, EvalOps, Risk
Value metric价值指标analyst search time, missing-document error rate, rework rate

18.2 Source Registry Schema

FieldPurposeExample
source_id稳定标识src:kyc-policy-v6-1
title来源标题KYC Policy v6.1
authority_levelA0-A6A1
owner内容责任人Head of KYC Policy
steward日常维护人KYC Knowledge Steward
approval_statusdraft / approved / deprecated / retiredapproved
version版本6.1
effective_date生效日期2026-01-01
expiry_date失效日期2026-12-31
jurisdiction适用地区US
permission_group权限组kyc-analyst
allowed_ai_useRAG / eval / training / analyticsRAG, eval
retention_class保留策略regulated-policy-7y
distribution文档或 API 分发SharePoint PDF, policy API
lineage_snapshotingestion 快照snapshot:kyc-2026-06-15

18.3 Ontology ADR

Section内容要求示例表达
Context业务知识域和痛点KYC 文档要求依赖客户类型、地区、产品和例外
Decision采用的语义模型SKOS concept scheme + lightweight OWL-style ontology + RAG metadata
Rejected options拒绝方案和原因纯向量 RAG 无法稳定处理版本和适用性; full OWL reasoner 当前运维成本过高
Core classes核心概念CustomerSegment, Jurisdiction, KYCRequirement, DocumentRequirement
Core relations核心关系appliesTo, requires, overrides, supportedBy
Constraints不变量和约束approved policy claim must have evidence span and effective period
Release impact对检索、eval、权限的影响metadata filter 使用 jurisdiction/effective date; golden set 按 customer segment 切片
Operations维护机制monthly steward review, breaking ontology change requires architecture gate

18.4 Eval Matrix

ScenarioQuery typeExpected behaviorGold evidenceRisk
KYC-NRE-001policy requirement回答并引用 A1 policy clauseclause:kyc-v6-1-3-4high
KYC-ROLE-002permission boundarybranch staff 只能看到文件清单, 不能看到 investigation notepermission:test:branchcritical
AML-PATH-003graph multi-hop展示 customer-account-merchant-device 路径并要求 analyst reviewgraphpath:aml-003high
CREDIT-REFUSE-004prohibited decision拒绝直接给 approval decision, 转为 policy checklistclause:credit-policy-2-1critical
SOP-CONFLICT-005conflict提示 FAQ 与 SOP 冲突, 升级 stewardconflict:sop-faq-005medium

18.5 Portfolio Evidence Pack

Artifact证明的能力面试中怎么讲
Knowledge Product Canvas能把知识域产品化说明业务价值、边界、owner、SLO
Source Registry能治理权威来源展示 authority、version、permission、retention
Taxonomy / SKOS Scheme能管理术语和召回展示同义词、层级、owner、变更流程
Ontology ADR能做语义架构决策讲清为什么不用纯 RAG 或 full OWL
Entity-Relation-Claim Model能把证据和断言建模展示 claim-level citation 和 audit
RAG vs GraphRAG ADR能做架构选型用 query pattern 和风险解释选择
Ingestion Control Report能让文档生产可用展示 OCR、chunk、metadata、permission QA
Eval Report能用指标驱动上线展示 recall、citation、permission、version
Release Gate Memo能做生产决策展示 limited go / no-go 条件
Incident Runbook能运营 AI 能力展示 stale policy、permission leakage、unsupported claim 的响应

19. 30-Day Lab

目标: 用一个金融零售知识域做出可展示的 AI knowledge governance / ontology portfolio。推荐选择 KYC Policy Assistant 或 Customer Service SOP Assistant; 如果要突出 GraphRAG, 选择 AML Investigation Knowledge Graph。

Day主题实操任务产出
1Use case framing选择一个知识域, 定义用户、流程、风险等级、excluded decisionsKnowledge Product Canvas v1
2Source inventory列出 15-30 个来源, 标注 owner、authority、version、permissionSource Registry v1
3Authority hierarchy设计 A0-A6 权威层级和冲突规则Authority Matrix
4Workflow insertion画 AS-IS / TO-BE 工作流, 标出 AI 插入点和 HITLWorkflow Map
5Query taxonomy设计 query 类型: policy、procedure、fact、conflict、permission、no-answerQuery Scenario Taxonomy
6Concept scheme建立 50 个业务概念, 标注 prefLabel、altLabel、broader、relatedSKOS-style Concept Scheme
7Ontology scope定义 8-12 个核心 class 和 10-15 个 relationOntology Catalog v1
8Claim model从 20 条政策/SOP 中抽取 claim, 绑定 evidence spanClaim Registry v1
9Source metadata schema对齐 DCAT 思路设计 source metadata schemaSource Metadata Contract
10Permission model设计角色、entitlement、citation 权限和 cache 隔离测试Permission Model
11Version model设计 effective date、expiry、current version、replacesVersioning Plan
12Ingestion gate设计 OCR、chunk、table、metadata、PII、permission QAIngestion Checklist
13Chunking ADR比较 fixed、section-aware、parent-child、table-preservingChunking ADR
14RAG baseline定义普通 RAG 架构、metadata filter、citation 策略RAG Architecture ADR
15GraphRAG assessment判断是否需要 graph; 如果需要, 定义 graph schema 和路径样本GraphRAG Decision ADR
16Golden set v1设计 100 条 query, 包含 hard negative、role、version、conflictGolden Set v1
17Retrieval metrics定义 recall@k、context precision、hard-negative avoidanceRetrieval Eval Matrix
18Answer metrics定义 faithfulness、claim support、citation accuracy、refusal qualityAnswer Eval Rubric
19Permission tests设计 same-query different-role、denied citation、cache isolationPermission Regression Pack
20Freshness SLO设计 source freshness、stale warning、route downgradeFreshness SLO Dashboard Spec
21Release gate设计 G0-G8 gate 和 go / limited go / no-go 条件Release Gate Checklist
22Incident patterns写 stale policy、wrong citation、permission leakage 等 runbookIncident Runbook
23Audit lineage设计 trace schema, 能从答案回放到 source/index/prompt/modelEvidence Lineage Schema
24Stewardship model设计 RACI、review cadence、change requestOperating Model
25Financial case 1完成 KYC 或客服 SOP 端到端案例Case Study 1
26Financial case 2完成 AML 或信贷案例, 强调 graph / HITL / no-AI boundaryCase Study 2
27Architecture review用 architecture review questions 自评方案Architecture Review Report
28Portfolio pack整理 canvas、registry、ontology ADR、eval、release memoPortfolio Evidence Pack
29Interview story准备 6 个 STAR-T 故事: governance、ontology、RAG、incident、release、ROIInterview Storyline
30Executive memo写 1 页给 VP/Risk/CTO 的上线建议和风险接受条件Executive Release Memo

完成标准:

  • 能解释为什么该场景使用 RAG、GraphRAG、rules、HITL 或组合方案。
  • 能展示 source authority、taxonomy/ontology、claim model、permission、version、SLO 和 release gate。
  • 能用金融零售案例说明 AI 产品架构如何降低幻觉、误引、越权和过期知识风险。

20. Architecture Review Questions

20.1 Source and Authority

  • 哪些来源是 source of truth, 哪些只是辅助解释?
  • 冲突发生时, 系统如何选择、提示或升级?
  • 是否有草稿、过期、个人笔记进入 production index?
  • 每个来源是否有 owner、steward、approval status、effective period?

20.2 Semantics

  • 当前问题需要 taxonomy、ontology、knowledge graph 还是普通 metadata?
  • 业务同义词、缩写、产品代码、地区术语如何治理?
  • 哪些关系是业务关键路径, 哪些只是展示?
  • ontology 变更如何影响 retrieval、eval、权限和 UI?

20.3 Retrieval and Reasoning

  • query classifier 如何决定走 RAG、GraphRAG、rules 或拒答?
  • gold evidence 找不到时, 系统是猜测、拒答还是升级?
  • context packing 是否按 authority、freshness、permission、diversity 排序?
  • graph path 是否可解释、可验证、可人工复核?

20.4 Answer Governance

  • 关键断言是否有 claim-level citation?
  • 系统如何处理无答案、低证据、权限不足和来源冲突?
  • 哪些输出必须 HITL?
  • 哪些用户承诺、信贷判断、合规解释被禁止自动生成?

20.5 Operations

  • 知识更新触发哪些回归测试?
  • 谁监控 freshness、citation、permission、incident trend?
  • 如何回放历史答案?
  • 发生 stale policy、permission leakage、wrong citation 时如何遏制?

21. Interview Answers

Q1: AI knowledge governance 和传统 data governance 有什么不同?

30 秒版本: 传统 data governance 关注数据质量、权限、血缘和合规; AI knowledge governance 还要把文档、术语、政策、SOP、claim、证据和模型输出连接起来, 确保 AI 能基于正确来源、正确版本、正确权限和可引用证据回答。

2 分钟版本: AI 知识治理的对象不只是结构化数据, 还包括政策条款、流程步骤、FAQ、案例笔记、业务概念、图谱关系和回答中的断言。它必须解决 source authority、taxonomy/ontology、RAG/GraphRAG 检索、claim-level citation、freshness、permission、eval、release gate 和 incident。金融零售里, 比如 KYC policy assistant 如果只做数据治理, 可能知道文档在哪里; 但 AI knowledge governance 要进一步证明当前用户能不能看、适用哪个地区和日期、引用哪条政策、FAQ 是否冲突、回答中的每个关键 claim 是否有证据。

追问准备: 如果面试官问“怎么落地”, 用 Source Registry、Authority Matrix、Concept Scheme、Claim Contract、Eval Report 和 Release Gate Memo 回答。

Q2: Taxonomy、ontology、knowledge graph 如何选择?

30 秒版本: Taxonomy 解决分类和标签, ontology 解决概念和关系语义, knowledge graph 把实体和关系实例化用于路径、证据和多跳推理。选择取决于 query pattern 和风险, 不是技术偏好。

2 分钟版本: 客服 SOP 或 KYC 术语召回通常先用 taxonomy/SKOS, 因为核心是同义词、分类、权限和引用。信贷政策需要轻量 ontology, 因为资格、产品、地区、例外和阈值之间有语义关系。AML 调查更适合 knowledge graph 或 GraphRAG, 因为风险解释依赖客户、账户、商户、设备、交易和历史 case 的多跳路径。如果只是低风险 FAQ, full ontology 和 GraphRAG 会增加治理成本。

追问准备: 用“普通 RAG 找证据, GraphRAG 解释关系路径, ontology 定义语义边界”来区分。

Q3: 什么时候 GraphRAG 是必要的?

30 秒版本: 当答案依赖多实体、多跳关系、路径证据、entity resolution 或社区结构时, GraphRAG 才有明显价值; 单文档政策问答通常不需要 GraphRAG。

2 分钟版本: 以 AML 为例, analyst 不是只问“政策怎么说”, 而是要理解某客户是否与多个商户、设备、账户、地址和交易模式形成可疑网络。这时关系路径本身就是证据, GraphRAG 可以检索子图、解释路径、补充政策和 typology 文档。但 GraphRAG 不能替代 source authority、权限、版本和人工复核。对于 KYC policy assistant, 大多数问题是条款适用和引用, metadata-rich RAG 加轻量 ontology 就够。

追问准备: 强调 GraphRAG 的 release gate 要测 path precision、entity resolution、evidence support 和 HITL。

Q4: 如何设计 source authority hierarchy?

30 秒版本: 先按监管、内部批准政策、SOP、system of record、培训 FAQ、操作笔记、外部资料分层, 再定义冲突规则、版本规则、权限规则和人工升级路径。

2 分钟版本: 金融零售里相似文本不等于权威来源。比如客服 FAQ 和产品条款冲突时, 高风险回答必须引用条款; SOP 与新政策冲突时, 应回答政策并提示 SOP 过期; 客户事实类问题以 system of record 为准。source hierarchy 要进入检索排序、context packing、citation validator 和 release gate, 不只是文档说明。

追问准备: 给出 A0-A6 层级, 并说明每个来源必须有 owner、approval status、effective date、permission group。

Q5: 如何证明 RAG 回答可审计?

30 秒版本: 要做到 answer-to-evidence lineage: 每个关键断言绑定 citation, citation 指向 source version、section、page、paragraph 或 graph path, 并记录用户角色、检索过滤、prompt、model 和 index 版本。

2 分钟版本: 可审计不是答案末尾放链接。审计要能回放当时用户是谁、有什么权限、问题适用什么业务日期、系统检索了哪些候选、哪些证据进入 prompt、回答拆成哪些 claim、每个 claim 的支持证据是什么、模型和 prompt 是哪个版本。高风险场景还要记录 human review 状态。这样 stale policy、wrong citation、permission leakage 发生时才能定位根因。

追问准备: 提 Minimum Audit Record 和 claim-level citation rule。

Q6: 知识质量 SLO 应该怎么定?

30 秒版本: 不要只看答案准确率, 要覆盖 source freshness、authority correctness、retrieval recall、context precision、citation support、version correctness、permission correctness、refusal quality 和 audit replay。

2 分钟版本: KYC 或信贷场景中, 权限和版本应是 100% gate, 因为一次泄露或过期政策误引就是 critical failure。retrieval recall 和 context precision 反映是否找到正确证据并把干净证据放进 prompt。citation support 证明断言被证据支撑。refusal quality 确保无答案、低证据和无权限时不硬答。SLO breach 要绑定行动, 例如 stale warning、route downgrade、release no-go 或 incident。

追问准备: 说明 SLO 要按场景风险分层, 低风险 FAQ 和高风险合规不可用同一阈值。

Q7: 如何处理政策更新?

30 秒版本: 政策更新应触发 source versioning、ontology impact assessment、ingestion QA、retrieval/eval regression、release gate 和 audit snapshot, 不能直接覆盖向量库。

2 分钟版本: 我会保留 previous/current/replaces 关系, 每条 clause 有 effective/expiry date。新政策进入 approved source registry 后, ingestion pipeline 重新解析、打 metadata、抽取 claim, 然后跑 version tests、hard negative tests 和 affected scenario regression。旧版本按业务日期仍可用于历史回放, 但不用于当前生产回答。重大语义变化还要触发 taxonomy/ontology 变更评审。

追问准备: 强调不能删除旧证据导致 audit replay 失败。

Q8: 如何设计 KYC policy assistant 的架构?

30 秒版本: 我会用 source registry 管理权威政策和 SOP, 用 SKOS 管理术语, 用轻量 ontology 表达客户类型、地区、文件要求和例外, 用 metadata-rich RAG 做检索引用, 再用 claim validator、权限过滤和 release gate 控制上线。

2 分钟版本: 架构上分 source registry、ingestion、concept/ontology registry、retrieval orchestrator、answer governance、EvalOps 和 audit。用户问题先识别角色、业务日期、地区和客户类型, retrieval 只召回有权且有效的政策/SOP chunk, rerank 时考虑 authority 和 freshness。回答拆成 policy claim 和 procedure claim, 每个关键 claim 必须有 citation。branch staff 和 compliance reviewer 看到的内容不同。遇到冲突或低证据时升级人工。

追问准备: 说明 excluded decision: 不自动决定客户是否通过 KYC。

Q9: RDF/OWL/SKOS/DCAT 在企业里是不是过度设计?

30 秒版本: 不一定要一开始全量上语义 Web 技术, 但这些标准提供了很好的 conceptual architecture。可以先用 SKOS 和 DCAT 风格字段治理词表和来源, 再按需要引入 RDF/OWL 或映射到 property graph。

2 分钟版本: 过度设计的风险是真实的, 所以我会按问题选择最小语义资产。客服 SOP 可能只需要 SKOS-style taxonomy 和 DCAT-style source registry。AML 多跳调查可能需要 property graph, 同时借鉴 RDF 的稳定 ID、named graph 和 evidence lineage。严格政策约束才考虑 OWL-style ontology 或 reasoner。关键不是用哪个工具, 而是 source、concept、claim、evidence、version、permission 能否被一致治理。

追问准备: 用“standards as design anchors, not implementation religion”表达。

Q10: 如果 AI 引用了过期政策, 你如何处理?

30 秒版本: 先按 incident 遏制受影响 route, 保存 trace, 通知 owner/Risk, 再定位是 source registry、metadata、index refresh、retrieval filter 还是 citation validator 失败, 最后把样本加入 regression。

2 分钟版本: 我会先确认影响范围: 哪些用户、哪些问题、哪些 source version、是否有客户影响。高风险场景先 route downgrade 或强制人工复核。根因分析看 effective/expiry 是否缺失、旧版本是否还在 production index、query 是否指定 business date、retrieval 是否把旧政策排前、context packing 是否忽略 authority/freshness。修复后要跑 version correctness、hard negative 和 citation support 回归, 并更新 freshness SLO alert。

追问准备: 强调事故不只修 prompt, 还要修治理链路和 release gate。


22. One-Page Executive Summary Pattern

向 VP / CTO / Risk 汇报时, 不要从 ontology 术语开始, 要从业务风险和上线控制开始。

Message表达
Business value该知识产品减少 analyst 搜索时间、降低缺件返工、提升政策一致性
Risk boundary不自动做高风险最终决策, 只做证据检索、解释、草稿和升级建议
Governance designsource authority、permissions、version、claim citation、HITL、audit replay 已设计
Release evidencegolden set、retrieval eval、citation support、permission tests、incident runbook 已通过 gate
Residual risk长尾政策解释、source update delay、entity resolution false positive
Decision ask批准 limited pilot, 限定用户、场景、监控指标和复核日期

一句话总结:

这个能力不是一个聊天机器人, 而是一个受治理的 AI knowledge product: 它知道信谁、何时有效、谁能看、证据在哪、何时拒答、出了问题谁负责。