AI Data Product Management Playbook
传统数据项目常问:
AI Data Product Management Playbook
定位: 面向 AI PM / AI BA / AI Solutions Architect 的数据产品管理手册。 目标: 从“数据能不能喂给 AI”升级为“数据作为产品支撑 AI use case、eval、RAG、model routing、governance 和 ROI”。 核心观点: AI data product 不是一个表、一个文档库或一个向量库, 而是一组有 owner、有 contract、有质量 SLO、有权限和治理边界、能被 AI 工作流稳定消费的数据能力。
1. 为什么 AI 时代需要 Data Product Management
传统数据项目常问:
- 数据在哪里?
- 能不能抽出来?
- 字段够不够?
- 能不能给模型训练或检索?
AI data product management 要问的问题更完整:
- 哪个 AI use case 依赖这份数据?
- 谁为数据定义、质量、权限和更新负责?
- 这份数据能不能支撑 RAG citation、eval、model routing、agent action 和 audit?
- 数据错误会造成什么业务风险?
- 数据质量下降时, AI 系统如何降级、拦截或升级人工?
- 数据投入如何转成 ROI: 节省工时、降低风险、提升转化、减少损失?
一句话:
AI data is not ready when it is available. It is ready when it is governed, measurable, trusted, usable and owned.
2. AI Data Product Definition
AI data product 是为一个或一组 AI use case 提供稳定数据能力的产品化资产。它包括数据内容、语义定义、质量目标、访问控制、更新机制、评测用途、反馈闭环和运营责任。
2.1 最小定义
| 维度 | 说明 | 关键问题 |
|---|---|---|
| Business purpose | 支撑的业务结果 | 它解决哪个流程痛点或决策问题? |
| AI consumption | AI 如何使用 | 用于 RAG、classification、summarization、routing、decision support、eval 还是 monitoring? |
| Source-of-truth | 权威来源 | 哪个系统或团队拥有最终事实? |
| Contract | 消费契约 | schema、语义、刷新频率、权限、SLO 是否明确? |
| Quality SLO | 质量目标 | freshness、completeness、accuracy、coverage、latency、groundedness 目标是多少? |
| Governance | 治理边界 | PII、consent、retention、audit、model use restriction 如何控制? |
| Operating model | 运营责任 | owner、steward、reviewer、incident responder 是谁? |
| Value | 价值度量 | 如何证明它提升 AI 质量、效率、风险控制或收入? |
2.2 与普通数据集的区别
| 普通数据集 | AI data product |
|---|---|
| 以存储和查询为中心 | 以 AI 消费和业务结果为中心 |
| 常由数据团队维护 | 业务 owner、数据 owner、AI PM、BA、Architect 共同维护 |
| 质量靠事后发现 | 质量 SLO、dashboard、incident playbook 前置定义 |
| 字段说明不完整 | 有 metadata、lineage、data contract 和 usage policy |
| 权限只看数据库访问 | 权限延伸到 retrieval、prompt context、model log、eval sample、human review |
| 缺少反馈闭环 | 线上反馈会回流到 label、golden set、数据修复和产品迭代 |
3. AI Data Product Canvas
每个 AI data product 至少填写一张 canvas。它不是文档仪式, 而是让 PM/BA/Architect 对“数据如何成为 AI 能力”达成共识。
| Canvas block | 填写内容 | 示例问题 |
|---|---|---|
| Product name | 数据产品名称 | AML Evidence Data Product |
| Target AI use cases | 支撑的 AI 场景 | case summarization、risk narrative、evidence retrieval |
| Users | 人类用户和系统消费者 | analyst、case manager、AI assistant、eval harness |
| Business outcome | 业务目标 | 缩短 case review 时间, 提升 evidence completeness |
| Source-of-truth | 权威系统 | case management、core banking、transaction monitoring |
| Data scope | 包含和不包含什么 | 包含 SAR draft evidence, 不包含未授权客户画像 |
| Data contract | schema、语义、刷新、SLO | 每 15 分钟同步, case_id 不可为空 |
| Metadata | 业务标签和治理标签 | jurisdiction、risk_type、doc_type、PII class |
| Lineage | 数据来源和转换链路 | source table -> curated view -> vector index -> RAG response |
| Quality SLO | 可度量质量目标 | freshness P95 < 30 min, critical fields completeness > 99% |
| Access policy | 谁能看、谁能检索、谁能导出 | analyst 可看 assigned cases, model log 脱敏 |
| PII / consent / retention | 隐私和保留策略 | PII masked in eval, retention 7 years for regulated records |
| Label strategy | 标签来源和审核 | analyst labels + QA sampling |
| Golden set | 评测样本集 | high-risk typologies, edge cases, known bad outputs |
| Feedback loop | 线上反馈如何回流 | analyst correction -> label queue -> monthly golden set review |
| Owner model | RACI | business owner, data steward, AI PM, risk reviewer |
| ROI | 价值指标 | minutes saved per case, escalation accuracy, false narrative reduction |
4. Core Concepts
4.1 Source-of-Truth
Source-of-truth 是 AI 系统引用事实的权威来源。对 AI PM 来说, 关键不是“哪个库有数据”, 而是“冲突发生时信谁”。
| 场景 | Source-of-truth | 冲突处理 |
|---|---|---|
| 客户身份 | KYC master profile / CRM master | 以 KYC 审核通过字段为准, CRM 字段只作联系辅助 |
| 交易状态 | payment ledger / core banking ledger | 以 ledger posted status 为准, event stream 只反映过程 |
| 政策条款 | approved policy repository | 未发布草稿不得进入 RAG production index |
| 库存 | inventory management system | 门店手工表只作 exception evidence |
| 信贷决策 | underwriting system of record | AI memo 不得覆盖人工审批记录 |
Source-of-truth 决策需要记录在 canvas 和 data contract 中, 否则 RAG、eval 和 audit 会在事实冲突时失去标准。
4.2 Data Contracts
Data contract 是数据生产者和 AI 消费者之间的契约。它保证数据变化不会悄悄破坏 AI workflow。
一个 AI-oriented data contract 应覆盖:
| Contract item | 内容 |
|---|---|
| Schema | 字段名、类型、必填性、枚举、嵌套结构 |
| Semantics | 字段业务含义、单位、时间口径、状态定义 |
| Freshness | 更新频率、最大延迟、批处理窗口 |
| Completeness | 关键字段完整率目标 |
| Accuracy | 与 source-of-truth 对账规则 |
| Permission | 字段级权限、行级权限、retrieval entitlement |
| Allowed AI use | 可用于 RAG、eval、routing、training、analytics 的边界 |
| Logging | 哪些字段可进入 prompt、trace、model log、eval report |
| Change process | schema 变更提前通知、兼容期、回滚机制 |
| Incident trigger | 质量下降到什么程度必须告警或停用 |
4.3 Metadata
Metadata 让 AI 系统知道数据是什么、能不能用、怎么用。没有 metadata, RAG 只能“搜到文本”, 不能“理解可信度、权限和上下文”。
| Metadata type | 示例 | AI 用途 |
|---|---|---|
| Business metadata | product_line、risk_type、customer_segment | routing、filtering、case grouping |
| Technical metadata | schema_version、source_system、ingestion_time | lineage、debug、freshness check |
| Governance metadata | PII_class、consent_status、retention_class | access control、redaction、audit |
| Knowledge metadata | doc_type、effective_date、expiry_date、approval_status | RAG filtering、policy citation |
| Eval metadata | scenario_id、failure_mode、severity、expected_behavior | golden set slicing、release gate |
| Feedback metadata | user_correction_type、review_outcome、confidence | label improvement、model monitoring |
4.4 Lineage
Lineage 是数据从 source-of-truth 到 AI 输出的证据链。AI 项目上线后, 问题通常不是“模型为什么错”, 而是“模型看到的证据从哪里来, 哪一步错了”。
flowchart LR
S[Source system] --> C[Curated dataset]
C --> M[Metadata enrichment]
M --> Q[Quality checks]
Q --> I[Index or feature store]
I --> R[Retrieval / model input]
R --> O[AI output]
O --> F[User feedback]
F --> L[Label / golden set update]
Lineage 至少要回答:
- 这个回答引用了哪些 source records?
- 这些 records 的版本和更新时间是什么?
- 检索时使用了哪些 filters 和权限条件?
- 哪些数据转换影响了最终上下文?
- 用户纠错会回流到哪个 label 或数据修复流程?
4.5 Quality SLO
Quality SLO 是数据产品对 AI 消费者的服务承诺。AI data quality 不只看准确率, 还要看是否足够新、足够完整、足够可解释、足够可检索。
| SLO | 定义 | AI 风险 |
|---|---|---|
| Freshness | 数据距 source-of-truth 的延迟 | 用旧政策、旧库存、旧交易状态回答 |
| Completeness | 关键字段非空和覆盖范围 | 总结缺证据、eval 样本偏差 |
| Accuracy | 与权威来源一致 | 输出错误事实或错误建议 |
| Consistency | 跨系统口径一致 | 同一客户、订单、case 出现冲突 |
| Coverage | 覆盖业务场景和边界样本 | model 在长尾场景失效 |
| Retrieval quality | 正确证据能被召回和排序 | RAG 找不到关键文档或引用弱证据 |
| Label quality | 标签准确、一致、可复核 | eval 结果失真 |
| Access correctness | 只返回用户有权访问的数据 | 数据泄露和合规事故 |
示例质量目标:
| Metric | Target | Breach action |
|---|---|---|
| Critical field completeness | >= 99% | 阻止进入 production index |
| Freshness P95 | < 30 minutes | 显示 stale warning, 高风险任务升级人工 |
| Permission filter correctness | 100% sampled pass | 停用 retrieval endpoint, 启动 incident review |
| Golden set label agreement | >= 90% | 重新校准 rubric 和 labeling SOP |
| Citation coverage for RAG answer | >= 95% | release gate 不通过 |
4.6 PII / Consent / Retention
AI data product 必须把隐私和合规当成产品能力, 而不是上线前的审批附件。
| Control | 设计要求 |
|---|---|
| PII classification | 字段级标记 direct identifier、quasi identifier、sensitive data |
| Minimization | AI 任务不需要的字段不进入 prompt、index、eval sample |
| Consent status | 对客户同意范围进行机器可读标记 |
| Purpose limitation | 明确数据可用于客服、风控、eval、analytics, 以及不可用于的场景 |
| Retention | 按记录类型设置保留期和删除/归档流程 |
| Redaction | eval、日志、截图、人工标注界面默认脱敏 |
| Access review | 定期复核数据消费者、服务账号、label vendor 权限 |
| Audit | 记录谁检索了什么、为什么检索、AI 输出引用了哪些证据 |
高风险规则:
- 不把生产 PII 原样复制进低治理的实验环境。
- 不把用户对话日志默认用于模型训练。
- 不把无授权文档纳入企业 RAG index。
- 不让模型日志成为新的影子数据库。
- 不把 retention 到期数据继续保留在向量库、cache、eval set 或 synthetic seed 中。
4.7 Label Strategy
Label strategy 决定 eval 和监督学习是否可信。AI PM 要把 label 当成产品资产, 而不是临时外包任务。
| Label source | 适用场景 | 风险控制 |
|---|---|---|
| Expert label | AML、信贷、合规、高风险客诉 | rubric 清晰, 双人复核, 分歧仲裁 |
| Operational label | 工单结论、case disposition、payment outcome | 确认业务结论稳定, 避免把旧流程偏差固化 |
| User feedback | thumbs up/down、纠错、人工改写 | 区分满意度、事实错误、语气问题和流程问题 |
| LLM-assisted label | 初筛、聚类、草拟标签 | 必须抽样人工审核, 不作为高风险唯一标签 |
| Synthetic label | 覆盖罕见场景和红队攻击 | 标记为 synthetic, 不混淆真实分布 |
Label 设计要明确:
- 标签定义: 每个 label 的业务含义和排他关系。
- 标注对象: 文档、交易、回答、case、证据片段还是完整 workflow。
- 标注粒度: field-level、span-level、document-level、case-level。
- 一致性标准: inter-annotator agreement 和仲裁规则。
- 质量抽检: 抽检比例、错误分级、返工规则。
- 版本管理: rubric、label schema、sample set 都要有版本。
4.8 Golden Set Management
Golden set 是 AI release gate 的核心资产。它不是一次性测试集, 而是持续维护的业务风险样本库。
| 管理项 | 要求 |
|---|---|
| Coverage | 覆盖核心流程、长尾场景、失败模式、政策边界、权限边界 |
| Balance | 不只收简单正例, 要包含 hard negative、conflicting evidence、missing data |
| Versioning | 每次重大政策、流程、模型或数据变化后生成新版本 |
| Ownership | 每个 scenario 有 business owner 和 eval owner |
| Leakage control | 避免 golden set 被 prompt 或 training 过程污染 |
| Review cadence | 高风险场景月度复核, 普通场景季度复核 |
| Production feedback | 线上事故、人工纠错、投诉样本进入候选池 |
Golden set 要分层:
| Layer | 用途 | 示例 |
|---|---|---|
| Smoke set | 快速验证基本能力 | 20 个常见客服政策问答 |
| Regression set | 防止版本回退 | 历史已修复错误样本 |
| Risk set | 验证高风险失败模式 | 无权限文档检索、错误信贷建议 |
| Edge set | 验证复杂边界 | 多政策冲突、跨地区规则差异 |
| Production shadow set | 线上真实反馈样本 | analyst correction、customer escalation |
4.9 Synthetic Data Policy
Synthetic data 可以补齐稀缺场景, 但必须有明确政策。它不能伪装成真实数据, 也不能替代真实业务验证。
| Policy area | 规则 |
|---|---|
| Allowed use | 红队测试、长尾场景覆盖、格式鲁棒性、初期 demo、privacy-preserving examples |
| Restricted use | 高风险模型最终验收、真实业务分布估计、监管报送证据 |
| Labeling | 明确 synthetic flag、generation method、source seed、review status |
| Privacy | 不从真实 PII 直接改写出可重识别样本 |
| Bias control | 记录生成 prompt 和 sampling 规则, 避免强化单一群体假设 |
| Validation | 由业务专家抽样确认是否符合真实业务逻辑 |
| Mixing | eval 报告中真实样本和 synthetic 样本分开统计 |
4.10 RAG Knowledge Product
RAG knowledge product 是一种特殊 AI data product。它不只是“把文档切片进向量库”, 而是把知识源、权限、版本、有效期、引用和反馈闭环产品化。
| Component | 设计要求 |
|---|---|
| Source repository | 只接入 approved source, 排除草稿和过期文档 |
| Document lifecycle | draft、approved、effective、expired、archived 状态明确 |
| Chunking strategy | 按业务语义切分, 保留章节、条款、表格上下文 |
| Metadata filter | product、region、effective_date、doc_type、permission_group |
| Citation policy | 高风险回答必须给出处, 不可引用低可信来源 |
| Retrieval eval | recall@k、citation correctness、answer groundedness |
| Permission enforcement | retrieval 前和 retrieval 后都做 entitlement check |
| Update process | 文档发布触发 re-index, 过期文档自动下线 |
| Feedback loop | 用户标记“答案引用错误/知识过期/缺少文档”进入知识修复队列 |
4.11 Feature / Eval Dataset
AI 场景通常同时需要 feature dataset 和 eval dataset。
| Dataset type | 用途 | 管理重点 |
|---|---|---|
| Feature dataset | 支撑模型输入、routing、ranking、forecast、risk scoring | schema stability、freshness、drift、source consistency |
| Eval dataset | 支撑离线评测、release gate、regression test | label quality、coverage、版本、泄漏控制 |
PM/BA 要避免两个误区:
- 把 feature dataset 的覆盖率当成 eval dataset 的代表性。
- 把 eval dataset 的高分当成线上业务效果的保证。
正确做法是把二者通过 feedback loop 连接:
Production case
-> AI output
-> user feedback / business outcome
-> error taxonomy
-> label queue
-> golden set candidate
-> data contract or feature fix
-> release gate
4.12 Feedback Data Loop
反馈数据闭环决定 AI data product 是否会越用越好。
| Feedback source | 捕获内容 | 回流动作 |
|---|---|---|
| User correction | 人工改写、选择正确答案、标记引用错误 | 更新 label、补充 golden set、修复知识库 |
| Workflow outcome | case closed、dispute won/lost、loan approved/defaulted | 校准 eval metric 和 ROI |
| Incident | 数据泄露、错误建议、过期知识引用 | 更新 risk set、contract、guardrail |
| Monitoring | freshness breach、retrieval miss、schema drift | 数据修复和 release block |
| Review board | 月度质量审查结论 | 调整 SLO、owner、roadmap |
反馈闭环的 PM 指标:
- feedback capture rate: 有多少 AI 交互留下可用反馈。
- feedback triage latency: 反馈进入队列到分流的时间。
- fix cycle time: 数据或知识问题从发现到修复的时间。
- regression recurrence rate: 已修复错误是否再次出现。
- eval uplift: 数据修复后 eval 指标提升幅度。
4.13 Data Owner Operating Model
没有 owner 的数据产品会退化成无人负责的共享文件夹。AI data product 至少需要以下角色:
| Role | 责任 |
|---|---|
| Business owner | 定义业务目标、风险容忍度、ROI、优先级 |
| Data owner | 对 source-of-truth、数据定义、权限和质量负责 |
| Data steward | 维护 metadata、lineage、质量规则、issue triage |
| AI PM | 把数据能力映射到 AI use case、eval、adoption 和价值 |
| AI BA | 梳理流程、规则、字段语义、异常路径和验收标准 |
| Architect | 设计 ingestion、contract enforcement、RAG、feature/eval pipeline、observability |
| Risk / Compliance reviewer | 审查 PII、consent、retention、模型用途和审计证据 |
| Ops / Support | 处理 incident、用户反馈、SLO breach 和运行手册 |
RACI 示例:
| Activity | Business owner | Data owner | AI PM | BA | Architect | Risk |
|---|---|---|---|---|---|---|
| Define use case value | A | C | R | C | C | C |
| Define data contract | C | A/R | C | R | R | C |
| Approve AI use boundary | A | R | R | C | C | A/R |
| Maintain metadata | C | A | C | R | C | C |
| Build quality dashboard | C | R | C | C | A/R | C |
| Golden set review | A | C | R | R | C | C |
| Incident response | A | R | R | C | R | A/R |
5. AI Data Product Lifecycle
flowchart TB
I[Use case intake] --> D[Data discovery]
D --> C[Canvas and contract]
C --> G[Governance review]
G --> B[Build curated data product]
B --> E[Eval and readiness score]
E --> P[Pilot release]
P --> M[Monitoring and feedback]
M --> R[Review and roadmap]
R --> C
5.1 Intake
输入不是“我们有一堆数据”, 而是一个可验证的 AI use case:
| Intake question | 合格答案 |
|---|---|
| Business outcome | 缩短 KYC remediation cycle time 20% |
| AI task | 从证件、表单和历史沟通中提取缺失项并生成 analyst checklist |
| Human decision | analyst 保留最终通过/拒绝判断 |
| Data dependency | KYC document、CRM、case notes、policy |
| Risk tier | 涉及 PII 和合规, 属于高治理场景 |
| Eval method | golden set + expert rubric + production shadow review |
5.2 Discovery
数据 discovery 要同时看业务、技术和治理:
- 业务: 字段含义、流程状态、例外场景、人工判断依据。
- 技术: source systems、schema、API、batch/stream、历史数据覆盖。
- 治理: PII、consent、retention、cross-border、access model、audit。
- AI: prompt context、retrieval、features、labels、eval、feedback。
5.3 Readiness
进入 AI pilot 前至少满足:
| Gate | 标准 |
|---|---|
| Source-of-truth confirmed | 权威来源和冲突处理已签字确认 |
| Contract signed | schema、refresh、SLO、allowed AI use 明确 |
| Metadata complete | 关键治理和业务 metadata 可机器读取 |
| Permission tested | 行级、字段级、retrieval 权限通过抽样测试 |
| Eval set ready | golden set 覆盖核心失败模式 |
| Incident path ready | SLO breach 和数据泄露有处理流程 |
| Feedback capture ready | 用户纠错和线上结果能回流 |
5.4 Operate
上线后每月做一次 data product review:
| Review area | 关注点 |
|---|---|
| Value | 节省时间、减少错误、提升转化或降低损失是否发生 |
| Quality | SLO 是否达标, breach 是否重复 |
| AI performance | eval、online feedback、incident trend |
| Usage | 哪些团队和 use case 在消费 |
| Risk | 权限、PII、retention、audit 是否有异常 |
| Roadmap | 哪些数据修复比模型调参更有价值 |
6. 金融零售案例库
6.1 AML Evidence Data Product
| 维度 | 内容 |
|---|---|
| 用户 | AML analyst、case manager、QA reviewer、risk officer |
| 数据源 | transaction monitoring alerts、core banking transactions、customer profile、sanctions screening result、case notes、prior SAR evidence |
| 质量指标 | alert-case linkage accuracy >= 99%; transaction freshness P95 < 30 min; critical evidence completeness >= 98%; citation coverage >= 95% |
| 权限 | analyst 只访问 assigned cases; 高敏客户字段按角色脱敏; AI trace 不保留完整账户号 |
| 风险 | 错误 evidence narrative、漏掉高风险交易、跨客户数据泄露、把未验证线索写成事实 |
| AI 用途 | case summarization、evidence retrieval、typology classification、analyst checklist、draft narrative assistance |
| Eval 用途 | 验证 evidence completeness、citation correctness、risk narrative consistency、false escalation 和 missed evidence |
| Owner | AML business owner 负责业务规则; financial crime data owner 负责数据; AI PM 负责 use case 和 eval |
| 更新频率 | 交易和 alert 近实时; case notes 5-15 分钟; typology taxonomy 月度复核 |
| 失败模式 | 交易延迟导致总结缺关键证据; 同名客户混淆; RAG 引用旧 case; analyst correction 未回流; 模型把可疑模式过度确定化 |
PM 设计重点:
- 把“证据完整性”设为核心指标, 不只看摘要流畅度。
- 对 high-risk narrative 要求 citation 和 source record trace。
- 将 analyst 改写原因分类为 missing evidence、wrong fact、wrong tone、policy issue、access issue。
6.2 KYC Document Data Product
| 维度 | 内容 |
|---|---|
| 用户 | KYC analyst、onboarding specialist、relationship manager、compliance reviewer |
| 数据源 | ID documents、proof of address、business registration、beneficial ownership forms、OCR output、CRM profile、case communication |
| 质量指标 | document classification accuracy >= 97%; OCR critical field accuracy >= 98%; document freshness aligned with policy; missing document detection recall >= 95% |
| 权限 | PII 字段最小化展示; reviewer 按 case assignment 访问; 标注环境默认脱敏; 外部 vendor 不接触完整客户档案 |
| 风险 | OCR 错读姓名或证件号、过期文件被接受、无授权文件进入训练或 eval、跨地区 KYC 规则混用 |
| AI 用途 | document classification、field extraction、missing item checklist、policy-based remediation draft、case summary |
| Eval 用途 | 验证字段抽取、文件有效期判断、KYC checklist 完整性、跨地区政策适配 |
| Owner | KYC operations owner; customer data owner; compliance policy owner; AI BA 维护规则映射 |
| 更新频率 | 文档上传实时触发; OCR 和 extraction 异步分钟级; 政策规则按发布日生效 |
| 失败模式 | 文件版本错配; OCR confidence 低但未升级人工; beneficial owner 关系图缺边; 政策 effective date 过滤失败; retention 到期文件仍在 index |
PM 设计重点:
- 把 document lifecycle 和 policy effective date 作为 metadata, 避免引用过期要求。
- 对低置信度字段采用 human-in-the-loop。
- eval set 覆盖模糊扫描件、多语言证件、地址格式差异和法人结构复杂样本。
6.3 客服知识库 Data Product
| 维度 | 内容 |
|---|---|
| 用户 | customer service agent、contact center supervisor、quality coach、customer-facing chatbot |
| 数据源 | approved policy articles、FAQ、product terms、call scripts、resolved ticket summaries、escalation guidelines |
| 质量指标 | approved document coverage >= 95%; expired article exposure = 0; retrieval recall@5 >= 90%; citation correctness >= 95%; policy answer defect rate monthly下降 |
| 权限 | 内部客服知识和客户可见知识分层; chatbot 不可引用 internal-only 指南; 员工按业务线访问 |
| 风险 | 过期政策回答、把内部补偿策略暴露给客户、不同地区条款混淆、RAG 无出处生成 |
| AI 用途 | agent assist、customer chatbot、case response drafting、intent routing、next-best-action suggestion |
| Eval 用途 | 测试 grounded answer、policy consistency、tone、refusal / escalation、region-specific answer |
| Owner | customer operations owner; knowledge manager; legal/compliance reviewer; AI PM 负责 adoption 和质量指标 |
| 更新频率 | 政策发布触发 re-index; FAQ 每周更新; 热点问题每日监控 |
| 失败模式 | 草稿文档进入生产; chunk 缺少上下文导致错误回答; citation 指向不完整段落; 客服反馈没有进入知识修复队列; 权限标签缺失 |
PM 设计重点:
- 知识库不是文档仓库, 是带生命周期、权限和 eval 的 RAG knowledge product。
- 统计“答案被采纳并减少后续联系”的业务效果, 不只统计 chatbot containment。
- 建立 knowledge gap queue: 无答案、答案过期、引用错误、政策冲突分开处理。
6.4 信贷 Underwriting Eval Dataset
| 维度 | 内容 |
|---|---|
| 用户 | credit analyst、underwriting manager、model risk reviewer、portfolio risk team |
| 数据源 | loan application、bureau attributes、income verification、bank statements、collateral data、policy rules、historical decision memo、repayment outcomes |
| 质量指标 | label stability verified; key feature completeness >= 99%; protected attribute handling documented; outcome window definition consistent; sample coverage across risk bands |
| 权限 | 严格限制敏感属性和替代变量使用; eval report 脱敏; model risk 和 audit 可追溯样本版本 |
| 风险 | 历史决策偏差被固化、解释不一致、越过人工审批边界、使用禁止特征、样本泄漏导致 eval 虚高 |
| AI 用途 | underwriting memo drafting、policy checklist、exception explanation、risk factor summarization、model routing by case complexity |
| Eval 用途 | 验证 memo factuality、policy adherence、reason code consistency、human override handling、fairness review slices |
| Owner | credit policy owner; risk analytics data owner; model risk reviewer; AI PM 管理 release gate |
| 更新频率 | application data 日内批处理; repayment outcome 按账期更新; policy rules 按审批发布时间生效; eval set 月度或政策变更后复核 |
| 失败模式 | outcome label 未成熟; policy 版本和申请日期不匹配; 训练数据污染 golden set; AI 输出像自动决策; 人工 override 原因未被正确处理 |
PM 设计重点:
- 明确 AI 是 decision support, 不是自动信贷决策。
- eval dataset 需要按产品、风险等级、地区、渠道、exception type 切片。
- 把“解释是否符合政策”和“决策是否正确”分开评测。
6.5 支付争议 Evidence Pack Data Product
| 维度 | 内容 |
|---|---|
| 用户 | dispute analyst、merchant operations、card network operations、customer support、fraud team |
| 数据源 | transaction ledger、authorization logs、chargeback reason codes、merchant receipts、delivery proof、customer communication、device / session signals |
| 质量指标 | evidence-to-dispute matching accuracy >= 99%; reason code mapping accuracy >= 98%; deadline freshness 100%; required evidence completeness >= 95% |
| 权限 | 客户、商户和内部风控证据分层; 只向外部网络提交允许字段; 设备信号和 PII 脱敏 |
| 风险 | 错过提交截止、证据包不完整、提交不允许信息、错误 reason code 导致败诉、客户隐私泄露 |
| AI 用途 | evidence pack assembly、deadline prioritization、reason code explanation、draft response、missing evidence detection |
| Eval 用途 | 验证证据完整性、deadline handling、reason-code specific checklist、allowed-disclosure compliance |
| Owner | payment operations owner; dispute data owner; compliance reviewer; Architect 负责系统对接和审计链 |
| 更新频率 | 新争议实时; 交易和授权日志近实时; 商户证据上传实时; 网络规则按发布版本更新 |
| 失败模式 | 交易 reversal 状态过期; 证据和争议 ID 关联错误; 网络规则版本错配; AI 选择了禁止披露字段; 缺失证据未升级人工 |
PM 设计重点:
- 把 deadline 和 reason code 作为核心 metadata, 直接影响排序和行动建议。
- Evidence pack 需要可审计: 每个证据项来源、时间、提交状态和权限边界清楚。
- ROI 可用 win rate、cycle time、manual assembly time 和 compliance defect rate 衡量。
6.6 零售库存 / 促销 Forecast Dataset
| 维度 | 内容 |
|---|---|
| 用户 | merchandise planner、store operations、supply chain analyst、pricing / promotion manager |
| 数据源 | POS sales、inventory snapshots、promotion calendar、price changes、supplier lead time、weather / event signals、store attributes、returns |
| 质量指标 | SKU-store-day completeness >= 98%; inventory freshness daily before planning cutoff; promotion flag accuracy >= 99%; outlier handling documented; forecast backtest coverage |
| 权限 | 商业敏感数据按品类和区域授权; 外部供应商只看聚合需求信号; AI 输出不暴露未发布促销策略 |
| 风险 | 促销标签缺失导致预测偏差、库存快照延迟、退货和缺货混淆、模型把一次性事件当趋势、未发布促销泄露 |
| AI 用途 | demand forecasting、promotion uplift explanation、inventory risk alert、what-if scenario support、replenishment recommendation draft |
| Eval 用途 | backtesting、forecast error by SKU/store/promo、stockout risk recall、promotion uplift explanation consistency |
| Owner | merchandising business owner; supply chain data owner; pricing / promo owner; AI PM 负责 planner workflow adoption |
| 更新频率 | POS 日内或日终; inventory 每日 cutoff 前; promotion calendar 按审批变更; supplier lead time 每周更新 |
| 失败模式 | 缺货导致销量低估需求; 促销生效日期错误; 门店关闭或异常天气未标记; 新品冷启动无相似品规则; planner override 未回流 |
PM 设计重点:
- forecast dataset 不只是历史销售, 必须把库存约束、促销、价格、供应和异常事件放进同一语义层。
- eval 不只看整体 MAPE, 还要按高价值 SKU、促销期、缺货期、门店类型切片。
- planner override 是高价值 feedback, 要记录原因并回流到特征和评测。
7. Artifacts
7.1 Data Product Canvas 模板
# Data Product Canvas
## 1. Identity
- Data product name:
- Business domain:
- Owner:
- Version:
- Status: discovery / pilot / production / deprecated
## 2. Business Outcome
- Target workflow:
- Business outcome:
- Baseline:
- Success metric:
- Risk tier:
## 3. AI Consumption
- AI use cases:
- AI tasks:
- Human decision retained:
- Allowed AI use:
- Prohibited AI use:
## 4. Users and Consumers
- Human users:
- System consumers:
- Downstream dashboards / eval / models:
## 5. Source-of-Truth
- Source systems:
- Authoritative fields:
- Conflict resolution rule:
- Data lineage summary:
## 6. Contract
- Schema version:
- Critical fields:
- Refresh cadence:
- Freshness target:
- Completeness target:
- Accuracy checks:
- Change notice period:
## 7. Metadata and Governance
- Business metadata:
- Technical metadata:
- PII class:
- Consent status:
- Retention class:
- Access policy:
- Audit requirement:
## 8. Eval and Feedback
- Golden set:
- Label strategy:
- Evaluation metrics:
- Feedback capture points:
- Review cadence:
## 9. Operations
- Quality dashboard:
- Incident triggers:
- Escalation path:
- SLA / SLO:
- ROI metric:
7.2 Data Readiness Scorecard
评分建议: 1 = 不可用, 2 = 可探索, 3 = 可 pilot, 4 = 可 production, 5 = 可规模化复用。
| Dimension | 1 | 3 | 5 |
|---|---|---|---|
| Business alignment | 没有明确 use case | 有 pilot use case | 多个 use case 复用并有 ROI |
| Source-of-truth | 权威来源不清 | 权威来源已确认 | 冲突处理和审计链完整 |
| Schema and semantics | 字段含义不一致 | 关键字段定义清楚 | schema 版本和语义 contract 完整 |
| Freshness | 更新不可预测 | 满足 pilot | 有 SLO、监控和降级策略 |
| Completeness | 关键字段缺失严重 | 核心场景可用 | 覆盖长尾和异常场景 |
| Permission | 只靠库权限 | 有 role-based access | 字段、行、retrieval、log 全链路控制 |
| PII / consent / retention | 未分类 | 关键字段分类 | 可机器执行的 policy 和审计 |
| Metadata | 依赖人工理解 | 有基础业务标签 | 支撑 routing、RAG、eval、governance |
| Lineage | 追溯困难 | 主要链路可追踪 | record-level lineage 到 AI output |
| Label quality | 标签来源混乱 | 有 rubric 和抽检 | 有一致性指标和仲裁机制 |
| Golden set | 无固定测试集 | 覆盖核心路径 | 覆盖风险、边界、回归和线上反馈 |
| Feedback loop | 用户反馈不可用 | 部分反馈可采集 | 反馈进入 label、数据修复和 release gate |
Readiness gate:
| Score | 结论 |
|---|---|
| < 30 | 不进入 AI pilot, 先做数据治理和 use case 澄清 |
| 30-42 | 可做低风险 prototype, 不接入生产流程 |
| 43-52 | 可做受控 pilot, 需要人工复核和强监控 |
| > 52 | 可进入 production review, 仍需定期 SLO 和风险复核 |
7.3 Data Contract 模板
data_product: AML Evidence Data Product
version: 1.0.0
owner:
business_owner: Financial Crime Operations
data_owner: Financial Crime Data Office
technical_owner: AI Platform Data Engineering
purpose:
allowed_ai_use:
- evidence_retrieval
- case_summarization
- eval
prohibited_ai_use:
- autonomous_case_closure
- external_customer_communication_without_review
source_of_truth:
systems:
- transaction_monitoring
- core_banking_ledger
- case_management
schema:
critical_fields:
- case_id
- customer_id_tokenized
- alert_id
- transaction_id
- event_time
- risk_typology
- evidence_text
freshness:
cadence: near_real_time
p95_target_minutes: 30
quality:
completeness_target:
critical_fields: 0.99
accuracy_checks:
- transaction_id_must_exist_in_ledger
- case_id_must_exist_in_case_management
permissions:
row_level: assigned_case_only
field_level:
account_number: masked
customer_name: role_restricted
logging:
model_trace: redacted
audit_retention: regulated_record_policy
change_management:
schema_change_notice_days: 14
backward_compatibility_days: 30
incident_triggers:
- permission_filter_failure
- freshness_breach_over_2_hours
- critical_field_completeness_below_0_98
7.4 Golden Set Register
| Field | 说明 | 示例 |
|---|---|---|
| scenario_id | 唯一样本编号 | AML-RISK-042 |
| use_case | AI 场景 | AML case summary |
| risk_tier | 风险等级 | high |
| source_type | real / synthetic / red-team | real |
| business_scenario | 业务场景 | structuring pattern with missing counterparty detail |
| expected_behavior | 期望行为 | 总结已有证据, 标明缺失 counterparty 信息, 不下最终结论 |
| unacceptable_behavior | 不可接受行为 | 断言客户洗钱, 编造 counterparty |
| evidence_refs | 证据记录 | case_id, transaction_ids, policy_section |
| labels | 标签 | missing_evidence, high_risk_typology |
| owner | 样本 owner | AML QA Lead |
| review_date | 最近复核日期 | 2026-06-01 |
| version | 样本版本 | v3 |
| leakage_control | 泄漏控制 | excluded from prompt examples and training |
7.5 Labeling SOP
| Step | 操作 | 输出 |
|---|---|---|
| 1. Define label schema | 明确标签集合、定义、互斥关系和例子 | label guideline |
| 2. Select samples | 按业务场景、风险等级、失败模式抽样 | labeling batch |
| 3. Train labelers | 用 20-50 个校准样本统一标准 | calibration result |
| 4. Label independently | 至少高风险样本双人独立标注 | raw labels |
| 5. Measure agreement | 计算一致性, 识别分歧标签 | agreement report |
| 6. Adjudicate | 专家裁决分歧, 更新 rubric | final labels |
| 7. Quality audit | 抽检和错误分级 | QA report |
| 8. Version release | 发布 label set 和 changelog | label dataset version |
| 9. Feedback intake | 线上纠错进入候选队列 | improvement backlog |
Label 错误分级:
| Severity | 定义 | 处理 |
|---|---|---|
| Critical | 会导致高风险 AI 错误通过 release gate | 立即冻结相关 eval slice, 重新标注 |
| Major | 影响核心指标但不直接造成高风险输出 | 本周期修复并更新报告 |
| Minor | 说明文字或低风险分类不一致 | 下次版本修复 |
7.6 Data Quality Dashboard
Dashboard 应分成 AI 消费者看得懂的指标, 而不是只展示 pipeline 成功率。
| Section | Metrics |
|---|---|
| Freshness | source lag, index lag, P95 freshness, stale records count |
| Completeness | critical fields completeness, missing metadata, missing labels |
| Accuracy | reconciliation failures, invalid IDs, duplicate records |
| Retrieval | recall@k, no-result rate, citation correctness, permission-filtered results |
| Governance | PII exposure checks, consent violations, retention exceptions |
| Eval readiness | golden set coverage, label agreement, scenario coverage |
| Feedback | feedback volume, triage latency, fix cycle time, recurring errors |
| Incidents | open incidents, breach duration, impacted use cases |
推荐视图:
- Executive view: ROI、风险、SLO 达标率、生产影响。
- Product view: use case 覆盖、feedback、adoption、eval uplift。
- Data owner view: freshness、completeness、schema drift、lineage issue。
- Risk view: PII、access、retention、audit、high-risk failures。
7.7 Data Incident Playbook
| Incident type | 触发条件 | 立即动作 | 修复动作 | 复盘输出 |
|---|---|---|---|---|
| Freshness breach | 超过 SLO 且影响生产 AI | 显示 stale warning, 高风险任务升级人工 | 修复 ingestion, 补跑 index | 更新 freshness monitor 和降级策略 |
| Permission failure | 无权数据可被检索或记录进日志 | 停用 endpoint, 保全审计日志, 通知 owner | 修复 policy filter, 清理受影响 cache/log | access control RCA 和抽样验证 |
| Schema drift | 关键字段类型或语义变化 | 阻止新数据进入 production index | 更新 contract, 修复 consumer | contract change review |
| Label defect | eval 关键样本标签错误 | 冻结相关 release gate | 重新标注, 更新 golden set | rubric 修订和 labeler calibration |
| Retention violation | 到期数据仍在 index/cache/eval | 删除或隔离数据 | 修复 retention job 和 lineage | retention evidence report |
| Source conflict | 多系统事实冲突影响 AI 输出 | 输出降级为“证据冲突”, 升级人工 | 确认 source-of-truth 规则 | conflict rule update |
Incident postmortem 必须回答:
- 哪个 AI use case 受到影响?
- 用户是否看到错误输出或无权信息?
- 哪个数据 contract 或 SLO 失效?
- 为什么监控没有提前发现?
- 哪个 golden set 或 risk set 需要新增样本?
- owner operating model 是否需要调整?
8. PM / BA / Architect 分工
| 工作 | PM | BA | Architect |
|---|---|---|---|
| Define business value | 定义目标、ROI、优先级、adoption 指标 | 补充流程痛点和角色任务 | 评估技术可行性和复用性 |
| Use case mapping | 把数据产品映射到 AI capabilities | 拆解 workflow、异常路径、人工决策点 | 设计系统边界和数据流 |
| Data canvas | 组织 canvas 评审, 确认 owner | 填写字段语义、规则、验收标准 | 填写 lineage、pipeline、SLO 机制 |
| Data contract | 决定产品化边界和 release gate | 校准业务定义和 edge cases | 设计 schema、API、versioning、monitoring |
| Governance | 平衡速度、风险和价值 | 识别 PII、consent、retention 场景 | 实现权限、审计、脱敏和 policy enforcement |
| Golden set | 确定覆盖的用户价值和风险 | 编写 scenario、expected behavior、rubric | 接入 eval harness 和报告 |
| Feedback loop | 定义反馈分类和 roadmap | 分析用户纠错和流程结果 | 建立数据回流、队列和质量 dashboard |
| Operating model | 建立 RACI、review cadence、stakeholder alignment | 维护流程知识和变更影响 | 建立运行手册、incident playbook、observability |
协作原则:
- PM 对价值、优先级、adoption 和产品边界负责。
- BA 对业务语义、流程事实、异常路径和验收标准负责。
- Architect 对可扩展架构、数据流、权限、可观测性和可靠性负责。
- Data owner 对 source-of-truth、数据定义、质量和访问授权负责。
- Risk / Compliance 对高风险用途、隐私、保留和审计要求负责。
9. 30 / 60 / 90 天学习与落地计划
前 30 天: 建立 AI Data Product 基础
目标: 能识别一个 AI use case 背后的数据产品需求, 写出 canvas 和 readiness scorecard。
| 周期 | 训练内容 | 产出 |
|---|---|---|
| Week 1 | 学习 source-of-truth、data contract、metadata、lineage、quality SLO | 选 2 个金融零售场景画 data flow |
| Week 2 | 拆解 RAG knowledge product 和 eval dataset | 客服知识库 canvas + retrieval eval 指标 |
| Week 3 | 学习 PII、consent、retention、label strategy | KYC document data product risk map |
| Week 4 | 做 readiness scorecard 和 owner model | 一个完整 data product canvas + RACI |
30 天验收:
- 能解释普通 dataset 和 AI data product 的区别。
- 能为一个 AI use case 找出 source-of-truth 和主要 failure modes。
- 能写出 data contract 的关键字段和质量 SLO。
31-60 天: 连接 EvalOps、RAG 和治理
目标: 能把数据产品接入 eval、RAG、feedback loop 和 incident 管理。
| 周期 | 训练内容 | 产出 |
|---|---|---|
| Week 5 | 设计 golden set register 和 labeling SOP | AML evidence golden set 20 条场景设计 |
| Week 6 | 设计 RAG knowledge lifecycle | 客服知识库 ingestion + metadata + citation policy |
| Week 7 | 设计 data quality dashboard | freshness、retrieval、governance、feedback 指标板 |
| Week 8 | 设计 data incident playbook | payment dispute evidence pack incident runbook |
60 天验收:
- 能把 requirements-to-eval 和 data readiness 连接起来。
- 能说明数据质量问题如何影响 AI release gate。
- 能把线上反馈转成 label、golden set 和数据修复 backlog。
61-90 天: 做成作品集级案例
目标: 完成一个可展示的金融零售 AI data product portfolio case。
| 周期 | 训练内容 | 产出 |
|---|---|---|
| Week 9 | 选择 capstone 场景, 建立 business case | AML / KYC / 信贷 / 支付 / 零售 forecast 之一 |
| Week 10 | 完成 canvas、contract、scorecard、RACI | data product package v1 |
| Week 11 | 完成 eval dataset、golden set、feedback loop | eval and feedback package |
| Week 12 | 完成 dashboard、incident playbook、ROI story | portfolio-ready case study |
90 天作品集应包含:
- 1 份 AI data product canvas。
- 1 份 data contract。
- 1 份 readiness scorecard。
- 1 份 golden set register。
- 1 份 labeling SOP。
- 1 份 data quality dashboard mock。
- 1 份 data incident playbook。
- 1 页 ROI 和 governance summary。
10. 面试表达
10.1 30 秒版本
AI data product 不是把数据给模型, 而是把数据产品化成可被 AI 稳定消费的能力。它需要 source-of-truth、data contract、metadata、lineage、quality SLO、权限、PII/consent/retention、label strategy、golden set 和 feedback loop。这样 AI use case 才能被 eval、治理、审计和 ROI 管起来。
10.2 2 分钟版本
在企业 AI 场景里, 很多失败不是模型能力不足, 而是数据没有产品化。比如客服 RAG 回答错, 可能是知识库混入草稿、文档过期、权限标签缺失、chunking 丢了上下文, 或者 citation 没有进入 release gate。
我会把关键数据资产定义成 AI data product。第一步确认业务目标和 AI 使用方式, 例如 RAG、eval、routing、summarization 或 decision support。第二步确认 source-of-truth 和 data contract, 包括 schema、语义、刷新频率、质量 SLO 和变更机制。第三步设计 metadata、lineage、权限、PII、consent 和 retention 控制。第四步建立 label strategy、golden set 和 eval gate。第五步把线上反馈、incident 和业务结果回流到数据修复和产品 roadmap。
这样 PM 能讲清楚价值和边界, BA 能讲清楚业务语义和异常路径, Architect 能设计可运行的数据流和治理控制, data owner 也有明确运营责任。
10.3 面试追问速答
| 问题 | 回答要点 |
|---|---|
| 数据已经在 warehouse 里, 为什么还要 data product? | warehouse 解决存储和查询, AI data product 解决 AI 消费、权限、质量、eval、反馈和 owner 问题。 |
| RAG 知识库最容易失败在哪里? | source 未审批、文档过期、metadata 不足、权限过滤错误、chunk 缺上下文、citation 不可靠、feedback 不回流。 |
| Golden set 怎么维护? | 覆盖核心流程、风险场景、边界样本和线上事故; 版本化; 防泄漏; 定期专家复核; 与 release gate 绑定。 |
| Synthetic data 能不能用于 eval? | 可以补齐红队和长尾场景, 但必须标记 synthetic, 与真实样本分开统计, 不能替代高风险最终验收。 |
| PM 如何证明数据产品 ROI? | 连接业务指标: case handling time、defect rate、win rate、first-contact resolution、forecast error、manual review reduction。 |
| 数据质量 SLO 谁负责? | data owner accountable, data steward 运营, Architect 实现监控, PM 把 SLO 与 use case 风险和 release gate 绑定。 |
| 如何处理 PII? | 分类、最小化、脱敏、目的限制、consent 标记、retention 自动执行、prompt/log/eval/index 全链路控制。 |
| 数据合同破坏了怎么办? | 触发 incident: 停用或降级相关 AI workflow, 通知 owner, 修复 pipeline, 更新 contract, 补充 golden set。 |
11. 常见误区
| 误区 | 为什么危险 | 更好的做法 |
|---|---|---|
| 认为“能查到数据”就是 ready | AI 还需要权限、语义、质量、评测和反馈 | 用 readiness scorecard 做 gate |
| 把 RAG 当成向量库项目 | 文档生命周期、权限、引用和反馈被忽视 | 做 RAG knowledge product |
| 只看模型准确率 | 数据 freshness、coverage、label 质量可能才是瓶颈 | 把 data SLO 纳入 eval report |
| 没有 source-of-truth | 多系统冲突时 AI 会混合事实 | 明确权威来源和冲突处理 |
| 把 production logs 随便用于训练 | 可能违反 consent、retention 和目的限制 | 建立 allowed AI use 和日志治理 |
| Golden set 一次性创建 | 政策、流程、数据和攻击方式会变化 | 版本化并纳入 review cadence |
| Synthetic data 混入真实样本 | eval 结果失真, 分布判断错误 | 分开标记、分开统计、专家验证 |
| Label 没有 SOP | 标注者理解不一, eval 不可信 | rubric、校准、双人复核、仲裁 |
| 只有 data team 负责 | 业务语义和风险边界缺失 | 建立 PM/BA/Architect/Data Owner RACI |
| 不记录 lineage | 事故发生后无法解释错误来源 | record-level lineage 连接到 AI output |
12. Portfolio Case Study 结构
用于把一个 AI data product 做成求职作品集:
# [场景名] AI Data Product Case Study
## 1. Business Problem
- 业务流程:
- 当前痛点:
- AI opportunity:
- 风险等级:
## 2. Data Product Definition
- Data product:
- Users:
- AI use:
- Eval use:
- Source-of-truth:
## 3. Data Product Canvas Summary
- Business outcome:
- Data scope:
- Contract:
- Metadata:
- Lineage:
- Quality SLO:
- Access:
- PII / consent / retention:
## 4. Readiness Assessment
- Scorecard result:
- Top 5 gaps:
- Pilot gate:
## 5. Eval and Golden Set
- Evaluation dimensions:
- Golden set slices:
- Label strategy:
- Release threshold:
## 6. Operating Model
- RACI:
- Review cadence:
- Incident triggers:
- Feedback loop:
## 7. ROI and Governance Story
- Baseline:
- Expected impact:
- Risk controls:
- Adoption plan:
13. 一页总结
AI data product management 的核心是把数据从“可用资源”变成“可运营产品”。
| 从 | 到 |
|---|---|
| 数据能不能喂给 AI | 数据能不能被 AI 安全、稳定、可评测地消费 |
| 表和文档 | data product canvas、contract、metadata、lineage |
| 一次性清洗 | quality SLO、dashboard、incident playbook |
| 临时样本 | golden set、label SOP、feedback loop |
| 模型项目 | use case、eval、governance、ROI 一体化 |
| 数据团队单独负责 | PM / BA / Architect / Data Owner / Risk 共同运营 |
真正成熟的企业 AI 能力不是“模型更聪明”, 而是每个关键 AI use case 背后都有可信、可控、可复用、可审计的数据产品支撑。