Data Lineage / Data Contracts:AI 数据质量与血缘
一句话:
Data Lineage / Data Contracts / AI Data Quality 解读
面向对象: AI Data Product Manager / AI Product Architect / Data Architect / Governance / Model Risk。 核心问题: AI 产品为什么经常不是模型坏,而是数据定义、血缘、质量、标签、版本和权限坏?OpenLineage、DataHub、OpenMetadata、Great Expectations 代表的元数据和质量能力如何成为 AI 生产底座? 学习目标: 理解 data contract、lineage、metadata、quality SLO、schema evolution、training/eval/RAG corpus lineage,并映射到 KYC、AML、信贷、客服 trace、推荐特征和政策 RAG。
Source Anchors
| Source | Link | 用途 |
|---|---|---|
| OpenLineage docs | https://openlineage.io/docs/ | 理解 lineage metadata 的开放模型和 job/dataset/run 事件 |
| DataHub docs | https://docs.datahub.com/docs/ | 理解 metadata platform、ownership、lineage、schema、governance |
| OpenMetadata docs | https://docs.open-metadata.org/latest | 理解数据发现、data contracts、lineage、quality、governance |
| Great Expectations docs | https://docs.greatexpectations.io/ | 理解 data quality tests、expectations、validation |
| NIST AI RMF | https://www.nist.gov/itl/ai-risk-management-framework | 把 AI 数据质量纳入风险、测量和治理 |
一句话:
AI 数据平台的核心不是“把数据放进湖里”,而是证明每个模型、eval、RAG 答案和业务决策使用的数据是什么、从哪里来、谁负责、质量如何、何时变更。
1. AI 数据问题的真实形态
常见生产事故:
- KYC 文档模型突然退化,因为 OCR 上游字段改名。
- AML 标签延迟导致训练样本错误。
- 信贷模型训练使用了未来才知道的字段。
- RAG 政策库引用了过期文件。
- 客服 trace 被用于训练,但没有目的限制和保留策略。
- 推荐特征口径变更导致排序偏差。
- eval dataset 被污染,模型升级看起来变好。
这些不是单纯工程 bug,而是数据产品治理缺口。
AI 需要三类 lineage:
| Lineage | 说明 |
|---|---|
| Training lineage | 模型训练用了哪些数据、特征、标签、时间窗口、转换 |
| Evaluation lineage | golden set、judge、rubric、人工标注从哪里来 |
| Runtime lineage | RAG corpus、tool result、feature vector、model output 如何进入一次决策 |
2. Data Contract 是产品契约
Data contract 不只是 schema。它应该包括:
| 字段 | 说明 |
|---|---|
| Data product name | 稳定业务名 |
| Owner | business、data、technical、risk owner |
| Consumers | model、feature、RAG、dashboard、eval |
| Schema | 字段、类型、约束 |
| Semantics | 业务含义、计量单位、有效时间 |
| Freshness | 更新频率和最大延迟 |
| Quality SLO | completeness、validity、accuracy、timeliness |
| Allowed use | 训练、推理、评估、分析、客户触达 |
| Prohibited use | 不得用于自动拒绝、高风险推荐等 |
| Privacy class | PII、sensitive、regulated |
| Change policy | breaking change、approval、notice period |
| Incident path | 出错时谁响应、如何降级 |
没有 contract 的数据不应进入高风险 AI 系统。
3. OpenLineage 的核心直觉
OpenLineage 关注运行中的 lineage 事件:
job run
-> input datasets
-> transformation
-> output datasets
-> facets / metadata
对 AI 的价值:
- 记录训练集如何生成。
- 记录特征表和标签表来源。
- 记录 RAG corpus ingest pipeline。
- 记录 eval dataset 生成流程。
- 支持事故时追溯上游变更。
AI lineage 需要扩展 metadata:
- model version。
- prompt version。
- embedding model。
- chunking strategy。
- label policy。
- privacy classification。
- feature availability timestamp。
- eval rubric version。
4. Data Quality SLO
质量不是“偶尔跑测试”,而是服务承诺。
| 质量维度 | AI 例子 |
|---|---|
| Completeness | KYC 文档字段缺失率 |
| Validity | 金额、日期、国家码是否合法 |
| Accuracy | OCR 抽取字段是否正确 |
| Consistency | 客户 ID、账户 ID 跨系统一致 |
| Freshness | 政策文档是否在有效期内 |
| Timeliness | 欺诈特征是否在 SLA 内到达 |
| Uniqueness | 标签样本是否重复 |
| Distribution | 特征分布是否漂移 |
Quality gate 示例:
block model training if:
missing_rate(customer_id) > 0.1%
label_delay_unresolved > threshold
policy_corpus_outdated_docs > 0
eval_set_unknown_source > 0
5. 金融零售案例
5.1 RAG 政策库 Lineage
需要记录:
- source system。
- policy owner。
- effective date。
- jurisdiction。
- product applicability。
- ingestion time。
- chunk version。
- embedding model。
- access policy。
- citation ID。
如果答案引用过期政策,lineage 能追溯:
answer -> chunk -> document version -> ingest job -> source owner -> approval record
5.2 AML Labels
AML 标签复杂:
- SAR filed 不等于一定真实犯罪。
- case closed false positive 也可能是信息不足。
- 标签有长延迟。
- analyst 风格不同。
标签 contract 要说明:
- label definition。
- source workflow。
- confirmation level。
- delay window。
- reviewer quality。
- permitted model use。
5.3 KYC 文档数据
KYC pipeline:
document upload
-> OCR
-> field extraction
-> validation
-> rules
-> human review
每步都需要 lineage,否则错误字段进入模型训练后很难追。
6. AI Data Incident Response
数据事故例子:
- 上游 schema breaking change。
- RAG corpus ingest 错误。
- eval set 被重复样本污染。
- PII 被放入不该进入的训练集。
- 标签口径变更未通知模型团队。
响应流程:
detection
-> classify impacted AI assets
-> pause training/release if needed
-> identify downstream models/RAG/evals
-> rollback or rebuild dataset
-> replay affected decisions
-> update contract and tests
关键证据:
- 影响了哪些模型。
- 影响了哪些客户或决策。
- 是否需要通知 risk/compliance/privacy。
- 是否需要重新评估或回滚。
7. Architecture Checklist
| 设计项 | 高级问题 |
|---|---|
| Metadata model | 是否记录 data、model、prompt、eval、RAG、feature 的关系 |
| Ownership | 每个关键数据资产是否有业务和技术 owner |
| Contract testing | schema、semantic、freshness、quality 是否自动测试 |
| Lineage capture | batch、stream、feature、RAG ingest、eval generation 是否覆盖 |
| Change control | breaking change 是否通知和审批 |
| AI asset impact | 上游数据变更能否找到下游模型和页面 |
| Quality SLO | 是否有 threshold、alert、fallback |
| Privacy | PII、consent、retention 是否进入 metadata |
| Evidence | release gate 是否保存 contract、quality report、lineage |
8. 面试表达
30 秒版本
AI 数据治理不是把数据目录建起来,而是让模型、RAG、eval 和决策都能追溯到数据来源、定义、版本、质量和 owner。Data contract 定义数据产品承诺,lineage 记录数据如何流动,quality SLO 决定数据是否可以进入训练和上线。没有这些,高风险 AI 事故很难定位和审计。
2 分钟版本
我会把 AI 数据资产分成 training data、eval data、RAG corpus、feature data 和 trace data。每类都有 contract: schema、语义、freshness、quality、allowed use、privacy class、change policy 和 incident path。OpenLineage 类能力记录 job/run/dataset 关系,DataHub/OpenMetadata 管 owner、schema、lineage 和 governance,Great Expectations 类工具做质量验证。金融场景中,RAG 政策库要能追溯到文档版本和有效期,AML 标签要有标签定义和延迟说明,KYC 抽取要能追踪 OCR 到人工复核的链路。
架构师版本
AI data platform 需要 metadata store、lineage collector、contract registry、quality engine、schema change gate、asset impact graph、privacy metadata 和 release evidence。它是 EvalOps、Feature Store、RAG 和 Model Risk 的共同底座。
9. 作品集任务
做一个“RAG 政策库 data contract + lineage”:
- 写 policy document data contract。
- 定义 chunk metadata 和 citation ID。
- 画 source -> ingest -> chunk -> embedding -> answer lineage。
- 写 freshness 和 permission quality SLO。
- 设计 breaking change approval。
- 写一个过期政策事故响应 playbook。