Model Cards / Datasheets:AI 文档化与治理证据
Model Cards 和 Datasheets 不是“填表合规”。它们是让团队、审计、监管、客户和未来维护者理解 AI 系统边界的基础证据。
Model Cards / Datasheets for Datasets / AI Documentation 解读
面向对象: AI PM / AI BA / AI Architect / Data Product Manager / Model Risk / Governance。 核心问题: AI 系统如果不能说明模型和数据从哪里来、适合什么、不适合什么、怎么评估、谁负责,就无法进入严肃业务。 学习目标: 能把 Model Cards 和 Datasheets 的文档化思想转成金融零售 AI 的 evidence pack、model inventory、dataset card、vendor due diligence 和上线门禁。
Source Anchors
| Source | Link | 用途 |
|---|---|---|
| Model Cards for Model Reporting | https://arxiv.org/abs/1810.03993 | 理解模型用途、限制、指标、伦理考虑和透明度报告 |
| Datasheets for Datasets | https://arxiv.org/abs/1803.09010 | 理解数据集动机、组成、收集、预处理、用途、分发和维护 |
| NIST AI RMF | https://www.nist.gov/itl/ai-risk-management-framework | 将文档化放入 trustworthy AI governance |
| NIST GenAI Profile | https://www.nist.gov/publications/artificial-intelligence-risk-management-framework-generative-artificial-intelligence | 将 GenAI 系统的模型、数据、评测、风险证据组织成治理闭环 |
Model Cards 和 Datasheets 不是“填表合规”。它们是让团队、审计、监管、客户和未来维护者理解 AI 系统边界的基础证据。
为什么 AI 文档化是核心能力
传统软件文档常回答:
- 系统做什么。
- API 怎么调用。
- 数据库字段是什么。
- 谁维护。
AI 系统还必须回答:
- 模型适合什么任务,不适合什么任务。
- 训练、评估、部署数据来自哪里。
- 评估覆盖了哪些人群、场景和风险。
- 哪些结果不应被用于客户影响决策。
- 模型升级后行为是否变化。
- 数据是否有偏差、隐私、许可和代表性问题。
- 失败时谁负责,如何回滚。
没有这些文档,AI 系统会变成黑箱资产:
- PM 无法定义承诺边界。
- BA 无法写验收和异常流程。
- 架构师无法做依赖和变更管理。
- Model Risk 无法验证。
- 审计无法追溯。
- 业务无法放心采用。
Model Card 的核心内容
Model Card 关注模型本身和使用边界。
企业 AI 中可以包含:
| Section | 关键问题 |
|---|---|
| Model details | provider、model name、version、deployment、license、data policy |
| Intended use | 允许的业务用途、用户、工作流位置 |
| Out-of-scope use | 禁止用途、客户影响决策、自动化边界 |
| Factors | 地区、语言、客户类型、产品、渠道、风险等级 |
| Metrics | accuracy、groundedness、safety、latency、cost、fairness、robustness |
| Evaluation data | golden set、challenge set、red-team set、expert sample |
| Ethical / risk considerations | 隐私、公平、误导、越权、自动化偏差 |
| Human oversight | 哪些输出必须人工复核 |
| Limitations | 不确定性、已知失败模式、适用边界 |
| Monitoring | 漂移、反馈、incident、review cadence |
| Change history | 模型升级、prompt 更新、retrieval 配置变化 |
Model Card 不只适用于 foundation model
企业 GenAI 系统里,很多组件都需要“卡片化”:
- foundation model。
- embedding model。
- reranker。
- classifier。
- judge model。
- prompt template。
- RAG pipeline。
- agent workflow。
- tool gateway policy。
更准确地说,企业需要的是:
Model/System Card。
Datasheet 的核心内容
Datasheets for Datasets 关注数据集的来源、构造、用途和维护。
企业 AI 可迁移为:
| Section | 关键问题 |
|---|---|
| Motivation | 为什么创建这个数据集 |
| Composition | 包含哪些样本、字段、群体、风险类别 |
| Collection process | 如何收集、抽样、脱敏、授权 |
| Preprocessing | 清洗、标注、过滤、合成、去重 |
| Uses | 允许用于训练、评估、RAG、监控还是分析 |
| Distribution | 谁能访问,如何共享 |
| Maintenance | 谁维护,多久刷新,如何下线 |
| Risks | 隐私、偏差、代表性、泄露、过期 |
AI Eval Dataset Card
对 AI PM/BA 最实用的是 eval dataset card:
| Field | Example |
|---|---|
| dataset_id | kyc_policy_eval_v1 |
| purpose | KYC Policy Assistant release gate |
| source | 政策、SOP、SME 编写 challenge cases |
| sample types | gold、negative、permission、version、conflict、red-team |
| labels | expected behavior、gold source、risk tier、failure tags |
| owner | KYC policy owner + EvalOps |
| refresh | 每次政策更新后 |
| restrictions | 不用于训练外部模型,不含真实 PII |
| known gaps | 尚未覆盖 APAC 全部地区 |
金融零售应用
Credit Policy RAG
需要:
- System Card: 说明它只辅助政策检索和 rationale drafting,不直接审批贷款。
- Dataset Card: 说明 eval cases 覆盖产品、地区、客户类型、adverse action reason、拒答。
- Monitoring Card: 说明线上 override、complaint、citation failure、policy update regression。
AML Copilot
需要:
- Model/System Card: 说明它生成 investigation summary 和 SAR draft,但不提交 SAR。
- Dataset Card: 说明 typology、交易模式、false positive、missing evidence cases。
- Human Oversight Card: 说明 investigator 和 supervisor 的责任。
Customer Service Copilot
需要:
- Model Card: 说明话术生成边界。
- Knowledge Dataset Card: 说明政策、FAQ、产品资料版本。
- Safety Card: 说明禁止承诺、误导销售、PII 泄露。
Documentation as Risk Control
文档不是上线后补的材料,而是控制本身:
| 风险 | 文档控制 |
|---|---|
| 用途漂移 | Intended / out-of-scope use |
| 数据偏差 | dataset composition + known gaps |
| 过期资料 | maintenance + refresh policy |
| 供应商风险 | model details + data use terms |
| 评测不足 | evaluation data + metrics |
| 自动化越权 | human oversight + prohibited use |
| 模型升级风险 | change history + regression result |
| 审计不可追溯 | evidence index + owner + version |
PM 要用文档定义产品承诺。BA 要用文档定义需求和验收。架构师要用文档管理依赖和变更。Risk 要用文档检查控制是否充分。
Model/System Card 模板
| Section | 内容 |
|---|---|
| System name | AI use case / component |
| Owner | business / product / tech / risk |
| Purpose | 解决什么问题 |
| Intended users | 谁使用 |
| Workflow location | 在流程哪一步 |
| AI role | retrieve / summarize / classify / draft / recommend / act |
| Human role | review / approve / override / monitor |
| Model dependencies | model, embedding, reranker, judge |
| Data dependencies | RAG source, eval set, logs, labels |
| Metrics | quality, safety, cost, latency, adoption |
| Known limitations | 已知失败模式 |
| Prohibited use | 禁止范围 |
| Monitoring | 指标、owner、频率 |
| Change history | 版本和变更 |
| Approval | sign-off |
Dataset Card 模板
| Section | 内容 |
|---|---|
| Dataset name | eval / training / RAG / monitoring |
| Purpose | 为什么存在 |
| Source | 来源系统/文档/SME/合成 |
| Composition | 样本类型、覆盖范围、风险类别 |
| Labels | 标签定义 |
| PII / sensitivity | 隐私和敏感性 |
| Quality checks | 一致性、覆盖、泄露、重复 |
| Allowed use | 允许用途 |
| Prohibited use | 禁止用途 |
| Owner | 数据 owner |
| Refresh trigger | 更新条件 |
| Known gaps | 盲区 |
| Retention | 保留期 |
| Version | 版本 |
30 秒面试表达
我会用 Model Cards 和 Datasheets 的思想管理 AI 系统证据。对企业 AI 来说,必须说明模型和数据的用途、边界、评估、限制、风险、责任人和变更历史。这样 PM 能定义承诺,BA 能写验收,架构师能管理依赖,Model Risk 和审计能验证。
2 分钟面试表达
Model Cards 解决模型透明度问题,Datasheets 解决数据来源和数据用途问题。迁移到金融 GenAI,我会扩展成 Model/System Card 和 Eval Dataset Card。比如 Credit Policy RAG 的 System Card 要写明它只辅助政策检索和 rationale drafting,不直接作出信贷决定;要记录 foundation model、embedding、reranker、judge、RAG source、eval dataset、human oversight、metrics、known limitations 和 prohibited use。Dataset Card 要记录 eval set 的来源、覆盖、标签、PII、允许用途、更新触发和已知缺口。这些文档不是形式主义,而是 model risk、审计、供应商评估和上线门禁的证据底座。
CTO 深挖回答
技术上我会把 model/system cards 和 dataset cards 做成版本化 registry,和 prompt registry、eval run、deployment version、incident log 关联。任何模型升级、prompt 变更、index refresh 或数据源变更,都要更新卡片并触发回归评估。
Model Risk 深挖回答
对 Model Risk 来说,卡片化文档支撑 inventory、validation、ongoing monitoring 和 change management。它明确 intended use、limitations、evaluation evidence、known gaps 和 sign-off。没有这些字段,模型使用就很容易发生用途漂移和不可追溯。
BA / Data 深挖回答
BA 和 Data Product Manager 要保证数据集卡片不是工程团队内部字段表,而是业务可理解的证据。比如 KYC eval set 要说明覆盖哪些客户类型、地区、政策版本、negative cases、permission cases 和 conflict cases。这样需求、数据和评估才能对齐。
输出练习
完成本文后,产出四个资产:
Model/System Card: 选 AML Copilot 或 Credit Policy RAG。Eval Dataset Card: 说明 golden/challenge/negative/red-team set。Known Limitations Register: 写 10 条已知限制和控制。Change History Template: 记录模型、prompt、RAG、eval 的版本变化。
作品集表达:
我用 Model Cards 和 Datasheets 把 AI 系统的模型、数据、评估、限制、责任和变更历史文档化。这能把 AI 项目从 demo 资产变成可审查、可维护、可治理的企业资产。