AI 扩展计划 / Playbooks

AI Audit Evidence Binder Playbook

版本：v1.0

915 行AI_AUDIT_EVIDENCE_BINDER_PLAYBOOK.md

AI 审计证据包实战手册：Audit Evidence Binder、Control Evidence 与监管就绪文档

版本：v1.0 日期：2026-06-29 适用对象：AI 产品经理、业务分析师、企业架构师、解决方案架构师、模型风险管理、合规、内审、法务、数据治理、信息安全、金融零售业务负责人

1. 核心观点：审计证据是一个系统产品

AI 审计证据包不是项目上线前临时整理的一组截图、会议纪要和模型评估表。它本质上是一个“系统产品”：围绕 AI 系统全生命周期，把控制目标、业务风险、模型行为、数据来源、人员责任、变更记录、运行监控、异常处置和监管问询组织成可追溯、可复现、可解释、可批准的证据链。

在金融零售场景中，AI 系统常常触达客户身份、交易监控、授信、反欺诈、支付风控、投诉处理、智能客服和运营决策。监管、内审和模型风险团队不会只问“模型效果好不好”，而会追问：

这个 AI 用例是否被正式识别、分级、审批和纳入治理台账？
使用了哪些数据，数据是否有来源证明、授权边界、质量检查和敏感字段控制？
模型或大模型调用是否有用途边界、性能评估、偏差评估、人工复核和停止机制？
控制措施是否真实运行，还是只写在制度里？
发生漂移、异常、客户影响、投诉或事故时，谁负责判断、升级、修复和复盘？
当监管要求 5 个工作日内提供材料时，团队能否拿出同一版本、同一口径、同一证据链？

把证据包当成系统产品，意味着它需要产品化设计：

产品视角	对应到证据包	实战含义
用户	监管、内审、外审、模型风险委员会、业务负责人、上线审批人、事故响应团队	不同用户需要不同粒度的证据，不应把所有原始材料堆在一个共享盘里
用户旅程	用例立项、风险评估、上线审批、运行监控、变更、事故、定期复核、监管检查	证据应在流程中自然生成，而不是检查前补录
信息架构	控制目录、证据目录、系统卡、模型卡、数据表、测试报告、审计日志、例外记录	每份证据应能回答“证明哪个控制、覆盖哪个风险、适用哪个版本”
数据产品	元数据、版本、所有者、时间戳、哈希、审批记录、保留期限、访问权限	证据本身也需要数据治理和访问控制
运营机制	证据刷新频率、质量评分、缺口管理、例外升级、复核节奏	证据包需要被持续运营，不能只在审计季运作
风险控制	完整性、准确性、时效性、一致性、可追溯性、不可抵赖性	证据质量决定控制可信度

一句话定义：

AI Audit Evidence Binder 是围绕 AI 系统风险和控制目标组织起来的、可持续更新的证据产品，用来证明组织在特定时间点和特定版本下对 AI 系统进行了治理、评估、控制、监控和改进。

2. 来源锚点与使用边界

本手册以以下公开框架和文献作为方法锚点，并结合金融零售业务场景进行产品化落地。它不是法律意见，也不是任何认证的替代品。真实项目应由合规、法务、内审和模型风险管理团队结合所在司法辖区、业务牌照、监管口径和机构制度进行确认。

锚点	本手册采用的思想	落地到证据包
NIST AI RMF Core	以 Govern、Map、Measure、Manage 四类职能组织 AI 风险管理活动	证据包必须覆盖治理、风险场景、评估度量、处置监控四类证据
NIST AI RMF Playbook	为 AI RMF 结果提供建议行动、参考和相关指引，且不是一次性清单	证据包应支持持续运营，而不是把框架机械转换成表格
NIST AI 600-1 GenAI Profile	针对生成式 AI 的特有风险和管理行动进行画像	RAG、客服助手、代码生成、文档摘要、营销内容生成等场景需增加生成式 AI 专项证据
ISO/IEC 42001:2023	建立、实施、维护和持续改进 AI 管理体系，平衡创新、治理、风险和机会	证据包应能支撑 AIMS 的范围、目标、责任、风险、控制、改进和管理评审
OMB M-24-10	针对公共部门 AI 治理、创新和风险管理提出要求，并强调影响权利与安全的 AI 使用	借鉴其“权利与安全影响”“最低风险管理实践”“AI 用例治理台账”的证据化思路；截至 2026-06-29，美国联邦项目还需要核对后续 OMB 文件的替代要求
Model Cards	模型发布应伴随用途、限制、评估、不同群体表现和适用上下文说明	每个模型版本应有模型卡，且模型卡不能替代系统级证据
Datasheets for Datasets	数据集应记录动机、组成、采集、处理、推荐用途和限制	每个训练、验证、监控、知识库或特征数据集应有数据说明书

3. 三层证据架构：Policy、Control、Evidence

AI 证据包最常见的问题是把制度、控制和证据混为一谈。三者必须分层。

层级	说明	常见载体	审计关注点
Policy / Standard	组织要求什么	AI 治理政策、模型风险管理政策、数据治理标准、第三方管理标准、信息安全标准	政策是否覆盖 AI 特有风险，是否被批准，是否有适用范围
Control	为满足政策和降低风险，团队实际做什么	控制目标、控制活动、审批门禁、自动化校验、人工复核、监控阈值、变更评审	控制是否设计合理、职责明确、运行有效
Evidence	如何证明控制真实发生且结果可接受	评审记录、测试报告、日志、审批单、版本记录、指标看板、例外单、事故复盘	证据是否完整、准确、及时、可追溯、可复现

一个成熟的证据包不只是“有材料”，而是每个证据都能回答四个问题：

它证明哪个控制？
它覆盖哪个 AI 风险或监管关注点？
它适用于哪个系统、模型、数据、流程和版本？
它由谁在何时生成、审核、批准和归档？

4. 证据分类法

建议将 AI 证据分为 12 类。分类不是为了形式完整，而是为了让不同团队知道自己应产出什么材料。

类别代码	证据类别	典型证据	主要责任方
E01	治理与策略证据	AI 使用政策、AIMS 范围、风险偏好、AI 委员会纪要、控制库、例外管理标准	AI 治理、合规、内审、管理层
E02	用例与业务影响证据	AI 用例登记、业务目标、客户影响评估、权利与安全影响判断、使用边界	PM、BA、业务 Owner、合规
E03	数据与知识源证据	数据说明书、数据血缘、授权证明、PII 清单、数据质量报告、RAG 知识库索引	数据治理、数据工程、BA
E04	模型与系统设计证据	模型卡、系统卡、架构图、提示词策略、工具调用设计、人工复核设计、降级方案	架构师、ML 工程、平台团队
E05	风险评估证据	AI 风险评估、模型风险分级、隐私影响评估、安全威胁建模、公平性影响分析	风险、合规、安全、架构
E06	测试与评估证据	离线评估、红队测试、偏差测试、稳健性测试、幻觉评估、业务验收、UAT 记录	QA、模型风险、业务、PM
E07	上线审批证据	Go-live checklist、审批流、控制例外、上线会议纪要、回滚方案、SLA/SLO 承诺	PM、发布经理、系统 Owner
E08	运行监控证据	生产指标、漂移监控、质量抽检、人工复核结果、告警记录、成本与延迟监控	运维、模型运营、业务运营
E09	审计日志与可追溯证据	用户操作日志、模型调用日志、输入输出摘要、权限变更、配置变更、证据访问日志	平台、安全、运维
E10	事故、例外与补救证据	事故单、根因分析、客户补救、模型禁用记录、例外批准、整改证明	事故经理、风险、业务
E11	第三方与供应商证据	供应商尽调、模型服务合同、数据处理协议、SLA、子处理方清单、供应商审计报告	采购、法务、第三方风险
E12	培训与人员能力证据	培训记录、角色授权、操作手册、人工复核指南、能力认证、值班安排	HR、业务运营、AI 治理

证据粒度建议：

粒度	适用材料	管理方式
企业级	AI 政策、AIMS 范围、控制库、风险偏好、治理委员会记录	年度版本控制，管理层批准
组合级	某业务线 AI 用例清单、模型组合风险、供应商组合、关键控制覆盖率	季度复核，业务线负责人批准
系统级	系统卡、架构图、运行监控、系统级风险评估、集成日志	每次重大变更更新
模型级	模型卡、训练记录、评估报告、漂移报告、版本比较	每个模型版本更新
数据级	数据说明书、数据质量、血缘、权限、保留期限	数据集版本更新
交易级	单次推理、决策、人工复核、客户通知、操作日志	自动记录，按保留政策归档

5. 映射到 NIST AI RMF：Govern、Map、Measure、Manage

证据包应能沿着 NIST AI RMF 的四类职能进行导航。下面的映射不是把框架变成机械清单，而是帮助团队把“做了什么”转换成“能证明什么”。

NIST AI RMF 职能	核心问题	证据包应回答	关键证据
Govern	组织如何建立 AI 风险管理文化、政策、责任和监督	谁拥有 AI 风险？谁批准上线？AI 风险是否纳入企业治理和问责？	AI 治理章程、RACI、AI 用例台账、风险偏好、政策例外、委员会纪要、培训记录
Map	组织如何识别上下文、受影响人群、业务目标、风险和边界	AI 系统用于什么场景？影响谁？误用和失败会造成什么后果？	用例登记、客户旅程、数据流、系统边界、影响评估、风险分类、供应商关系图
Measure	组织如何分析、评估和跟踪 AI 风险与可信度	模型表现如何？公平性、稳定性、安全性、解释性和人工复核效果如何？	模型卡、评估报告、测试集说明、偏差分析、红队报告、幻觉评估、监控指标
Manage	组织如何优先级排序、响应、缓解和持续改进 AI 风险	风险如何被接受、缓解、转移或停止？问题如何升级和关闭？	风险处置计划、控制矩阵、上线门禁、事故复盘、整改计划、例外批准、停用记录

实战用法：

每个 AI 用例至少保留一页“四职能证据地图”。
每个控制项至少映射到一个 NIST 职能。
每次审计或监管问询都从四职能地图进入，而不是从文件夹层级慢慢翻。
对生成式 AI，用 NIST GenAI Profile 增补专项证据，例如幻觉、越权工具调用、敏感信息泄露、提示词注入、内容安全、模型供应链和人类过度依赖。

6. 映射到 ISO/IEC 42001 AIMS

ISO/IEC 42001 的价值在于把 AI 治理纳入管理体系。证据包需要支撑“体系是否被建立、实施、维护、持续改进”，而不只是证明单个模型做过评估。

AIMS 维度	管理关注点	证据包材料	金融零售示例
组织背景与范围	哪些业务、系统、角色和第三方纳入 AIMS	AIMS 范围说明、AI 系统清单、边界图、排除项理由	将智能客服、AML 告警摘要、信贷预审、支付风控纳入范围
领导与责任	管理层如何设定方向、授权和问责	AI 委员会章程、RACI、年度目标、风险偏好	零售银行 AI 委员会批准“高影响 AI 用例必须人工复核”
规划与风险机会	AI 风险与机会如何识别、评估和处置	AI 风险评估、机会评估、风险处置计划、控制库	识别信用评分模型可提升效率，同时存在歧视性影响风险
支持能力	人员、培训、工具、知识和沟通机制	培训记录、操作手册、复核指南、沟通计划	客服质检人员完成生成式 AI 输出审核培训
运行控制	AI 系统如何开发、采购、部署、使用和监控	SDLC 证据、供应商评估、上线审批、监控记录	第三方大模型接入前完成安全、隐私和合同评审
绩效评价	AIMS 是否有效，控制是否运行	内审报告、控制测试、KPI/KRI、管理评审	每季度报告 AI 事故数、例外数、人工复核覆盖率
改进	不符合项、事故和机会如何推动改进	整改计划、复盘、版本改进记录、政策更新	支付风控模型误杀率上升后调整阈值并补偿受影响客户

AIMS 证据包的最低产品形态：

文档	作用	更新频率
AIMS 范围与 AI 系统清单	定义体系覆盖边界	季度或重大变更
AI 风险与控制库	统一控制语言	半年或监管变化
AI 用例证据包标准	规定每个用例必须保留什么	半年
AI 管理评审材料	向管理层证明体系运行情况	季度
不符合项与改进台账	证明持续改进	持续

7. Model Cards、Datasheets 与 System Cards 的关系

模型卡、数据说明书和系统卡经常被混用。一个监管就绪的证据包需要三者同时存在，并明确边界。

文档	关注对象	关键问题	不能替代什么
Model Card	一个模型或模型版本	模型用途、训练背景、评估方法、性能、限制、适用和不适用场景	不能替代系统架构、业务流程、人工复核和生产监控证据
Datasheet for Dataset	一个数据集或知识库版本	数据为何被创建、如何采集、包含什么、如何处理、适用用途、质量和限制	不能替代模型表现评估，也不能证明数据使用一定合法合规
System Card	一个 AI 系统或产品能力	系统目标、用户、数据流、模型流、工具调用、控制、监控、失败模式、人工介入	不能替代底层模型卡和数据说明书

7.1 模型卡最小内容

模块	需要写清楚	合格样例
模型身份	名称、版本、来源、训练或供应商信息、上线日期	`CreditPreScreen-XGB v2.3`，内部训练，2026-05-18 上线
预期用途	支持什么业务决策，是否仅作辅助	用于信用卡申请预审排序，不直接生成拒绝决定
不适用场景	禁止用途、低置信度场景、受限人群	不用于最终授信审批，不用于小微企业贷款
输入输出	关键特征、输出分数、阈值含义	输出 0-1000 风险分，低于 420 进入人工复核队列
评估数据	测试集时间窗、样本量、代表性说明	2025-10 至 2026-03 申请样本，剔除标签未成熟账户
表现指标	准确性、召回、AUC、误拒、误批、稳定性	AUC 0.82，人工复核队列坏账捕获率提升 11%
分群表现	地区、年龄段、渠道、产品、语言、设备等	移动端新客样本误拒率高于网点渠道 1.7 个百分点
风险与限制	偏差、漂移、数据质量、可解释性、过度依赖	薄信用档案客户解释稳定性较弱，必须提供人工复核
监控计划	指标、阈值、频率、告警和响应	PSI 超过 0.2 触发模型风险复核
审批记录	模型 Owner、风险审批、业务审批	模型风险委员会 2026-05-10 批准

7.2 数据说明书最小内容

模块	需要写清楚	合格样例
数据动机	为什么收集和使用该数据	用于训练支付欺诈识别模型，降低账户盗用损失
数据组成	字段、标签、时间窗、样本量、敏感字段	交易金额、商户类别、设备指纹、IP 风险等级，不含明文证件号
数据来源	系统、供应商、客户授权、派生逻辑	来自核心支付系统、设备风控服务和人工标注欺诈单
采集与处理	抽取、清洗、脱敏、标签生成、特征工程	客户标识经不可逆哈希，标签由确认欺诈工单生成
质量检查	缺失、重复、异常、标签延迟、样本偏移	商户类别缺失率 0.4%，标签成熟期 45 天
使用限制	允许用途、禁止用途、保留期限	仅用于支付风控训练和评估，不用于营销画像
访问控制	谁可访问，审批和日志机制	数据科学团队只访问脱敏特征表，访问记录保留 7 年
版本历史	数据集版本、变更点、影响分析	v2026Q2 新增设备风险等级字段，已完成回归测试

7.3 系统卡最小内容

模块	需要写清楚	合格样例
系统目标	系统解决什么问题，服务哪些用户	AML 告警摘要助手，帮助分析师快速理解可疑交易线索
系统边界	包含和不包含的组件、接口、第三方服务	包含 RAG 检索、摘要生成、案例工作台；不自动提交 SAR
用户与权限	使用角色、权限分级、审批要求	仅 AML 二线分析师可调用，主管可查看抽检报告
数据流与模型流	输入、检索、推理、输出、日志和存储	客户身份信息脱敏后进入提示词，上下文来自批准知识库
控制点	输入过滤、知识库版本、输出校验、人工复核	所有摘要必须经分析师确认后进入案件记录
失败模式	幻觉、遗漏、错误归因、敏感信息暴露、越权访问	模型无法给出来源时显示“证据不足”，禁止生成结论性判断
监控	质量、延迟、成本、安全、客户影响	每周抽检 100 条摘要，来源引用准确率低于 95% 触发复盘
事故响应	停用、回滚、通知、补救和复盘	发现错误摘要进入案件记录时冻结该版本知识库并启动影响分析

8. Control-to-Evidence Matrix

控制到证据矩阵是证据包的骨架。没有矩阵，证据包会变成文件堆；有矩阵，审计人员能快速判断控制是否被设计、执行和证明。

控制 ID	控制目标	控制活动	风险	NIST 映射	ISO 42001 映射	证据	频率	Owner	合格标准
AI- GOV-001	所有 AI 用例纳入治理台账	新 AI 用例立项前登记用途、Owner、数据、模型、影响等级	未登记 AI、影子 AI、无法问责	Govern、Map	范围、领导、规划	AI 用例登记表、审批记录、系统清单	每次立项	AI Governance Lead	100% 高影响用例有唯一 ID 和审批
AI-MAP-002	明确客户影响和使用边界	BA 完成客户旅程、受影响人群、失败影响和禁用场景分析	客户权益受损、误用模型	Map	风险机会、运行控制	客户影响评估、使用边界声明、流程图	每次重大变更	BA Lead	影响评估经业务和合规签署
AI-DATA-003	数据使用可追溯且符合授权	训练和知识库数据必须有来源、授权、血缘和质量检查	数据滥用、隐私违规、标签污染	Map、Measure	支持、运行控制	数据说明书、血缘图、DPIA、质量报告	每个数据版本	Data Owner	无未批准敏感字段进入模型
AI-MOD-004	模型用途、限制和表现透明	每个模型版本发布模型卡	模型被误用、性能不可解释	Measure	绩效评价	模型卡、评估报告、分群表现	每个模型版本	Model Owner	指标、限制、监控计划完整
AI-SYS-005	系统级控制覆盖端到端流程	关键 AI 系统发布系统卡	只评估模型、不评估系统风险	Govern、Map、Manage	运行控制	系统卡、架构图、数据流图、控制点清单	每个系统版本	Architect	系统边界、失败模式和人工复核明确
AI-EVAL-006	上线前完成风险相关测试	根据风险等级执行准确性、公平性、安全、鲁棒性和业务验收	未经验证上线	Measure	绩效评价	测试计划、评估结果、红队报告、UAT 记录	每次上线	QA / MRM	高风险问题关闭或有批准例外
AI-HITL-007	高影响决策保留人工复核	定义复核条件、复核人、操作指南和抽检机制	自动化决策损害客户权益	Manage	运行控制	复核 SOP、抽检报告、复核日志、培训记录	持续	Business Ops	复核覆盖率和一致性达标
AI-LOG-008	AI 关键操作可追溯	记录输入摘要、检索来源、模型版本、输出、用户、时间和决策动作	无法复盘、不可抵赖性不足	Govern、Measure、Manage	运行控制、绩效评价	审计日志、日志字段字典、保留策略	持续	Platform Owner	关键字段完整率不低于 99.5%
AI-INC-009	AI 事故可升级和补救	建立 AI 事故分类、升级、客户影响评估和整改机制	事故扩大、监管报告延误	Manage	改进	事故单、RCA、整改证明、客户补救记录	事件触发	Incident Manager	高严重度事故按 SLA 完成复盘
AI-TPR-010	第三方 AI 服务风险受控	对供应商模型、数据处理、SLA、子处理方和退出方案进行评估	供应商不可控、数据跨境和服务中断	Govern、Map、Manage	运行控制、支持	供应商尽调、合同条款、SLA、退出方案	入库和年度复核	TPRM	高风险供应商完成法务、安全、隐私评审

矩阵使用原则：

控制 ID 不随证据文件名变化而变化。
证据可以复用，但必须明确证明范围。
每个高风险控制至少有一份设计证据和一份运行证据。
自动化控制必须有配置、运行日志和异常处理证据。
人工控制必须有执行记录、审核记录和抽样质量证据。

9. 证据生命周期

证据生命周期要嵌入 AI 生命周期，而不是挂在审计团队末端。

阶段	主要动作	生成证据	质量门禁
1. 需求与立项	识别 AI 用例、业务目标、影响人群、成功指标	用例登记、业务目标、客户影响初评、RACI	未登记不得进入方案设计
2. 风险分级	判断是否影响客户权利、安全、财务利益或合规义务	风险分级表、适用控制清单、监管影响说明	高影响用例必须进入增强评审
3. 数据准备	明确数据来源、授权、质量、血缘、敏感字段和标签	数据说明书、血缘图、数据质量报告、访问审批	未批准数据不得进入训练或知识库
4. 设计与开发	明确架构、模型、提示词、工具调用、人机协同和降级	系统卡、模型卡草案、架构图、威胁模型	关键控制点必须设计到流程中
5. 测试与验证	完成模型、系统、业务、安全、隐私、公平性和生成式 AI 评估	测试计划、评估报告、红队报告、UAT、缺陷关闭记录	严重缺陷关闭或有正式例外
6. 上线审批	汇总控制状态、风险接受、回滚方案和运行监控	Go-live 证据包、审批流、发布记录、回滚计划	上线审批人可见完整证据索引
7. 生产运行	监控模型表现、漂移、日志、成本、延迟、人工复核和异常	监控看板、抽检记录、日志、告警记录	指标越阈必须触发响应流程
8. 变更管理	处理模型、数据、提示词、供应商、阈值和策略变更	变更单、影响分析、回归测试、重新审批	重大变更必须更新系统卡和模型卡
9. 事故与例外	识别、升级、遏制、补救、复盘和整改	事故单、RCA、客户影响分析、整改证明	关闭前必须验证补救有效性
10. 定期复核与退役	定期审查适用性、控制有效性、数据保留和退役计划	周期复核、管理评审、退役记录、数据删除证明	退役系统仍需保留必要审计证据

证据生命周期的关键设计点：

证据在流程中生成：审批、测试、部署、监控和事故系统应自动沉淀材料。
证据有状态：草稿、待审核、已批准、已归档、已废止、受法律保全。
证据有保留期限：金融零售中通常需要结合模型风险、客户投诉、反洗钱、支付争议、数据保护和合同要求确定。
证据有版本关系：模型 v2.3 对应数据集 v2026Q2、特征版本 f18、提示词版本 p7、知识库版本 kb2026-06、系统版本 r42。
证据有例外机制：缺失或不合格证据不能被口头解释覆盖，必须进入缺口台账并由相应风险接受人批准。

10. 所有权与 RACI

证据包的最大失败点通常不是技术，而是“材料谁负责”。RACI 必须在用例立项时确定。

活动	PM	BA	Architect	Model Owner	Data Owner	Compliance	Legal	Security	MRM	Business Owner	Internal Audit
AI 用例登记	A	R	C	C	C	C	C	C	C	A	I
客户影响评估	A	R	C	C	C	C	C	I	C	A	I
数据说明书	C	C	I	C	R/A	C	C	C	C	I	I
系统卡	C	C	R/A	C	C	C	I	C	C	I	I
模型卡	C	I	C	R/A	C	C	I	I	C	I	I
风险分级	C	C	C	C	C	R	C	C	R	A	I
测试与评估	A	C	C	R	C	C	I	C	R	A	I
上线证据包汇总	R/A	C	C	C	C	C	C	C	C	A	I
运行监控	C	I	C	R	C	I	I	C	C	A	I
事故响应	C	C	C	R	C	C	C	R	C	A	I
证据质量抽检	C	C	C	C	C	R	C	C	R	A	R

说明：

R = Responsible，实际产出或执行者。
A = Accountable，最终负责和批准者。
C = Consulted，被咨询并提供输入。
I = Informed，被告知结果。

组织设计建议：

角色	应该拥有的证据产品能力
PM	把监管和控制要求转成产品门禁、路线图和上线包
BA	把业务流程、客户影响、异常路径和操作规范证据化
Architect	把系统边界、数据流、模型流、控制点和日志设计证据化
Compliance	定义监管解释、证据最低标准和例外审批要求
MRM	定义模型验证、监控、漂移、独立复核和模型退役证据
Security	定义威胁建模、访问控制、日志、密钥、供应链和事件响应证据
Internal Audit	独立验证控制设计和运行有效性，推动缺口整改

11. 版本控制与配置管理

AI 系统证据比传统系统更依赖版本关系。审计时最危险的情况是证据材料存在，但无法证明它对应生产中的哪个模型、数据和配置。

11.1 版本对象

对象	必须记录	示例
AI 用例	用例 ID、业务 Owner、风险等级、状态	`AI-AML-CASE-SUMMARY-001`
系统版本	服务版本、部署环境、发布时间、回滚版本	`aml-assistant-release-42`
模型版本	模型名称、版本、来源、参数或供应商版本	`gpt-4.1-2026-04` 或 `fraud-xgb-v5.1`
提示词版本	prompt ID、模板、变量、审批人、适用系统版本	`prompt-aml-summary-p7`
数据集版本	数据窗口、抽取脚本、字段清单、质量结果	`credit-train-2026Q2`
知识库版本	文档清单、切片规则、嵌入模型、索引哈希	`kyc-policy-kb-2026-06-15`
特征版本	特征定义、计算逻辑、血缘、回填策略	`payment-risk-features-v18`
阈值版本	策略阈值、审批记录、生效日期、影响分析	`aml-threshold-pack-2026-05`
控制版本	控制 ID、控制描述、责任人、测试方法	`AI-LOG-008 v1.2`
证据版本	文件哈希、生成时间、审批状态、保留期限	`EV-AI-AML-202606-014`

11.2 版本命名规范

建议采用可读且稳定的命名方式：

[业务域]-[系统或用例]-[证据类别]-[日期]-[版本]-[状态]

示例：

AML-CaseSummary-SystemCard-20260629-v1.0-Approved.md
CreditPreScreen-ModelCard-20260518-v2.3-Approved.md
PaymentFraud-DataSheet-2026Q2-v1.1-Archived.md
CustomerService-RedTeamReport-20260612-v1.0-Approved.pdf

11.3 版本控制要求

要求	说明	检查方式
唯一 ID	每份证据有唯一证据 ID	证据索引无重复
哈希或签名	关键证据保留哈希、签名或不可变存储记录	抽样校验文件未被改写
审批状态	草稿和批准版本必须区分	审计只引用批准或归档版本
适用范围	标明适用系统、模型、数据和时间窗	证据与生产版本可匹配
变更历史	记录修改人、原因、影响和审批	重大变更有影响分析
保留期限	明确保留到期日和法律保全状态	过期证据按流程处置
访问控制	证据按敏感级别分权访问	访问日志可抽查

12. 审计日志要求

AI 审计日志不是普通应用日志。它必须支持模型行为复盘、客户影响分析、控制运行证明和监管问询。

12.1 日志类型

日志类型	记录内容	适用场景
调用日志	调用时间、用户、会话、系统版本、模型版本、输入摘要、输出摘要、状态码	生成式 AI、评分模型、推荐模型
数据检索日志	检索 query、知识库版本、命中文档、引用段落、置信度	RAG、政策问答、AML 案件摘要
工具调用日志	工具名称、参数摘要、权限、返回结果摘要、错误码	Agent、自动化调查、客服操作助手
决策日志	模型分数、阈值、策略规则、人工复核结论、最终动作	信贷、支付风控、KYC、AML
权限日志	用户授权、角色变更、密钥轮换、服务账号使用	所有高影响 AI 系统
配置日志	prompt、阈值、模型路由、知识库、特征开关变更	生成式 AI 和模型服务
质量日志	抽检结果、错误类别、复核一致性、客户投诉关联	客服、AML、信贷
安全日志	提示词注入、敏感信息输出、越权访问、异常流量	大模型应用、API 服务
证据访问日志	谁查看、下载、修改、批准、归档证据	证据库和审计门户

12.2 最低字段标准

字段	说明	示例
event_id	唯一事件 ID	`evt_20260629_000918273`
timestamp_utc	UTC 时间戳	`2026-06-29T15:42:11Z`
actor_id	用户、服务账号或系统组件	`aml_analyst_4821`
actor_role	角色	`AML_L2_ANALYST`
use_case_id	AI 用例 ID	`AI-AML-CASE-SUMMARY-001`
system_version	系统版本	`release-42`
model_version	模型版本	`gpt-4.1-2026-04`
data_or_kb_version	数据或知识库版本	`kyc-policy-kb-2026-06-15`
prompt_or_policy_version	提示词或策略版本	`prompt-aml-summary-p7`
input_hash	输入哈希或摘要哈希	`sha256:8b1c...`
output_hash	输出哈希或摘要哈希	`sha256:c91e...`
decision_action	系统或人工动作	`summary_saved_by_human`
control_flags	命中的控制标记	`pii_redacted,source_required,human_reviewed`
error_or_exception	错误或例外	`source_confidence_below_threshold`
retention_class	保留类别	`model_risk_7y`

12.3 日志设计原则

原则	实战含义
最小必要	不把完整敏感输入输出无差别写入日志，优先使用摘要、哈希、脱敏片段和安全存储
可复盘	保留足够版本信息，使团队能重建当时的模型、数据、配置和控制状态
不可抵赖	关键审批、人工复核、阈值修改和证据归档应有签名、时间戳和访问记录
可检索	日志能按客户、案件、模型版本、证据 ID、风险事件和时间窗检索
可保留	保留期限与业务、模型风险、支付争议、AML、投诉和法律保全要求一致
可保护	日志本身包含高敏感信息，应加密、分权、监控访问和定期审查

13. 证据质量评分 Rubric

证据质量不能只看“有没有”。建议用 1-5 分评分，低于 3 分不得作为关键控制的唯一证据。

维度	1 分	3 分	5 分
完整性	只覆盖部分控制或缺少关键字段	覆盖主要控制，但缺少少量上下文	覆盖控制目标、范围、版本、责任、结果和审批
准确性	与系统实际状态不一致	基本准确，有少量解释性差异	与生产版本、日志和审批记录一致
时效性	过期或无法确认时间	时间可确认，但刷新不稳定	在规定频率内更新，重大变更同步更新
可追溯性	无法关联系统、模型、数据或控制	可关联部分对象	可追溯到用例、版本、控制、风险和责任人
可复现性	结果无法重算或重查	有方法说明，但依赖人工解释	有数据、代码、配置、环境或查询记录支持复现
审批性	无正式审核或批准	有团队内部确认	有符合风险等级的审批链和签署记录
可理解性	只有技术细节，业务和监管看不懂	有摘要，但结论不够清晰	有执行摘要、结论、影响和可审计证据路径
防篡改性	文件可随意修改	有版本记录	有哈希、签名、不可变存储或访问审计
相关性	材料存在但不能证明控制	间接证明控制	直接证明控制设计或运行有效
一致性	与其他材料矛盾	存在轻微口径差异	与系统卡、模型卡、日志、审批和风险台账一致

评分解释：

总分	等级	处理
45-50	强证据	可作为关键控制主要证据
35-44	可用证据	可用于一般控制，关键控制需补充佐证
25-34	弱证据	进入证据缺口台账并限期整改
10-24	不可用证据	不应对外提交，需重新生成

证据质量审查问题：

这份证据能否被一个没有参与项目的人读懂？
它能否证明控制真实发生，而不只是证明有人写了流程？
它能否关联到生产中的具体模型、数据、配置和时间窗？
它是否包含敏感信息，是否已按最小必要原则处理？
如果监管要求说明某个客户被影响的原因，是否能从这份证据追溯到答案？

14. 金融零售场景证据示例

14.1 AML / 可疑交易监控

证据对象	关键材料	审计问题	合格证据特征
AML 告警摘要助手	系统卡、RAG 知识库说明、提示词版本、人工复核日志	模型是否自动替代 AML 分析师判断？	明确“仅辅助摘要，不自动提交可疑活动报告”，所有输出有分析师确认
AML 规则与模型组合	模型卡、规则版本、阈值审批、告警效果分析	阈值变化是否影响漏报和误报？	每次阈值调整有回归测试和业务影响分析
客户尽调资料	数据说明书、数据血缘、敏感字段控制	KYC 数据是否被超范围用于模型训练？	数据用途和授权边界清晰，训练集不含未批准敏感字段
监管问询响应	案件证据索引、日志、分析师操作记录	某个案件为何被升级或关闭？	可按案件 ID 追溯数据、模型摘要、人工判断和主管复核

证据包亮点：

保留“模型建议”和“人工最终判断”的清晰边界。
对每个 AML 案件记录引用来源，禁止无来源的结论性陈述进入案件文件。
监控摘要准确率、来源引用准确率、遗漏关键风险线索率和人工改写率。

14.2 KYC / 客户身份识别

证据对象	关键材料	审计问题	合格证据特征
身份证件 OCR / 活体检测	模型卡、供应商尽调、性能分群测试	某些群体是否被更高比例误拒？	按证件类型、地区、年龄段、设备类型记录分群表现
KYC 文档审核助手	系统卡、提示词、人工复核 SOP	AI 是否给出最终开户决定？	AI 输出仅为审核建议，最终决定由授权人员确认
制裁名单筛查	数据说明书、名单版本、匹配策略、例外审批	名单是否及时更新，误匹配如何处理？	名单版本、更新时间、匹配阈值和人工解除记录可追溯
客户通知	决策记录、解释模板、投诉处理证据	被拒客户是否获得适当解释和申诉路径？	保留通知版本、原因码、人工复核和客户申诉结果

证据包亮点：

把“身份验证失败”“风险名单匹配”“资料不完整”“人工无法确认”区分为不同原因码。
对高误拒场景建立人工复核与渠道补救机制。
第三方生物识别或 OCR 服务需保留供应商模型、数据处理和 SLA 证据。

14.3 信贷 / 授信与预审

证据对象	关键材料	审计问题	合格证据特征
信贷预审模型	模型卡、数据说明书、分群表现、拒绝原因码	模型是否导致不公平拒绝？	分群误拒、稳定性、解释一致性和人工复核结果完整
授信策略引擎	策略版本、阈值审批、影响分析、冠军挑战者记录	策略变化是否经过批准？	每次阈值变化关联预期通过率、风险成本和客户影响
收入估算模型	特征说明、外部数据合同、误差评估	数据是否适合该用途？	数据授权、适用限制和误差范围明确
客户申诉	决策日志、解释记录、人工复核、补救结果	客户能否挑战自动化或半自动化判断？	申诉链路、复核时限和结果通知可追溯

证据包亮点：

模型卡必须说明模型是否直接参与最终授信决定。
评分模型、策略规则和人工审批要合并形成“最终决策证据链”。
拒绝原因码应来自可解释、可验证的原因集合，不能由大模型自由生成。

14.4 支付 / 交易风控

证据对象	关键材料	审计问题	合格证据特征
实时欺诈检测	模型卡、特征说明、延迟监控、误杀率监控	模型是否稳定，是否造成大规模误拦截？	按渠道、商户、地区和客户类型监控误杀与漏放
风控处置策略	阈值版本、策略审批、客户通知、解锁流程	客户资金或支付能力是否被不当限制？	高影响处置有人工复核、申诉和补救证据
设备与行为数据	数据说明书、第三方合同、隐私评估	是否超范围采集或共享数据？	字段最小化、用途限制和供应商控制清晰
异常事件	告警、事故单、回滚记录、客户影响分析	模型或规则异常如何止损？	有熔断阈值、回滚版本和客户补救计划

证据包亮点：

实时场景要证明“控制有效且不引入不可接受的业务中断”。
对高价值交易、跨境交易、异常商户类别保留差异化监控证据。
成本、延迟和风控效果共同纳入证据，因为延迟可能直接影响支付体验和客户投诉。

14.5 客户服务 / 生成式 AI 助手

证据对象	关键材料	审计问题	合格证据特征
客服坐席助手	系统卡、知识库版本、提示词、输出抽检	AI 是否给出错误金融建议？	禁止生成投资、信贷或法律承诺；高风险意图转人工
客户自助聊天机器人	内容安全测试、幻觉评估、转人工策略	客户是否被错误引导？	保留拒答策略、转人工率、投诉关联和错误回复复盘
投诉摘要与分类	模型卡、数据说明书、人工质检	投诉是否被错误归类导致处理延误？	按投诉类型监控召回率和人工改写率
营销文案生成	审批流、合规词库、输出审查记录	是否生成误导性金融宣传？	所有外发内容经合规审查，保留版本和审批

证据包亮点：

对生成式 AI 输出建立“可用、需改写、必须拒绝、必须转人工”的质量标签。
所有知识库条目应有来源、有效期、业务 Owner 和法律或合规审查状态。
不把模型的自然语言解释当成正式客户承诺，正式承诺来自批准话术或业务规则。

15. 监管就绪的 10 个证据包章节

一个完整的 AI Evidence Binder 建议固定为 10 个章节。章节稳定，内容按用例和版本更新。

章节	名称	目的	必备材料
1	Executive Control Summary	让管理层、审计和监管快速理解系统、风险、控制状态和结论	一页摘要、系统 ID、风险等级、上线状态、关键控制、未关闭例外
2	Scope and System Boundary	定义 AI 系统、业务流程、用户、第三方和技术边界	系统卡、架构图、数据流、模型流、供应商图
3	Governance and Accountability	证明责任、审批、政策和管理监督存在	RACI、委员会纪要、政策映射、审批记录、培训记录
4	Use Case and Impact Assessment	证明业务目标、客户影响和使用边界被分析	用例登记、客户旅程、影响评估、禁用场景、权利与安全判断
5	Data and Knowledge Evidence	证明数据和知识来源合规、可追溯、质量可控	数据说明书、血缘、质量报告、DPIA、知识库索引
6	Model and System Design Evidence	证明模型、系统、人机协同、控制点设计合理	模型卡、系统卡、提示词版本、工具调用设计、降级方案
7	Evaluation and Validation Evidence	证明上线前完成适当测试和独立验证	测试计划、评估报告、分群表现、红队报告、UAT、缺陷关闭
8	Operational Monitoring and Logs	证明生产中持续监控、日志可追溯、控制持续运行	监控看板、审计日志、抽检记录、告警、人工复核
9	Incidents, Exceptions and Remediation	证明异常被识别、升级、补救和改进	事故单、例外批准、RCA、整改证明、客户补救
10	Change, Review and Retirement	证明变更、周期复核和退役受控	变更单、影响分析、回归测试、管理评审、退役和数据删除证明

使用建议：

每章首页放“本章回答的审计问题”。
每章第二页放“证据索引”，列出证据 ID、文件名、Owner、版本和状态。
每章只放批准版本，原始工作材料放附录库。
对监管问询，优先提交摘要、矩阵和索引，再按要求提供底层证据。

16. 样例 Evidence Index

以下是一个 AML 告警摘要助手的样例证据索引。实际项目可放入 GRC 工具、文档库或证据门户。

Evidence ID	章节	证据名称	控制 ID	适用对象	版本	日期	Owner	状态	保留期限
EV-AML-001	1	Executive Control Summary	AI-GOV-001	AI-AML-CASE-SUMMARY-001	v1.0	2026-06-29	PM	Approved	7 年
EV-AML-002	2	AML Case Summary System Card	AI-SYS-005	release-42	v1.0	2026-06-21	Architect	Approved	7 年
EV-AML-003	2	Data Flow and Model Flow Diagram	AI-SYS-005	release-42	v1.2	2026-06-21	Architect	Approved	7 年
EV-AML-004	3	RACI and Governance Approval Record	AI-GOV-001	use case	v1.0	2026-06-18	AI Governance	Approved	7 年
EV-AML-005	4	Customer and Regulatory Impact Assessment	AI-MAP-002	use case	v1.1	2026-06-19	BA	Approved	7 年
EV-AML-006	5	KYC Policy Knowledge Base Datasheet	AI-DATA-003	kb2026-06-15	v1.0	2026-06-15	Data Owner	Approved	7 年
EV-AML-007	5	AML Case Data Quality Report	AI-DATA-003	data window 2026Q2	v1.0	2026-06-16	Data Engineering	Approved	7 年
EV-AML-008	6	Model Card for Summary LLM Route	AI-MOD-004	gpt-4.1 route	v1.0	2026-06-17	Model Owner	Approved	7 年
EV-AML-009	6	Prompt Version p7 Approval	AI-SYS-005	prompt-aml-summary-p7	v1.0	2026-06-17	Product Ops	Approved	7 年
EV-AML-010	7	Pre-production Evaluation Report	AI-EVAL-006	release-42	v1.0	2026-06-20	QA	Approved	7 年
EV-AML-011	7	GenAI Red Team Report	AI-EVAL-006	release-42	v1.0	2026-06-20	Security	Approved	7 年
EV-AML-012	8	Production Monitoring Dashboard Export	AI-LOG-008	release-42	June batch	2026-06-29	MLOps	Archived	7 年
EV-AML-013	8	Human Review Sampling Report	AI-HITL-007	release-42	week 26	2026-06-28	AML Ops	Approved	7 年
EV-AML-014	9	Exception Approval for Low Source Confidence	AI-INC-009	exception-2026-06-04	v1.0	2026-06-04	Business Owner	Closed	7 年
EV-AML-015	10	Change Impact Analysis for KB Refresh	AI-TPR-010	kb2026-06-15	v1.0	2026-06-15	Architect	Approved	7 年

证据索引字段建议：

字段	是否必需	说明
Evidence ID	必需	证据唯一编号
Binder Section	必需	证据包章节
Control ID	必需	对应控制
Risk ID	建议	对应风险
System / Model / Data Version	必需	适用版本
Owner	必需	责任人
Reviewer	建议	审核人
Approver	高风险必需	批准人
Status	必需	草稿、待审核、批准、归档、废止
Created Date	必需	生成日期
Effective Period	必需	生效时间窗
Retention Class	必需	保留类别
Sensitivity	必需	公开、内部、机密、受限
Storage Link	必需	证据库地址或对象 ID
Hash / Signature	高风险必需	完整性校验

17. PM、BA、Architect 的产出清单

17.1 PM 产出

产出	内容	评判标准
AI 用例登记	业务目标、用户、系统、模型、风险等级、Owner、上线计划	信息足以触发治理、架构、安全、合规和模型风险评审
Evidence Binder Plan	10 个章节的证据交付计划、Owner、日期、依赖	每份关键证据有责任人和门禁点
Control Readiness Dashboard	控制覆盖率、证据完成率、例外、上线阻塞项	管理层能一眼判断是否可上线
Go-live Evidence Summary	风险、控制、测试、例外、审批结论	上线审批人不用翻全部附件也能做决策
Post-launch Review	生产指标、客户影响、事故、改进项	证明上线后持续管理，而不是一次性交付

PM 的核心能力不是自己写完所有证据，而是把证据当成产品范围、发布门禁和跨团队交付物管理。

17.2 BA 产出

产出	内容	评判标准
Business Process Map	AI 嵌入前后流程、人工节点、异常路径	能看出 AI 在哪里影响客户、员工和控制
Customer Impact Assessment	受影响客户、权益、通知、申诉、补救	能支持监管对客户影响的问询
Decision Logic Description	模型、规则、人工判断如何形成最终动作	能把技术输出翻译成业务决策链
Control Procedure	业务操作 SOP、复核标准、升级规则	一线团队能按文档执行，质检能按文档抽查
Evidence Narrative	把证据材料串成业务叙事	审计人员能理解证据如何证明控制有效

BA 的关键贡献是把“模型输出”放回真实业务流程，证明 AI 没有绕过必要的人、制度和客户保护机制。

17.3 Architect 产出

产出	内容	评判标准
AI System Card	系统目标、边界、组件、数据流、模型流、控制点、失败模式	能支持系统级风险评估和审计复盘
Architecture Decision Records	模型选择、RAG 设计、日志策略、人机协同、供应商选择	每个关键设计取舍有理由和风险说明
Traceability Design	用例、版本、日志、证据、控制之间的关联设计	监管问询能从客户事件追溯到版本和证据
Audit Logging Specification	日志字段、脱敏、保留、访问、查询方式	日志既可复盘又不造成过度数据暴露
Resilience and Fallback Design	降级、熔断、回滚、人工接管、供应商退出	AI 失效时业务仍可受控运行

架构师的关键贡献是把证据需求设计进系统，不让团队靠人工截图证明生产控制。

18. 21 天实战 Lab：从 0 到 1 建一个证据包

目标：以一个“金融零售生成式 AI 客服助手”或“AML 告警摘要助手”为案例，在 21 天内产出可展示的证据包样板。每天建议 90-120 分钟。

天数	主题	产出
Day 1	选定 AI 用例和业务目标	用例登记表、业务目标、成功指标
Day 2	识别用户、客户影响和边界	客户旅程、使用边界、禁用场景
Day 3	完成初始风险分级	风险分级表、适用控制清单
Day 4	绘制现状和目标业务流程	As-is / To-be 流程图、人工节点说明
Day 5	设计 10 章节证据包结构	Evidence Binder 目录和章节说明
Day 6	建立控制到证据矩阵	至少 10 条控制和对应证据
Day 7	编写系统卡	系统卡 v1.0
Day 8	编写数据说明书	数据或知识库说明书 v1.0
Day 9	编写模型卡	模型卡 v1.0
Day 10	设计日志字段和追溯链	审计日志规格、追溯样例
Day 11	设计上线前测试计划	测试计划、验收标准
Day 12	设计生成式 AI 专项测试	幻觉、注入、敏感信息、越权、内容安全测试
Day 13	设计人工复核流程	复核 SOP、抽检表、升级规则
Day 14	设计监控指标	生产 KPI/KRI、阈值、告警响应
Day 15	编写供应商与第三方证据	供应商尽调摘要、SLA、退出计划
Day 16	编写事故与例外流程	事故分类、RCA 模板、例外批准流程
Day 17	编写变更管理流程	模型、prompt、数据、阈值变更证据
Day 18	整理样例 Evidence Index	至少 15 条证据索引
Day 19	进行证据质量评分	Rubric 评分、缺口清单、整改计划
Day 20	编写 Executive Control Summary	一页上线就绪摘要
Day 21	模拟监管问询答辩	10 个问题、证据路径、改进计划

验收标准：

维度	合格标准
完整性	覆盖 10 个证据包章节
可追溯性	至少一条客户事件能追溯到模型、数据、prompt、日志、人工复核和证据
控制覆盖	至少 10 个控制有 Owner、频率、证据和合格标准
生成式 AI 风险	覆盖幻觉、提示词注入、敏感信息泄露、越权工具调用和过度依赖
金融零售适配	覆盖客户影响、人工复核、投诉或申诉、合规审批
表达质量	非项目成员能在 30 分钟内理解系统风险和控制状态

19. 可复用模板

以下模板提供“字段 + 合格样例”的写法，避免空白表格变成形式主义材料。

19.1 Executive Control Summary 模板

字段	合格样例
AI 用例 ID	`AI-CS-ASSIST-001`
系统名称	零售银行客服坐席辅助回答系统
业务目标	缩短坐席查询政策时间，提升回答一致性，不替代坐席最终回复责任
风险等级	高影响辅助系统，原因是可能影响客户金融产品理解和投诉处理
当前版本	`release-18`，知识库 `kb-retail-policy-2026-06`，prompt `p12`
控制结论	12 个关键控制中 11 个有效，1 个中风险例外已由业务 Owner 接受并设置 30 天整改
上线结论	允许灰度至 10% 坐席，禁止客户自助端开放
关键限制	不回答投资建议、信贷批准承诺、法律结论；命中高风险意图必须转人工主管
监控承诺	每日质量抽检 50 条，每周报告错误分类和投诉关联
批准记录	业务、合规、模型风险、安全、产品负责人于 2026-06-20 批准灰度

19.2 AI 用例登记模板

字段	合格样例
用例名称	AML 告警摘要助手
业务流程	可疑交易告警初步分析和案件材料整理
AI 能力	从案件交易、KYC、历史备注和政策知识库生成摘要和引用来源
决策影响	不自动关闭或升级案件，只辅助分析师准备材料
受影响对象	AML 分析师、合规主管、被调查客户的案件处理时间
数据类型	交易、客户尽调、历史案件备注、内部 AML 政策
高风险原因	涉及敏感客户信息和监管报告流程
主要控制	脱敏、来源引用、人工确认、日志、抽检、事故升级
Owner	AML Operations Director
审批路径	业务 Owner、合规、法务、安全、模型风险、AI 治理委员会

19.3 控制证据卡模板

字段	合格样例
Control ID	`AI-LOG-008`
控制目标	关键 AI 操作可追溯
控制描述	系统记录每次摘要生成的用户、时间、模型版本、知识库版本、输入输出哈希、引用来源和人工保存动作
风险	无法复盘错误摘要来源，无法证明人工确认
控制类型	自动化预防 + 自动化侦测
运行频率	每次模型调用
证据	审计日志导出、日志字段字典、日志完整性抽检报告
Owner	AI Platform Owner
Reviewer	Security Logging Lead
合格标准	关键字段完整率不低于 99.5%，日志保留 7 年，访问受限
最近结果	2026 年 6 月抽检 10,000 条日志，完整率 99.8%，无未授权访问

19.4 模型卡模板

字段	合格样例
模型名称	Payment Fraud XGBoost
版本	v5.1
用途	实时评估银行卡交易欺诈风险，输出风险分数供策略引擎使用
不适用用途	不用于客户营销、授信审批或 AML 可疑交易判断
训练数据	2025-07 至 2026-03 确认欺诈和正常交易样本
关键指标	AUC 0.91，欺诈捕获率 84%，误拦截率 0.32%
分群表现	跨境交易误拦截率高于境内交易 0.18 个百分点，已设置人工复核
限制	新商户类别和新设备模式可能出现漂移
监控	每日监控误杀、漏放、PSI、延迟和商户类别漂移
审批	模型风险和支付业务于 2026-04-22 批准上线

19.5 数据说明书模板

字段	合格样例
数据集名称	Payment Fraud Training Dataset 2026Q2
动机	训练和验证实时支付欺诈检测模型
来源系统	支付交易系统、欺诈工单系统、设备风险服务
时间窗	2025-07-01 至 2026-03-31
字段类别	交易金额、时间、商户、设备、地理风险、历史行为特征
敏感字段处理	客户 ID 哈希化，证件号和姓名不进入训练集
标签定义	经调查确认的欺诈工单为正样本，标签成熟期 45 天
质量结果	重复率 0.02%，关键字段缺失率低于 0.5%
使用限制	仅用于支付风控模型训练、验证和监控
访问控制	数据科学团队通过受控环境访问，导出受禁

19.6 监管问询响应模板

字段	合格样例
问询主题	说明 AI 客服助手如何防止生成误导性信贷建议
简短结论	系统不允许生成信贷批准承诺，相关意图触发拒答或转人工
适用范围	客服坐席辅助系统 `release-18`，不含客户自助渠道
控制证据	Prompt p12 审批、合规词库、红队测试、抽检报告、转人工日志
运行结果	2026 年 6 月高风险意图 2,318 次，转人工率 96.4%，抽检未发现批准承诺输出
例外说明	6 月 11 日发现 1 条边界表述不清回复，已更新知识库并完成坐席提醒
证据索引	EV-CS-009、EV-CS-011、EV-CS-014、EV-CS-019
责任人	Customer Service AI Product Owner

20. 面试答案：AI Audit Evidence Binder

问题 1：为什么说 AI 审计证据包是系统产品，而不是合规文档？

30 秒回答：

AI 证据包要持续证明 AI 系统在特定版本、数据、模型、控制和责任体系下被治理和监控。它有用户、流程、数据结构、版本、质量标准和运营节奏，所以更像一个系统产品，而不是审计前临时整理的文档。

2 分钟回答：

在金融零售里，AI 可能影响开户、KYC、AML、授信、支付拦截和客户服务。审计或监管不会只看模型 AUC，而会看系统是否被登记、风险是否被分级、数据是否有授权、模型是否有用途边界、人工复核是否真实发生、日志是否可追溯、异常是否被补救。如果这些证据分散在邮件、截图和个人文件夹里，团队无法稳定回答监管问题。把证据包产品化，就是为不同用户设计信息架构：管理层看控制摘要，审计看控制矩阵，模型风险看模型卡和评估，架构看系统卡和日志，监管看证据链。这样证据在流程中生成、按版本管理、按质量评分、按责任运营，才能做到监管就绪。

问题 2：一个 AI Evidence Binder 最少应包含哪些章节？

30 秒回答：

我会固定为 10 章：执行摘要、范围与边界、治理问责、用例与影响、数据证据、模型与系统设计、评估验证、运行监控日志、事故例外整改、变更复核退役。

2 分钟回答：

这 10 章覆盖 AI 生命周期。前四章回答“这个系统是什么、谁负责、影响谁、风险在哪里”；中间三章回答“数据、模型、系统和测试是否可信”；最后三章回答“上线后是否持续受控、异常如何处理、变更如何管理”。这样的结构能映射 NIST AI RMF 的 Govern、Map、Measure、Manage，也能支撑 ISO/IEC 42001 AIMS 的范围、责任、运行控制、绩效评价和改进。实际提交时，我会先给监管或内审一页摘要、控制到证据矩阵和证据索引，再按问题提供底层材料。

问题 3：模型卡和系统卡有什么区别？

30 秒回答：

模型卡解释一个模型版本的用途、限制、数据和评估表现；系统卡解释整个 AI 系统的边界、流程、控制、日志、人工复核和失败模式。模型卡不能替代系统卡。

2 分钟回答：

比如 AML 告警摘要助手可能调用一个大模型，也有 RAG 知识库、提示词、案件系统、权限控制、人工确认、日志和抽检。模型卡只能说明底层模型或模型路由的能力和限制，无法证明系统不会自动提交监管报告，也无法证明人工复核和日志真实发生。系统卡把模型放回业务和技术上下文，说明输入来自哪里、知识库版本是什么、输出如何被使用、哪些场景拒答、谁负责复核、出现幻觉或来源不足时如何处理。审计证据包需要模型卡、数据说明书和系统卡三者配合。

问题 4：如何设计 Control-to-Evidence Matrix？

30 秒回答：

每条控制要有控制目标、控制活动、风险、框架映射、证据、频率、Owner 和合格标准。矩阵的作用是把“我们有文件”变成“这份文件证明哪个控制有效”。

2 分钟回答：

我会先从 AI 风险出发，例如数据滥用、模型误用、偏差、幻觉、越权访问、人工复核缺失和事故响应不足。然后为每个风险定义控制目标，例如所有高影响用例必须登记、每个模型版本必须有模型卡、每次生成式 AI 输出必须可追溯、客户影响场景必须有人工复核。接着给每条控制绑定证据：系统卡证明控制设计，日志和抽检证明运行有效，审批记录证明责任接受，事故复盘证明改进闭环。矩阵还要标明 NIST Govern/Map/Measure/Manage 和 ISO 42001 AIMS 维度，方便审计和管理评审。

问题 5：生成式 AI 的证据包要额外关注什么？

30 秒回答：

要额外关注幻觉、提示词注入、敏感信息泄露、知识库来源、工具越权、内容安全、人工过度依赖和不可复现输出。

2 分钟回答：

传统模型证据偏重训练数据、指标、漂移和解释性。生成式 AI 还要证明系统如何约束输出和工具行为。比如客服助手需要保留 prompt 版本、拒答策略、合规词库、知识库版本、来源引用、红队测试、敏感信息过滤、转人工日志和抽检结果。如果是 Agent，还要记录工具调用参数、权限、返回结果和人工确认。对于 RAG，要证明知识库文档来源、有效期、切片策略、检索质量和引用准确率。生成式 AI 的证据包必须从“模型表现”扩展到“系统行为和操作控制”。

问题 6：金融机构如何证明 AI 没有不当影响客户权益？

30 秒回答：

要通过客户影响评估、分群表现、人工复核、原因码、客户通知、申诉处理和补救记录形成证据链。

2 分钟回答：

以信贷预审为例，我会证明模型只用于排序或辅助，不直接给出最终拒绝决定；同时保留测试集分群表现、误拒率、原因码逻辑和人工复核结果。对客户侧，还要有清晰通知、申诉和复核流程。在支付风控中，要证明误拦截被监控，高影响处置有解锁和补救机制。在 KYC 中，要证明证件 OCR 或活体检测在不同人群和设备上的表现被评估，误拒可以转人工。核心不是说“模型没有风险”，而是证明客户影响被识别、控制、监控和补救。

问题 7：证据质量怎么评估？

30 秒回答：

我会从完整性、准确性、时效性、可追溯性、可复现性、审批性、可理解性、防篡改性、相关性和一致性评分。关键控制不能只依赖低质量证据。

2 分钟回答：

很多证据看起来存在，但审计价值很弱。例如截图没有时间、报告没有版本、模型评估无法对应生产版本、审批邮件没有风险接受结论。好的证据应能说明它覆盖哪个控制、对应哪个系统和模型版本、由谁生成和批准、结论是什么、是否能复现、是否和日志及变更记录一致。对高风险 AI 用例，我会要求关键证据有唯一 ID、版本、审批、哈希或不可变记录，并进入证据索引。

问题 8：PM 在 AI 审计证据包中承担什么角色？

30 秒回答：

PM 负责把证据包变成产品交付范围和上线门禁，协调业务、架构、数据、模型、合规、安全和内审按时产出可用证据。

2 分钟回答：

PM 不一定亲自写模型卡或数据说明书，但要定义证据包结构、控制 readiness dashboard、上线摘要、缺口管理和例外升级。 AI 产品如果没有证据包，可能功能可用但无法上线，或者上线后经不起监管问询。优秀 PM 会在需求阶段就把证据需求写进交付计划：哪些证据是上线前门禁，哪些是灰度期间监控，哪些是季度复核，哪些异常会阻塞发布。这是 AI 时代 PM 区别于传统功能 PM 的关键能力。

21. 常见失败模式与纠偏

失败模式	表现	纠偏
文档堆积	文件很多，但找不到控制对应关系	先建控制到证据矩阵，再整理附件
只看模型	模型卡完整，但缺少系统卡、日志和人工流程	增加系统级边界、控制点和操作证据
证据滞后	上线后才补材料	把证据生成嵌入 SDLC 和发布门禁
版本错位	测试报告对应旧模型，生产已换版本	建立模型、数据、prompt、系统和证据版本关系
责任模糊	每个团队都以为别人会写证据	用 RACI 绑定每份关键证据 Owner
日志过度或不足	要么记录敏感明文，要么无法复盘	用最小必要、哈希、摘要和受控明文存储组合设计
例外口头化	控制缺口靠会议解释	建立例外单、风险接受人、到期日和补救证明
监管语言缺失	技术报告很深，但监管看不懂	增加执行摘要、业务影响和证据路径
缺少运行证据	设计很好，但没有生产抽检和监控	每个关键控制都保留运行样本
第三方黑箱	供应商模型和数据不可解释	补充供应商尽调、合同权利、SLA、退出方案和监控

22. 个人作品集建议

如果将本手册用于 AI/架构/PM/BA 求职作品集，建议做一个可展示的“AI Evidence Binder Case Pack”：

作品集材料	内容	展示价值
一页案例摘要	金融零售 AI 用例、风险等级、控制结论	展示业务判断和管理层沟通能力
10 章节目录	Evidence Binder 信息架构	展示治理体系化能力
控制到证据矩阵	10-15 条关键控制	展示合规、风险和产品交付融合能力
系统卡	架构、数据流、模型流、控制点	展示架构思维
模型卡和数据说明书	模型用途、限制、数据质量	展示 AI 风险基础
日志规格	字段、保留、脱敏、追溯链	展示工程可落地能力
监管问询模拟	5-10 个问题和证据路径	展示面试表达和监管意识

建议选择一个最贴近金融零售背景的案例：AML 告警摘要助手、信贷预审模型、支付欺诈模型、KYC 文档审核助手或客服坐席生成式 AI 助手。

23. 自检清单

检查项	通过标准
覆盖系统产品观点	已解释证据包的用户、流程、信息架构、版本、运营和风险控制
覆盖证据分类法	已给出 12 类证据和不同粒度
覆盖 NIST AI RMF	已映射 Govern、Map、Measure、Manage
覆盖 ISO/IEC 42001 AIMS	已映射范围、领导、规划、支持、运行、评价和改进
覆盖模型卡、数据说明书、系统卡	已定义三者差异和最小内容
覆盖控制到证据矩阵	已给出 10 条控制样例
覆盖生命周期、RACI、版本、日志、质量	已分别成章说明
覆盖金融零售案例	已覆盖 AML、KYC、信贷、支付、客服
覆盖 10 个证据包章节	已给出固定章节和必备材料
覆盖样例索引、产出、Lab、模板、面试	已包含样例 Evidence Index、PM/BA/Architect 产出、21 天 Lab、模板和 8 组面试答案
可执行性	每个表格均提供具体字段、责任或合格标准
文档卫生	无空白章节，无未完成标记，无临时填充内容

24. 参考锚点

NIST AI Risk Management Framework Core：https://airc.nist.gov/airmf-resources/airmf/5-sec-core/
NIST AI RMF Playbook：https://airc.nist.gov/airmf-resources/playbook/
NIST AI 600-1, Artificial Intelligence Risk Management Framework: Generative Artificial Intelligence Profile：https://www.nist.gov/publications/artificial-intelligence-risk-management-framework-generative-artificial-intelligence
ISO/IEC 42001:2023 Artificial intelligence management system：https://www.iso.org/standard/42001
OMB M-24-10, Advancing Governance, Innovation, and Risk Management for Agency Use of Artificial Intelligence：https://www.whitehouse.gov/wp-content/uploads/2024/03/M-24-10-Advancing-Governance-Innovation-and-Risk-Management-for-Agency-Use-of-Artificial-Intelligence.pdf
Model Cards for Model Reporting：https://arxiv.org/abs/1810.03993
Datasheets for Datasets：https://arxiv.org/abs/1803.09010