AI Audit Evidence Binder Playbook
版本:v1.0
AI 审计证据包实战手册:Audit Evidence Binder、Control Evidence 与监管就绪文档
版本:v1.0 日期:2026-06-29 适用对象:AI 产品经理、业务分析师、企业架构师、解决方案架构师、模型风险管理、合规、内审、法务、数据治理、信息安全、金融零售业务负责人
1. 核心观点:审计证据是一个系统产品
AI 审计证据包不是项目上线前临时整理的一组截图、会议纪要和模型评估表。它本质上是一个“系统产品”:围绕 AI 系统全生命周期,把控制目标、业务风险、模型行为、数据来源、人员责任、变更记录、运行监控、异常处置和监管问询组织成可追溯、可复现、可解释、可批准的证据链。
在金融零售场景中,AI 系统常常触达客户身份、交易监控、授信、反欺诈、支付风控、投诉处理、智能客服和运营决策。监管、内审和模型风险团队不会只问“模型效果好不好”,而会追问:
- 这个 AI 用例是否被正式识别、分级、审批和纳入治理台账?
- 使用了哪些数据,数据是否有来源证明、授权边界、质量检查和敏感字段控制?
- 模型或大模型调用是否有用途边界、性能评估、偏差评估、人工复核和停止机制?
- 控制措施是否真实运行,还是只写在制度里?
- 发生漂移、异常、客户影响、投诉或事故时,谁负责判断、升级、修复和复盘?
- 当监管要求 5 个工作日内提供材料时,团队能否拿出同一版本、同一口径、同一证据链?
把证据包当成系统产品,意味着它需要产品化设计:
| 产品视角 | 对应到证据包 | 实战含义 |
|---|---|---|
| 用户 | 监管、内审、外审、模型风险委员会、业务负责人、上线审批人、事故响应团队 | 不同用户需要不同粒度的证据,不应把所有原始材料堆在一个共享盘里 |
| 用户旅程 | 用例立项、风险评估、上线审批、运行监控、变更、事故、定期复核、监管检查 | 证据应在流程中自然生成,而不是检查前补录 |
| 信息架构 | 控制目录、证据目录、系统卡、模型卡、数据表、测试报告、审计日志、例外记录 | 每份证据应能回答“证明哪个控制、覆盖哪个风险、适用哪个版本” |
| 数据产品 | 元数据、版本、所有者、时间戳、哈希、审批记录、保留期限、访问权限 | 证据本身也需要数据治理和访问控制 |
| 运营机制 | 证据刷新频率、质量评分、缺口管理、例外升级、复核节奏 | 证据包需要被持续运营,不能只在审计季运作 |
| 风险控制 | 完整性、准确性、时效性、一致性、可追溯性、不可抵赖性 | 证据质量决定控制可信度 |
一句话定义:
AI Audit Evidence Binder 是围绕 AI 系统风险和控制目标组织起来的、可持续更新的证据产品,用来证明组织在特定时间点和特定版本下对 AI 系统进行了治理、评估、控制、监控和改进。
2. 来源锚点与使用边界
本手册以以下公开框架和文献作为方法锚点,并结合金融零售业务场景进行产品化落地。它不是法律意见,也不是任何认证的替代品。真实项目应由合规、法务、内审和模型风险管理团队结合所在司法辖区、业务牌照、监管口径和机构制度进行确认。
| 锚点 | 本手册采用的思想 | 落地到证据包 |
|---|---|---|
| NIST AI RMF Core | 以 Govern、Map、Measure、Manage 四类职能组织 AI 风险管理活动 | 证据包必须覆盖治理、风险场景、评估度量、处置监控四类证据 |
| NIST AI RMF Playbook | 为 AI RMF 结果提供建议行动、参考和相关指引,且不是一次性清单 | 证据包应支持持续运营,而不是把框架机械转换成表格 |
| NIST AI 600-1 GenAI Profile | 针对生成式 AI 的特有风险和管理行动进行画像 | RAG、客服助手、代码生成、文档摘要、营销内容生成等场景需增加生成式 AI 专项证据 |
| ISO/IEC 42001:2023 | 建立、实施、维护和持续改进 AI 管理体系,平衡创新、治理、风险和机会 | 证据包应能支撑 AIMS 的范围、目标、责任、风险、控制、改进和管理评审 |
| OMB M-24-10 | 针对公共部门 AI 治理、创新和风险管理提出要求,并强调影响权利与安全的 AI 使用 | 借鉴其“权利与安全影响”“最低风险管理实践”“AI 用例治理台账”的证据化思路;截至 2026-06-29,美国联邦项目还需要核对后续 OMB 文件的替代要求 |
| Model Cards | 模型发布应伴随用途、限制、评估、不同群体表现和适用上下文说明 | 每个模型版本应有模型卡,且模型卡不能替代系统级证据 |
| Datasheets for Datasets | 数据集应记录动机、组成、采集、处理、推荐用途和限制 | 每个训练、验证、监控、知识库或特征数据集应有数据说明书 |
3. 三层证据架构:Policy、Control、Evidence
AI 证据包最常见的问题是把制度、控制和证据混为一谈。三者必须分层。
| 层级 | 说明 | 常见载体 | 审计关注点 |
|---|---|---|---|
| Policy / Standard | 组织要求什么 | AI 治理政策、模型风险管理政策、数据治理标准、第三方管理标准、信息安全标准 | 政策是否覆盖 AI 特有风险,是否被批准,是否有适用范围 |
| Control | 为满足政策和降低风险,团队实际做什么 | 控制目标、控制活动、审批门禁、自动化校验、人工复核、监控阈值、变更评审 | 控制是否设计合理、职责明确、运行有效 |
| Evidence | 如何证明控制真实发生且结果可接受 | 评审记录、测试报告、日志、审批单、版本记录、指标看板、例外单、事故复盘 | 证据是否完整、准确、及时、可追溯、可复现 |
一个成熟的证据包不只是“有材料”,而是每个证据都能回答四个问题:
- 它证明哪个控制?
- 它覆盖哪个 AI 风险或监管关注点?
- 它适用于哪个系统、模型、数据、流程和版本?
- 它由谁在何时生成、审核、批准和归档?
4. 证据分类法
建议将 AI 证据分为 12 类。分类不是为了形式完整,而是为了让不同团队知道自己应产出什么材料。
| 类别代码 | 证据类别 | 典型证据 | 主要责任方 |
|---|---|---|---|
| E01 | 治理与策略证据 | AI 使用政策、AIMS 范围、风险偏好、AI 委员会纪要、控制库、例外管理标准 | AI 治理、合规、内审、管理层 |
| E02 | 用例与业务影响证据 | AI 用例登记、业务目标、客户影响评估、权利与安全影响判断、使用边界 | PM、BA、业务 Owner、合规 |
| E03 | 数据与知识源证据 | 数据说明书、数据血缘、授权证明、PII 清单、数据质量报告、RAG 知识库索引 | 数据治理、数据工程、BA |
| E04 | 模型与系统设计证据 | 模型卡、系统卡、架构图、提示词策略、工具调用设计、人工复核设计、降级方案 | 架构师、ML 工程、平台团队 |
| E05 | 风险评估证据 | AI 风险评估、模型风险分级、隐私影响评估、安全威胁建模、公平性影响分析 | 风险、合规、安全、架构 |
| E06 | 测试与评估证据 | 离线评估、红队测试、偏差测试、稳健性测试、幻觉评估、业务验收、UAT 记录 | QA、模型风险、业务、PM |
| E07 | 上线审批证据 | Go-live checklist、审批流、控制例外、上线会议纪要、回滚方案、SLA/SLO 承诺 | PM、发布经理、系统 Owner |
| E08 | 运行监控证据 | 生产指标、漂移监控、质量抽检、人工复核结果、告警记录、成本与延迟监控 | 运维、模型运营、业务运营 |
| E09 | 审计日志与可追溯证据 | 用户操作日志、模型调用日志、输入输出摘要、权限变更、配置变更、证据访问日志 | 平台、安全、运维 |
| E10 | 事故、例外与补救证据 | 事故单、根因分析、客户补救、模型禁用记录、例外批准、整改证明 | 事故经理、风险、业务 |
| E11 | 第三方与供应商证据 | 供应商尽调、模型服务合同、数据处理协议、SLA、子处理方清单、供应商审计报告 | 采购、法务、第三方风险 |
| E12 | 培训与人员能力证据 | 培训记录、角色授权、操作手册、人工复核指南、能力认证、值班安排 | HR、业务运营、AI 治理 |
证据粒度建议:
| 粒度 | 适用材料 | 管理方式 |
|---|---|---|
| 企业级 | AI 政策、AIMS 范围、控制库、风险偏好、治理委员会记录 | 年度版本控制,管理层批准 |
| 组合级 | 某业务线 AI 用例清单、模型组合风险、供应商组合、关键控制覆盖率 | 季度复核,业务线负责人批准 |
| 系统级 | 系统卡、架构图、运行监控、系统级风险评估、集成日志 | 每次重大变更更新 |
| 模型级 | 模型卡、训练记录、评估报告、漂移报告、版本比较 | 每个模型版本更新 |
| 数据级 | 数据说明书、数据质量、血缘、权限、保留期限 | 数据集版本更新 |
| 交易级 | 单次推理、决策、人工复核、客户通知、操作日志 | 自动记录,按保留政策归档 |
5. 映射到 NIST AI RMF:Govern、Map、Measure、Manage
证据包应能沿着 NIST AI RMF 的四类职能进行导航。下面的映射不是把框架变成机械清单,而是帮助团队把“做了什么”转换成“能证明什么”。
| NIST AI RMF 职能 | 核心问题 | 证据包应回答 | 关键证据 |
|---|---|---|---|
| Govern | 组织如何建立 AI 风险管理文化、政策、责任和监督 | 谁拥有 AI 风险?谁批准上线?AI 风险是否纳入企业治理和问责? | AI 治理章程、RACI、AI 用例台账、风险偏好、政策例外、委员会纪要、培训记录 |
| Map | 组织如何识别上下文、受影响人群、业务目标、风险和边界 | AI 系统用于什么场景?影响谁?误用和失败会造成什么后果? | 用例登记、客户旅程、数据流、系统边界、影响评估、风险分类、供应商关系图 |
| Measure | 组织如何分析、评估和跟踪 AI 风险与可信度 | 模型表现如何?公平性、稳定性、安全性、解释性和人工复核效果如何? | 模型卡、评估报告、测试集说明、偏差分析、红队报告、幻觉评估、监控指标 |
| Manage | 组织如何优先级排序、响应、缓解和持续改进 AI 风险 | 风险如何被接受、缓解、转移或停止?问题如何升级和关闭? | 风险处置计划、控制矩阵、上线门禁、事故复盘、整改计划、例外批准、停用记录 |
实战用法:
- 每个 AI 用例至少保留一页“四职能证据地图”。
- 每个控制项至少映射到一个 NIST 职能。
- 每次审计或监管问询都从四职能地图进入,而不是从文件夹层级慢慢翻。
- 对生成式 AI,用 NIST GenAI Profile 增补专项证据,例如幻觉、越权工具调用、敏感信息泄露、提示词注入、内容安全、模型供应链和人类过度依赖。
6. 映射到 ISO/IEC 42001 AIMS
ISO/IEC 42001 的价值在于把 AI 治理纳入管理体系。证据包需要支撑“体系是否被建立、实施、维护、持续改进”,而不只是证明单个模型做过评估。
| AIMS 维度 | 管理关注点 | 证据包材料 | 金融零售示例 |
|---|---|---|---|
| 组织背景与范围 | 哪些业务、系统、角色和第三方纳入 AIMS | AIMS 范围说明、AI 系统清单、边界图、排除项理由 | 将智能客服、AML 告警摘要、信贷预审、支付风控纳入范围 |
| 领导与责任 | 管理层如何设定方向、授权和问责 | AI 委员会章程、RACI、年度目标、风险偏好 | 零售银行 AI 委员会批准“高影响 AI 用例必须人工复核” |
| 规划与风险机会 | AI 风险与机会如何识别、评估和处置 | AI 风险评估、机会评估、风险处置计划、控制库 | 识别信用评分模型可提升效率,同时存在歧视性影响风险 |
| 支持能力 | 人员、培训、工具、知识和沟通机制 | 培训记录、操作手册、复核指南、沟通计划 | 客服质检人员完成生成式 AI 输出审核培训 |
| 运行控制 | AI 系统如何开发、采购、部署、使用和监控 | SDLC 证据、供应商评估、上线审批、监控记录 | 第三方大模型接入前完成安全、隐私和合同评审 |
| 绩效评价 | AIMS 是否有效,控制是否运行 | 内审报告、控制测试、KPI/KRI、管理评审 | 每季度报告 AI 事故数、例外数、人工复核覆盖率 |
| 改进 | 不符合项、事故和机会如何推动改进 | 整改计划、复盘、版本改进记录、政策更新 | 支付风控模型误杀率上升后调整阈值并补偿受影响客户 |
AIMS 证据包的最低产品形态:
| 文档 | 作用 | 更新频率 |
|---|---|---|
| AIMS 范围与 AI 系统清单 | 定义体系覆盖边界 | 季度或重大变更 |
| AI 风险与控制库 | 统一控制语言 | 半年或监管变化 |
| AI 用例证据包标准 | 规定每个用例必须保留什么 | 半年 |
| AI 管理评审材料 | 向管理层证明体系运行情况 | 季度 |
| 不符合项与改进台账 | 证明持续改进 | 持续 |
7. Model Cards、Datasheets 与 System Cards 的关系
模型卡、数据说明书和系统卡经常被混用。一个监管就绪的证据包需要三者同时存在,并明确边界。
| 文档 | 关注对象 | 关键问题 | 不能替代什么 |
|---|---|---|---|
| Model Card | 一个模型或模型版本 | 模型用途、训练背景、评估方法、性能、限制、适用和不适用场景 | 不能替代系统架构、业务流程、人工复核和生产监控证据 |
| Datasheet for Dataset | 一个数据集或知识库版本 | 数据为何被创建、如何采集、包含什么、如何处理、适用用途、质量和限制 | 不能替代模型表现评估,也不能证明数据使用一定合法合规 |
| System Card | 一个 AI 系统或产品能力 | 系统目标、用户、数据流、模型流、工具调用、控制、监控、失败模式、人工介入 | 不能替代底层模型卡和数据说明书 |
7.1 模型卡最小内容
| 模块 | 需要写清楚 | 合格样例 |
|---|---|---|
| 模型身份 | 名称、版本、来源、训练或供应商信息、上线日期 | CreditPreScreen-XGB v2.3,内部训练,2026-05-18 上线 |
| 预期用途 | 支持什么业务决策,是否仅作辅助 | 用于信用卡申请预审排序,不直接生成拒绝决定 |
| 不适用场景 | 禁止用途、低置信度场景、受限人群 | 不用于最终授信审批,不用于小微企业贷款 |
| 输入输出 | 关键特征、输出分数、阈值含义 | 输出 0-1000 风险分,低于 420 进入人工复核队列 |
| 评估数据 | 测试集时间窗、样本量、代表性说明 | 2025-10 至 2026-03 申请样本,剔除标签未成熟账户 |
| 表现指标 | 准确性、召回、AUC、误拒、误批、稳定性 | AUC 0.82,人工复核队列坏账捕获率提升 11% |
| 分群表现 | 地区、年龄段、渠道、产品、语言、设备等 | 移动端新客样本误拒率高于网点渠道 1.7 个百分点 |
| 风险与限制 | 偏差、漂移、数据质量、可解释性、过度依赖 | 薄信用档案客户解释稳定性较弱,必须提供人工复核 |
| 监控计划 | 指标、阈值、频率、告警和响应 | PSI 超过 0.2 触发模型风险复核 |
| 审批记录 | 模型 Owner、风险审批、业务审批 | 模型风险委员会 2026-05-10 批准 |
7.2 数据说明书最小内容
| 模块 | 需要写清楚 | 合格样例 |
|---|---|---|
| 数据动机 | 为什么收集和使用该数据 | 用于训练支付欺诈识别模型,降低账户盗用损失 |
| 数据组成 | 字段、标签、时间窗、样本量、敏感字段 | 交易金额、商户类别、设备指纹、IP 风险等级,不含明文证件号 |
| 数据来源 | 系统、供应商、客户授权、派生逻辑 | 来自核心支付系统、设备风控服务和人工标注欺诈单 |
| 采集与处理 | 抽取、清洗、脱敏、标签生成、特征工程 | 客户标识经不可逆哈希,标签由确认欺诈工单生成 |
| 质量检查 | 缺失、重复、异常、标签延迟、样本偏移 | 商户类别缺失率 0.4%,标签成熟期 45 天 |
| 使用限制 | 允许用途、禁止用途、保留期限 | 仅用于支付风控训练和评估,不用于营销画像 |
| 访问控制 | 谁可访问,审批和日志机制 | 数据科学团队只访问脱敏特征表,访问记录保留 7 年 |
| 版本历史 | 数据集版本、变更点、影响分析 | v2026Q2 新增设备风险等级字段,已完成回归测试 |
7.3 系统卡最小内容
| 模块 | 需要写清楚 | 合格样例 |
|---|---|---|
| 系统目标 | 系统解决什么问题,服务哪些用户 | AML 告警摘要助手,帮助分析师快速理解可疑交易线索 |
| 系统边界 | 包含和不包含的组件、接口、第三方服务 | 包含 RAG 检索、摘要生成、案例工作台;不自动提交 SAR |
| 用户与权限 | 使用角色、权限分级、审批要求 | 仅 AML 二线分析师可调用,主管可查看抽检报告 |
| 数据流与模型流 | 输入、检索、推理、输出、日志和存储 | 客户身份信息脱敏后进入提示词,上下文来自批准知识库 |
| 控制点 | 输入过滤、知识库版本、输出校验、人工复核 | 所有摘要必须经分析师确认后进入案件记录 |
| 失败模式 | 幻觉、遗漏、错误归因、敏感信息暴露、越权访问 | 模型无法给出来源时显示“证据不足”,禁止生成结论性判断 |
| 监控 | 质量、延迟、成本、安全、客户影响 | 每周抽检 100 条摘要,来源引用准确率低于 95% 触发复盘 |
| 事故响应 | 停用、回滚、通知、补救和复盘 | 发现错误摘要进入案件记录时冻结该版本知识库并启动影响分析 |
8. Control-to-Evidence Matrix
控制到证据矩阵是证据包的骨架。没有矩阵,证据包会变成文件堆;有矩阵,审计人员能快速判断控制是否被设计、执行和证明。
| 控制 ID | 控制目标 | 控制活动 | 风险 | NIST 映射 | ISO 42001 映射 | 证据 | 频率 | Owner | 合格标准 |
|---|---|---|---|---|---|---|---|---|---|
| AI- GOV-001 | 所有 AI 用例纳入治理台账 | 新 AI 用例立项前登记用途、Owner、数据、模型、影响等级 | 未登记 AI、影子 AI、无法问责 | Govern、Map | 范围、领导、规划 | AI 用例登记表、审批记录、系统清单 | 每次立项 | AI Governance Lead | 100% 高影响用例有唯一 ID 和审批 |
| AI-MAP-002 | 明确客户影响和使用边界 | BA 完成客户旅程、受影响人群、失败影响和禁用场景分析 | 客户权益受损、误用模型 | Map | 风险机会、运行控制 | 客户影响评估、使用边界声明、流程图 | 每次重大变更 | BA Lead | 影响评估经业务和合规签署 |
| AI-DATA-003 | 数据使用可追溯且符合授权 | 训练和知识库数据必须有来源、授权、血缘和质量检查 | 数据滥用、隐私违规、标签污染 | Map、Measure | 支持、运行控制 | 数据说明书、血缘图、DPIA、质量报告 | 每个数据版本 | Data Owner | 无未批准敏感字段进入模型 |
| AI-MOD-004 | 模型用途、限制和表现透明 | 每个模型版本发布模型卡 | 模型被误用、性能不可解释 | Measure | 绩效评价 | 模型卡、评估报告、分群表现 | 每个模型版本 | Model Owner | 指标、限制、监控计划完整 |
| AI-SYS-005 | 系统级控制覆盖端到端流程 | 关键 AI 系统发布系统卡 | 只评估模型、不评估系统风险 | Govern、Map、Manage | 运行控制 | 系统卡、架构图、数据流图、控制点清单 | 每个系统版本 | Architect | 系统边界、失败模式和人工复核明确 |
| AI-EVAL-006 | 上线前完成风险相关测试 | 根据风险等级执行准确性、公平性、安全、鲁棒性和业务验收 | 未经验证上线 | Measure | 绩效评价 | 测试计划、评估结果、红队报告、UAT 记录 | 每次上线 | QA / MRM | 高风险问题关闭或有批准例外 |
| AI-HITL-007 | 高影响决策保留人工复核 | 定义复核条件、复核人、操作指南和抽检机制 | 自动化决策损害客户权益 | Manage | 运行控制 | 复核 SOP、抽检报告、复核日志、培训记录 | 持续 | Business Ops | 复核覆盖率和一致性达标 |
| AI-LOG-008 | AI 关键操作可追溯 | 记录输入摘要、检索来源、模型版本、输出、用户、时间和决策动作 | 无法复盘、不可抵赖性不足 | Govern、Measure、Manage | 运行控制、绩效评价 | 审计日志、日志字段字典、保留策略 | 持续 | Platform Owner | 关键字段完整率不低于 99.5% |
| AI-INC-009 | AI 事故可升级和补救 | 建立 AI 事故分类、升级、客户影响评估和整改机制 | 事故扩大、监管报告延误 | Manage | 改进 | 事故单、RCA、整改证明、客户补救记录 | 事件触发 | Incident Manager | 高严重度事故按 SLA 完成复盘 |
| AI-TPR-010 | 第三方 AI 服务风险受控 | 对供应商模型、数据处理、SLA、子处理方和退出方案进行评估 | 供应商不可控、数据跨境和服务中断 | Govern、Map、Manage | 运行控制、支持 | 供应商尽调、合同条款、SLA、退出方案 | 入库和年度复核 | TPRM | 高风险供应商完成法务、安全、隐私评审 |
矩阵使用原则:
- 控制 ID 不随证据文件名变化而变化。
- 证据可以复用,但必须明确证明范围。
- 每个高风险控制至少有一份设计证据和一份运行证据。
- 自动化控制必须有配置、运行日志和异常处理证据。
- 人工控制必须有执行记录、审核记录和抽样质量证据。
9. 证据生命周期
证据生命周期要嵌入 AI 生命周期,而不是挂在审计团队末端。
| 阶段 | 主要动作 | 生成证据 | 质量门禁 |
|---|---|---|---|
| 1. 需求与立项 | 识别 AI 用例、业务目标、影响人群、成功指标 | 用例登记、业务目标、客户影响初评、RACI | 未登记不得进入方案设计 |
| 2. 风险分级 | 判断是否影响客户权利、安全、财务利益或合规义务 | 风险分级表、适用控制清单、监管影响说明 | 高影响用例必须进入增强评审 |
| 3. 数据准备 | 明确数据来源、授权、质量、血缘、敏感字段和标签 | 数据说明书、血缘图、数据质量报告、访问审批 | 未批准数据不得进入训练或知识库 |
| 4. 设计与开发 | 明确架构、模型、提示词、工具调用、人机协同和降级 | 系统卡、模型卡草案、架构图、威胁模型 | 关键控制点必须设计到流程中 |
| 5. 测试与验证 | 完成模型、系统、业务、安全、隐私、公平性和生成式 AI 评估 | 测试计划、评估报告、红队报告、UAT、缺陷关闭记录 | 严重缺陷关闭或有正式例外 |
| 6. 上线审批 | 汇总控制状态、风险接受、回滚方案和运行监控 | Go-live 证据包、审批流、发布记录、回滚计划 | 上线审批人可见完整证据索引 |
| 7. 生产运行 | 监控模型表现、漂移、日志、成本、延迟、人工复核和异常 | 监控看板、抽检记录、日志、告警记录 | 指标越阈必须触发响应流程 |
| 8. 变更管理 | 处理模型、数据、提示词、供应商、阈值和策略变更 | 变更单、影响分析、回归测试、重新审批 | 重大变更必须更新系统卡和模型卡 |
| 9. 事故与例外 | 识别、升级、遏制、补救、复盘和整改 | 事故单、RCA、客户影响分析、整改证明 | 关闭前必须验证补救有效性 |
| 10. 定期复核与退役 | 定期审查适用性、控制有效性、数据保留和退役计划 | 周期复核、管理评审、退役记录、数据删除证明 | 退役系统仍需保留必要审计证据 |
证据生命周期的关键设计点:
- 证据在流程中生成:审批、测试、部署、监控和事故系统应自动沉淀材料。
- 证据有状态:草稿、待审核、已批准、已归档、已废止、受法律保全。
- 证据有保留期限:金融零售中通常需要结合模型风险、客户投诉、反洗钱、支付争议、数据保护和合同要求确定。
- 证据有版本关系:模型 v2.3 对应数据集 v2026Q2、特征版本 f18、提示词版本 p7、知识库版本 kb2026-06、系统版本 r42。
- 证据有例外机制:缺失或不合格证据不能被口头解释覆盖,必须进入缺口台账并由相应风险接受人批准。
10. 所有权与 RACI
证据包的最大失败点通常不是技术,而是“材料谁负责”。RACI 必须在用例立项时确定。
| 活动 | PM | BA | Architect | Model Owner | Data Owner | Compliance | Legal | Security | MRM | Business Owner | Internal Audit |
|---|---|---|---|---|---|---|---|---|---|---|---|
| AI 用例登记 | A | R | C | C | C | C | C | C | C | A | I |
| 客户影响评估 | A | R | C | C | C | C | C | I | C | A | I |
| 数据说明书 | C | C | I | C | R/A | C | C | C | C | I | I |
| 系统卡 | C | C | R/A | C | C | C | I | C | C | I | I |
| 模型卡 | C | I | C | R/A | C | C | I | I | C | I | I |
| 风险分级 | C | C | C | C | C | R | C | C | R | A | I |
| 测试与评估 | A | C | C | R | C | C | I | C | R | A | I |
| 上线证据包汇总 | R/A | C | C | C | C | C | C | C | C | A | I |
| 运行监控 | C | I | C | R | C | I | I | C | C | A | I |
| 事故响应 | C | C | C | R | C | C | C | R | C | A | I |
| 证据质量抽检 | C | C | C | C | C | R | C | C | R | A | R |
说明:
- R = Responsible,实际产出或执行者。
- A = Accountable,最终负责和批准者。
- C = Consulted,被咨询并提供输入。
- I = Informed,被告知结果。
组织设计建议:
| 角色 | 应该拥有的证据产品能力 |
|---|---|
| PM | 把监管和控制要求转成产品门禁、路线图和上线包 |
| BA | 把业务流程、客户影响、异常路径和操作规范证据化 |
| Architect | 把系统边界、数据流、模型流、控制点和日志设计证据化 |
| Compliance | 定义监管解释、证据最低标准和例外审批要求 |
| MRM | 定义模型验证、监控、漂移、独立复核和模型退役证据 |
| Security | 定义威胁建模、访问控制、日志、密钥、供应链和事件响应证据 |
| Internal Audit | 独立验证控制设计和运行有效性,推动缺口整改 |
11. 版本控制与配置管理
AI 系统证据比传统系统更依赖版本关系。审计时最危险的情况是证据材料存在,但无法证明它对应生产中的哪个模型、数据和配置。
11.1 版本对象
| 对象 | 必须记录 | 示例 |
|---|---|---|
| AI 用例 | 用例 ID、业务 Owner、风险等级、状态 | AI-AML-CASE-SUMMARY-001 |
| 系统版本 | 服务版本、部署环境、发布时间、回滚版本 | aml-assistant-release-42 |
| 模型版本 | 模型名称、版本、来源、参数或供应商版本 | gpt-4.1-2026-04 或 fraud-xgb-v5.1 |
| 提示词版本 | prompt ID、模板、变量、审批人、适用系统版本 | prompt-aml-summary-p7 |
| 数据集版本 | 数据窗口、抽取脚本、字段清单、质量结果 | credit-train-2026Q2 |
| 知识库版本 | 文档清单、切片规则、嵌入模型、索引哈希 | kyc-policy-kb-2026-06-15 |
| 特征版本 | 特征定义、计算逻辑、血缘、回填策略 | payment-risk-features-v18 |
| 阈值版本 | 策略阈值、审批记录、生效日期、影响分析 | aml-threshold-pack-2026-05 |
| 控制版本 | 控制 ID、控制描述、责任人、测试方法 | AI-LOG-008 v1.2 |
| 证据版本 | 文件哈希、生成时间、审批状态、保留期限 | EV-AI-AML-202606-014 |
11.2 版本命名规范
建议采用可读且稳定的命名方式:
[业务域]-[系统或用例]-[证据类别]-[日期]-[版本]-[状态]
示例:
AML-CaseSummary-SystemCard-20260629-v1.0-Approved.md
CreditPreScreen-ModelCard-20260518-v2.3-Approved.md
PaymentFraud-DataSheet-2026Q2-v1.1-Archived.md
CustomerService-RedTeamReport-20260612-v1.0-Approved.pdf
11.3 版本控制要求
| 要求 | 说明 | 检查方式 |
|---|---|---|
| 唯一 ID | 每份证据有唯一证据 ID | 证据索引无重复 |
| 哈希或签名 | 关键证据保留哈希、签名或不可变存储记录 | 抽样校验文件未被改写 |
| 审批状态 | 草稿和批准版本必须区分 | 审计只引用批准或归档版本 |
| 适用范围 | 标明适用系统、模型、数据和时间窗 | 证据与生产版本可匹配 |
| 变更历史 | 记录修改人、原因、影响和审批 | 重大变更有影响分析 |
| 保留期限 | 明确保留到期日和法律保全状态 | 过期证据按流程处置 |
| 访问控制 | 证据按敏感级别分权访问 | 访问日志可抽查 |
12. 审计日志要求
AI 审计日志不是普通应用日志。它必须支持模型行为复盘、客户影响分析、控制运行证明和监管问询。
12.1 日志类型
| 日志类型 | 记录内容 | 适用场景 |
|---|---|---|
| 调用日志 | 调用时间、用户、会话、系统版本、模型版本、输入摘要、输出摘要、状态码 | 生成式 AI、评分模型、推荐模型 |
| 数据检索日志 | 检索 query、知识库版本、命中文档、引用段落、置信度 | RAG、政策问答、AML 案件摘要 |
| 工具调用日志 | 工具名称、参数摘要、权限、返回结果摘要、错误码 | Agent、自动化调查、客服操作助手 |
| 决策日志 | 模型分数、阈值、策略规则、人工复核结论、最终动作 | 信贷、支付风控、KYC、AML |
| 权限日志 | 用户授权、角色变更、密钥轮换、服务账号使用 | 所有高影响 AI 系统 |
| 配置日志 | prompt、阈值、模型路由、知识库、特征开关变更 | 生成式 AI 和模型服务 |
| 质量日志 | 抽检结果、错误类别、复核一致性、客户投诉关联 | 客服、AML、信贷 |
| 安全日志 | 提示词注入、敏感信息输出、越权访问、异常流量 | 大模型应用、API 服务 |
| 证据访问日志 | 谁查看、下载、修改、批准、归档证据 | 证据库和审计门户 |
12.2 最低字段标准
| 字段 | 说明 | 示例 |
|---|---|---|
| event_id | 唯一事件 ID | evt_20260629_000918273 |
| timestamp_utc | UTC 时间戳 | 2026-06-29T15:42:11Z |
| actor_id | 用户、服务账号或系统组件 | aml_analyst_4821 |
| actor_role | 角色 | AML_L2_ANALYST |
| use_case_id | AI 用例 ID | AI-AML-CASE-SUMMARY-001 |
| system_version | 系统版本 | release-42 |
| model_version | 模型版本 | gpt-4.1-2026-04 |
| data_or_kb_version | 数据或知识库版本 | kyc-policy-kb-2026-06-15 |
| prompt_or_policy_version | 提示词或策略版本 | prompt-aml-summary-p7 |
| input_hash | 输入哈希或摘要哈希 | sha256:8b1c... |
| output_hash | 输出哈希或摘要哈希 | sha256:c91e... |
| decision_action | 系统或人工动作 | summary_saved_by_human |
| control_flags | 命中的控制标记 | pii_redacted,source_required,human_reviewed |
| error_or_exception | 错误或例外 | source_confidence_below_threshold |
| retention_class | 保留类别 | model_risk_7y |
12.3 日志设计原则
| 原则 | 实战含义 |
|---|---|
| 最小必要 | 不把完整敏感输入输出无差别写入日志,优先使用摘要、哈希、脱敏片段和安全存储 |
| 可复盘 | 保留足够版本信息,使团队能重建当时的模型、数据、配置和控制状态 |
| 不可抵赖 | 关键审批、人工复核、阈值修改和证据归档应有签名、时间戳和访问记录 |
| 可检索 | 日志能按客户、案件、模型版本、证据 ID、风险事件和时间窗检索 |
| 可保留 | 保留期限与业务、模型风险、支付争议、AML、投诉和法律保全要求一致 |
| 可保护 | 日志本身包含高敏感信息,应加密、分权、监控访问和定期审查 |
13. 证据质量评分 Rubric
证据质量不能只看“有没有”。建议用 1-5 分评分,低于 3 分不得作为关键控制的唯一证据。
| 维度 | 1 分 | 3 分 | 5 分 |
|---|---|---|---|
| 完整性 | 只覆盖部分控制或缺少关键字段 | 覆盖主要控制,但缺少少量上下文 | 覆盖控制目标、范围、版本、责任、结果和审批 |
| 准确性 | 与系统实际状态不一致 | 基本准确,有少量解释性差异 | 与生产版本、日志和审批记录一致 |
| 时效性 | 过期或无法确认时间 | 时间可确认,但刷新不稳定 | 在规定频率内更新,重大变更同步更新 |
| 可追溯性 | 无法关联系统、模型、数据或控制 | 可关联部分对象 | 可追溯到用例、版本、控制、风险和责任人 |
| 可复现性 | 结果无法重算或重查 | 有方法说明,但依赖人工解释 | 有数据、代码、配置、环境或查询记录支持复现 |
| 审批性 | 无正式审核或批准 | 有团队内部确认 | 有符合风险等级的审批链和签署记录 |
| 可理解性 | 只有技术细节,业务和监管看不懂 | 有摘要,但结论不够清晰 | 有执行摘要、结论、影响和可审计证据路径 |
| 防篡改性 | 文件可随意修改 | 有版本记录 | 有哈希、签名、不可变存储或访问审计 |
| 相关性 | 材料存在但不能证明控制 | 间接证明控制 | 直接证明控制设计或运行有效 |
| 一致性 | 与其他材料矛盾 | 存在轻微口径差异 | 与系统卡、模型卡、日志、审批和风险台账一致 |
评分解释:
| 总分 | 等级 | 处理 |
|---|---|---|
| 45-50 | 强证据 | 可作为关键控制主要证据 |
| 35-44 | 可用证据 | 可用于一般控制,关键控制需补充佐证 |
| 25-34 | 弱证据 | 进入证据缺口台账并限期整改 |
| 10-24 | 不可用证据 | 不应对外提交,需重新生成 |
证据质量审查问题:
- 这份证据能否被一个没有参与项目的人读懂?
- 它能否证明控制真实发生,而不只是证明有人写了流程?
- 它能否关联到生产中的具体模型、数据、配置和时间窗?
- 它是否包含敏感信息,是否已按最小必要原则处理?
- 如果监管要求说明某个客户被影响的原因,是否能从这份证据追溯到答案?
14. 金融零售场景证据示例
14.1 AML / 可疑交易监控
| 证据对象 | 关键材料 | 审计问题 | 合格证据特征 |
|---|---|---|---|
| AML 告警摘要助手 | 系统卡、RAG 知识库说明、提示词版本、人工复核日志 | 模型是否自动替代 AML 分析师判断? | 明确“仅辅助摘要,不自动提交可疑活动报告”,所有输出有分析师确认 |
| AML 规则与模型组合 | 模型卡、规则版本、阈值审批、告警效果分析 | 阈值变化是否影响漏报和误报? | 每次阈值调整有回归测试和业务影响分析 |
| 客户尽调资料 | 数据说明书、数据血缘、敏感字段控制 | KYC 数据是否被超范围用于模型训练? | 数据用途和授权边界清晰,训练集不含未批准敏感字段 |
| 监管问询响应 | 案件证据索引、日志、分析师操作记录 | 某个案件为何被升级或关闭? | 可按案件 ID 追溯数据、模型摘要、人工判断和主管复核 |
证据包亮点:
- 保留“模型建议”和“人工最终判断”的清晰边界。
- 对每个 AML 案件记录引用来源,禁止无来源的结论性陈述进入案件文件。
- 监控摘要准确率、来源引用准确率、遗漏关键风险线索率和人工改写率。
14.2 KYC / 客户身份识别
| 证据对象 | 关键材料 | 审计问题 | 合格证据特征 |
|---|---|---|---|
| 身份证件 OCR / 活体检测 | 模型卡、供应商尽调、性能分群测试 | 某些群体是否被更高比例误拒? | 按证件类型、地区、年龄段、设备类型记录分群表现 |
| KYC 文档审核助手 | 系统卡、提示词、人工复核 SOP | AI 是否给出最终开户决定? | AI 输出仅为审核建议,最终决定由授权人员确认 |
| 制裁名单筛查 | 数据说明书、名单版本、匹配策略、例外审批 | 名单是否及时更新,误匹配如何处理? | 名单版本、更新时间、匹配阈值和人工解除记录可追溯 |
| 客户通知 | 决策记录、解释模板、投诉处理证据 | 被拒客户是否获得适当解释和申诉路径? | 保留通知版本、原因码、人工复核和客户申诉结果 |
证据包亮点:
- 把“身份验证失败”“风险名单匹配”“资料不完整”“人工无法确认”区分为不同原因码。
- 对高误拒场景建立人工复核与渠道补救机制。
- 第三方生物识别或 OCR 服务需保留供应商模型、数据处理和 SLA 证据。
14.3 信贷 / 授信与预审
| 证据对象 | 关键材料 | 审计问题 | 合格证据特征 |
|---|---|---|---|
| 信贷预审模型 | 模型卡、数据说明书、分群表现、拒绝原因码 | 模型是否导致不公平拒绝? | 分群误拒、稳定性、解释一致性和人工复核结果完整 |
| 授信策略引擎 | 策略版本、阈值审批、影响分析、冠军挑战者记录 | 策略变化是否经过批准? | 每次阈值变化关联预期通过率、风险成本和客户影响 |
| 收入估算模型 | 特征说明、外部数据合同、误差评估 | 数据是否适合该用途? | 数据授权、适用限制和误差范围明确 |
| 客户申诉 | 决策日志、解释记录、人工复核、补救结果 | 客户能否挑战自动化或半自动化判断? | 申诉链路、复核时限和结果通知可追溯 |
证据包亮点:
- 模型卡必须说明模型是否直接参与最终授信决定。
- 评分模型、策略规则和人工审批要合并形成“最终决策证据链”。
- 拒绝原因码应来自可解释、可验证的原因集合,不能由大模型自由生成。
14.4 支付 / 交易风控
| 证据对象 | 关键材料 | 审计问题 | 合格证据特征 |
|---|---|---|---|
| 实时欺诈检测 | 模型卡、特征说明、延迟监控、误杀率监控 | 模型是否稳定,是否造成大规模误拦截? | 按渠道、商户、地区和客户类型监控误杀与漏放 |
| 风控处置策略 | 阈值版本、策略审批、客户通知、解锁流程 | 客户资金或支付能力是否被不当限制? | 高影响处置有人工复核、申诉和补救证据 |
| 设备与行为数据 | 数据说明书、第三方合同、隐私评估 | 是否超范围采集或共享数据? | 字段最小化、用途限制和供应商控制清晰 |
| 异常事件 | 告警、事故单、回滚记录、客户影响分析 | 模型或规则异常如何止损? | 有熔断阈值、回滚版本和客户补救计划 |
证据包亮点:
- 实时场景要证明“控制有效且不引入不可接受的业务中断”。
- 对高价值交易、跨境交易、异常商户类别保留差异化监控证据。
- 成本、延迟和风控效果共同纳入证据,因为延迟可能直接影响支付体验和客户投诉。
14.5 客户服务 / 生成式 AI 助手
| 证据对象 | 关键材料 | 审计问题 | 合格证据特征 |
|---|---|---|---|
| 客服坐席助手 | 系统卡、知识库版本、提示词、输出抽检 | AI 是否给出错误金融建议? | 禁止生成投资、信贷或法律承诺;高风险意图转人工 |
| 客户自助聊天机器人 | 内容安全测试、幻觉评估、转人工策略 | 客户是否被错误引导? | 保留拒答策略、转人工率、投诉关联和错误回复复盘 |
| 投诉摘要与分类 | 模型卡、数据说明书、人工质检 | 投诉是否被错误归类导致处理延误? | 按投诉类型监控召回率和人工改写率 |
| 营销文案生成 | 审批流、合规词库、输出审查记录 | 是否生成误导性金融宣传? | 所有外发内容经合规审查,保留版本和审批 |
证据包亮点:
- 对生成式 AI 输出建立“可用、需改写、必须拒绝、必须转人工”的质量标签。
- 所有知识库条目应有来源、有效期、业务 Owner 和法律或合规审查状态。
- 不把模型的自然语言解释当成正式客户承诺,正式承诺来自批准话术或业务规则。
15. 监管就绪的 10 个证据包章节
一个完整的 AI Evidence Binder 建议固定为 10 个章节。章节稳定,内容按用例和版本更新。
| 章节 | 名称 | 目的 | 必备材料 |
|---|---|---|---|
| 1 | Executive Control Summary | 让管理层、审计和监管快速理解系统、风险、控制状态和结论 | 一页摘要、系统 ID、风险等级、上线状态、关键控制、未关闭例外 |
| 2 | Scope and System Boundary | 定义 AI 系统、业务流程、用户、第三方和技术边界 | 系统卡、架构图、数据流、模型流、供应商图 |
| 3 | Governance and Accountability | 证明责任、审批、政策和管理监督存在 | RACI、委员会纪要、政策映射、审批记录、培训记录 |
| 4 | Use Case and Impact Assessment | 证明业务目标、客户影响和使用边界被分析 | 用例登记、客户旅程、影响评估、禁用场景、权利与安全判断 |
| 5 | Data and Knowledge Evidence | 证明数据和知识来源合规、可追溯、质量可控 | 数据说明书、血缘、质量报告、DPIA、知识库索引 |
| 6 | Model and System Design Evidence | 证明模型、系统、人机协同、控制点设计合理 | 模型卡、系统卡、提示词版本、工具调用设计、降级方案 |
| 7 | Evaluation and Validation Evidence | 证明上线前完成适当测试和独立验证 | 测试计划、评估报告、分群表现、红队报告、UAT、缺陷关闭 |
| 8 | Operational Monitoring and Logs | 证明生产中持续监控、日志可追溯、控制持续运行 | 监控看板、审计日志、抽检记录、告警、人工复核 |
| 9 | Incidents, Exceptions and Remediation | 证明异常被识别、升级、补救和改进 | 事故单、例外批准、RCA、整改证明、客户补救 |
| 10 | Change, Review and Retirement | 证明变更、周期复核和退役受控 | 变更单、影响分析、回归测试、管理评审、退役和数据删除证明 |
使用建议:
- 每章首页放“本章回答的审计问题”。
- 每章第二页放“证据索引”,列出证据 ID、文件名、Owner、版本和状态。
- 每章只放批准版本,原始工作材料放附录库。
- 对监管问询,优先提交摘要、矩阵和索引,再按要求提供底层证据。
16. 样例 Evidence Index
以下是一个 AML 告警摘要助手的样例证据索引。实际项目可放入 GRC 工具、文档库或证据门户。
| Evidence ID | 章节 | 证据名称 | 控制 ID | 适用对象 | 版本 | 日期 | Owner | 状态 | 保留期限 |
|---|---|---|---|---|---|---|---|---|---|
| EV-AML-001 | 1 | Executive Control Summary | AI-GOV-001 | AI-AML-CASE-SUMMARY-001 | v1.0 | 2026-06-29 | PM | Approved | 7 年 |
| EV-AML-002 | 2 | AML Case Summary System Card | AI-SYS-005 | release-42 | v1.0 | 2026-06-21 | Architect | Approved | 7 年 |
| EV-AML-003 | 2 | Data Flow and Model Flow Diagram | AI-SYS-005 | release-42 | v1.2 | 2026-06-21 | Architect | Approved | 7 年 |
| EV-AML-004 | 3 | RACI and Governance Approval Record | AI-GOV-001 | use case | v1.0 | 2026-06-18 | AI Governance | Approved | 7 年 |
| EV-AML-005 | 4 | Customer and Regulatory Impact Assessment | AI-MAP-002 | use case | v1.1 | 2026-06-19 | BA | Approved | 7 年 |
| EV-AML-006 | 5 | KYC Policy Knowledge Base Datasheet | AI-DATA-003 | kb2026-06-15 | v1.0 | 2026-06-15 | Data Owner | Approved | 7 年 |
| EV-AML-007 | 5 | AML Case Data Quality Report | AI-DATA-003 | data window 2026Q2 | v1.0 | 2026-06-16 | Data Engineering | Approved | 7 年 |
| EV-AML-008 | 6 | Model Card for Summary LLM Route | AI-MOD-004 | gpt-4.1 route | v1.0 | 2026-06-17 | Model Owner | Approved | 7 年 |
| EV-AML-009 | 6 | Prompt Version p7 Approval | AI-SYS-005 | prompt-aml-summary-p7 | v1.0 | 2026-06-17 | Product Ops | Approved | 7 年 |
| EV-AML-010 | 7 | Pre-production Evaluation Report | AI-EVAL-006 | release-42 | v1.0 | 2026-06-20 | QA | Approved | 7 年 |
| EV-AML-011 | 7 | GenAI Red Team Report | AI-EVAL-006 | release-42 | v1.0 | 2026-06-20 | Security | Approved | 7 年 |
| EV-AML-012 | 8 | Production Monitoring Dashboard Export | AI-LOG-008 | release-42 | June batch | 2026-06-29 | MLOps | Archived | 7 年 |
| EV-AML-013 | 8 | Human Review Sampling Report | AI-HITL-007 | release-42 | week 26 | 2026-06-28 | AML Ops | Approved | 7 年 |
| EV-AML-014 | 9 | Exception Approval for Low Source Confidence | AI-INC-009 | exception-2026-06-04 | v1.0 | 2026-06-04 | Business Owner | Closed | 7 年 |
| EV-AML-015 | 10 | Change Impact Analysis for KB Refresh | AI-TPR-010 | kb2026-06-15 | v1.0 | 2026-06-15 | Architect | Approved | 7 年 |
证据索引字段建议:
| 字段 | 是否必需 | 说明 |
|---|---|---|
| Evidence ID | 必需 | 证据唯一编号 |
| Binder Section | 必需 | 证据包章节 |
| Control ID | 必需 | 对应控制 |
| Risk ID | 建议 | 对应风险 |
| System / Model / Data Version | 必需 | 适用版本 |
| Owner | 必需 | 责任人 |
| Reviewer | 建议 | 审核人 |
| Approver | 高风险必需 | 批准人 |
| Status | 必需 | 草稿、待审核、批准、归档、废止 |
| Created Date | 必需 | 生成日期 |
| Effective Period | 必需 | 生效时间窗 |
| Retention Class | 必需 | 保留类别 |
| Sensitivity | 必需 | 公开、内部、机密、受限 |
| Storage Link | 必需 | 证据库地址或对象 ID |
| Hash / Signature | 高风险必需 | 完整性校验 |
17. PM、BA、Architect 的产出清单
17.1 PM 产出
| 产出 | 内容 | 评判标准 |
|---|---|---|
| AI 用例登记 | 业务目标、用户、系统、模型、风险等级、Owner、上线计划 | 信息足以触发治理、架构、安全、合规和模型风险评审 |
| Evidence Binder Plan | 10 个章节的证据交付计划、Owner、日期、依赖 | 每份关键证据有责任人和门禁点 |
| Control Readiness Dashboard | 控制覆盖率、证据完成率、例外、上线阻塞项 | 管理层能一眼判断是否可上线 |
| Go-live Evidence Summary | 风险、控制、测试、例外、审批结论 | 上线审批人不用翻全部附件也能做决策 |
| Post-launch Review | 生产指标、客户影响、事故、改进项 | 证明上线后持续管理,而不是一次性交付 |
PM 的核心能力不是自己写完所有证据,而是把证据当成产品范围、发布门禁和跨团队交付物管理。
17.2 BA 产出
| 产出 | 内容 | 评判标准 |
|---|---|---|
| Business Process Map | AI 嵌入前后流程、人工节点、异常路径 | 能看出 AI 在哪里影响客户、员工和控制 |
| Customer Impact Assessment | 受影响客户、权益、通知、申诉、补救 | 能支持监管对客户影响的问询 |
| Decision Logic Description | 模型、规则、人工判断如何形成最终动作 | 能把技术输出翻译成业务决策链 |
| Control Procedure | 业务操作 SOP、复核标准、升级规则 | 一线团队能按文档执行,质检能按文档抽查 |
| Evidence Narrative | 把证据材料串成业务叙事 | 审计人员能理解证据如何证明控制有效 |
BA 的关键贡献是把“模型输出”放回真实业务流程,证明 AI 没有绕过必要的人、制度和客户保护机制。
17.3 Architect 产出
| 产出 | 内容 | 评判标准 |
|---|---|---|
| AI System Card | 系统目标、边界、组件、数据流、模型流、控制点、失败模式 | 能支持系统级风险评估和审计复盘 |
| Architecture Decision Records | 模型选择、RAG 设计、日志策略、人机协同、供应商选择 | 每个关键设计取舍有理由和风险说明 |
| Traceability Design | 用例、版本、日志、证据、控制之间的关联设计 | 监管问询能从客户事件追溯到版本和证据 |
| Audit Logging Specification | 日志字段、脱敏、保留、访问、查询方式 | 日志既可复盘又不造成过度数据暴露 |
| Resilience and Fallback Design | 降级、熔断、回滚、人工接管、供应商退出 | AI 失效时业务仍可受控运行 |
架构师的关键贡献是把证据需求设计进系统,不让团队靠人工截图证明生产控制。
18. 21 天实战 Lab:从 0 到 1 建一个证据包
目标:以一个“金融零售生成式 AI 客服助手”或“AML 告警摘要助手”为案例,在 21 天内产出可展示的证据包样板。每天建议 90-120 分钟。
| 天数 | 主题 | 产出 |
|---|---|---|
| Day 1 | 选定 AI 用例和业务目标 | 用例登记表、业务目标、成功指标 |
| Day 2 | 识别用户、客户影响和边界 | 客户旅程、使用边界、禁用场景 |
| Day 3 | 完成初始风险分级 | 风险分级表、适用控制清单 |
| Day 4 | 绘制现状和目标业务流程 | As-is / To-be 流程图、人工节点说明 |
| Day 5 | 设计 10 章节证据包结构 | Evidence Binder 目录和章节说明 |
| Day 6 | 建立控制到证据矩阵 | 至少 10 条控制和对应证据 |
| Day 7 | 编写系统卡 | 系统卡 v1.0 |
| Day 8 | 编写数据说明书 | 数据或知识库说明书 v1.0 |
| Day 9 | 编写模型卡 | 模型卡 v1.0 |
| Day 10 | 设计日志字段和追溯链 | 审计日志规格、追溯样例 |
| Day 11 | 设计上线前测试计划 | 测试计划、验收标准 |
| Day 12 | 设计生成式 AI 专项测试 | 幻觉、注入、敏感信息、越权、内容安全测试 |
| Day 13 | 设计人工复核流程 | 复核 SOP、抽检表、升级规则 |
| Day 14 | 设计监控指标 | 生产 KPI/KRI、阈值、告警响应 |
| Day 15 | 编写供应商与第三方证据 | 供应商尽调摘要、SLA、退出计划 |
| Day 16 | 编写事故与例外流程 | 事故分类、RCA 模板、例外批准流程 |
| Day 17 | 编写变更管理流程 | 模型、prompt、数据、阈值变更证据 |
| Day 18 | 整理样例 Evidence Index | 至少 15 条证据索引 |
| Day 19 | 进行证据质量评分 | Rubric 评分、缺口清单、整改计划 |
| Day 20 | 编写 Executive Control Summary | 一页上线就绪摘要 |
| Day 21 | 模拟监管问询答辩 | 10 个问题、证据路径、改进计划 |
验收标准:
| 维度 | 合格标准 |
|---|---|
| 完整性 | 覆盖 10 个证据包章节 |
| 可追溯性 | 至少一条客户事件能追溯到模型、数据、prompt、日志、人工复核和证据 |
| 控制覆盖 | 至少 10 个控制有 Owner、频率、证据和合格标准 |
| 生成式 AI 风险 | 覆盖幻觉、提示词注入、敏感信息泄露、越权工具调用和过度依赖 |
| 金融零售适配 | 覆盖客户影响、人工复核、投诉或申诉、合规审批 |
| 表达质量 | 非项目成员能在 30 分钟内理解系统风险和控制状态 |
19. 可复用模板
以下模板提供“字段 + 合格样例”的写法,避免空白表格变成形式主义材料。
19.1 Executive Control Summary 模板
| 字段 | 合格样例 |
|---|---|
| AI 用例 ID | AI-CS-ASSIST-001 |
| 系统名称 | 零售银行客服坐席辅助回答系统 |
| 业务目标 | 缩短坐席查询政策时间,提升回答一致性,不替代坐席最终回复责任 |
| 风险等级 | 高影响辅助系统,原因是可能影响客户金融产品理解和投诉处理 |
| 当前版本 | release-18,知识库 kb-retail-policy-2026-06,prompt p12 |
| 控制结论 | 12 个关键控制中 11 个有效,1 个中风险例外已由业务 Owner 接受并设置 30 天整改 |
| 上线结论 | 允许灰度至 10% 坐席,禁止客户自助端开放 |
| 关键限制 | 不回答投资建议、信贷批准承诺、法律结论;命中高风险意图必须转人工主管 |
| 监控承诺 | 每日质量抽检 50 条,每周报告错误分类和投诉关联 |
| 批准记录 | 业务、合规、模型风险、安全、产品负责人于 2026-06-20 批准灰度 |
19.2 AI 用例登记模板
| 字段 | 合格样例 |
|---|---|
| 用例名称 | AML 告警摘要助手 |
| 业务流程 | 可疑交易告警初步分析和案件材料整理 |
| AI 能力 | 从案件交易、KYC、历史备注和政策知识库生成摘要和引用来源 |
| 决策影响 | 不自动关闭或升级案件,只辅助分析师准备材料 |
| 受影响对象 | AML 分析师、合规主管、被调查客户的案件处理时间 |
| 数据类型 | 交易、客户尽调、历史案件备注、内部 AML 政策 |
| 高风险原因 | 涉及敏感客户信息和监管报告流程 |
| 主要控制 | 脱敏、来源引用、人工确认、日志、抽检、事故升级 |
| Owner | AML Operations Director |
| 审批路径 | 业务 Owner、合规、法务、安全、模型风险、AI 治理委员会 |
19.3 控制证据卡模板
| 字段 | 合格样例 |
|---|---|
| Control ID | AI-LOG-008 |
| 控制目标 | 关键 AI 操作可追溯 |
| 控制描述 | 系统记录每次摘要生成的用户、时间、模型版本、知识库版本、输入输出哈希、引用来源和人工保存动作 |
| 风险 | 无法复盘错误摘要来源,无法证明人工确认 |
| 控制类型 | 自动化预防 + 自动化侦测 |
| 运行频率 | 每次模型调用 |
| 证据 | 审计日志导出、日志字段字典、日志完整性抽检报告 |
| Owner | AI Platform Owner |
| Reviewer | Security Logging Lead |
| 合格标准 | 关键字段完整率不低于 99.5%,日志保留 7 年,访问受限 |
| 最近结果 | 2026 年 6 月抽检 10,000 条日志,完整率 99.8%,无未授权访问 |
19.4 模型卡模板
| 字段 | 合格样例 |
|---|---|
| 模型名称 | Payment Fraud XGBoost |
| 版本 | v5.1 |
| 用途 | 实时评估银行卡交易欺诈风险,输出风险分数供策略引擎使用 |
| 不适用用途 | 不用于客户营销、授信审批或 AML 可疑交易判断 |
| 训练数据 | 2025-07 至 2026-03 确认欺诈和正常交易样本 |
| 关键指标 | AUC 0.91,欺诈捕获率 84%,误拦截率 0.32% |
| 分群表现 | 跨境交易误拦截率高于境内交易 0.18 个百分点,已设置人工复核 |
| 限制 | 新商户类别和新设备模式可能出现漂移 |
| 监控 | 每日监控误杀、漏放、PSI、延迟和商户类别漂移 |
| 审批 | 模型风险和支付业务于 2026-04-22 批准上线 |
19.5 数据说明书模板
| 字段 | 合格样例 |
|---|---|
| 数据集名称 | Payment Fraud Training Dataset 2026Q2 |
| 动机 | 训练和验证实时支付欺诈检测模型 |
| 来源系统 | 支付交易系统、欺诈工单系统、设备风险服务 |
| 时间窗 | 2025-07-01 至 2026-03-31 |
| 字段类别 | 交易金额、时间、商户、设备、地理风险、历史行为特征 |
| 敏感字段处理 | 客户 ID 哈希化,证件号和姓名不进入训练集 |
| 标签定义 | 经调查确认的欺诈工单为正样本,标签成熟期 45 天 |
| 质量结果 | 重复率 0.02%,关键字段缺失率低于 0.5% |
| 使用限制 | 仅用于支付风控模型训练、验证和监控 |
| 访问控制 | 数据科学团队通过受控环境访问,导出受禁 |
19.6 监管问询响应模板
| 字段 | 合格样例 |
|---|---|
| 问询主题 | 说明 AI 客服助手如何防止生成误导性信贷建议 |
| 简短结论 | 系统不允许生成信贷批准承诺,相关意图触发拒答或转人工 |
| 适用范围 | 客服坐席辅助系统 release-18,不含客户自助渠道 |
| 控制证据 | Prompt p12 审批、合规词库、红队测试、抽检报告、转人工日志 |
| 运行结果 | 2026 年 6 月高风险意图 2,318 次,转人工率 96.4%,抽检未发现批准承诺输出 |
| 例外说明 | 6 月 11 日发现 1 条边界表述不清回复,已更新知识库并完成坐席提醒 |
| 证据索引 | EV-CS-009、EV-CS-011、EV-CS-014、EV-CS-019 |
| 责任人 | Customer Service AI Product Owner |
20. 面试答案:AI Audit Evidence Binder
问题 1:为什么说 AI 审计证据包是系统产品,而不是合规文档?
30 秒回答:
AI 证据包要持续证明 AI 系统在特定版本、数据、模型、控制和责任体系下被治理和监控。它有用户、流程、数据结构、版本、质量标准和运营节奏,所以更像一个系统产品,而不是审计前临时整理的文档。
2 分钟回答:
在金融零售里,AI 可能影响开户、KYC、AML、授信、支付拦截和客户服务。审计或监管不会只看模型 AUC,而会看系统是否被登记、风险是否被分级、数据是否有授权、模型是否有用途边界、人工复核是否真实发生、日志是否可追溯、异常是否被补救。 如果这些证据分散在邮件、截图和个人文件夹里,团队无法稳定回答监管问题。把证据包产品化,就是为不同用户设计信息架构:管理层看控制摘要,审计看控制矩阵,模型风险看模型卡和评估,架构看系统卡和日志,监管看证据链。这样证据在流程中生成、按版本管理、按质量评分、按责任运营,才能做到监管就绪。
问题 2:一个 AI Evidence Binder 最少应包含哪些章节?
30 秒回答:
我会固定为 10 章:执行摘要、范围与边界、治理问责、用例与影响、数据证据、模型与系统设计、评估验证、运行监控日志、事故例外整改、变更复核退役。
2 分钟回答:
这 10 章覆盖 AI 生命周期。前四章回答“这个系统是什么、谁负责、影响谁、风险在哪里”;中间三章回答“数据、模型、系统和测试是否可信”;最后三章回答“上线后是否持续受控、异常如何处理、变更如何管理”。 这样的结构能映射 NIST AI RMF 的 Govern、Map、Measure、Manage,也能支撑 ISO/IEC 42001 AIMS 的范围、责任、运行控制、绩效评价和改进。实际提交时,我会先给监管或内审一页摘要、控制到证据矩阵和证据索引,再按问题提供底层材料。
问题 3:模型卡和系统卡有什么区别?
30 秒回答:
模型卡解释一个模型版本的用途、限制、数据和评估表现;系统卡解释整个 AI 系统的边界、流程、控制、日志、人工复核和失败模式。模型卡不能替代系统卡。
2 分钟回答:
比如 AML 告警摘要助手可能调用一个大模型,也有 RAG 知识库、提示词、案件系统、权限控制、人工确认、日志和抽检。模型卡只能说明底层模型或模型路由的能力和限制,无法证明系统不会自动提交监管报告,也无法证明人工复核和日志真实发生。 系统卡把模型放回业务和技术上下文,说明输入来自哪里、知识库版本是什么、输出如何被使用、哪些场景拒答、谁负责复核、出现幻觉或来源不足时如何处理。审计证据包需要模型卡、数据说明书和系统卡三者配合。
问题 4:如何设计 Control-to-Evidence Matrix?
30 秒回答:
每条控制要有控制目标、控制活动、风险、框架映射、证据、频率、Owner 和合格标准。矩阵的作用是把“我们有文件”变成“这份文件证明哪个控制有效”。
2 分钟回答:
我会先从 AI 风险出发,例如数据滥用、模型误用、偏差、幻觉、越权访问、人工复核缺失和事故响应不足。然后为每个风险定义控制目标,例如所有高影响用例必须登记、每个模型版本必须有模型卡、每次生成式 AI 输出必须可追溯、客户影响场景必须有人工复核。 接着给每条控制绑定证据:系统卡证明控制设计,日志和抽检证明运行有效,审批记录证明责任接受,事故复盘证明改进闭环。矩阵还要标明 NIST Govern/Map/Measure/Manage 和 ISO 42001 AIMS 维度,方便审计和管理评审。
问题 5:生成式 AI 的证据包要额外关注什么?
30 秒回答:
要额外关注幻觉、提示词注入、敏感信息泄露、知识库来源、工具越权、内容安全、人工过度依赖和不可复现输出。
2 分钟回答:
传统模型证据偏重训练数据、指标、漂移和解释性。生成式 AI 还要证明系统如何约束输出和工具行为。比如客服助手需要保留 prompt 版本、拒答策略、合规词库、知识库版本、来源引用、红队测试、敏感信息过滤、转人工日志和抽检结果。 如果是 Agent,还要记录工具调用参数、权限、返回结果和人工确认。对于 RAG,要证明知识库文档来源、有效期、切片策略、检索质量和引用准确率。生成式 AI 的证据包必须从“模型表现”扩展到“系统行为和操作控制”。
问题 6:金融机构如何证明 AI 没有不当影响客户权益?
30 秒回答:
要通过客户影响评估、分群表现、人工复核、原因码、客户通知、申诉处理和补救记录形成证据链。
2 分钟回答:
以信贷预审为例,我会证明模型只用于排序或辅助,不直接给出最终拒绝决定;同时保留测试集分群表现、误拒率、原因码逻辑和人工复核结果。对客户侧,还要有清晰通知、申诉和复核流程。 在支付风控中,要证明误拦截被监控,高影响处置有解锁和补救机制。在 KYC 中,要证明证件 OCR 或活体检测在不同人群和设备上的表现被评估,误拒可以转人工。核心不是说“模型没有风险”,而是证明客户影响被识别、控制、监控和补救。
问题 7:证据质量怎么评估?
30 秒回答:
我会从完整性、准确性、时效性、可追溯性、可复现性、审批性、可理解性、防篡改性、相关性和一致性评分。关键控制不能只依赖低质量证据。
2 分钟回答:
很多证据看起来存在,但审计价值很弱。例如截图没有时间、报告没有版本、模型评估无法对应生产版本、审批邮件没有风险接受结论。 好的证据应能说明它覆盖哪个控制、对应哪个系统和模型版本、由谁生成和批准、结论是什么、是否能复现、是否和日志及变更记录一致。对高风险 AI 用例,我会要求关键证据有唯一 ID、版本、审批、哈希或不可变记录,并进入证据索引。
问题 8:PM 在 AI 审计证据包中承担什么角色?
30 秒回答:
PM 负责把证据包变成产品交付范围和上线门禁,协调业务、架构、数据、模型、合规、安全和内审按时产出可用证据。
2 分钟回答:
PM 不一定亲自写模型卡或数据说明书,但要定义证据包结构、控制 readiness dashboard、上线摘要、缺口管理和例外升级。 AI 产品如果没有证据包,可能功能可用但无法上线,或者上线后经不起监管问询。优秀 PM 会在需求阶段就把证据需求写进交付计划:哪些证据是上线前门禁,哪些是灰度期间监控,哪些是季度复核,哪些异常会阻塞发布。这是 AI 时代 PM 区别于传统功能 PM 的关键能力。
21. 常见失败模式与纠偏
| 失败模式 | 表现 | 纠偏 |
|---|---|---|
| 文档堆积 | 文件很多,但找不到控制对应关系 | 先建控制到证据矩阵,再整理附件 |
| 只看模型 | 模型卡完整,但缺少系统卡、日志和人工流程 | 增加系统级边界、控制点和操作证据 |
| 证据滞后 | 上线后才补材料 | 把证据生成嵌入 SDLC 和发布门禁 |
| 版本错位 | 测试报告对应旧模型,生产已换版本 | 建立模型、数据、prompt、系统和证据版本关系 |
| 责任模糊 | 每个团队都以为别人会写证据 | 用 RACI 绑定每份关键证据 Owner |
| 日志过度或不足 | 要么记录敏感明文,要么无法复盘 | 用最小必要、哈希、摘要和受控明文存储组合设计 |
| 例外口头化 | 控制缺口靠会议解释 | 建立例外单、风险接受人、到期日和补救证明 |
| 监管语言缺失 | 技术报告很深,但监管看不懂 | 增加执行摘要、业务影响和证据路径 |
| 缺少运行证据 | 设计很好,但没有生产抽检和监控 | 每个关键控制都保留运行样本 |
| 第三方黑箱 | 供应商模型和数据不可解释 | 补充供应商尽调、合同权利、SLA、退出方案和监控 |
22. 个人作品集建议
如果将本手册用于 AI/架构/PM/BA 求职作品集,建议做一个可展示的“AI Evidence Binder Case Pack”:
| 作品集材料 | 内容 | 展示价值 |
|---|---|---|
| 一页案例摘要 | 金融零售 AI 用例、风险等级、控制结论 | 展示业务判断和管理层沟通能力 |
| 10 章节目录 | Evidence Binder 信息架构 | 展示治理体系化能力 |
| 控制到证据矩阵 | 10-15 条关键控制 | 展示合规、风险和产品交付融合能力 |
| 系统卡 | 架构、数据流、模型流、控制点 | 展示架构思维 |
| 模型卡和数据说明书 | 模型用途、限制、数据质量 | 展示 AI 风险基础 |
| 日志规格 | 字段、保留、脱敏、追溯链 | 展示工程可落地能力 |
| 监管问询模拟 | 5-10 个问题和证据路径 | 展示面试表达和监管意识 |
建议选择一个最贴近金融零售背景的案例:AML 告警摘要助手、信贷预审模型、支付欺诈模型、KYC 文档审核助手或客服坐席生成式 AI 助手。
23. 自检清单
| 检查项 | 通过标准 |
|---|---|
| 覆盖系统产品观点 | 已解释证据包的用户、流程、信息架构、版本、运营和风险控制 |
| 覆盖证据分类法 | 已给出 12 类证据和不同粒度 |
| 覆盖 NIST AI RMF | 已映射 Govern、Map、Measure、Manage |
| 覆盖 ISO/IEC 42001 AIMS | 已映射范围、领导、规划、支持、运行、评价和改进 |
| 覆盖模型卡、数据说明书、系统卡 | 已定义三者差异和最小内容 |
| 覆盖控制到证据矩阵 | 已给出 10 条控制样例 |
| 覆盖生命周期、RACI、版本、日志、质量 | 已分别成章说明 |
| 覆盖金融零售案例 | 已覆盖 AML、KYC、信贷、支付、客服 |
| 覆盖 10 个证据包章节 | 已给出固定章节和必备材料 |
| 覆盖样例索引、产出、Lab、模板、面试 | 已包含样例 Evidence Index、PM/BA/Architect 产出、21 天 Lab、模板和 8 组面试答案 |
| 可执行性 | 每个表格均提供具体字段、责任或合格标准 |
| 文档卫生 | 无空白章节,无未完成标记,无临时填充内容 |
24. 参考锚点
- NIST AI Risk Management Framework Core:https://airc.nist.gov/airmf-resources/airmf/5-sec-core/
- NIST AI RMF Playbook:https://airc.nist.gov/airmf-resources/playbook/
- NIST AI 600-1, Artificial Intelligence Risk Management Framework: Generative Artificial Intelligence Profile:https://www.nist.gov/publications/artificial-intelligence-risk-management-framework-generative-artificial-intelligence
- ISO/IEC 42001:2023 Artificial intelligence management system:https://www.iso.org/standard/42001
- OMB M-24-10, Advancing Governance, Innovation, and Risk Management for Agency Use of Artificial Intelligence:https://www.whitehouse.gov/wp-content/uploads/2024/03/M-24-10-Advancing-Governance-Innovation-and-Risk-Management-for-Agency-Use-of-Artificial-Intelligence.pdf
- Model Cards for Model Reporting:https://arxiv.org/abs/1810.03993
- Datasheets for Datasets:https://arxiv.org/abs/1803.09010