返回 Papers
AI 扩展计划 / Playbooks

AI Audit Evidence Binder Playbook

版本:v1.0

915AI_AUDIT_EVIDENCE_BINDER_PLAYBOOK.md

AI 审计证据包实战手册:Audit Evidence Binder、Control Evidence 与监管就绪文档

版本:v1.0 日期:2026-06-29 适用对象:AI 产品经理、业务分析师、企业架构师、解决方案架构师、模型风险管理、合规、内审、法务、数据治理、信息安全、金融零售业务负责人


1. 核心观点:审计证据是一个系统产品

AI 审计证据包不是项目上线前临时整理的一组截图、会议纪要和模型评估表。它本质上是一个“系统产品”:围绕 AI 系统全生命周期,把控制目标、业务风险、模型行为、数据来源、人员责任、变更记录、运行监控、异常处置和监管问询组织成可追溯、可复现、可解释、可批准的证据链。

在金融零售场景中,AI 系统常常触达客户身份、交易监控、授信、反欺诈、支付风控、投诉处理、智能客服和运营决策。监管、内审和模型风险团队不会只问“模型效果好不好”,而会追问:

  • 这个 AI 用例是否被正式识别、分级、审批和纳入治理台账?
  • 使用了哪些数据,数据是否有来源证明、授权边界、质量检查和敏感字段控制?
  • 模型或大模型调用是否有用途边界、性能评估、偏差评估、人工复核和停止机制?
  • 控制措施是否真实运行,还是只写在制度里?
  • 发生漂移、异常、客户影响、投诉或事故时,谁负责判断、升级、修复和复盘?
  • 当监管要求 5 个工作日内提供材料时,团队能否拿出同一版本、同一口径、同一证据链?

把证据包当成系统产品,意味着它需要产品化设计:

产品视角对应到证据包实战含义
用户监管、内审、外审、模型风险委员会、业务负责人、上线审批人、事故响应团队不同用户需要不同粒度的证据,不应把所有原始材料堆在一个共享盘里
用户旅程用例立项、风险评估、上线审批、运行监控、变更、事故、定期复核、监管检查证据应在流程中自然生成,而不是检查前补录
信息架构控制目录、证据目录、系统卡、模型卡、数据表、测试报告、审计日志、例外记录每份证据应能回答“证明哪个控制、覆盖哪个风险、适用哪个版本”
数据产品元数据、版本、所有者、时间戳、哈希、审批记录、保留期限、访问权限证据本身也需要数据治理和访问控制
运营机制证据刷新频率、质量评分、缺口管理、例外升级、复核节奏证据包需要被持续运营,不能只在审计季运作
风险控制完整性、准确性、时效性、一致性、可追溯性、不可抵赖性证据质量决定控制可信度

一句话定义:

AI Audit Evidence Binder 是围绕 AI 系统风险和控制目标组织起来的、可持续更新的证据产品,用来证明组织在特定时间点和特定版本下对 AI 系统进行了治理、评估、控制、监控和改进。


2. 来源锚点与使用边界

本手册以以下公开框架和文献作为方法锚点,并结合金融零售业务场景进行产品化落地。它不是法律意见,也不是任何认证的替代品。真实项目应由合规、法务、内审和模型风险管理团队结合所在司法辖区、业务牌照、监管口径和机构制度进行确认。

锚点本手册采用的思想落地到证据包
NIST AI RMF Core以 Govern、Map、Measure、Manage 四类职能组织 AI 风险管理活动证据包必须覆盖治理、风险场景、评估度量、处置监控四类证据
NIST AI RMF Playbook为 AI RMF 结果提供建议行动、参考和相关指引,且不是一次性清单证据包应支持持续运营,而不是把框架机械转换成表格
NIST AI 600-1 GenAI Profile针对生成式 AI 的特有风险和管理行动进行画像RAG、客服助手、代码生成、文档摘要、营销内容生成等场景需增加生成式 AI 专项证据
ISO/IEC 42001:2023建立、实施、维护和持续改进 AI 管理体系,平衡创新、治理、风险和机会证据包应能支撑 AIMS 的范围、目标、责任、风险、控制、改进和管理评审
OMB M-24-10针对公共部门 AI 治理、创新和风险管理提出要求,并强调影响权利与安全的 AI 使用借鉴其“权利与安全影响”“最低风险管理实践”“AI 用例治理台账”的证据化思路;截至 2026-06-29,美国联邦项目还需要核对后续 OMB 文件的替代要求
Model Cards模型发布应伴随用途、限制、评估、不同群体表现和适用上下文说明每个模型版本应有模型卡,且模型卡不能替代系统级证据
Datasheets for Datasets数据集应记录动机、组成、采集、处理、推荐用途和限制每个训练、验证、监控、知识库或特征数据集应有数据说明书

3. 三层证据架构:Policy、Control、Evidence

AI 证据包最常见的问题是把制度、控制和证据混为一谈。三者必须分层。

层级说明常见载体审计关注点
Policy / Standard组织要求什么AI 治理政策、模型风险管理政策、数据治理标准、第三方管理标准、信息安全标准政策是否覆盖 AI 特有风险,是否被批准,是否有适用范围
Control为满足政策和降低风险,团队实际做什么控制目标、控制活动、审批门禁、自动化校验、人工复核、监控阈值、变更评审控制是否设计合理、职责明确、运行有效
Evidence如何证明控制真实发生且结果可接受评审记录、测试报告、日志、审批单、版本记录、指标看板、例外单、事故复盘证据是否完整、准确、及时、可追溯、可复现

一个成熟的证据包不只是“有材料”,而是每个证据都能回答四个问题:

  1. 它证明哪个控制?
  2. 它覆盖哪个 AI 风险或监管关注点?
  3. 它适用于哪个系统、模型、数据、流程和版本?
  4. 它由谁在何时生成、审核、批准和归档?

4. 证据分类法

建议将 AI 证据分为 12 类。分类不是为了形式完整,而是为了让不同团队知道自己应产出什么材料。

类别代码证据类别典型证据主要责任方
E01治理与策略证据AI 使用政策、AIMS 范围、风险偏好、AI 委员会纪要、控制库、例外管理标准AI 治理、合规、内审、管理层
E02用例与业务影响证据AI 用例登记、业务目标、客户影响评估、权利与安全影响判断、使用边界PM、BA、业务 Owner、合规
E03数据与知识源证据数据说明书、数据血缘、授权证明、PII 清单、数据质量报告、RAG 知识库索引数据治理、数据工程、BA
E04模型与系统设计证据模型卡、系统卡、架构图、提示词策略、工具调用设计、人工复核设计、降级方案架构师、ML 工程、平台团队
E05风险评估证据AI 风险评估、模型风险分级、隐私影响评估、安全威胁建模、公平性影响分析风险、合规、安全、架构
E06测试与评估证据离线评估、红队测试、偏差测试、稳健性测试、幻觉评估、业务验收、UAT 记录QA、模型风险、业务、PM
E07上线审批证据Go-live checklist、审批流、控制例外、上线会议纪要、回滚方案、SLA/SLO 承诺PM、发布经理、系统 Owner
E08运行监控证据生产指标、漂移监控、质量抽检、人工复核结果、告警记录、成本与延迟监控运维、模型运营、业务运营
E09审计日志与可追溯证据用户操作日志、模型调用日志、输入输出摘要、权限变更、配置变更、证据访问日志平台、安全、运维
E10事故、例外与补救证据事故单、根因分析、客户补救、模型禁用记录、例外批准、整改证明事故经理、风险、业务
E11第三方与供应商证据供应商尽调、模型服务合同、数据处理协议、SLA、子处理方清单、供应商审计报告采购、法务、第三方风险
E12培训与人员能力证据培训记录、角色授权、操作手册、人工复核指南、能力认证、值班安排HR、业务运营、AI 治理

证据粒度建议:

粒度适用材料管理方式
企业级AI 政策、AIMS 范围、控制库、风险偏好、治理委员会记录年度版本控制,管理层批准
组合级某业务线 AI 用例清单、模型组合风险、供应商组合、关键控制覆盖率季度复核,业务线负责人批准
系统级系统卡、架构图、运行监控、系统级风险评估、集成日志每次重大变更更新
模型级模型卡、训练记录、评估报告、漂移报告、版本比较每个模型版本更新
数据级数据说明书、数据质量、血缘、权限、保留期限数据集版本更新
交易级单次推理、决策、人工复核、客户通知、操作日志自动记录,按保留政策归档

5. 映射到 NIST AI RMF:Govern、Map、Measure、Manage

证据包应能沿着 NIST AI RMF 的四类职能进行导航。下面的映射不是把框架变成机械清单,而是帮助团队把“做了什么”转换成“能证明什么”。

NIST AI RMF 职能核心问题证据包应回答关键证据
Govern组织如何建立 AI 风险管理文化、政策、责任和监督谁拥有 AI 风险?谁批准上线?AI 风险是否纳入企业治理和问责?AI 治理章程、RACI、AI 用例台账、风险偏好、政策例外、委员会纪要、培训记录
Map组织如何识别上下文、受影响人群、业务目标、风险和边界AI 系统用于什么场景?影响谁?误用和失败会造成什么后果?用例登记、客户旅程、数据流、系统边界、影响评估、风险分类、供应商关系图
Measure组织如何分析、评估和跟踪 AI 风险与可信度模型表现如何?公平性、稳定性、安全性、解释性和人工复核效果如何?模型卡、评估报告、测试集说明、偏差分析、红队报告、幻觉评估、监控指标
Manage组织如何优先级排序、响应、缓解和持续改进 AI 风险风险如何被接受、缓解、转移或停止?问题如何升级和关闭?风险处置计划、控制矩阵、上线门禁、事故复盘、整改计划、例外批准、停用记录

实战用法:

  1. 每个 AI 用例至少保留一页“四职能证据地图”。
  2. 每个控制项至少映射到一个 NIST 职能。
  3. 每次审计或监管问询都从四职能地图进入,而不是从文件夹层级慢慢翻。
  4. 对生成式 AI,用 NIST GenAI Profile 增补专项证据,例如幻觉、越权工具调用、敏感信息泄露、提示词注入、内容安全、模型供应链和人类过度依赖。

6. 映射到 ISO/IEC 42001 AIMS

ISO/IEC 42001 的价值在于把 AI 治理纳入管理体系。证据包需要支撑“体系是否被建立、实施、维护、持续改进”,而不只是证明单个模型做过评估。

AIMS 维度管理关注点证据包材料金融零售示例
组织背景与范围哪些业务、系统、角色和第三方纳入 AIMSAIMS 范围说明、AI 系统清单、边界图、排除项理由将智能客服、AML 告警摘要、信贷预审、支付风控纳入范围
领导与责任管理层如何设定方向、授权和问责AI 委员会章程、RACI、年度目标、风险偏好零售银行 AI 委员会批准“高影响 AI 用例必须人工复核”
规划与风险机会AI 风险与机会如何识别、评估和处置AI 风险评估、机会评估、风险处置计划、控制库识别信用评分模型可提升效率,同时存在歧视性影响风险
支持能力人员、培训、工具、知识和沟通机制培训记录、操作手册、复核指南、沟通计划客服质检人员完成生成式 AI 输出审核培训
运行控制AI 系统如何开发、采购、部署、使用和监控SDLC 证据、供应商评估、上线审批、监控记录第三方大模型接入前完成安全、隐私和合同评审
绩效评价AIMS 是否有效,控制是否运行内审报告、控制测试、KPI/KRI、管理评审每季度报告 AI 事故数、例外数、人工复核覆盖率
改进不符合项、事故和机会如何推动改进整改计划、复盘、版本改进记录、政策更新支付风控模型误杀率上升后调整阈值并补偿受影响客户

AIMS 证据包的最低产品形态:

文档作用更新频率
AIMS 范围与 AI 系统清单定义体系覆盖边界季度或重大变更
AI 风险与控制库统一控制语言半年或监管变化
AI 用例证据包标准规定每个用例必须保留什么半年
AI 管理评审材料向管理层证明体系运行情况季度
不符合项与改进台账证明持续改进持续

7. Model Cards、Datasheets 与 System Cards 的关系

模型卡、数据说明书和系统卡经常被混用。一个监管就绪的证据包需要三者同时存在,并明确边界。

文档关注对象关键问题不能替代什么
Model Card一个模型或模型版本模型用途、训练背景、评估方法、性能、限制、适用和不适用场景不能替代系统架构、业务流程、人工复核和生产监控证据
Datasheet for Dataset一个数据集或知识库版本数据为何被创建、如何采集、包含什么、如何处理、适用用途、质量和限制不能替代模型表现评估,也不能证明数据使用一定合法合规
System Card一个 AI 系统或产品能力系统目标、用户、数据流、模型流、工具调用、控制、监控、失败模式、人工介入不能替代底层模型卡和数据说明书

7.1 模型卡最小内容

模块需要写清楚合格样例
模型身份名称、版本、来源、训练或供应商信息、上线日期CreditPreScreen-XGB v2.3,内部训练,2026-05-18 上线
预期用途支持什么业务决策,是否仅作辅助用于信用卡申请预审排序,不直接生成拒绝决定
不适用场景禁止用途、低置信度场景、受限人群不用于最终授信审批,不用于小微企业贷款
输入输出关键特征、输出分数、阈值含义输出 0-1000 风险分,低于 420 进入人工复核队列
评估数据测试集时间窗、样本量、代表性说明2025-10 至 2026-03 申请样本,剔除标签未成熟账户
表现指标准确性、召回、AUC、误拒、误批、稳定性AUC 0.82,人工复核队列坏账捕获率提升 11%
分群表现地区、年龄段、渠道、产品、语言、设备等移动端新客样本误拒率高于网点渠道 1.7 个百分点
风险与限制偏差、漂移、数据质量、可解释性、过度依赖薄信用档案客户解释稳定性较弱,必须提供人工复核
监控计划指标、阈值、频率、告警和响应PSI 超过 0.2 触发模型风险复核
审批记录模型 Owner、风险审批、业务审批模型风险委员会 2026-05-10 批准

7.2 数据说明书最小内容

模块需要写清楚合格样例
数据动机为什么收集和使用该数据用于训练支付欺诈识别模型,降低账户盗用损失
数据组成字段、标签、时间窗、样本量、敏感字段交易金额、商户类别、设备指纹、IP 风险等级,不含明文证件号
数据来源系统、供应商、客户授权、派生逻辑来自核心支付系统、设备风控服务和人工标注欺诈单
采集与处理抽取、清洗、脱敏、标签生成、特征工程客户标识经不可逆哈希,标签由确认欺诈工单生成
质量检查缺失、重复、异常、标签延迟、样本偏移商户类别缺失率 0.4%,标签成熟期 45 天
使用限制允许用途、禁止用途、保留期限仅用于支付风控训练和评估,不用于营销画像
访问控制谁可访问,审批和日志机制数据科学团队只访问脱敏特征表,访问记录保留 7 年
版本历史数据集版本、变更点、影响分析v2026Q2 新增设备风险等级字段,已完成回归测试

7.3 系统卡最小内容

模块需要写清楚合格样例
系统目标系统解决什么问题,服务哪些用户AML 告警摘要助手,帮助分析师快速理解可疑交易线索
系统边界包含和不包含的组件、接口、第三方服务包含 RAG 检索、摘要生成、案例工作台;不自动提交 SAR
用户与权限使用角色、权限分级、审批要求仅 AML 二线分析师可调用,主管可查看抽检报告
数据流与模型流输入、检索、推理、输出、日志和存储客户身份信息脱敏后进入提示词,上下文来自批准知识库
控制点输入过滤、知识库版本、输出校验、人工复核所有摘要必须经分析师确认后进入案件记录
失败模式幻觉、遗漏、错误归因、敏感信息暴露、越权访问模型无法给出来源时显示“证据不足”,禁止生成结论性判断
监控质量、延迟、成本、安全、客户影响每周抽检 100 条摘要,来源引用准确率低于 95% 触发复盘
事故响应停用、回滚、通知、补救和复盘发现错误摘要进入案件记录时冻结该版本知识库并启动影响分析

8. Control-to-Evidence Matrix

控制到证据矩阵是证据包的骨架。没有矩阵,证据包会变成文件堆;有矩阵,审计人员能快速判断控制是否被设计、执行和证明。

控制 ID控制目标控制活动风险NIST 映射ISO 42001 映射证据频率Owner合格标准
AI- GOV-001所有 AI 用例纳入治理台账新 AI 用例立项前登记用途、Owner、数据、模型、影响等级未登记 AI、影子 AI、无法问责Govern、Map范围、领导、规划AI 用例登记表、审批记录、系统清单每次立项AI Governance Lead100% 高影响用例有唯一 ID 和审批
AI-MAP-002明确客户影响和使用边界BA 完成客户旅程、受影响人群、失败影响和禁用场景分析客户权益受损、误用模型Map风险机会、运行控制客户影响评估、使用边界声明、流程图每次重大变更BA Lead影响评估经业务和合规签署
AI-DATA-003数据使用可追溯且符合授权训练和知识库数据必须有来源、授权、血缘和质量检查数据滥用、隐私违规、标签污染Map、Measure支持、运行控制数据说明书、血缘图、DPIA、质量报告每个数据版本Data Owner无未批准敏感字段进入模型
AI-MOD-004模型用途、限制和表现透明每个模型版本发布模型卡模型被误用、性能不可解释Measure绩效评价模型卡、评估报告、分群表现每个模型版本Model Owner指标、限制、监控计划完整
AI-SYS-005系统级控制覆盖端到端流程关键 AI 系统发布系统卡只评估模型、不评估系统风险Govern、Map、Manage运行控制系统卡、架构图、数据流图、控制点清单每个系统版本Architect系统边界、失败模式和人工复核明确
AI-EVAL-006上线前完成风险相关测试根据风险等级执行准确性、公平性、安全、鲁棒性和业务验收未经验证上线Measure绩效评价测试计划、评估结果、红队报告、UAT 记录每次上线QA / MRM高风险问题关闭或有批准例外
AI-HITL-007高影响决策保留人工复核定义复核条件、复核人、操作指南和抽检机制自动化决策损害客户权益Manage运行控制复核 SOP、抽检报告、复核日志、培训记录持续Business Ops复核覆盖率和一致性达标
AI-LOG-008AI 关键操作可追溯记录输入摘要、检索来源、模型版本、输出、用户、时间和决策动作无法复盘、不可抵赖性不足Govern、Measure、Manage运行控制、绩效评价审计日志、日志字段字典、保留策略持续Platform Owner关键字段完整率不低于 99.5%
AI-INC-009AI 事故可升级和补救建立 AI 事故分类、升级、客户影响评估和整改机制事故扩大、监管报告延误Manage改进事故单、RCA、整改证明、客户补救记录事件触发Incident Manager高严重度事故按 SLA 完成复盘
AI-TPR-010第三方 AI 服务风险受控对供应商模型、数据处理、SLA、子处理方和退出方案进行评估供应商不可控、数据跨境和服务中断Govern、Map、Manage运行控制、支持供应商尽调、合同条款、SLA、退出方案入库和年度复核TPRM高风险供应商完成法务、安全、隐私评审

矩阵使用原则:

  1. 控制 ID 不随证据文件名变化而变化。
  2. 证据可以复用,但必须明确证明范围。
  3. 每个高风险控制至少有一份设计证据和一份运行证据。
  4. 自动化控制必须有配置、运行日志和异常处理证据。
  5. 人工控制必须有执行记录、审核记录和抽样质量证据。

9. 证据生命周期

证据生命周期要嵌入 AI 生命周期,而不是挂在审计团队末端。

阶段主要动作生成证据质量门禁
1. 需求与立项识别 AI 用例、业务目标、影响人群、成功指标用例登记、业务目标、客户影响初评、RACI未登记不得进入方案设计
2. 风险分级判断是否影响客户权利、安全、财务利益或合规义务风险分级表、适用控制清单、监管影响说明高影响用例必须进入增强评审
3. 数据准备明确数据来源、授权、质量、血缘、敏感字段和标签数据说明书、血缘图、数据质量报告、访问审批未批准数据不得进入训练或知识库
4. 设计与开发明确架构、模型、提示词、工具调用、人机协同和降级系统卡、模型卡草案、架构图、威胁模型关键控制点必须设计到流程中
5. 测试与验证完成模型、系统、业务、安全、隐私、公平性和生成式 AI 评估测试计划、评估报告、红队报告、UAT、缺陷关闭记录严重缺陷关闭或有正式例外
6. 上线审批汇总控制状态、风险接受、回滚方案和运行监控Go-live 证据包、审批流、发布记录、回滚计划上线审批人可见完整证据索引
7. 生产运行监控模型表现、漂移、日志、成本、延迟、人工复核和异常监控看板、抽检记录、日志、告警记录指标越阈必须触发响应流程
8. 变更管理处理模型、数据、提示词、供应商、阈值和策略变更变更单、影响分析、回归测试、重新审批重大变更必须更新系统卡和模型卡
9. 事故与例外识别、升级、遏制、补救、复盘和整改事故单、RCA、客户影响分析、整改证明关闭前必须验证补救有效性
10. 定期复核与退役定期审查适用性、控制有效性、数据保留和退役计划周期复核、管理评审、退役记录、数据删除证明退役系统仍需保留必要审计证据

证据生命周期的关键设计点:

  • 证据在流程中生成:审批、测试、部署、监控和事故系统应自动沉淀材料。
  • 证据有状态:草稿、待审核、已批准、已归档、已废止、受法律保全。
  • 证据有保留期限:金融零售中通常需要结合模型风险、客户投诉、反洗钱、支付争议、数据保护和合同要求确定。
  • 证据有版本关系:模型 v2.3 对应数据集 v2026Q2、特征版本 f18、提示词版本 p7、知识库版本 kb2026-06、系统版本 r42。
  • 证据有例外机制:缺失或不合格证据不能被口头解释覆盖,必须进入缺口台账并由相应风险接受人批准。

10. 所有权与 RACI

证据包的最大失败点通常不是技术,而是“材料谁负责”。RACI 必须在用例立项时确定。

活动PMBAArchitectModel OwnerData OwnerComplianceLegalSecurityMRMBusiness OwnerInternal Audit
AI 用例登记ARCCCCCCCAI
客户影响评估ARCCCCCICAI
数据说明书CCICR/ACCCCII
系统卡CCR/ACCCICCII
模型卡CICR/ACCIICII
风险分级CCCCCRCCRAI
测试与评估ACCRCCICRAI
上线证据包汇总R/ACCCCCCCCAI
运行监控CICRCIICCAI
事故响应CCCRCCCRCAI
证据质量抽检CCCCCRCCRAR

说明:

  • R = Responsible,实际产出或执行者。
  • A = Accountable,最终负责和批准者。
  • C = Consulted,被咨询并提供输入。
  • I = Informed,被告知结果。

组织设计建议:

角色应该拥有的证据产品能力
PM把监管和控制要求转成产品门禁、路线图和上线包
BA把业务流程、客户影响、异常路径和操作规范证据化
Architect把系统边界、数据流、模型流、控制点和日志设计证据化
Compliance定义监管解释、证据最低标准和例外审批要求
MRM定义模型验证、监控、漂移、独立复核和模型退役证据
Security定义威胁建模、访问控制、日志、密钥、供应链和事件响应证据
Internal Audit独立验证控制设计和运行有效性,推动缺口整改

11. 版本控制与配置管理

AI 系统证据比传统系统更依赖版本关系。审计时最危险的情况是证据材料存在,但无法证明它对应生产中的哪个模型、数据和配置。

11.1 版本对象

对象必须记录示例
AI 用例用例 ID、业务 Owner、风险等级、状态AI-AML-CASE-SUMMARY-001
系统版本服务版本、部署环境、发布时间、回滚版本aml-assistant-release-42
模型版本模型名称、版本、来源、参数或供应商版本gpt-4.1-2026-04fraud-xgb-v5.1
提示词版本prompt ID、模板、变量、审批人、适用系统版本prompt-aml-summary-p7
数据集版本数据窗口、抽取脚本、字段清单、质量结果credit-train-2026Q2
知识库版本文档清单、切片规则、嵌入模型、索引哈希kyc-policy-kb-2026-06-15
特征版本特征定义、计算逻辑、血缘、回填策略payment-risk-features-v18
阈值版本策略阈值、审批记录、生效日期、影响分析aml-threshold-pack-2026-05
控制版本控制 ID、控制描述、责任人、测试方法AI-LOG-008 v1.2
证据版本文件哈希、生成时间、审批状态、保留期限EV-AI-AML-202606-014

11.2 版本命名规范

建议采用可读且稳定的命名方式:

[业务域]-[系统或用例]-[证据类别]-[日期]-[版本]-[状态]

示例:

AML-CaseSummary-SystemCard-20260629-v1.0-Approved.md
CreditPreScreen-ModelCard-20260518-v2.3-Approved.md
PaymentFraud-DataSheet-2026Q2-v1.1-Archived.md
CustomerService-RedTeamReport-20260612-v1.0-Approved.pdf

11.3 版本控制要求

要求说明检查方式
唯一 ID每份证据有唯一证据 ID证据索引无重复
哈希或签名关键证据保留哈希、签名或不可变存储记录抽样校验文件未被改写
审批状态草稿和批准版本必须区分审计只引用批准或归档版本
适用范围标明适用系统、模型、数据和时间窗证据与生产版本可匹配
变更历史记录修改人、原因、影响和审批重大变更有影响分析
保留期限明确保留到期日和法律保全状态过期证据按流程处置
访问控制证据按敏感级别分权访问访问日志可抽查

12. 审计日志要求

AI 审计日志不是普通应用日志。它必须支持模型行为复盘、客户影响分析、控制运行证明和监管问询。

12.1 日志类型

日志类型记录内容适用场景
调用日志调用时间、用户、会话、系统版本、模型版本、输入摘要、输出摘要、状态码生成式 AI、评分模型、推荐模型
数据检索日志检索 query、知识库版本、命中文档、引用段落、置信度RAG、政策问答、AML 案件摘要
工具调用日志工具名称、参数摘要、权限、返回结果摘要、错误码Agent、自动化调查、客服操作助手
决策日志模型分数、阈值、策略规则、人工复核结论、最终动作信贷、支付风控、KYC、AML
权限日志用户授权、角色变更、密钥轮换、服务账号使用所有高影响 AI 系统
配置日志prompt、阈值、模型路由、知识库、特征开关变更生成式 AI 和模型服务
质量日志抽检结果、错误类别、复核一致性、客户投诉关联客服、AML、信贷
安全日志提示词注入、敏感信息输出、越权访问、异常流量大模型应用、API 服务
证据访问日志谁查看、下载、修改、批准、归档证据证据库和审计门户

12.2 最低字段标准

字段说明示例
event_id唯一事件 IDevt_20260629_000918273
timestamp_utcUTC 时间戳2026-06-29T15:42:11Z
actor_id用户、服务账号或系统组件aml_analyst_4821
actor_role角色AML_L2_ANALYST
use_case_idAI 用例 IDAI-AML-CASE-SUMMARY-001
system_version系统版本release-42
model_version模型版本gpt-4.1-2026-04
data_or_kb_version数据或知识库版本kyc-policy-kb-2026-06-15
prompt_or_policy_version提示词或策略版本prompt-aml-summary-p7
input_hash输入哈希或摘要哈希sha256:8b1c...
output_hash输出哈希或摘要哈希sha256:c91e...
decision_action系统或人工动作summary_saved_by_human
control_flags命中的控制标记pii_redacted,source_required,human_reviewed
error_or_exception错误或例外source_confidence_below_threshold
retention_class保留类别model_risk_7y

12.3 日志设计原则

原则实战含义
最小必要不把完整敏感输入输出无差别写入日志,优先使用摘要、哈希、脱敏片段和安全存储
可复盘保留足够版本信息,使团队能重建当时的模型、数据、配置和控制状态
不可抵赖关键审批、人工复核、阈值修改和证据归档应有签名、时间戳和访问记录
可检索日志能按客户、案件、模型版本、证据 ID、风险事件和时间窗检索
可保留保留期限与业务、模型风险、支付争议、AML、投诉和法律保全要求一致
可保护日志本身包含高敏感信息,应加密、分权、监控访问和定期审查

13. 证据质量评分 Rubric

证据质量不能只看“有没有”。建议用 1-5 分评分,低于 3 分不得作为关键控制的唯一证据。

维度1 分3 分5 分
完整性只覆盖部分控制或缺少关键字段覆盖主要控制,但缺少少量上下文覆盖控制目标、范围、版本、责任、结果和审批
准确性与系统实际状态不一致基本准确,有少量解释性差异与生产版本、日志和审批记录一致
时效性过期或无法确认时间时间可确认,但刷新不稳定在规定频率内更新,重大变更同步更新
可追溯性无法关联系统、模型、数据或控制可关联部分对象可追溯到用例、版本、控制、风险和责任人
可复现性结果无法重算或重查有方法说明,但依赖人工解释有数据、代码、配置、环境或查询记录支持复现
审批性无正式审核或批准有团队内部确认有符合风险等级的审批链和签署记录
可理解性只有技术细节,业务和监管看不懂有摘要,但结论不够清晰有执行摘要、结论、影响和可审计证据路径
防篡改性文件可随意修改有版本记录有哈希、签名、不可变存储或访问审计
相关性材料存在但不能证明控制间接证明控制直接证明控制设计或运行有效
一致性与其他材料矛盾存在轻微口径差异与系统卡、模型卡、日志、审批和风险台账一致

评分解释:

总分等级处理
45-50强证据可作为关键控制主要证据
35-44可用证据可用于一般控制,关键控制需补充佐证
25-34弱证据进入证据缺口台账并限期整改
10-24不可用证据不应对外提交,需重新生成

证据质量审查问题:

  1. 这份证据能否被一个没有参与项目的人读懂?
  2. 它能否证明控制真实发生,而不只是证明有人写了流程?
  3. 它能否关联到生产中的具体模型、数据、配置和时间窗?
  4. 它是否包含敏感信息,是否已按最小必要原则处理?
  5. 如果监管要求说明某个客户被影响的原因,是否能从这份证据追溯到答案?

14. 金融零售场景证据示例

14.1 AML / 可疑交易监控

证据对象关键材料审计问题合格证据特征
AML 告警摘要助手系统卡、RAG 知识库说明、提示词版本、人工复核日志模型是否自动替代 AML 分析师判断?明确“仅辅助摘要,不自动提交可疑活动报告”,所有输出有分析师确认
AML 规则与模型组合模型卡、规则版本、阈值审批、告警效果分析阈值变化是否影响漏报和误报?每次阈值调整有回归测试和业务影响分析
客户尽调资料数据说明书、数据血缘、敏感字段控制KYC 数据是否被超范围用于模型训练?数据用途和授权边界清晰,训练集不含未批准敏感字段
监管问询响应案件证据索引、日志、分析师操作记录某个案件为何被升级或关闭?可按案件 ID 追溯数据、模型摘要、人工判断和主管复核

证据包亮点:

  • 保留“模型建议”和“人工最终判断”的清晰边界。
  • 对每个 AML 案件记录引用来源,禁止无来源的结论性陈述进入案件文件。
  • 监控摘要准确率、来源引用准确率、遗漏关键风险线索率和人工改写率。

14.2 KYC / 客户身份识别

证据对象关键材料审计问题合格证据特征
身份证件 OCR / 活体检测模型卡、供应商尽调、性能分群测试某些群体是否被更高比例误拒?按证件类型、地区、年龄段、设备类型记录分群表现
KYC 文档审核助手系统卡、提示词、人工复核 SOPAI 是否给出最终开户决定?AI 输出仅为审核建议,最终决定由授权人员确认
制裁名单筛查数据说明书、名单版本、匹配策略、例外审批名单是否及时更新,误匹配如何处理?名单版本、更新时间、匹配阈值和人工解除记录可追溯
客户通知决策记录、解释模板、投诉处理证据被拒客户是否获得适当解释和申诉路径?保留通知版本、原因码、人工复核和客户申诉结果

证据包亮点:

  • 把“身份验证失败”“风险名单匹配”“资料不完整”“人工无法确认”区分为不同原因码。
  • 对高误拒场景建立人工复核与渠道补救机制。
  • 第三方生物识别或 OCR 服务需保留供应商模型、数据处理和 SLA 证据。

14.3 信贷 / 授信与预审

证据对象关键材料审计问题合格证据特征
信贷预审模型模型卡、数据说明书、分群表现、拒绝原因码模型是否导致不公平拒绝?分群误拒、稳定性、解释一致性和人工复核结果完整
授信策略引擎策略版本、阈值审批、影响分析、冠军挑战者记录策略变化是否经过批准?每次阈值变化关联预期通过率、风险成本和客户影响
收入估算模型特征说明、外部数据合同、误差评估数据是否适合该用途?数据授权、适用限制和误差范围明确
客户申诉决策日志、解释记录、人工复核、补救结果客户能否挑战自动化或半自动化判断?申诉链路、复核时限和结果通知可追溯

证据包亮点:

  • 模型卡必须说明模型是否直接参与最终授信决定。
  • 评分模型、策略规则和人工审批要合并形成“最终决策证据链”。
  • 拒绝原因码应来自可解释、可验证的原因集合,不能由大模型自由生成。

14.4 支付 / 交易风控

证据对象关键材料审计问题合格证据特征
实时欺诈检测模型卡、特征说明、延迟监控、误杀率监控模型是否稳定,是否造成大规模误拦截?按渠道、商户、地区和客户类型监控误杀与漏放
风控处置策略阈值版本、策略审批、客户通知、解锁流程客户资金或支付能力是否被不当限制?高影响处置有人工复核、申诉和补救证据
设备与行为数据数据说明书、第三方合同、隐私评估是否超范围采集或共享数据?字段最小化、用途限制和供应商控制清晰
异常事件告警、事故单、回滚记录、客户影响分析模型或规则异常如何止损?有熔断阈值、回滚版本和客户补救计划

证据包亮点:

  • 实时场景要证明“控制有效且不引入不可接受的业务中断”。
  • 对高价值交易、跨境交易、异常商户类别保留差异化监控证据。
  • 成本、延迟和风控效果共同纳入证据,因为延迟可能直接影响支付体验和客户投诉。

14.5 客户服务 / 生成式 AI 助手

证据对象关键材料审计问题合格证据特征
客服坐席助手系统卡、知识库版本、提示词、输出抽检AI 是否给出错误金融建议?禁止生成投资、信贷或法律承诺;高风险意图转人工
客户自助聊天机器人内容安全测试、幻觉评估、转人工策略客户是否被错误引导?保留拒答策略、转人工率、投诉关联和错误回复复盘
投诉摘要与分类模型卡、数据说明书、人工质检投诉是否被错误归类导致处理延误?按投诉类型监控召回率和人工改写率
营销文案生成审批流、合规词库、输出审查记录是否生成误导性金融宣传?所有外发内容经合规审查,保留版本和审批

证据包亮点:

  • 对生成式 AI 输出建立“可用、需改写、必须拒绝、必须转人工”的质量标签。
  • 所有知识库条目应有来源、有效期、业务 Owner 和法律或合规审查状态。
  • 不把模型的自然语言解释当成正式客户承诺,正式承诺来自批准话术或业务规则。

15. 监管就绪的 10 个证据包章节

一个完整的 AI Evidence Binder 建议固定为 10 个章节。章节稳定,内容按用例和版本更新。

章节名称目的必备材料
1Executive Control Summary让管理层、审计和监管快速理解系统、风险、控制状态和结论一页摘要、系统 ID、风险等级、上线状态、关键控制、未关闭例外
2Scope and System Boundary定义 AI 系统、业务流程、用户、第三方和技术边界系统卡、架构图、数据流、模型流、供应商图
3Governance and Accountability证明责任、审批、政策和管理监督存在RACI、委员会纪要、政策映射、审批记录、培训记录
4Use Case and Impact Assessment证明业务目标、客户影响和使用边界被分析用例登记、客户旅程、影响评估、禁用场景、权利与安全判断
5Data and Knowledge Evidence证明数据和知识来源合规、可追溯、质量可控数据说明书、血缘、质量报告、DPIA、知识库索引
6Model and System Design Evidence证明模型、系统、人机协同、控制点设计合理模型卡、系统卡、提示词版本、工具调用设计、降级方案
7Evaluation and Validation Evidence证明上线前完成适当测试和独立验证测试计划、评估报告、分群表现、红队报告、UAT、缺陷关闭
8Operational Monitoring and Logs证明生产中持续监控、日志可追溯、控制持续运行监控看板、审计日志、抽检记录、告警、人工复核
9Incidents, Exceptions and Remediation证明异常被识别、升级、补救和改进事故单、例外批准、RCA、整改证明、客户补救
10Change, Review and Retirement证明变更、周期复核和退役受控变更单、影响分析、回归测试、管理评审、退役和数据删除证明

使用建议:

  • 每章首页放“本章回答的审计问题”。
  • 每章第二页放“证据索引”,列出证据 ID、文件名、Owner、版本和状态。
  • 每章只放批准版本,原始工作材料放附录库。
  • 对监管问询,优先提交摘要、矩阵和索引,再按要求提供底层证据。

16. 样例 Evidence Index

以下是一个 AML 告警摘要助手的样例证据索引。实际项目可放入 GRC 工具、文档库或证据门户。

Evidence ID章节证据名称控制 ID适用对象版本日期Owner状态保留期限
EV-AML-0011Executive Control SummaryAI-GOV-001AI-AML-CASE-SUMMARY-001v1.02026-06-29PMApproved7 年
EV-AML-0022AML Case Summary System CardAI-SYS-005release-42v1.02026-06-21ArchitectApproved7 年
EV-AML-0032Data Flow and Model Flow DiagramAI-SYS-005release-42v1.22026-06-21ArchitectApproved7 年
EV-AML-0043RACI and Governance Approval RecordAI-GOV-001use casev1.02026-06-18AI GovernanceApproved7 年
EV-AML-0054Customer and Regulatory Impact AssessmentAI-MAP-002use casev1.12026-06-19BAApproved7 年
EV-AML-0065KYC Policy Knowledge Base DatasheetAI-DATA-003kb2026-06-15v1.02026-06-15Data OwnerApproved7 年
EV-AML-0075AML Case Data Quality ReportAI-DATA-003data window 2026Q2v1.02026-06-16Data EngineeringApproved7 年
EV-AML-0086Model Card for Summary LLM RouteAI-MOD-004gpt-4.1 routev1.02026-06-17Model OwnerApproved7 年
EV-AML-0096Prompt Version p7 ApprovalAI-SYS-005prompt-aml-summary-p7v1.02026-06-17Product OpsApproved7 年
EV-AML-0107Pre-production Evaluation ReportAI-EVAL-006release-42v1.02026-06-20QAApproved7 年
EV-AML-0117GenAI Red Team ReportAI-EVAL-006release-42v1.02026-06-20SecurityApproved7 年
EV-AML-0128Production Monitoring Dashboard ExportAI-LOG-008release-42June batch2026-06-29MLOpsArchived7 年
EV-AML-0138Human Review Sampling ReportAI-HITL-007release-42week 262026-06-28AML OpsApproved7 年
EV-AML-0149Exception Approval for Low Source ConfidenceAI-INC-009exception-2026-06-04v1.02026-06-04Business OwnerClosed7 年
EV-AML-01510Change Impact Analysis for KB RefreshAI-TPR-010kb2026-06-15v1.02026-06-15ArchitectApproved7 年

证据索引字段建议:

字段是否必需说明
Evidence ID必需证据唯一编号
Binder Section必需证据包章节
Control ID必需对应控制
Risk ID建议对应风险
System / Model / Data Version必需适用版本
Owner必需责任人
Reviewer建议审核人
Approver高风险必需批准人
Status必需草稿、待审核、批准、归档、废止
Created Date必需生成日期
Effective Period必需生效时间窗
Retention Class必需保留类别
Sensitivity必需公开、内部、机密、受限
Storage Link必需证据库地址或对象 ID
Hash / Signature高风险必需完整性校验

17. PM、BA、Architect 的产出清单

17.1 PM 产出

产出内容评判标准
AI 用例登记业务目标、用户、系统、模型、风险等级、Owner、上线计划信息足以触发治理、架构、安全、合规和模型风险评审
Evidence Binder Plan10 个章节的证据交付计划、Owner、日期、依赖每份关键证据有责任人和门禁点
Control Readiness Dashboard控制覆盖率、证据完成率、例外、上线阻塞项管理层能一眼判断是否可上线
Go-live Evidence Summary风险、控制、测试、例外、审批结论上线审批人不用翻全部附件也能做决策
Post-launch Review生产指标、客户影响、事故、改进项证明上线后持续管理,而不是一次性交付

PM 的核心能力不是自己写完所有证据,而是把证据当成产品范围、发布门禁和跨团队交付物管理。

17.2 BA 产出

产出内容评判标准
Business Process MapAI 嵌入前后流程、人工节点、异常路径能看出 AI 在哪里影响客户、员工和控制
Customer Impact Assessment受影响客户、权益、通知、申诉、补救能支持监管对客户影响的问询
Decision Logic Description模型、规则、人工判断如何形成最终动作能把技术输出翻译成业务决策链
Control Procedure业务操作 SOP、复核标准、升级规则一线团队能按文档执行,质检能按文档抽查
Evidence Narrative把证据材料串成业务叙事审计人员能理解证据如何证明控制有效

BA 的关键贡献是把“模型输出”放回真实业务流程,证明 AI 没有绕过必要的人、制度和客户保护机制。

17.3 Architect 产出

产出内容评判标准
AI System Card系统目标、边界、组件、数据流、模型流、控制点、失败模式能支持系统级风险评估和审计复盘
Architecture Decision Records模型选择、RAG 设计、日志策略、人机协同、供应商选择每个关键设计取舍有理由和风险说明
Traceability Design用例、版本、日志、证据、控制之间的关联设计监管问询能从客户事件追溯到版本和证据
Audit Logging Specification日志字段、脱敏、保留、访问、查询方式日志既可复盘又不造成过度数据暴露
Resilience and Fallback Design降级、熔断、回滚、人工接管、供应商退出AI 失效时业务仍可受控运行

架构师的关键贡献是把证据需求设计进系统,不让团队靠人工截图证明生产控制。


18. 21 天实战 Lab:从 0 到 1 建一个证据包

目标:以一个“金融零售生成式 AI 客服助手”或“AML 告警摘要助手”为案例,在 21 天内产出可展示的证据包样板。每天建议 90-120 分钟。

天数主题产出
Day 1选定 AI 用例和业务目标用例登记表、业务目标、成功指标
Day 2识别用户、客户影响和边界客户旅程、使用边界、禁用场景
Day 3完成初始风险分级风险分级表、适用控制清单
Day 4绘制现状和目标业务流程As-is / To-be 流程图、人工节点说明
Day 5设计 10 章节证据包结构Evidence Binder 目录和章节说明
Day 6建立控制到证据矩阵至少 10 条控制和对应证据
Day 7编写系统卡系统卡 v1.0
Day 8编写数据说明书数据或知识库说明书 v1.0
Day 9编写模型卡模型卡 v1.0
Day 10设计日志字段和追溯链审计日志规格、追溯样例
Day 11设计上线前测试计划测试计划、验收标准
Day 12设计生成式 AI 专项测试幻觉、注入、敏感信息、越权、内容安全测试
Day 13设计人工复核流程复核 SOP、抽检表、升级规则
Day 14设计监控指标生产 KPI/KRI、阈值、告警响应
Day 15编写供应商与第三方证据供应商尽调摘要、SLA、退出计划
Day 16编写事故与例外流程事故分类、RCA 模板、例外批准流程
Day 17编写变更管理流程模型、prompt、数据、阈值变更证据
Day 18整理样例 Evidence Index至少 15 条证据索引
Day 19进行证据质量评分Rubric 评分、缺口清单、整改计划
Day 20编写 Executive Control Summary一页上线就绪摘要
Day 21模拟监管问询答辩10 个问题、证据路径、改进计划

验收标准:

维度合格标准
完整性覆盖 10 个证据包章节
可追溯性至少一条客户事件能追溯到模型、数据、prompt、日志、人工复核和证据
控制覆盖至少 10 个控制有 Owner、频率、证据和合格标准
生成式 AI 风险覆盖幻觉、提示词注入、敏感信息泄露、越权工具调用和过度依赖
金融零售适配覆盖客户影响、人工复核、投诉或申诉、合规审批
表达质量非项目成员能在 30 分钟内理解系统风险和控制状态

19. 可复用模板

以下模板提供“字段 + 合格样例”的写法,避免空白表格变成形式主义材料。

19.1 Executive Control Summary 模板

字段合格样例
AI 用例 IDAI-CS-ASSIST-001
系统名称零售银行客服坐席辅助回答系统
业务目标缩短坐席查询政策时间,提升回答一致性,不替代坐席最终回复责任
风险等级高影响辅助系统,原因是可能影响客户金融产品理解和投诉处理
当前版本release-18,知识库 kb-retail-policy-2026-06,prompt p12
控制结论12 个关键控制中 11 个有效,1 个中风险例外已由业务 Owner 接受并设置 30 天整改
上线结论允许灰度至 10% 坐席,禁止客户自助端开放
关键限制不回答投资建议、信贷批准承诺、法律结论;命中高风险意图必须转人工主管
监控承诺每日质量抽检 50 条,每周报告错误分类和投诉关联
批准记录业务、合规、模型风险、安全、产品负责人于 2026-06-20 批准灰度

19.2 AI 用例登记模板

字段合格样例
用例名称AML 告警摘要助手
业务流程可疑交易告警初步分析和案件材料整理
AI 能力从案件交易、KYC、历史备注和政策知识库生成摘要和引用来源
决策影响不自动关闭或升级案件,只辅助分析师准备材料
受影响对象AML 分析师、合规主管、被调查客户的案件处理时间
数据类型交易、客户尽调、历史案件备注、内部 AML 政策
高风险原因涉及敏感客户信息和监管报告流程
主要控制脱敏、来源引用、人工确认、日志、抽检、事故升级
OwnerAML Operations Director
审批路径业务 Owner、合规、法务、安全、模型风险、AI 治理委员会

19.3 控制证据卡模板

字段合格样例
Control IDAI-LOG-008
控制目标关键 AI 操作可追溯
控制描述系统记录每次摘要生成的用户、时间、模型版本、知识库版本、输入输出哈希、引用来源和人工保存动作
风险无法复盘错误摘要来源,无法证明人工确认
控制类型自动化预防 + 自动化侦测
运行频率每次模型调用
证据审计日志导出、日志字段字典、日志完整性抽检报告
OwnerAI Platform Owner
ReviewerSecurity Logging Lead
合格标准关键字段完整率不低于 99.5%,日志保留 7 年,访问受限
最近结果2026 年 6 月抽检 10,000 条日志,完整率 99.8%,无未授权访问

19.4 模型卡模板

字段合格样例
模型名称Payment Fraud XGBoost
版本v5.1
用途实时评估银行卡交易欺诈风险,输出风险分数供策略引擎使用
不适用用途不用于客户营销、授信审批或 AML 可疑交易判断
训练数据2025-07 至 2026-03 确认欺诈和正常交易样本
关键指标AUC 0.91,欺诈捕获率 84%,误拦截率 0.32%
分群表现跨境交易误拦截率高于境内交易 0.18 个百分点,已设置人工复核
限制新商户类别和新设备模式可能出现漂移
监控每日监控误杀、漏放、PSI、延迟和商户类别漂移
审批模型风险和支付业务于 2026-04-22 批准上线

19.5 数据说明书模板

字段合格样例
数据集名称Payment Fraud Training Dataset 2026Q2
动机训练和验证实时支付欺诈检测模型
来源系统支付交易系统、欺诈工单系统、设备风险服务
时间窗2025-07-01 至 2026-03-31
字段类别交易金额、时间、商户、设备、地理风险、历史行为特征
敏感字段处理客户 ID 哈希化,证件号和姓名不进入训练集
标签定义经调查确认的欺诈工单为正样本,标签成熟期 45 天
质量结果重复率 0.02%,关键字段缺失率低于 0.5%
使用限制仅用于支付风控模型训练、验证和监控
访问控制数据科学团队通过受控环境访问,导出受禁

19.6 监管问询响应模板

字段合格样例
问询主题说明 AI 客服助手如何防止生成误导性信贷建议
简短结论系统不允许生成信贷批准承诺,相关意图触发拒答或转人工
适用范围客服坐席辅助系统 release-18,不含客户自助渠道
控制证据Prompt p12 审批、合规词库、红队测试、抽检报告、转人工日志
运行结果2026 年 6 月高风险意图 2,318 次,转人工率 96.4%,抽检未发现批准承诺输出
例外说明6 月 11 日发现 1 条边界表述不清回复,已更新知识库并完成坐席提醒
证据索引EV-CS-009、EV-CS-011、EV-CS-014、EV-CS-019
责任人Customer Service AI Product Owner

20. 面试答案:AI Audit Evidence Binder

问题 1:为什么说 AI 审计证据包是系统产品,而不是合规文档?

30 秒回答:

AI 证据包要持续证明 AI 系统在特定版本、数据、模型、控制和责任体系下被治理和监控。它有用户、流程、数据结构、版本、质量标准和运营节奏,所以更像一个系统产品,而不是审计前临时整理的文档。

2 分钟回答:

在金融零售里,AI 可能影响开户、KYC、AML、授信、支付拦截和客户服务。审计或监管不会只看模型 AUC,而会看系统是否被登记、风险是否被分级、数据是否有授权、模型是否有用途边界、人工复核是否真实发生、日志是否可追溯、异常是否被补救。 如果这些证据分散在邮件、截图和个人文件夹里,团队无法稳定回答监管问题。把证据包产品化,就是为不同用户设计信息架构:管理层看控制摘要,审计看控制矩阵,模型风险看模型卡和评估,架构看系统卡和日志,监管看证据链。这样证据在流程中生成、按版本管理、按质量评分、按责任运营,才能做到监管就绪。

问题 2:一个 AI Evidence Binder 最少应包含哪些章节?

30 秒回答:

我会固定为 10 章:执行摘要、范围与边界、治理问责、用例与影响、数据证据、模型与系统设计、评估验证、运行监控日志、事故例外整改、变更复核退役。

2 分钟回答:

这 10 章覆盖 AI 生命周期。前四章回答“这个系统是什么、谁负责、影响谁、风险在哪里”;中间三章回答“数据、模型、系统和测试是否可信”;最后三章回答“上线后是否持续受控、异常如何处理、变更如何管理”。 这样的结构能映射 NIST AI RMF 的 Govern、Map、Measure、Manage,也能支撑 ISO/IEC 42001 AIMS 的范围、责任、运行控制、绩效评价和改进。实际提交时,我会先给监管或内审一页摘要、控制到证据矩阵和证据索引,再按问题提供底层材料。

问题 3:模型卡和系统卡有什么区别?

30 秒回答:

模型卡解释一个模型版本的用途、限制、数据和评估表现;系统卡解释整个 AI 系统的边界、流程、控制、日志、人工复核和失败模式。模型卡不能替代系统卡。

2 分钟回答:

比如 AML 告警摘要助手可能调用一个大模型,也有 RAG 知识库、提示词、案件系统、权限控制、人工确认、日志和抽检。模型卡只能说明底层模型或模型路由的能力和限制,无法证明系统不会自动提交监管报告,也无法证明人工复核和日志真实发生。 系统卡把模型放回业务和技术上下文,说明输入来自哪里、知识库版本是什么、输出如何被使用、哪些场景拒答、谁负责复核、出现幻觉或来源不足时如何处理。审计证据包需要模型卡、数据说明书和系统卡三者配合。

问题 4:如何设计 Control-to-Evidence Matrix?

30 秒回答:

每条控制要有控制目标、控制活动、风险、框架映射、证据、频率、Owner 和合格标准。矩阵的作用是把“我们有文件”变成“这份文件证明哪个控制有效”。

2 分钟回答:

我会先从 AI 风险出发,例如数据滥用、模型误用、偏差、幻觉、越权访问、人工复核缺失和事故响应不足。然后为每个风险定义控制目标,例如所有高影响用例必须登记、每个模型版本必须有模型卡、每次生成式 AI 输出必须可追溯、客户影响场景必须有人工复核。 接着给每条控制绑定证据:系统卡证明控制设计,日志和抽检证明运行有效,审批记录证明责任接受,事故复盘证明改进闭环。矩阵还要标明 NIST Govern/Map/Measure/Manage 和 ISO 42001 AIMS 维度,方便审计和管理评审。

问题 5:生成式 AI 的证据包要额外关注什么?

30 秒回答:

要额外关注幻觉、提示词注入、敏感信息泄露、知识库来源、工具越权、内容安全、人工过度依赖和不可复现输出。

2 分钟回答:

传统模型证据偏重训练数据、指标、漂移和解释性。生成式 AI 还要证明系统如何约束输出和工具行为。比如客服助手需要保留 prompt 版本、拒答策略、合规词库、知识库版本、来源引用、红队测试、敏感信息过滤、转人工日志和抽检结果。 如果是 Agent,还要记录工具调用参数、权限、返回结果和人工确认。对于 RAG,要证明知识库文档来源、有效期、切片策略、检索质量和引用准确率。生成式 AI 的证据包必须从“模型表现”扩展到“系统行为和操作控制”。

问题 6:金融机构如何证明 AI 没有不当影响客户权益?

30 秒回答:

要通过客户影响评估、分群表现、人工复核、原因码、客户通知、申诉处理和补救记录形成证据链。

2 分钟回答:

以信贷预审为例,我会证明模型只用于排序或辅助,不直接给出最终拒绝决定;同时保留测试集分群表现、误拒率、原因码逻辑和人工复核结果。对客户侧,还要有清晰通知、申诉和复核流程。 在支付风控中,要证明误拦截被监控,高影响处置有解锁和补救机制。在 KYC 中,要证明证件 OCR 或活体检测在不同人群和设备上的表现被评估,误拒可以转人工。核心不是说“模型没有风险”,而是证明客户影响被识别、控制、监控和补救。

问题 7:证据质量怎么评估?

30 秒回答:

我会从完整性、准确性、时效性、可追溯性、可复现性、审批性、可理解性、防篡改性、相关性和一致性评分。关键控制不能只依赖低质量证据。

2 分钟回答:

很多证据看起来存在,但审计价值很弱。例如截图没有时间、报告没有版本、模型评估无法对应生产版本、审批邮件没有风险接受结论。 好的证据应能说明它覆盖哪个控制、对应哪个系统和模型版本、由谁生成和批准、结论是什么、是否能复现、是否和日志及变更记录一致。对高风险 AI 用例,我会要求关键证据有唯一 ID、版本、审批、哈希或不可变记录,并进入证据索引。

问题 8:PM 在 AI 审计证据包中承担什么角色?

30 秒回答:

PM 负责把证据包变成产品交付范围和上线门禁,协调业务、架构、数据、模型、合规、安全和内审按时产出可用证据。

2 分钟回答:

PM 不一定亲自写模型卡或数据说明书,但要定义证据包结构、控制 readiness dashboard、上线摘要、缺口管理和例外升级。 AI 产品如果没有证据包,可能功能可用但无法上线,或者上线后经不起监管问询。优秀 PM 会在需求阶段就把证据需求写进交付计划:哪些证据是上线前门禁,哪些是灰度期间监控,哪些是季度复核,哪些异常会阻塞发布。这是 AI 时代 PM 区别于传统功能 PM 的关键能力。


21. 常见失败模式与纠偏

失败模式表现纠偏
文档堆积文件很多,但找不到控制对应关系先建控制到证据矩阵,再整理附件
只看模型模型卡完整,但缺少系统卡、日志和人工流程增加系统级边界、控制点和操作证据
证据滞后上线后才补材料把证据生成嵌入 SDLC 和发布门禁
版本错位测试报告对应旧模型,生产已换版本建立模型、数据、prompt、系统和证据版本关系
责任模糊每个团队都以为别人会写证据用 RACI 绑定每份关键证据 Owner
日志过度或不足要么记录敏感明文,要么无法复盘用最小必要、哈希、摘要和受控明文存储组合设计
例外口头化控制缺口靠会议解释建立例外单、风险接受人、到期日和补救证明
监管语言缺失技术报告很深,但监管看不懂增加执行摘要、业务影响和证据路径
缺少运行证据设计很好,但没有生产抽检和监控每个关键控制都保留运行样本
第三方黑箱供应商模型和数据不可解释补充供应商尽调、合同权利、SLA、退出方案和监控

22. 个人作品集建议

如果将本手册用于 AI/架构/PM/BA 求职作品集,建议做一个可展示的“AI Evidence Binder Case Pack”:

作品集材料内容展示价值
一页案例摘要金融零售 AI 用例、风险等级、控制结论展示业务判断和管理层沟通能力
10 章节目录Evidence Binder 信息架构展示治理体系化能力
控制到证据矩阵10-15 条关键控制展示合规、风险和产品交付融合能力
系统卡架构、数据流、模型流、控制点展示架构思维
模型卡和数据说明书模型用途、限制、数据质量展示 AI 风险基础
日志规格字段、保留、脱敏、追溯链展示工程可落地能力
监管问询模拟5-10 个问题和证据路径展示面试表达和监管意识

建议选择一个最贴近金融零售背景的案例:AML 告警摘要助手、信贷预审模型、支付欺诈模型、KYC 文档审核助手或客服坐席生成式 AI 助手。


23. 自检清单

检查项通过标准
覆盖系统产品观点已解释证据包的用户、流程、信息架构、版本、运营和风险控制
覆盖证据分类法已给出 12 类证据和不同粒度
覆盖 NIST AI RMF已映射 Govern、Map、Measure、Manage
覆盖 ISO/IEC 42001 AIMS已映射范围、领导、规划、支持、运行、评价和改进
覆盖模型卡、数据说明书、系统卡已定义三者差异和最小内容
覆盖控制到证据矩阵已给出 10 条控制样例
覆盖生命周期、RACI、版本、日志、质量已分别成章说明
覆盖金融零售案例已覆盖 AML、KYC、信贷、支付、客服
覆盖 10 个证据包章节已给出固定章节和必备材料
覆盖样例索引、产出、Lab、模板、面试已包含样例 Evidence Index、PM/BA/Architect 产出、21 天 Lab、模板和 8 组面试答案
可执行性每个表格均提供具体字段、责任或合格标准
文档卫生无空白章节,无未完成标记,无临时填充内容

24. 参考锚点