返回 AIPA 笔记
AIPA Day 95

美国线 + 治理底座 — SR 11-7 三道防线 / NIST AI RMF / ISO 42001 落到自家组件

美国线 + 治理底座 — SR 11-7 三道防线 / NIST AI RMF / ISO 42001 落到自家组件

2026-09-17
sr11-7model-risknist-ai-rmfiso42001

日期: 2026-09-17 阶段: Phase 3 - AML 调查 Copilot 标签: #sr11-7 #model-risk #nist-ai-rmf #iso42001

核心问题

Day 92-94 钉死了欧盟线:AI Act Articles 9-15 + DORA/CRD。但 AML Copilot 若部署在美资银行(BMO、Amalgamated——正是 FIS+Anthropic Financial Crimes Agent 首批部署方,2026-05-04 宣布)或卖给 SI/云厂商,头上还压着一条美国监管线和一层国际治理底座。今天补齐三块:

  1. SR 11-7(美联储/OCC 模型风险管理监督指引,2011-04-04) — 这是美国线的核心。它的「三道防线(three lines of defense)」是模型风险治理的事实标准。今天回答一个反直觉问题:一个 2011 年写的、专门管统计/计量模型的监管文件,凭什么管 2026 年的 LLM agent?答案是——SR 11-7 的「模型」定义早已涵盖 LLM,根本不需要新法,examiner 现在就在用它查 AI。
  2. NIST AI RMF + GenAI Profile(NIST-AI-600-1,2024-07-26) — 自愿性框架,但已成美国事实治理语言。它的 Govern/Map/Measure/Manage 四函数 + 12 类 GenAI 风险,给本项目的 evals/红队/可观测一个可对外引用的「我们覆盖了哪些风险」清单。
  3. ISO/IEC 42001:2023 — 国际 AI 管理体系标准(可认证),PDCA + Annex A 控制。它是把前面所有零散合规义务收口成一套可审计管理体系的治理底座。

今天产出:SR 11-7 三道防线 × AI agent 映射表 + 三大框架横向对比,并把美国线 / 国际底座接到 Day 92-94 已建的「合规映射层」。

关键内容

A. SR 11-7 三道防线 → AI agent,验证独立性 = 每日 evals 的独立性

精读 SR 11-7 原文(Fed/OCC 联合指引,2011-04-04 发布,glacis.io 权威转录)。它把模型风险治理拆成三个核心要素,落到组织上就是「三道防线」:

防线SR 11-7 角色职责本项目 AI agent 对应
第一道模型开发者/使用者(model owner)建可靠模型、文档化、生产监控prompt/编排设计者 + 规则基线作者(P1 evalBaseline)+ 生产 trace 监控
第二道独立模型验证(MRM)独立评估概念合理性、持续监控、结果分析独立 eval suite:judge 校准(Day 17 κ)、阻断式 CI gate(Day 19)、每日跑的 evalChecks——不归编排作者管
第三道内部审计审 MRM 框架本身有效性、治理合规合规映射层(Day 92-94 aiActMapping/doraMapping)+ 不可变审计轨(Day 75 immutable trail)做证据

SR 11-7 的灵魂概念是 「effective challenge(有效挑战)」——验证不是「走流程盖章确认合规」,而是独立、批判性地真去评估模型设计是否适配业务目的、测试是否够严、真实表现是否符合预期。原文对验证独立性的硬要求:

验证须由「a qualified party who is independent of the development process」执行——验证者与开发者无汇报关系,且有足够权限挑战高层。

这条「验证独立于开发」直接定义了本项目 eval 体系的组织形态。把它翻译成算法步骤:

  SR 11-7 三要素 → AML agent 的执行映射
  ───────────────────────────────────────────
  ① 开发/实现/使用(第一道)
     · 设计:prompt + RAG + 编排(src/agent/orchestrator)
     · 实现:受控变更(prompt 版本进 model registry)
     · 使用:生产监控(trace 回流,Day 24)
  ② 验证(第二道,独立)
     · 概念合理性:judge rubric 是否真测 SAR 质量(Day 16)
     · 持续监控:每日 evalChecks + 每月 judge κ 重校(Day 17)
     · 结果分析:evalBaseline recall/FPR vs 真实表现对照
     · 关键约束:验证逻辑不能由 prompt 作者自己改自己测
  ③ 治理(贯穿)
     · 模型清单(model inventory):所有 prompt 版本登记
     · 板级/高层问责 + contingency(降级到规则基线,Day 94)

反直觉洞察①(SR 11-7 的「模型」定义早已涵盖 LLM——不需要新法):直觉以为「SR 11-7 是 2011 年管线性回归/评分卡的老东西,LLM 是新物种,得等新监管」。错得离谱。SR 11-7 对「模型」的定义是——「a quantitative method, system, or approach that applies statistical, economic, financial, or mathematical theories, techniques, and assumptions to process input data into quantitative estimates」。LLM 完全落进这个定义:统计方法(next-token 概率)、把输入(告警证据)处理成估计(SAR 该不该提交/风险评分)。所以 examiner 现在就用 SR 11-7 查银行的 LLM,不需要等任何新法。更扎心的是:SR 11-7 对「黑盒/不可解释」毫不通融——要求对黑盒神经网络/基础模型施加与传统统计模型同等的严格度。这意味着「LLM 不可解释」不是免责借口,而是必须用 evals + 透明推理(Day 5 证据链)补的验证缺口。把 LLM 当「不受模型风险管理约束的新玩具」,是美国线最大的合规误区。

定义还有一个钩子:模型含三部件——信息输入 + 估计组件 + 报告组件。AML Copilot 的「报告组件」就是 SAR 叙述生成(把风险估计翻译成 5W1H 监管叙述,FinCEN 2003-11 指引)——同样在模型风险范围内,叙述质量须被验证(呼应 Day 16 judge 测 faithfulness/coverage)。

B. NIST AI RMF GenAI Profile(2024-07)→ 12 类风险作对外风险清单

NIST AI RMF(AI 100-1,2023-01)四函数 Govern / Map / Measure / Manage 是美国事实治理语言;GenAI Profile(NIST-AI-600-1,2024-07-26 发布,依 EO 14110) 是它在生成式 AI 上的剖面,列了 12 类 GenAI 风险,并按四函数给 suggested actions。

把 12 类风险对到 AML Copilot——哪些是本项目的真威胁、落在哪个组件:

NIST GenAI 风险(12 类摘选)对 AML Copilot 的含义本项目缓解组件
Confabulation(虚构/幻觉)SAR 叙述编造不存在的交易/类型学judge faithfulness 检查 + 证据链溯源(Day 16/5)
Information Integrity误判污染知识库→偏差自强化RAG 反馈回路隔离(Day 93,15(4) 缺口)
Data Privacy客户 PII 泄漏给模型供应商risk gateway 脱敏 + 数据驻留路由(Day 93)
Harmful BiasSAR 误判系统性伤弱势群体fairness 评测(Day 92 9(9) 缺口)
Information Security提示注入/工具滥用MCPTox 红队 + risk gateway(Day 52/53)
Human-AI Configurationautomation bias,分析师橡皮图章override 率埋点(Day 93,14(4)(b) 缺口)
Value Chain / Component Integration模型供应商失效DORA 多供应商冗余(Day 94)

四函数的 suggested actions 收口成四件事:Govern(问责/政策/升级路径)、Map(用例/数据源/风险盘点)、Measure(测幻觉/偏差/隐私,含红队)、Manage(content provenance / 事件披露 / 第三方 fallback / 退役)。本项目已建的东西几乎逐项对得上——Measure = eval suite + 红队,Manage = 降级 fallback + 不可变审计轨。

反直觉洞察②(NIST AI RMF 是「自愿」的,但拒绝它的成本极高):直觉把「自愿性框架」读成「可选、没法律效力、可以不理」。但在美国,NIST AI RMF 已是 de facto 通用语言——监管问询、客户尽调(卖给银行/SI 的安全问卷)、保险定价、甚至诉讼里「是否尽到合理注意义务」,都拿 NIST 四函数当基准。它不是「法律强制」,而是「不遵守=你得自己解释为什么不遵守」的举证责任倒置。对本项目的含义:与其自创一套「我们怎么管 AI 风险」的说法,不如直接用 Govern/Map/Measure/Manage 的语言组织 evals/红队/可观测——对外只需一张映射表,而非每次从零自证。自愿≠无关紧要,自愿=举证责任在你这边。

C. ISO/IEC 42001:2023 → 把零散义务收口成可认证管理体系

前面 SR 11-7(美)+ AI Act(欧)+ DORA(欧)+ NIST(美)是四套不同来源的义务。ISO/IEC 42001:2023(2023-12 发布,全球首个 AI 管理体系标准、可第三方认证)的价值是:它不新增义务,而是提供一个 PDCA 管理体系骨架(Plan-Do-Check-Act),把零散义务收口成「可被审计、可认证、可持续改进」的一套东西。

主条款(Clause 4-10)就是 PDCA:

  Plan  (4-6): 组织环境 + 领导力承诺 + AI 风险识别/目标
  Do    (7-8): 资源/能力 + 运营控制(AI 系统全生命周期管理)
  Check (9):   绩效评估 + 内审 + 管理评审
  Act   (10):  持续改进 + 不符合项纠正

Annex A 控制(A.2-A.10)给具体落点。挑对本项目最相关的:

ISO 42001 Annex A 控制内容本项目对应
A.2 AI 政策文档化 AI 开发/使用政策合规映射层 + ADR(Day 33 no-multiagent 等决策记录)
A.5 AI 影响评估评估对个人/社会的影响,含 foreseeable misusefailureTaxonomy(含误用难案,Day 12)
A.6 AI 生命周期开发/部署/运营/监控全周期 + 验证durable 编排 + 每日 evals + trace
A.7 AI 数据数据质量与**来源(provenance)**文档化66 案金标数据血缘(Day 92 Article 10)
A.8 信息披露系统目的/用法/局限/事件沟通model registry 能力局限声明(Day 92 Article 11/13)
A.9 AI 使用负责任部署 + 人类监督HITL gateway(Day 5/93)

反直觉洞察③(ISO 42001 不是「再加一套合规」,是把 AI Act/SR 11-7/DORA 的交集收口成可认证体系):直觉会恐慌——「又来一个标准?我已经有 AI Act + DORA + SR 11-7 + NIST,第五套?」但 ISO 42001 是元层(meta-layer):它不规定「你必须对抗 adversarial examples」(那是 AI Act 15(5)),而规定「你必须有一个 PDCA 管理体系来系统性识别、控制、改进这类风险」。这呼应 Day 94 EBA 的「woven into」——所有框架底层落到同一套工程组件(evals 闭环、trace 底座、数据血缘、HITL),ISO 42001 只是套了个「可被外部审计师认证」的管理外壳。正确姿势不是建第五套系统,而是:建一套工程底座 → 用映射表证明满足各框架条款 → 用 ISO 42001 的 PDCA 把映射本身管起来、拿认证。认证是结果,不是额外工作量。

三大框架横向对比(性质/强制力/对本项目的角色一目了然):

维度SR 11-7NIST AI RMF + GenAI ProfileISO/IEC 42001:2023
来源美联储/OCC(2011-04,经典监管)NIST(2023-01 / GenAI Profile 2024-07)ISO/IEC(2023-12)
性质监管指引(强制,受监管银行)自愿框架(de facto 标准)可认证管理体系标准
强制力examiner 据此查,违规有监管后果软性(举证责任倒置)自愿认证,市场/客户驱动
核心结构三道防线 + effective challengeGovern/Map/Measure/Manage 四函数PDCA + Annex A 控制
对本项目角色美国线硬约束(验证独立性)对外风险清单语言(12 类)收口成可认证治理底座
落点组件独立 eval suite = 第二道防线eval/红队/可观测 = Measure全工程底座 + PDCA 外壳

设计要点/决策表

要点决策理由
LLM 是不是「模型」,纳入 SR 11-7 模型清单定义「处理输入产出定量估计」涵盖 LLM;examiner 已在用
eval suite 组织独立于 prompt 作者(第二道防线)SR 11-7 验证独立性 = effective challenge 前提
持续监控每日 evalChecks + 每月 judge κ 重校SR 11-7 ongoing monitoring;非一次性验证
黑盒不可解释不免责,用 evals + 证据链补验证SR 11-7 要求黑盒与传统模型同等严格
对外风险表达用 NIST 12 类 + 四函数语言de facto 标准,省去每次自证
治理收口ISO 42001 PDCA 套在合规映射层外元层管理体系,可认证,避免建第五套系统
SAR 叙述纳入模型风险范围,质量须验证SR 11-7「报告组件」=叙述生成

对本项目的落地

  • 新建 src/aml/compliance/usFrameworkMapping.ts:与 Day 92-94 的 aiActMapping.ts / doraMapping.ts 并列,构成完整「合规映射层」。导出 sr117Mapping() → LineOfDefense[](A 节三道防线表结构化,每条 { line: 1|2|3, role, responsibility, component, status })+ nistGaiRiskMapping() → GaiRisk[](B 节 12 类风险×缓解组件×status)。CI 断言「第二道防线 eval suite → status='implemented'」「NIST Harmful Bias → fairness 评测 status='gap'」——让美国线缺口与欧盟线(Day 93 缺口表)共用同一套可追踪机制。
  • eval suite 独立性证据:SR 11-7 第二道防线要求验证独立于开发。落地上,在 src/agent/eval/src/aml/evalChecks.ts 的模块注释里显式声明「本模块为第二道防线(独立验证),其评分逻辑与 prompt/编排(第一道防线)解耦,prompt 版本变更须重跑本 suite 方可进 model registry」——把组织职责落成代码边界(计划语气,当前为单仓教学装置,真实「组织独立性」需后端 + 团队分工)。
  • ISO 42001 PDCA 映射:规划 src/aml/compliance/iso42001Mapping.ts——把 Annex A 控制(A.2/A.5/A.6/A.7/A.8/A.9)映射到已建组件(C 节表),并标注 PDCA 阶段。这不是新功能,是把 Day 92-94 的映射条目按 ISO 管理体系骨架再组织一次,证明「我们有一个可认证的 AIMS」。
  • model registry 扩字段:Day 92 规划的 modelRegistry.ts(Annex IV 技术文档)补两个美国线字段——sr117ModelInventoryId(模型清单登记号)+ lastValidationDate(上次独立验证日期,对应 ongoing monitoring)。让同一个 registry 同时服务 AI Act Article 11 与 SR 11-7 模型清单(一套底座多法复用,Day 94「woven into」)。
  • 诚实标注usFrameworkMapping.ts 头注明确——本模块是合规义务的架构映射非法律意见;SR 11-7 为 2011-04-04 经典监管(标注历史地位:其「模型」定义早于 LLM 但已涵盖,依监管实践与 examiner findings 适用,无新法);NIST AI RMF 为自愿框架(GenAI Profile 2024-07,依 EO 14110,须核 EO 后续政策变动);ISO 42001 认证需第三方审核机构,本项目当前为前端教学装置,未实际认证;三道防线的「组织独立性」在单仓 demo 中仅为代码边界声明,真实独立需团队/后端分工。

参考资料

  1. glacis.io — SR 11-7 Model Risk Management: Complete Guide for AI Systems:模型定义 verbatim「a quantitative method, system, or approach that applies statistical, economic, financial, or mathematical theories...to process input data into quantitative estimates」;三核心要素(开发/验证/治理);effective challenge;验证者须「independent of the development process」;三道防线;明确 SR 11-7 comprehensively 适用于 AI/ML 与基础模型,黑盒须同等严格 (2026)
  2. 美联储/OCC — SR 11-7 Supervisory Guidance on Model Risk Management(2011-04-04,经典监管):模型风险管理三要素与 effective challenge 原始指引;模型定义含输入/估计/报告三部件 (2011-04)
  3. NIST — AI RMF: Generative AI Profile (NIST-AI-600-1)(2024-07-26,依 EO 14110):四函数 Govern/Map/Measure/Manage;12 类 GenAI 风险(CBRN/Confabulation/Data Privacy/Harmful Bias/Human-AI Configuration/Information Integrity/Information Security/IP/Value Chain 等);四大考量 Governance/Content Provenance/Pre-deployment Testing/Incident Disclosure (2024-07)
  4. ISO/IEC — ISO/IEC 42001:2023 AI Management System(2023-12):PDCA(Clause 4-10);Annex A 控制 A.2 政策/A.5 影响评估/A.6 生命周期/A.7 数据 provenance/A.8 信息披露/A.9 使用与人类监督(ISO 官方 + ISMS.online 转录)(2026)
  5. 本仓库 src/aml/evalChecks.ts + src/agent/eval/(第二道防线独立验证)、src/aml/evalBaseline.ts(第一道防线规则基线 + ongoing monitoring)、src/aml/failureTaxonomy.ts(NIST 风险盘点/ISO A.5)、src/aml/compliance/(Day 92-94 映射层,本日并列新增美国线/ISO)、Day 17 judge κ / Day 19 CI gate / Day 75 immutable trail (2026-06)

SOTA 检查 (2026-06-11)

  • SR 11-7 在 2026-06 仍是美国模型风险管理的活基准:2011 年指引未被取代,且 examiner 正用它查 LLM——「SR 11-7 的模型定义涵盖 LLM、黑盒须同等严格」是 2025-2026 监管与咨询业一致口径(glacis/Abacus/the-algo 2025-2026)。本笔记反直觉洞察①(不需要新法)是 live 的:多数工程团队仍误以为 LLM 在模型风险管理之外。监管空白处由 examination findings 填补,须跟踪 Fed/OCC 是否出 AI 专项补充指引。
  • NIST AI RMF GenAI Profile 政策依赖须重核:NIST-AI-600-1(2024-07)依据 Biden 的 EO 14110——该 EO 在 2025 政府更替后的存废与替代政策会影响 Profile 的引用效力(但 NIST 框架本身作为自愿标准独立于 EO 存续)。须在 2026-Q3 重核当前美国 AI 行政政策对 NIST 框架的影响;本笔记按「框架自愿性独立于 EO」处理。CSA 已在出 Agentic Profile(2025-2026),多 agent/agentic 场景须跟踪。
  • ISO/IEC 42001 是 2026 唯一可认证 AI 管理体系标准:2023-12 发布后,2025-2026 进入企业认证落地期(AWS/KPMG 等已对外宣称对齐),暂无竞品标准取代;后续 ISO/IEC 23894(AI 风险管理)与 42005(AI 影响评估)为配套,须跟踪它们与 42001 的衔接。
  • 三框架「woven into 同一工程底座」是稳健架构判断:与 Day 94 EBA 口径、Day 92-93 AI Act 映射一致——SR 11-7 三道防线、NIST Measure、ISO A.6 生命周期,底层都落到 evals 闭环 + trace + 数据血缘。本笔记不押注任一框架的细则定稿,而押注「一套底座 + 映射表 + PDCA 外壳」的架构形态,这一判断在 2026-06 稳健。
  • 待跟踪:Fed/OCC 是否出 LLM/GenAI 专项模型风险补充指引(影响黑盒验证的具体标准);美国 AI 行政政策变动对 NIST GenAI Profile 引用效力的影响;ISO 42005 影响评估标准定稿(细化 Annex A.5);本项目美国线缺口(NIST Harmful Bias / Human-AI Configuration 对应 fairness 评测、override 埋点)与欧盟线共用缺口表后的关闭进度。