AI 扩展计划 / Playbooks

AI Portfolio Systemic Risk / Dependency Architecture Playbook

核心判断：

976 行AI_PORTFOLIO_SYSTEMIC_RISK_DEPENDENCY_ARCHITECTURE_PLAYBOOK.md

AI Portfolio Systemic Risk / Dependency Architecture Playbook

定位：面向 CBAP+、金融零售 AI PM、AI Product Architect、Enterprise Architect、Model Risk、Third-Party Risk、Cyber / Operational Resilience 和 AI Governance 负责人。本文不是入门级“AI 风险清单”，而是训练你在企业 AI portfolio 层面识别、量化和治理 correlated AI failures、model / vendor concentration、shared data / knowledge dependency、policy drift、cross-use-case incident propagation 与 portfolio-level controls。

核心判断：

单个 AI use case 的 residual risk 可能是可接受的；但多个 use case 同时依赖同一个模型、供应商、知识源、身份服务、人工复核队列或证据栈时，portfolio dependency risk 可能不可接受。

金融零售企业的 AI 风险不再只是“某个模型是否准确”。真正的架构问题是：当同一个 foundation model 静默升级、同一个 RAG 知识库过期、同一个 policy service 配置漂移、同一个 human review queue 被打爆、同一个 monitoring stack 丢日志时，多少客户旅程、业务决策、监管流程和运营团队会同时受影响。

Source Anchors

以下锚点用于组织治理语言、监管对话和架构控制设计。本文是学习、作品集和架构训练材料，不构成法律意见、监管解释、审计结论或认证建议。正式项目必须由 legal、compliance、model risk、third-party risk、cyber、operational resilience、business owner 和 internal audit 按机构、司法辖区、客户影响、数据分类和供应商合同复核。

Anchor	Official link	本文使用方式
NIST AI Risk Management Framework	https://www.nist.gov/itl/ai-risk-management-framework	用 Govern / Map / Measure / Manage 组织 AI portfolio risk、dependency inventory、risk measurement、control monitoring 和 management reporting。
ISO/IEC 42001	https://www.iso.org/standard/81230.html	用 AI management system 语言连接组织目标、政策、过程、运行控制、绩效评价、管理评审和持续改进。
Federal Reserve SR 23-4	https://www.federalreserve.gov/supervisionreg/srletters/SR2304.htm	用第三方关系风险管理生命周期审视 AI vendor、cloud、model provider、RAG SaaS、managed service 和 exit planning。
OCC Bulletin 2023-17	https://www.occ.gov/news-issuances/bulletins/2023/bulletin-2023-17.html	作为 OCC 对 Interagency Guidance on Third-Party Relationships 的官方公告锚点，支持供应商集中度、合同、持续监控和终止管理。
NIST Cybersecurity Framework	https://www.nist.gov/cyberframework	用 Govern / Identify / Protect / Detect / Respond / Recover 补齐 AI dependency architecture 中的 resilience、identity、monitoring、incident response 和 recovery language。
FSB: The Financial Stability Implications of Artificial Intelligence	https://www.fsb.org/2024/11/the-financial-stability-implications-of-artificial-intelligence/	用于理解 AI 在金融体系层面可能放大的 vulnerabilities：third-party dependencies、service provider concentration、market correlations、cyber risks、model risk、data quality、governance。
FSB: Monitoring Adoption of AI and Related Vulnerabilities in the Financial Sector	https://www.fsb.org/2025/10/monitoring-adoption-of-artificial-intelligence-and-related-vulnerabilities-in-the-financial-sector/	用于设计 AI adoption、critical third-party dependency、concentration、substitutability 和 systemic relevance 的监控指标。
FSB: Sound Practices for Responsible Adoption of AI, Consultation Report	https://www.fsb.org/2026/06/sound-practices-for-responsible-adoption-of-artificial-intelligence-ai-consultation-report/	作为 2026 年咨询稿锚点，用于观察金融机构 AI adoption sound practices 的演进；正式引用时应注明其咨询状态。

1. 核心心智模型：Use Case Risk vs Portfolio Dependency Risk

传统 AI governance 很容易停在项目层：

Use case intake
-> risk tiering
-> model / data review
-> eval gate
-> release approval
-> ongoing monitoring

这条线仍然必要，但不充分。企业 AI portfolio 的风险来自横向耦合：

多个业务用例
-> 共享模型 / RAG / vendor / policy / identity / HITL / monitoring
-> 共同失效条件
-> 同时影响多个客户旅程、业务流程、控制流程和监管义务

1.1 单点通过不等于组合安全

一个客服总结助手可能是中风险；一个信贷材料摘要助手可能在人工审批前使用，单独看也可接受；一个 AML case summarizer 如果只是辅助调查员阅读，也可能被批准。但如果这三个系统共享：

同一个 LLM provider；
同一个 embedding model；
同一个 customer knowledge base；
同一个 prompt / policy guardrail；
同一个 case evidence logging stack；
同一个人工复核队列；

那么组合风险就不是三份低中风险相加，而是一个 portfolio-level correlated failure surface。

典型问题：

项目级判断	Portfolio-level 反问
该用例准确率达标	同一模型升级后，多少用例的 accuracy、groundedness、refusal、tone 和 policy compliance 会同时变化？
该用例供应商通过尽调	该供应商承载了多少高影响客户旅程？可替代性、退出时间、数据迁移路径是否足够？
该 RAG 知识库有 owner	哪些业务域共用同一政策源？政策更新、权限错误或 source poisoning 会传播到哪里？
该流程有人审	同一个 human review queue 在高峰、事故或监管事件中会不会成为共同瓶颈？
该系统有监控	如果 monitoring / evidence stack 失效，哪些 use case 会失去可追溯性和事故复盘能力？

1.2 Portfolio Dependency Risk 的定义

AI portfolio dependency risk = 多个 AI use cases 对共同技术、数据、知识、供应商、控制、运营或人员能力的依赖，在特定压力场景下产生同步失效、放大影响、延迟恢复或证据缺失的风险。

它包含六类机制：

Correlation：同一模型行为变化导致多个用例质量一起下降。
Concentration：过多高影响用例集中在一个 vendor、cloud、GPU supply、embedding 或 vector DB 上。
Propagation：一个政策源、知识库、身份授权或 workflow 配置错误跨用例传播。
Contention：共享队列、人工审核、GPU capacity、rate limit、incident team 或 support channel 被争抢。
Opacity：共享 observability / evidence stack 失效后，多个用例同时无法解释、复现或证明控制运行。
Policy Drift：法规、内部政策、产品条款或风险偏好更新没有同步进入所有 AI 流程，导致不同用例给出不一致或过期行为。

1.3 架构师的关键转身

项目级 AI PM 问：“这个 use case 能不能上线？”

AI Product Architect 问：“这个 use case 应该接入哪些 shared platform controls？”

Enterprise Architect 问：“当这个 shared dependency 失败时，哪些 business capabilities 会同时失效，机构是否接受这个风险？”

CBAP+ 的价值在这里体现：你不是只写需求，而是把 business capability、process、decision、data、policy、system、vendor、control、evidence 和 role accountability 串成一张 dependency architecture。

2. Dependency Taxonomy：AI Portfolio 依赖分类

AI dependency taxonomy 要覆盖技术、数据、知识、流程、控制和运营。只登记模型供应商远远不够。

Dependency type	示例	典型失效模式	Portfolio-level 风险
Model	Foundation model、fine-tuned model、reasoning model、vision model、speech model、reranker、judge model	模型升级、退化、输出风格变化、拒答策略变化、推理成本突增、区域不可用	多个用例同时 hallucination、over-refusal、under-refusal、延迟上升或成本失控
Vendor	LLM provider、RAG SaaS、agent platform、data vendor、eval vendor、observability vendor、system integrator	服务中断、合同变化、数据条款变化、子处理方变化、支持响应慢、供应商被监管审查	高影响用例集中在单一第三方，退出困难，监管问询时证据不足
Cloud / GPU	Cloud region、GPU cluster、managed AI platform、serverless inference、network egress	容量不足、rate limit、region outage、GPU scarcity、成本峰值、quota 下调	关键 AI 流程降级，多个业务单元争抢容量，SLO 破裂
Embedding	Embedding model、chunking strategy、tokenization、semantic schema、index version	embedding 版本变化、语义召回漂移、跨语言表现下降、敏感信息被向量化	多个 RAG 应用同时检索错误、漏检政策、引用不支持结论
Vector DB	Vector store、hybrid search、metadata filter、ACL filter、index refresh job	索引损坏、权限过滤错误、延迟上升、备份不可恢复、跨租户泄露	知识访问越权、答案过期、客户或员工看到不该看到的内容
Knowledge source	政策库、产品条款、FAQ、SOP、投诉规则、信贷政策、AML typology、KYC 标准	source owner 不清、版本过期、同名文档冲突、权限不一致、文档被污染	财富、客服、投诉、信贷、AML 等用例给出不一致或违规建议
Policy service	Guardrail、policy-as-code、eligibility rules、risk appetite rules、content policy、disclosure rules	规则漂移、测试不足、环境配置不一致、审批绕过、异常 fallback	多个应用同时放松或过度收紧控制，造成客户伤害或业务阻塞
Identity	IAM、SSO、RBAC、ABAC、entitlement、customer consent、service account、tool token	权限继承错误、token 泄露、role mapping 过宽、break-glass 滥用	AI 跨流程访问不当数据或执行越权操作，且影响多个渠道
Workflow	Agent orchestration、case routing、tool gateway、approval flow、event bus、CRM / LOS / AML integration	tool call 参数错误、幂等性不足、事件重复、审批顺序错误、回滚失败	AI 从“建议”变成“错误动作放大器”，跨系统产生数据污染
Human review queue	客服升级队列、信贷二审、AML investigator、complaint analyst、branch ops review、model risk reviewer	队列积压、技能错配、疲劳审查、SLA 超时、优先级冲突	共享 HITL 从控制变成瓶颈，关键风险事件无法及时处理
Monitoring / evidence stack	Trace、prompt log、model version log、RAG citation log、eval result、SIEM、GRC evidence binder	日志缺失、采样过低、PII 未脱敏、trace 不可复现、证据分散	多个 use case 同时无法解释事故、证明控制运行或支持监管响应

2.1 Dependency Criticality 的三个维度

对每个依赖都要打三类分：

Dimension	评分问题	高风险信号
Business criticality	哪些 business capability、customer journey、regulatory process 依赖它？	涉及信贷、AML、欺诈、投诉、财富建议、客户权益、监管报告
Coupling intensity	依赖是否硬编码、同步调用、实时路径、无人工替代、无降级方案？	单点实时调用、无法缓存、无替代 provider、失败即业务中断
Substitutability	替代需要多久、证据如何迁移、合同是否允许、数据能否导出？	退出时间超过业务容忍期，index / trace / fine-tune data 不可导出

可用一个简单公式做初筛：

Dependency Portfolio Criticality
= Impacted High-Risk Use Cases
  x Coupling Intensity
  x Recovery Time Gap
  x Evidence Loss Severity

这个公式不是精算模型，而是帮助管理层看到：风险不只来自“这个依赖坏了”，而来自“它坏的时候，我们同时失去多少业务能力、控制能力和证明能力”。

3. Portfolio Risk Map 与 Dependency Graph 方法

AI portfolio 风险图不是项目清单，而是一张有方向、有权重、有 owner、有控制状态的 dependency graph。

3.1 建图对象

Node type	示例属性	Owner
Use case	name、business capability、risk tier、customer impact、regulatory relevance、RTO / RPO、approved boundary	Business owner + AI PM
Model	provider、model id、version、deployment region、approved use boundary、eval pack、fallback	Model owner + Platform owner
Data / knowledge	source system、document set、classification、freshness SLA、lineage、ACL model、index version	Data owner + Knowledge owner
Control	guardrail、policy rule、human review、rate limit、approval gate、monitoring rule、kill switch	Control owner + Risk owner
Vendor	service type、contract owner、criticality、exit plan、subprocessor、SLA、incident notice	Third-party risk + Procurement
Workflow	orchestration service、tool gateway、case routing、event topic、integration point、rollback method	Product architect + System owner
Evidence	trace schema、retention、dashboard、GRC record、audit pack、incident log	Governance / Audit evidence owner

3.2 Edge 类型

Edge	含义	需要记录的权重
uses	用例调用模型、工具、知识库或服务	调用频率、同步/异步、失败影响、fallback
governed_by	用例受某个 policy / guardrail / approval gate 控制	控制强度、覆盖率、exception rate
retrieves_from	RAG / agent 从知识源检索	freshness、citation correctness、ACL dependency
writes_to	AI 或 workflow 写入业务系统	可逆性、审批要求、客户影响
monitored_by	用例依赖 observability / evidence stack	logging coverage、retention、replay ability
reviewed_by	用例依赖人工队列或专家角色	capacity、skill、SLA、surge plan
supplied_by	组件由供应商提供	substitutability、exit time、contractual control

3.3 建图步骤

从高影响 business capability 开始：不要从模型清单开始。先列客户服务、信贷、AML、欺诈、财富、投诉、分行运营、监管报告等能力。
把 AI use case 映射到 capability：每个 use case 只能有一个 primary capability，但可以有多个 secondary capability。
登记 shared dependencies：模型、vendor、cloud / GPU、embedding、vector DB、knowledge source、policy service、identity、workflow、HITL、monitoring / evidence stack。
标注 dependency edge：实时路径、批处理路径、控制路径、证据路径、人工路径要分开。
计算 exposure concentration：看某个依赖承载了多少高风险用例、多少客户交互量、多少关键流程、多少控制证据。
跑压力场景：模型升级、供应商中断、政策漂移、RAG 索引损坏、身份服务误配置、HITL 队列积压、日志丢失。
定义 portfolio controls：集中度限制、分段隔离、fallback diversity、kill switch hierarchy、shared SLO、exit drill、dependency risk review。
纳入治理节奏：月度 portfolio KRI、季度 dependency risk review、重大变更前 dependency impact assessment、事故后 propagation analysis。

3.4 简化图例

Customer Service AI
  -> Model A
  -> Embedding E1
  -> Vector DB V1
  -> Customer Policy KB
  -> Policy Service P1
  -> HITL Queue Q1
  -> Evidence Stack O1

Lending AI
  -> Model A
  -> Embedding E1
  -> Vector DB V1
  -> Credit Policy KB
  -> Policy Service P1
  -> HITL Queue Q2
  -> Evidence Stack O1

AML AI
  -> Model A
  -> Embedding E1
  -> Vector DB V1
  -> AML Typology KB
  -> Policy Service P1
  -> HITL Queue Q3
  -> Evidence Stack O1

项目级看，三个系统各自有模型、RAG、人工复核和监控。Portfolio 级看，Model A、Embedding E1、Vector DB V1、Policy Service P1、Evidence Stack O1 是共同失效点。

3.5 Heatmap 的两个坐标

Portfolio heatmap 不建议只用 likelihood / impact。对 dependency architecture 更有效的坐标是：

X-axis: Concentration / Coupling
Y-axis: Business / Regulatory Impact

Zone	解释	管理动作
High concentration + high impact	系统性依赖风险区	必须有 executive visibility、concentration limit、fallback diversity、exit drill、incident propagation playbook
High concentration + low impact	规模效率区	可接受共享，但要有 SLO、成本、容量、basic fallback 和 monitoring
Low concentration + high impact	高影响定制区	聚焦 use-case specific control、validation、human oversight、audit evidence
Low concentration + low impact	常规运营区	轻量治理，避免过度控制

4. Financial Retail Cases

Case 1：客服 + 信贷 + AML 共用同一模型、RAG、Vendor

场景

一家零售金融机构为了提升效率，采用同一个 enterprise LLM vendor 和 RAG platform：

客服 AI：回答账户、费用、产品、争议处理问题。
Lending AI：总结申请材料、解释信贷政策、生成审批备忘录草稿。
AML AI：总结 suspicious activity case、提取交易模式、建议调查问题。

项目团队分别完成了风险评估：

Use case	项目级判断
客服 AI	不直接交易，不做最终决定，人工升级可用，残余风险中等
Lending AI	仅辅助 underwriter，最终审批由人做，残余风险可接受
AML AI	仅辅助 investigator，case disposition 由人确认，残余风险可接受

Portfolio 级问题

三者共享同一组关键依赖：

Vendor X
-> Model X-Reasoning
-> Embedding X-Embed
-> RAG SaaS X-Knowledge
-> Vector index managed by Vendor X
-> Policy guardrail template maintained by Vendor X
-> Shared evidence export API

如果 Vendor X 的模型更新改变了 summarization bias，可能出现：

客服回答更自信，但引用条款不完整；
Lending summary 低估负面收入波动；
AML summary 过度压缩异常交易序列，遗漏关键模式；
三个团队都以为是“个别质量波动”，没有意识到共同根因是模型行为变化。

架构诊断

Dependency	Failure mode	Propagation path	Impact
Model X-Reasoning	summarization compression drift	三个 use case 同时输出更短、更确定但证据不足的摘要	客户误导、信贷判断偏差、AML 调查质量下降
Embedding X-Embed	policy retrieval recall 下降	RAG 召回旧条款或漏掉例外规则	客服、信贷和 AML 引用不完整
RAG SaaS	ACL filter defect	客服可检索内部信贷政策片段	数据越权、客户沟通风险
Evidence export API	事故时 trace 导出延迟	三个团队无法及时复盘	审计、监管响应和客户纠错困难

Portfolio controls

Concentration limit：同一 vendor / model 不得承载超过既定阈值的 Tier 1 / Tier 2 customer-impact use cases，超过阈值必须由 AI Risk Committee 批准。
Model diversity for critical paths：高影响摘要类用例至少保留一个可运行 fallback model 或 extractive baseline，用于事故、回归测试和紧急切换。
Shared regression pack：每次模型、embedding、RAG 平台或 vendor policy template 变化，都要运行跨用例 golden set，包括客服条款、信贷边界案例、AML typology。
Dependency incident flag：任一 use case 出现异常时，incident triage 必须检查是否存在共同模型、RAG、embedding、vendor、evidence stack。
Evidence independence：关键 use case 的 trace / audit export 不应只依赖 vendor 自有界面；至少要有机构侧日志落地和不可篡改保留策略。

Case 2：财富助手与投诉 Agent 共用同一政策源

场景

财富助手面向理财顾问，帮助解释产品适配性、费用、风险等级和披露要求。投诉 Agent 面向后台投诉团队，帮助分析客户投诉是否涉及误导销售、费用争议或不当建议。

两个系统都连接同一个 “Wealth Policy Knowledge Base”：

Wealth Assistant
  -> Wealth Policy KB
  -> Product Disclosure Docs
  -> Suitability Policy

Complaint Agent
  -> Wealth Policy KB
  -> Product Disclosure Docs
  -> Complaint Handling SOP

Portfolio 级问题

某次政策更新后，产品费用披露文档已更新，但 suitability policy 的例外条款未同步进入 RAG index。财富助手继续引用旧规则，投诉 Agent 则用同一旧规则判断历史投诉是否成立。

这不是一个简单知识库过期问题，而是 policy drift 在前台建议和后台纠错流程之间形成闭环偏差：

前台可能持续给出过期解释；
后台投诉分析可能低估问题严重性；
管理层看到的 complaint trend 被低估；
remediation 范围被错误缩小。

架构诊断

Layer	控制缺口	正确做法
Knowledge governance	文档更新没有 mandatory index refresh 和 validation gate	policy source、index version、effective date、superseded docs 必须绑定
Retrieval	RAG 只看 semantic similarity，不强制 effective date	检索必须加入 effective date filter、jurisdiction、product version、customer segment
Policy service	前台和投诉使用不同 prompt，但没有统一 policy decision record	高风险政策解释必须产出 machine-readable policy decision metadata
Monitoring	只监控 answer rating，不监控 policy consistency	建立 cross-use-case policy consistency eval
Incident	投诉团队发现异常没有回传财富助手	建立 policy drift incident propagation route

Portfolio controls

Policy source of record：明确每类政策的 authoritative source，不允许团队私自复制政策片段作为长期知识源。
Effective-date aware retrieval：RAG metadata 必须包含 effective date、retirement date、jurisdiction、product、channel、customer segment。
Cross-use-case consistency tests：财富助手、客服、投诉、分行员工助手对同一政策问题必须给出一致边界；不要求措辞相同，但结论、引用和升级路径必须一致。
Policy drift watchlist：高风险政策变更后，在 7 / 14 / 30 天内抽样查看相关 AI 输出、人工 override、投诉、quality review 和 customer correction。
Closed-loop remediation：投诉 Agent 发现政策解释错误时，必须触发前台助手知识库、prompt、training note 和 advisor communication 的同步整改。

Case 3：Branch Operations Agent 打爆共享 HITL Queue

场景

分行运营 Agent 帮员工处理开户、地址变更、遗失卡、异常交易解释和客户资料补全。上线初期设计了人审：

Agent low confidence
-> HITL queue
-> Operations specialist review
-> Approve / edit / reject

同一个 HITL queue 后来被多个 AI 用例复用：

分行运营 Agent；
客服投诉草稿 Agent；
KYC exception Agent；
Loan documentation completeness Agent；
Fraud case pre-review Agent。

Portfolio 级问题

某周新政策和促销活动同时上线，分行运营 Agent 的 low-confidence rate 从 8% 升到 24%。大量任务进入共享 HITL queue，导致：

KYC exception 审核超时；
fraud case pre-review 延迟；
投诉回复 SLA 破裂；
分行员工绕过 AI 建议，手工处理但缺少记录；
管理层误以为是“人力不足”，没有发现是 AI confidence drift + shared queue contention。

架构诊断

Signal	项目级解释	Portfolio 级解释
HITL backlog 上升	分行用例高峰	多个用例共享队列，无风险优先级和容量隔离
Low-confidence rate 上升	新政策导致模型不熟	知识更新、prompt、policy gate 和 routing 共同漂移
SLA breach	运营团队忙不过来	人工复核是 shared control，已经成为 systemic bottleneck
Manual workaround 增加	员工不适应 AI	控制绕过导致 evidence gap 和流程不可追踪

Portfolio controls

Queue segmentation：按风险等级、监管时限、客户影响和业务流程隔离队列，不把所有 AI fallback 都丢进一个池子。
Surge capacity plan：高峰、政策更新、事故、活动、系统变更期间预设临时 reviewer、优先级规则和自动降级策略。
HITL SLO as shared control SLO：人工队列不是运营细节，而是 portfolio control；必须有 SLO、capacity、skill coverage、alert 和 owner。
Confidence drift trigger：任一 use case 的 low-confidence、escalation、override 异常上升时，检查是否会冲击共享 HITL。
Workaround monitoring：监控 AI bypass、manual completion、missing trace、late review，防止员工绕过控制后形成 invisible risk。

5. Portfolio-Level Controls

5.1 Concentration Limits

Concentration limits 不是简单规定“最多几个供应商”。金融零售 AI 要按风险权重定义限制。

Limit type	示例规则	管理意图
Model exposure limit	单一 foundation model 不得承载超过 50% 的 Tier 1 customer-impact interactions；超过需 executive risk acceptance	防止模型行为变化影响过多高影响场景
Vendor criticality limit	单一 vendor 同时承载模型、RAG、observability、HITL tooling 时，必须触发 enhanced due diligence	防止供应商纵向整合形成不可替代性
Knowledge source coupling limit	同一政策源被 5 个以上高影响用例使用时，必须有 source owner、effective-date control 和 consistency eval	防止政策漂移跨场景传播
Evidence dependency limit	关键证据不得只存在于供应商控制台；Tier 1 / Tier 2 use cases 必须有机构侧 evidence retention	防止事故和监管响应时失去证据
HITL capacity limit	单一人工队列不得同时承载多个监管时限强约束流程，除非有优先级、隔离和 surge plan	防止共享复核队列成为系统性瓶颈

建议使用 risk-weighted exposure：

Risk Weighted AI Exposure
= customer interactions x risk tier weight
  + regulated decisions x decision weight
  + sensitive records accessed x data weight
  + revenue / loss exposure x financial weight

然后对每个模型、vendor、cloud、RAG、policy source、HITL queue、evidence stack 计算占比。

5.2 Blast-Radius Segmentation

Blast-radius segmentation 的目标不是所有东西都隔离，而是让一个依赖失败时不会横向吞掉整个 portfolio。

Segmentation layer	分段方式	控制例子
Business domain	客服、信贷、AML、财富、投诉、分行运营	不同 domain 的高影响 RAG index 分离，policy change 独立审批
Risk tier	Tier 1、Tier 2、Tier 3	Tier 1 使用更严格 model gateway、logging、human approval、fallback
Customer impact	客户可见、员工辅助、后台分析、监管报告	客户可见输出有 disclosure、refusal、tone、complaint route
Data sensitivity	Public、internal、confidential、restricted、regulated	restricted 数据不能进入低治理 vendor SaaS
Action authority	read-only、draft、recommend、write、execute	能写入业务系统的 agent 需要 tool approval 和 rollback
Evidence criticality	best-effort log、audit log、regulatory evidence	高关键证据进入独立存储和 retention policy

一个成熟的 AI platform 应该允许共享基础能力，同时用 routing、policy、identity、data filter、logging、rate limit 和 kill switch 做分段。

5.3 Fallback Diversity

Fallback 不是“模型 A 挂了就切模型 B”。有效 fallback 必须覆盖四种差异：

Diversity type	说明	示例
Model diversity	不同 provider、model family、deployment mode 或 smaller model baseline	LLM A 失败时切到 LLM B；高风险摘要切到 extractive summarizer
Retrieval diversity	不同 index version、search mode、source snapshot 或 manual lookup	semantic search 异常时切到 keyword search + curated policy page
Workflow diversity	自动 agent 降级为 draft-only、read-only 或 human-first	tool execution 关闭，但保留 evidence packet 生成
Operational diversity	不同人工队列、供应商支持通道、cloud region、incident commander	HITL queue 饱和时切到风险优先级队列和临时 reviewer

Fallback 设计必须测试，不测试的 fallback 只是幻觉控制。每个 Tier 1 / Tier 2 use case 至少每季度做一次 fallback drill 或 tabletop exercise。

5.4 Kill Switch Hierarchy

Kill switch 要分层，避免只有“全关”这一种粗暴选项。

Level	Kill switch	影响范围	使用场景
L0	Prompt / response pattern block	单个输出模式	发现违规话术、错误披露、敏感内容泄露
L1	Tool permission off	某类动作	禁止 AI 写入 CRM、发起退款、提交 case disposition
L2	Use case degraded mode	单个用例	切到 draft-only、read-only、human approval required
L3	Shared dependency isolation	使用某模型、RAG、policy service 的一组用例	共同依赖出现异常，需要阻断传播
L4	Domain shutdown	某业务域 AI 能力	财富、信贷、AML 等高风险域出现系统性异常
L5	Enterprise AI freeze	全企业 AI 变更或运行冻结	重大安全事件、供应商事故、证据失效、监管要求

Kill switch 需要明确：

谁有权触发；
触发后哪些系统自动通知；
降级后的客户和员工体验；
恢复条件和 evidence requirement；
事后是否进入 risk acceptance 或 remediation。

5.5 Shared Service SLO

共享 AI 服务必须像核心平台一样有 SLO，而不是作为项目工具随意使用。

Shared service	SLO 示例	风险解释
Model gateway	availability、p95 latency、error rate、fallback success、policy decision latency	影响所有实时 AI 调用
RAG platform	index freshness、retrieval latency、citation correctness、ACL filter success	影响知识正确性和权限安全
Policy service	decision latency、rule deployment success、rollback time、policy test pass rate	影响合规边界和客户承诺
HITL queue	time to first review、SLA breach rate、review quality、backlog by risk tier	影响人机控制有效性
Observability / evidence	trace completeness、log delivery latency、replay success、retention compliance	影响事故复盘和审计证明
Vendor support	incident response time、root cause report time、data export time、exit support	影响恢复和治理能力

5.6 Vendor Exit Drill

Exit plan 写在合同里不等于可执行。AI vendor exit drill 要验证：

模型调用是否能切到替代 provider 或机构自托管模型。
Prompt、eval、golden set、trace schema 是否 vendor-neutral。
RAG 文档、metadata、embedding、index、citation history 是否能导出或重建。
生产日志、事故证据、human feedback、annotation 是否能保留。
数据删除、训练排除、保留期限和子处理方记录是否可证明。
替代方案的成本、延迟、质量和控制差异是否被业务接受。
客户沟通、员工指引、监管通知和服务降级脚本是否准备好。

Exit drill 的结果不应只给 procurement，而应进入 architecture review、risk committee 和 portfolio roadmap。

5.7 Dependency Risk Review

重大 AI 变更必须做 dependency risk review，而不是只做功能回归。

触发条件：

foundation model、embedding、reranker、judge model 版本变化；
vendor 合同、子处理方、数据条款、区域或 SLA 变化；
新用例接入 shared model / RAG / policy / HITL / evidence stack；
高风险政策或产品条款更新；
AI use case risk tier 升级；
事故、near miss、监管问询、客户投诉趋势异常；
capacity、latency、cost、queue backlog 超过 KRI threshold。

Review 输出：

impacted use cases；
shared dependencies；
blast radius；
regression / eval scope；
control gaps；
kill switch readiness；
fallback readiness；
residual risk owner；
approval / remediation decision。

5.8 Incident Propagation Analysis

AI incident postmortem 不能只问“这个 use case 为什么出错”，还要问“这个错误会不会已经传播到其他 use cases”。

Propagation analysis checklist：

Question	Evidence
是否有共同模型、embedding、RAG、policy service、vendor、identity、workflow、HITL 或 evidence stack？	dependency graph 查询结果
同一时间窗口内其他 use case 是否出现 quality、latency、override、complaint、escalation、cost 异常？	cross-use-case anomaly dashboard
错误输出是否来自共同知识源或政策版本？	source lineage、index version、citation record
错误是否写入下游系统并被其他 AI 流程再次读取？	writes_to edge、data lineage、event log
人工复核是否捕捉到异常，还是被队列积压吞掉？	HITL SLA、review quality、backlog
监控和证据是否足以重放事故？	trace completeness、model version、prompt、retrieval result、tool call
是否需要启动 shared dependency kill switch 或 domain-level degraded mode？	incident commander decision record

6. Artifacts / Templates

6.1 AI Dependency Register

Field	说明	示例
Dependency ID	唯一编号	DEP-MODEL-001
Dependency type	model、vendor、cloud、embedding、vector DB、knowledge source、policy service、identity、workflow、HITL、monitoring	Model
Name / version	名称与版本	Model A v2026-05
Owner	技术 owner、业务 owner、风险 owner	AI Platform Owner
Provider	内部或外部供应商	Vendor X
Used by use cases	关联 use case 列表	Customer Service AI、Lending AI、AML AI
Risk tier exposure	Tier 1 / Tier 2 / Tier 3 暴露	2 个 Tier 1，4 个 Tier 2
Data classification	访问数据等级	Confidential + regulated customer data
Coupling mode	realtime、batch、fallback、evidence-only	realtime
Substitutability	high、medium、low	low
Exit time estimate	替换或退出所需时间	90 days
SLO / SLA	可用性、延迟、刷新、恢复	99.9% availability, 4h incident notice
Controls	guardrail、logging、fallback、approval、rate limit、segmentation	model gateway, regression pack, L3 kill switch
Open issues	已知风险与整改	No independent evidence export for RAG citations
Risk acceptance	接受人、日期、条件	CRO accepted for 6 months with exit drill

6.2 Concentration Risk Heatmap

Dependency	Tier 1 exposure	Tier 2 exposure	Customer volume	Regulated process	Substitutability	Heat
Model A	3	8	High	Lending, AML, complaints	Medium	Red
Vendor X RAG	2	5	Medium	Wealth, complaints	Low	Red
HITL Queue Q1	4	6	High	KYC, fraud, complaints	Low	Red
Evidence Stack O1	5	12	High	Audit and incident response	Medium	Amber
Policy Service P2	1	3	Medium	Customer disclosures	High	Amber

Heat 判定不要只看数量。一个依赖如果同时具备 high customer impact、low substitutability、evidence criticality，就算 use case 数量不多，也可能是红色。

6.3 Blast-Radius Map

Scenario	Impacted dependencies	Impacted use cases	Customer / regulatory impact	Immediate control	Recovery target
Model A behavior drift	Model A、shared prompts、judge model	客服、信贷、AML	错误摘要、拒答异常、调查质量下降	L3 dependency isolation，切 fallback model	24h 内完成 regression 和恢复
Wealth policy source outdated	Wealth KB、vector index、policy service	财富助手、投诉 Agent、客服	过期披露、投诉判断偏差	关闭相关政策问答，启动 manual policy lookup	48h 内重建 index 并复测
HITL queue saturation	Q1、routing rules、review workforce	分行、KYC、fraud、complaints	SLA breach、人工绕过	风险优先级队列，冻结低风险 AI escalation	8h 内恢复高风险队列
Evidence stack outage	O1、trace collector、GRC export	所有 Tier 1 / Tier 2 use cases	无法复盘、审计证据缺口	暂停高风险自动动作，启用 local logging	12h 内恢复证据链

6.4 Scenario Stress Test

Stress scenario	Test design	Pass criteria	Required evidence
Single model degradation	用 golden set 模拟模型升级导致 factuality 降低 15%	高风险 use cases 被 regression gate 阻断；fallback 质量达最低标准	eval report、blocked release record、fallback trace
Vendor regional outage	模拟主 inference region 不可用 4 小时	Tier 1 use cases 在 RTO 内降级，客户可见说明正确	incident timeline、routing logs、customer comms
Policy drift	把旧政策和新政策同时放入知识库	RAG 检索必须优先 effective policy，并标注版本	citation log、policy metadata、consistency eval
HITL overload	模拟 review volume 达平日 3 倍	高风险队列 SLA 保持，低风险任务自动延迟或关闭	queue dashboard、routing decision、surge staffing record
Evidence loss	模拟 trace collector 丢失 30 分钟	高风险自动动作暂停，local fallback logging 生效	kill switch record、local logs、replay test
Exit drill	模拟 Vendor X 90 天内退出	数据、prompt、eval、trace、index 重建路径可执行	export files、migration runbook、cost / latency comparison

6.5 Shared Control Library

Control ID	Control name	Applies to	Control objective	Evidence
CTRL-AI-DEP-001	Dependency registration	All AI use cases	所有 shared dependency 可识别、可追踪、可分配 owner	dependency register entry
CTRL-AI-DEP-002	Concentration threshold	Tier 1 / Tier 2 portfolio	防止单一模型、vendor、RAG、HITL、evidence stack 承载过多高影响风险	heatmap, committee minutes
CTRL-AI-DEP-003	Cross-use-case regression	Shared model / RAG / policy	变更前发现共同依赖引起的质量、政策和行为漂移	regression report
CTRL-AI-DEP-004	Blast-radius kill switch	Shared dependency	异常时按依赖范围降级或隔离，而不是只关闭单个应用	kill switch log
CTRL-AI-DEP-005	Fallback drill	Critical dependencies	验证替代模型、知识路径、人工流程、证据链可运行	drill report
CTRL-AI-DEP-006	Incident propagation analysis	AI incidents and near misses	识别同根因影响的其他 use cases	postmortem propagation section
CTRL-AI-DEP-007	Policy drift control	Policy-backed AI systems	保证政策更新进入知识库、规则、prompt、eval 和前后台流程	policy version record, consistency test
CTRL-AI-DEP-008	Shared HITL capacity control	Human review queues	防止人工复核队列成为系统性瓶颈	SLO dashboard, capacity plan
CTRL-AI-DEP-009	Independent evidence retention	Tier 1 / Tier 2 use cases	保证事故、审计、监管响应不完全依赖 vendor 控制台	trace storage, retention proof

6.6 Portfolio Risk Acceptance Memo

Decision title:
Accept temporary concentration risk for Model A across customer service, lending, and AML AI use cases

Decision owner:
Chief Risk Officer, with AI Governance Committee endorsement

Business rationale:
Model A currently provides materially better multilingual quality, latency, and integration support than alternatives. Immediate diversification would delay three critical risk-reduction initiatives.

Risk accepted:
Model A supports 3 Tier 1 and 5 Tier 2 use cases, including customer-facing service explanations, lending document summarization, and AML case summarization. A model behavior change, regional outage, or vendor evidence export failure could affect multiple regulated workflows simultaneously.

Compensating controls:
1. Cross-use-case regression pack before any model version change.
2. L3 shared dependency kill switch in model gateway.
3. Extractive summarization fallback for lending and AML.
4. Independent institution-side trace retention for Tier 1 use cases.
5. Monthly concentration KRI reporting to AI Governance Committee.
6. Vendor exit drill completed within 90 days.

Time boundary:
Risk acceptance expires in 6 months or earlier if concentration threshold exceeds approved exposure.

Review triggers:
Vendor incident, model version change, new Tier 1 onboarding, KRI breach, regulatory inquiry, evidence export failure, or customer harm incident.

Residual risk statement:
Residual portfolio dependency risk remains elevated but is accepted temporarily because controls reduce immediate blast radius and a funded diversification roadmap is in execution.

7. Metrics / KRIs

Portfolio-level AI KRIs 要同时覆盖 concentration、correlation、control effectiveness、resilience、evidence 和 human capacity。

7.1 Concentration KRIs

KRI	Definition	Red signal
Top model exposure	单一模型承载的 risk-weighted use case exposure 占比	单一模型超过批准阈值，且缺少 tested fallback
Top vendor dependency	单一 vendor 覆盖模型、RAG、observability、workflow 等多个层的 exposure	Vendor 同时控制关键运行路径和证据路径
Tier 1 shared dependency count	每个 shared dependency 连接的 Tier 1 use case 数量	超过阈值但没有 executive acceptance
Low substitutability exposure	low substitutability dependency 承载的高影响 use case 占比	退出时间超过业务容忍期
Cloud / region AI exposure	单一 cloud region 或 AI platform 的调用量和高风险任务占比	region outage 会影响多个 regulated workflows

7.2 Correlated Failure KRIs

KRI	Definition	Red signal
Cross-use-case quality drift	多个共享模型用例在同一窗口内 quality metric 同向变化	factuality、groundedness、refusal、override 同时恶化
Shared policy inconsistency rate	不同用例对同一政策问题给出不一致结论的比例	财富、投诉、客服输出冲突
RAG citation failure cluster	同一知识源引发的 citation missing / unsupported rate	多个 use case 同时引用旧文档或错误文档
Common incident root cause ratio	AI incidents 中由 shared dependency 引起的比例	高比例说明架构耦合风险未被控制
Regression escape rate	共享依赖变更后，生产发现但上线前未发现的问题比例	说明 cross-use-case regression 不足

7.3 Resilience / Control KRIs

KRI	Definition	Red signal
Fallback drill pass rate	关键依赖 fallback drill 通过率	未测试或测试失败仍承载 Tier 1
Kill switch time to effect	触发到实际阻断或降级生效的时间	关键场景超过 RTO
Shared service SLO breach	model gateway、RAG、policy、HITL、evidence stack 的 SLO breach	连续 breach 且没有 remediation
HITL queue saturation	backlog、age、SLA breach、review quality by risk tier	高风险队列被低风险任务挤占
Evidence completeness	高风险 AI trace 包含 model version、prompt、retrieval、policy decision、tool call、human action 的比例	事故无法 replay 或审计证据缺失

7.4 Policy Drift KRIs

KRI	Definition	Red signal
Policy-to-index lag	authoritative policy 更新到 RAG index 生效的时间	超过 policy freshness SLO
Superseded document retrieval	已废止文档被检索或引用的次数	客户可见或高影响流程出现废止引用
Effective-date mismatch	AI 使用的政策版本与交易、投诉或申请发生日期不匹配	投诉和历史审查场景高发
Policy change eval coverage	重大政策变更对应 eval cases 覆盖率	重大政策变更没有 regression test
Cross-channel policy consistency	客服、分行、财富、投诉对同一问题结论一致性	渠道之间结论冲突

7.5 Suggested Thresholding

阈值不要一次定死。建议按三步成熟：

Baseline：先记录 60-90 天，建立模型、RAG、HITL、policy、evidence 的自然波动范围。
Risk appetite alignment：按 customer impact、regulatory obligation、operational resilience 设定红黄线。
Dynamic triggers：在模型升级、政策变更、供应商事件、业务高峰、监管检查期间临时收紧阈值。

8. Governance Cadence

Portfolio dependency risk 必须进入固定治理节奏，否则会被项目进度吞掉。

Cadence	Participants	Decisions / Outputs
Weekly AI operations review	AI platform、SRE、security、business ops、HITL managers	shared service SLO、queue saturation、incident / near miss、urgent dependency issues
Monthly portfolio KRI review	AI governance、model risk、third-party risk、data governance、cyber、business owners	concentration heatmap、policy drift、fallback status、open remediation、new onboarding risk
Quarterly dependency risk review	Enterprise architecture、risk executives、procurement、legal、audit liaison	critical dependency map、vendor concentration、exit drill results、blast-radius stress tests
Major change gate	Product, architecture, model risk, security, data, compliance	dependency impact assessment、cross-use-case regression scope、approval or hold
Incident postmortem	Incident commander、affected owners、risk, security, legal, audit evidence owner	root cause、propagation analysis、customer impact、control failure、portfolio remediation
Annual AI portfolio resilience exercise	Senior management、business lines、risk, technology, vendors where appropriate	scenario stress test、kill switch drill、vendor exit tabletop、regulatory response simulation

8.1 RACI

Activity	Accountable	Responsible	Consulted	Informed
Dependency taxonomy and register	Enterprise Architecture	AI Platform + Product Architects	Data, Security, Risk	Business owners
Concentration limits	CRO / AI Governance Committee	Model Risk + Third-Party Risk	Enterprise Architecture, Legal, Procurement	Business executives
Shared service SLO	CIO / CTO	Platform Engineering	Product, Ops, Security	Risk committee
Policy drift control	Compliance / Policy Owner	Knowledge Governance + Product	Legal, Business, Model Risk	Customer-facing teams
HITL capacity governance	Operations Executive	Queue Owners + Workforce Planning	Risk, Product, Compliance	Business units
Incident propagation analysis	Incident Commander	AI Platform + Use Case Owners	Security, Legal, Audit	Senior management
Portfolio risk acceptance	CRO or delegated committee	Risk owner + Business owner	Architecture, Legal, Model Risk, TPRM	Internal audit

8.2 Architecture Review Questions

在 AI Architecture Review Board 上，不要只问系统图。问这些问题：

这个 use case 新增了哪些 shared dependencies？
它会提高哪个模型、vendor、RAG、policy、HITL、evidence stack 的 concentration？
依赖失败时，blast radius 是 use-case、domain 还是 enterprise？
fallback 是 tested fallback，还是文档里的想法？
事故时能否按 dependency 维度 kill switch，而不是只能全关应用？
RAG 的 authoritative source、effective date、ACL 和 index version 如何证明？
人工复核队列是否已有容量、技能、优先级和 surge plan？
监控证据是否在机构侧保留，还是只在 vendor portal？
这个变更是否需要 cross-use-case regression？
哪个管理层角色接受 residual portfolio dependency risk？

9. Operating Model：从项目治理到 Portfolio Control Plane

9.1 三层控制面

Control plane	关注点	关键能力
Application control plane	单个 use case 的输入、输出、权限、反馈、人工审批	prompt policy、UI disclosure、human review、workflow guardrail
Platform control plane	跨用例共享的模型、RAG、tool、identity、logging、routing	model gateway、policy service、tool gateway、trace schema、SLO
Portfolio control plane	企业级集中度、blast radius、resilience、risk acceptance、governance cadence	dependency graph、heatmap、KRI dashboard、scenario stress test、committee decisions

没有 portfolio control plane 的企业，会不断批准“看起来都可控”的单个用例，直到某个共享依赖出事时才发现整体不可控。

9.2 Control Plane 的最小可行组件

AI use case inventory：不是静态清单，而是连接 dependency graph。
Dependency register：模型、vendor、cloud、embedding、vector DB、knowledge source、policy service、identity、workflow、HITL、monitoring。
Model / RAG gateway：集中记录版本、路由、policy decision、latency、fallback、kill switch。
Knowledge governance workflow：source owner、metadata、effective date、ACL、index refresh、citation eval。
Shared KRI dashboard：concentration、quality drift、HITL saturation、policy drift、evidence completeness。
Change impact analyzer：模型或政策变更时查询 impacted use cases 和 required regression。
Incident propagation playbook：按 dependency 追踪 cross-use-case impact。
Risk acceptance workflow：portfolio-level residual risk 的 owner、期限、条件、复核触发器。

9.3 CBAP+ 需求写法

不要只写：

系统应记录模型调用日志。

要写成 portfolio requirement：

For every Tier 1 and Tier 2 AI use case, the platform shall record model version, prompt version, retrieval source IDs, policy decision ID, tool call parameters, human review action, fallback status, and dependency ID, so that incident responders can identify all use cases affected by a shared dependency failure within 30 minutes.

不要只写：

系统应支持人工复核。

要写成 shared control requirement：

The shared HITL service shall route review tasks by risk tier, regulatory deadline, customer impact, and required reviewer skill, and shall expose backlog, age, SLA breach, override rate, and surge capacity indicators by use case and portfolio dependency group.

10. Interview Section

Question

How do you manage AI risk at portfolio level, not just per project?

30-Second Answer

我会把 AI 风险从 use-case review 提升到 dependency architecture。单个项目可能通过评审，但如果多个客服、信贷、AML、财富或投诉用例共享同一个模型、vendor、RAG、policy service、HITL queue 或 evidence stack，就会产生 correlated failure 和 concentration risk。我的做法是建立 AI dependency register 和 portfolio dependency graph，按模型、供应商、知识源、策略服务、人工队列和证据栈计算 risk-weighted exposure；再用 concentration limits、blast-radius segmentation、fallback diversity、kill switch hierarchy、shared service SLO、vendor exit drill 和 incident propagation analysis 管理组合风险。

2-Minute Answer

项目级 AI risk management 主要回答“这个 use case 是否可以上线”。但金融零售企业真正危险的是 portfolio dependency risk：多个看似独立的 AI 用例共享同一模型、供应商、RAG 知识库、policy service、identity、workflow、human review queue 或 monitoring evidence stack。一旦模型升级、供应商中断、政策源漂移、权限过滤错误或人工队列过载，失败会跨用例传播，影响客户服务、信贷、AML、财富、投诉和分行运营。

我的管理方法分四步。第一，建立 AI dependency taxonomy 和 register，不只登记模型，还登记 vendor、cloud / GPU、embedding、vector DB、knowledge source、policy service、identity、workflow、HITL 和 evidence stack。第二，画 portfolio dependency graph，把 use case、business capability、risk tier、customer impact、dependency、control 和 owner 连接起来，计算 concentration、coupling、substitutability 和 blast radius。第三，设计 portfolio-level controls，例如单一模型和供应商的 concentration limits，高风险域的 blast-radius segmentation，模型和检索的 fallback diversity，按依赖分层的 kill switch，shared service SLO，vendor exit drill，以及任何 AI incident 都要做 propagation analysis。第四，把这些指标纳入治理节奏：周度运营看 SLO 和队列，月度看 KRI 和 concentration heatmap，季度做 dependency risk review 和 scenario stress test，重大变更前做 cross-use-case regression。

如果面试官追问例子，我会用金融零售场景说明：客服、信贷和 AML 如果共用同一模型和 RAG vendor，单个项目都可能是可接受风险，但 portfolio 级别可能已经超过风险偏好。我的架构目标不是阻止共享，而是让共享可见、可度量、可隔离、可降级、可退出、可审计。

11. Portfolio Exercise

Exercise Goal

为一家中型金融零售机构设计 AI Portfolio Systemic Risk / Dependency Architecture。假设已有 12 个 AI use cases：

客服 AI assistant；
分行员工知识助手；
信贷材料摘要；
AML case summarizer；
fraud alert triage；
wealth advisor copilot；
complaint response agent；
KYC exception assistant；
collections script assistant；
operations procedure assistant；
regulatory change summarizer；
developer coding assistant。

Step 1：分级

按客户影响、监管影响、数据敏感度、动作权限和可逆性给每个 use case 分 Tier 1 / Tier 2 / Tier 3。

建议：

Tier	示例
Tier 1	信贷材料摘要、AML case summarizer、fraud triage、wealth advisor copilot、complaint agent
Tier 2	客服 AI、KYC exception assistant、collections script assistant、分行员工知识助手
Tier 3	regulatory change summarizer、operations procedure assistant、developer coding assistant

Step 2：画 dependency graph

为每个 use case 标出：

model；
vendor；
cloud / GPU；
embedding；
vector DB；
knowledge source；
policy service；
identity；
workflow；
human review queue；
monitoring / evidence stack。

输出一张表：

Use case	Tier	Model	RAG / KB	Policy service	HITL	Evidence	Key shared dependency
Customer service AI	Tier 2	Model A	Customer KB	P1	Q1	O1	Model A, P1, O1
Lending summary	Tier 1	Model A	Credit KB	P1	Q2	O1	Model A, P1, O1
AML summarizer	Tier 1	Model A	AML KB	P1	Q3	O1	Model A, P1, O1
Wealth copilot	Tier 1	Model B	Wealth KB	P2	Q4	O1	Wealth KB, O1
Complaint agent	Tier 1	Model B	Wealth KB + Complaint SOP	P2	Q4	O1	Wealth KB, Q4, O1

Step 3：识别红色依赖

回答：

哪个 model 支撑最多 Tier 1 / Tier 2 use cases？
哪个 vendor 同时控制运行路径和证据路径？
哪个 knowledge source 的 policy drift 会影响前台和后台？
哪个 HITL queue 可能在事故中成为瓶颈？
哪个 monitoring / evidence dependency 失效后会导致多个 use case 无法 replay？

Step 4：设计控制组合

对每个红色依赖至少设计：

concentration limit；
blast-radius segmentation；
fallback diversity；
kill switch level；
SLO / KRI；
owner；
exit or recovery drill；
risk acceptance condition。

Step 5：写 portfolio risk acceptance memo

选择一个无法立即降低的 concentration risk，写一页 memo：

business rationale；
residual risk；
impacted use cases；
compensating controls；
time boundary；
review triggers；
exit / diversification roadmap；
accountable executive。

Step 6：做 tabletop exercise

选择一个压力场景：

Vendor X announces emergency model rollback after discovering a safety regression.
Your institution uses Vendor X model across customer service, lending, AML, and complaint AI.
Evidence export API is also degraded.

演练 90 分钟：

识别 impacted use cases；
决定 kill switch level；
切换 fallback；
启动 HITL prioritization；
固化证据；
形成客户、员工、监管和管理层沟通；
输出 remediation backlog。

12. Checklist

12.1 Portfolio Inventory

每个 AI use case 都有 risk tier、business capability、owner、approved boundary。
每个 use case 都连接到 dependency register，而不是孤立记录。
Dependency taxonomy 覆盖 model、vendor、cloud / GPU、embedding、vector DB、knowledge source、policy service、identity、workflow、HITL、monitoring / evidence stack。
每个 shared dependency 都有 technical owner、business owner、risk owner。
每个 high-impact dependency 都有 substitutability 和 exit time 估计。

12.2 Concentration And Blast Radius

已计算单一模型、vendor、RAG、policy service、HITL、evidence stack 的 risk-weighted exposure。
高集中度依赖有 heatmap、threshold、executive visibility。
Tier 1 / Tier 2 use cases 不会无意识集中在同一不可替代 vendor。
Blast-radius map 覆盖模型漂移、RAG 错误、政策漂移、HITL 饱和、证据失效、供应商中断。
高风险共享依赖有明确 kill switch level 和恢复条件。

12.3 Controls And Resilience

关键 use cases 有 tested fallback，而不只是设计文档。
Shared services 有 SLO，包括 model gateway、RAG、policy service、HITL、evidence stack。
Vendor exit drill 验证数据、prompt、eval、trace、index、合同和运营迁移。
Human review queue 有风险优先级、技能路由、surge plan 和 saturation alert。
Evidence retention 不完全依赖 vendor portal。

12.4 Policy Drift And Knowledge Governance

每个政策源有 authoritative source owner。
RAG metadata 包含 effective date、retirement date、jurisdiction、product、channel、customer segment。
高风险政策变更会触发 index refresh、prompt / policy rule review、cross-use-case regression。
前台和后台用例对同一政策问题有 consistency eval。
投诉、override、manual correction 能回流到知识治理和产品整改。

12.5 Incident And Governance

AI incident template 包含 dependency propagation analysis。
事故 triage 会查询共同模型、vendor、RAG、policy、identity、workflow、HITL 和 evidence stack。
Portfolio KRI 至少月度进入 AI Governance Committee。
Dependency risk review 至少季度执行一次。
Portfolio-level risk acceptance 有 owner、期限、条件、触发器和 compensating controls。

13. 最后的架构判断

金融零售 AI 的成熟标志，不是模型数量、PoC 数量或 demo 效果，而是企业能否回答：

我们的 AI portfolio 最关键的共同依赖是什么？
哪些单点依赖已经超出风险偏好？
哪些 use case 会在同一模型、政策、知识库、人工队列或证据栈失败时一起受影响？
我们能否在 30 分钟内识别 impacted use cases？
我们能否按依赖隔离、降级、切换和恢复，而不是全企业混乱停机？
我们能否向管理层、审计和监管证明控制真实运行？

如果答案不清楚，企业还停留在项目级 AI governance。真正的 AI enterprise architecture 要把每个 use case 放回 portfolio graph，把每个 shared dependency 变成可见、可度量、可控制、可演练、可退出、可审计的架构对象。