返回 Papers
AI 扩展计划 / Playbooks

AI Portfolio Systemic Risk / Dependency Architecture Playbook

核心判断:

976AI_PORTFOLIO_SYSTEMIC_RISK_DEPENDENCY_ARCHITECTURE_PLAYBOOK.md

AI Portfolio Systemic Risk / Dependency Architecture Playbook

定位:面向 CBAP+、金融零售 AI PM、AI Product Architect、Enterprise Architect、Model Risk、Third-Party Risk、Cyber / Operational Resilience 和 AI Governance 负责人。本文不是入门级“AI 风险清单”,而是训练你在企业 AI portfolio 层面识别、量化和治理 correlated AI failures、model / vendor concentration、shared data / knowledge dependency、policy drift、cross-use-case incident propagation 与 portfolio-level controls。

核心判断:

单个 AI use case 的 residual risk 可能是可接受的;但多个 use case 同时依赖同一个模型、供应商、知识源、身份服务、人工复核队列或证据栈时,portfolio dependency risk 可能不可接受。

金融零售企业的 AI 风险不再只是“某个模型是否准确”。真正的架构问题是:当同一个 foundation model 静默升级、同一个 RAG 知识库过期、同一个 policy service 配置漂移、同一个 human review queue 被打爆、同一个 monitoring stack 丢日志时,多少客户旅程、业务决策、监管流程和运营团队会同时受影响。


Source Anchors

以下锚点用于组织治理语言、监管对话和架构控制设计。本文是学习、作品集和架构训练材料,不构成法律意见、监管解释、审计结论或认证建议。正式项目必须由 legal、compliance、model risk、third-party risk、cyber、operational resilience、business owner 和 internal audit 按机构、司法辖区、客户影响、数据分类和供应商合同复核。

AnchorOfficial link本文使用方式
NIST AI Risk Management Frameworkhttps://www.nist.gov/itl/ai-risk-management-framework用 Govern / Map / Measure / Manage 组织 AI portfolio risk、dependency inventory、risk measurement、control monitoring 和 management reporting。
ISO/IEC 42001https://www.iso.org/standard/81230.html用 AI management system 语言连接组织目标、政策、过程、运行控制、绩效评价、管理评审和持续改进。
Federal Reserve SR 23-4https://www.federalreserve.gov/supervisionreg/srletters/SR2304.htm用第三方关系风险管理生命周期审视 AI vendor、cloud、model provider、RAG SaaS、managed service 和 exit planning。
OCC Bulletin 2023-17https://www.occ.gov/news-issuances/bulletins/2023/bulletin-2023-17.html作为 OCC 对 Interagency Guidance on Third-Party Relationships 的官方公告锚点,支持供应商集中度、合同、持续监控和终止管理。
NIST Cybersecurity Frameworkhttps://www.nist.gov/cyberframework用 Govern / Identify / Protect / Detect / Respond / Recover 补齐 AI dependency architecture 中的 resilience、identity、monitoring、incident response 和 recovery language。
FSB: The Financial Stability Implications of Artificial Intelligencehttps://www.fsb.org/2024/11/the-financial-stability-implications-of-artificial-intelligence/用于理解 AI 在金融体系层面可能放大的 vulnerabilities:third-party dependencies、service provider concentration、market correlations、cyber risks、model risk、data quality、governance。
FSB: Monitoring Adoption of AI and Related Vulnerabilities in the Financial Sectorhttps://www.fsb.org/2025/10/monitoring-adoption-of-artificial-intelligence-and-related-vulnerabilities-in-the-financial-sector/用于设计 AI adoption、critical third-party dependency、concentration、substitutability 和 systemic relevance 的监控指标。
FSB: Sound Practices for Responsible Adoption of AI, Consultation Reporthttps://www.fsb.org/2026/06/sound-practices-for-responsible-adoption-of-artificial-intelligence-ai-consultation-report/作为 2026 年咨询稿锚点,用于观察金融机构 AI adoption sound practices 的演进;正式引用时应注明其咨询状态。

1. 核心心智模型:Use Case Risk vs Portfolio Dependency Risk

传统 AI governance 很容易停在项目层:

Use case intake
-> risk tiering
-> model / data review
-> eval gate
-> release approval
-> ongoing monitoring

这条线仍然必要,但不充分。企业 AI portfolio 的风险来自横向耦合:

多个业务用例
-> 共享模型 / RAG / vendor / policy / identity / HITL / monitoring
-> 共同失效条件
-> 同时影响多个客户旅程、业务流程、控制流程和监管义务

1.1 单点通过不等于组合安全

一个客服总结助手可能是中风险;一个信贷材料摘要助手可能在人工审批前使用,单独看也可接受;一个 AML case summarizer 如果只是辅助调查员阅读,也可能被批准。但如果这三个系统共享:

  • 同一个 LLM provider;
  • 同一个 embedding model;
  • 同一个 customer knowledge base;
  • 同一个 prompt / policy guardrail;
  • 同一个 case evidence logging stack;
  • 同一个人工复核队列;

那么组合风险就不是三份低中风险相加,而是一个 portfolio-level correlated failure surface。

典型问题:

项目级判断Portfolio-level 反问
该用例准确率达标同一模型升级后,多少用例的 accuracy、groundedness、refusal、tone 和 policy compliance 会同时变化?
该用例供应商通过尽调该供应商承载了多少高影响客户旅程?可替代性、退出时间、数据迁移路径是否足够?
该 RAG 知识库有 owner哪些业务域共用同一政策源?政策更新、权限错误或 source poisoning 会传播到哪里?
该流程有人审同一个 human review queue 在高峰、事故或监管事件中会不会成为共同瓶颈?
该系统有监控如果 monitoring / evidence stack 失效,哪些 use case 会失去可追溯性和事故复盘能力?

1.2 Portfolio Dependency Risk 的定义

AI portfolio dependency risk = 多个 AI use cases 对共同技术、数据、知识、供应商、控制、运营或人员能力的依赖,在特定压力场景下产生同步失效、放大影响、延迟恢复或证据缺失的风险。

它包含六类机制:

  1. Correlation:同一模型行为变化导致多个用例质量一起下降。
  2. Concentration:过多高影响用例集中在一个 vendor、cloud、GPU supply、embedding 或 vector DB 上。
  3. Propagation:一个政策源、知识库、身份授权或 workflow 配置错误跨用例传播。
  4. Contention:共享队列、人工审核、GPU capacity、rate limit、incident team 或 support channel 被争抢。
  5. Opacity:共享 observability / evidence stack 失效后,多个用例同时无法解释、复现或证明控制运行。
  6. Policy Drift:法规、内部政策、产品条款或风险偏好更新没有同步进入所有 AI 流程,导致不同用例给出不一致或过期行为。

1.3 架构师的关键转身

项目级 AI PM 问:“这个 use case 能不能上线?”

AI Product Architect 问:“这个 use case 应该接入哪些 shared platform controls?”

Enterprise Architect 问:“当这个 shared dependency 失败时,哪些 business capabilities 会同时失效,机构是否接受这个风险?”

CBAP+ 的价值在这里体现:你不是只写需求,而是把 business capability、process、decision、data、policy、system、vendor、control、evidence 和 role accountability 串成一张 dependency architecture。


2. Dependency Taxonomy:AI Portfolio 依赖分类

AI dependency taxonomy 要覆盖技术、数据、知识、流程、控制和运营。只登记模型供应商远远不够。

Dependency type示例典型失效模式Portfolio-level 风险
ModelFoundation model、fine-tuned model、reasoning model、vision model、speech model、reranker、judge model模型升级、退化、输出风格变化、拒答策略变化、推理成本突增、区域不可用多个用例同时 hallucination、over-refusal、under-refusal、延迟上升或成本失控
VendorLLM provider、RAG SaaS、agent platform、data vendor、eval vendor、observability vendor、system integrator服务中断、合同变化、数据条款变化、子处理方变化、支持响应慢、供应商被监管审查高影响用例集中在单一第三方,退出困难,监管问询时证据不足
Cloud / GPUCloud region、GPU cluster、managed AI platform、serverless inference、network egress容量不足、rate limit、region outage、GPU scarcity、成本峰值、quota 下调关键 AI 流程降级,多个业务单元争抢容量,SLO 破裂
EmbeddingEmbedding model、chunking strategy、tokenization、semantic schema、index versionembedding 版本变化、语义召回漂移、跨语言表现下降、敏感信息被向量化多个 RAG 应用同时检索错误、漏检政策、引用不支持结论
Vector DBVector store、hybrid search、metadata filter、ACL filter、index refresh job索引损坏、权限过滤错误、延迟上升、备份不可恢复、跨租户泄露知识访问越权、答案过期、客户或员工看到不该看到的内容
Knowledge source政策库、产品条款、FAQ、SOP、投诉规则、信贷政策、AML typology、KYC 标准source owner 不清、版本过期、同名文档冲突、权限不一致、文档被污染财富、客服、投诉、信贷、AML 等用例给出不一致或违规建议
Policy serviceGuardrail、policy-as-code、eligibility rules、risk appetite rules、content policy、disclosure rules规则漂移、测试不足、环境配置不一致、审批绕过、异常 fallback多个应用同时放松或过度收紧控制,造成客户伤害或业务阻塞
IdentityIAM、SSO、RBAC、ABAC、entitlement、customer consent、service account、tool token权限继承错误、token 泄露、role mapping 过宽、break-glass 滥用AI 跨流程访问不当数据或执行越权操作,且影响多个渠道
WorkflowAgent orchestration、case routing、tool gateway、approval flow、event bus、CRM / LOS / AML integrationtool call 参数错误、幂等性不足、事件重复、审批顺序错误、回滚失败AI 从“建议”变成“错误动作放大器”,跨系统产生数据污染
Human review queue客服升级队列、信贷二审、AML investigator、complaint analyst、branch ops review、model risk reviewer队列积压、技能错配、疲劳审查、SLA 超时、优先级冲突共享 HITL 从控制变成瓶颈,关键风险事件无法及时处理
Monitoring / evidence stackTrace、prompt log、model version log、RAG citation log、eval result、SIEM、GRC evidence binder日志缺失、采样过低、PII 未脱敏、trace 不可复现、证据分散多个 use case 同时无法解释事故、证明控制运行或支持监管响应

2.1 Dependency Criticality 的三个维度

对每个依赖都要打三类分:

Dimension评分问题高风险信号
Business criticality哪些 business capability、customer journey、regulatory process 依赖它?涉及信贷、AML、欺诈、投诉、财富建议、客户权益、监管报告
Coupling intensity依赖是否硬编码、同步调用、实时路径、无人工替代、无降级方案?单点实时调用、无法缓存、无替代 provider、失败即业务中断
Substitutability替代需要多久、证据如何迁移、合同是否允许、数据能否导出?退出时间超过业务容忍期,index / trace / fine-tune data 不可导出

可用一个简单公式做初筛:

Dependency Portfolio Criticality
= Impacted High-Risk Use Cases
  x Coupling Intensity
  x Recovery Time Gap
  x Evidence Loss Severity

这个公式不是精算模型,而是帮助管理层看到:风险不只来自“这个依赖坏了”,而来自“它坏的时候,我们同时失去多少业务能力、控制能力和证明能力”。


3. Portfolio Risk Map 与 Dependency Graph 方法

AI portfolio 风险图不是项目清单,而是一张有方向、有权重、有 owner、有控制状态的 dependency graph。

3.1 建图对象

Node type示例属性Owner
Use casename、business capability、risk tier、customer impact、regulatory relevance、RTO / RPO、approved boundaryBusiness owner + AI PM
Modelprovider、model id、version、deployment region、approved use boundary、eval pack、fallbackModel owner + Platform owner
Data / knowledgesource system、document set、classification、freshness SLA、lineage、ACL model、index versionData owner + Knowledge owner
Controlguardrail、policy rule、human review、rate limit、approval gate、monitoring rule、kill switchControl owner + Risk owner
Vendorservice type、contract owner、criticality、exit plan、subprocessor、SLA、incident noticeThird-party risk + Procurement
Workfloworchestration service、tool gateway、case routing、event topic、integration point、rollback methodProduct architect + System owner
Evidencetrace schema、retention、dashboard、GRC record、audit pack、incident logGovernance / Audit evidence owner

3.2 Edge 类型

Edge含义需要记录的权重
uses用例调用模型、工具、知识库或服务调用频率、同步/异步、失败影响、fallback
governed_by用例受某个 policy / guardrail / approval gate 控制控制强度、覆盖率、exception rate
retrieves_fromRAG / agent 从知识源检索freshness、citation correctness、ACL dependency
writes_toAI 或 workflow 写入业务系统可逆性、审批要求、客户影响
monitored_by用例依赖 observability / evidence stacklogging coverage、retention、replay ability
reviewed_by用例依赖人工队列或专家角色capacity、skill、SLA、surge plan
supplied_by组件由供应商提供substitutability、exit time、contractual control

3.3 建图步骤

  1. 从高影响 business capability 开始:不要从模型清单开始。先列客户服务、信贷、AML、欺诈、财富、投诉、分行运营、监管报告等能力。
  2. 把 AI use case 映射到 capability:每个 use case 只能有一个 primary capability,但可以有多个 secondary capability。
  3. 登记 shared dependencies:模型、vendor、cloud / GPU、embedding、vector DB、knowledge source、policy service、identity、workflow、HITL、monitoring / evidence stack。
  4. 标注 dependency edge:实时路径、批处理路径、控制路径、证据路径、人工路径要分开。
  5. 计算 exposure concentration:看某个依赖承载了多少高风险用例、多少客户交互量、多少关键流程、多少控制证据。
  6. 跑压力场景:模型升级、供应商中断、政策漂移、RAG 索引损坏、身份服务误配置、HITL 队列积压、日志丢失。
  7. 定义 portfolio controls:集中度限制、分段隔离、fallback diversity、kill switch hierarchy、shared SLO、exit drill、dependency risk review。
  8. 纳入治理节奏:月度 portfolio KRI、季度 dependency risk review、重大变更前 dependency impact assessment、事故后 propagation analysis。

3.4 简化图例

Customer Service AI
  -> Model A
  -> Embedding E1
  -> Vector DB V1
  -> Customer Policy KB
  -> Policy Service P1
  -> HITL Queue Q1
  -> Evidence Stack O1

Lending AI
  -> Model A
  -> Embedding E1
  -> Vector DB V1
  -> Credit Policy KB
  -> Policy Service P1
  -> HITL Queue Q2
  -> Evidence Stack O1

AML AI
  -> Model A
  -> Embedding E1
  -> Vector DB V1
  -> AML Typology KB
  -> Policy Service P1
  -> HITL Queue Q3
  -> Evidence Stack O1

项目级看,三个系统各自有模型、RAG、人工复核和监控。Portfolio 级看,Model A、Embedding E1、Vector DB V1、Policy Service P1、Evidence Stack O1 是共同失效点。

3.5 Heatmap 的两个坐标

Portfolio heatmap 不建议只用 likelihood / impact。对 dependency architecture 更有效的坐标是:

X-axis: Concentration / Coupling
Y-axis: Business / Regulatory Impact
Zone解释管理动作
High concentration + high impact系统性依赖风险区必须有 executive visibility、concentration limit、fallback diversity、exit drill、incident propagation playbook
High concentration + low impact规模效率区可接受共享,但要有 SLO、成本、容量、basic fallback 和 monitoring
Low concentration + high impact高影响定制区聚焦 use-case specific control、validation、human oversight、audit evidence
Low concentration + low impact常规运营区轻量治理,避免过度控制

4. Financial Retail Cases

Case 1:客服 + 信贷 + AML 共用同一模型、RAG、Vendor

场景

一家零售金融机构为了提升效率,采用同一个 enterprise LLM vendor 和 RAG platform:

  • 客服 AI:回答账户、费用、产品、争议处理问题。
  • Lending AI:总结申请材料、解释信贷政策、生成审批备忘录草稿。
  • AML AI:总结 suspicious activity case、提取交易模式、建议调查问题。

项目团队分别完成了风险评估:

Use case项目级判断
客服 AI不直接交易,不做最终决定,人工升级可用,残余风险中等
Lending AI仅辅助 underwriter,最终审批由人做,残余风险可接受
AML AI仅辅助 investigator,case disposition 由人确认,残余风险可接受

Portfolio 级问题

三者共享同一组关键依赖:

Vendor X
-> Model X-Reasoning
-> Embedding X-Embed
-> RAG SaaS X-Knowledge
-> Vector index managed by Vendor X
-> Policy guardrail template maintained by Vendor X
-> Shared evidence export API

如果 Vendor X 的模型更新改变了 summarization bias,可能出现:

  • 客服回答更自信,但引用条款不完整;
  • Lending summary 低估负面收入波动;
  • AML summary 过度压缩异常交易序列,遗漏关键模式;
  • 三个团队都以为是“个别质量波动”,没有意识到共同根因是模型行为变化。

架构诊断

DependencyFailure modePropagation pathImpact
Model X-Reasoningsummarization compression drift三个 use case 同时输出更短、更确定但证据不足的摘要客户误导、信贷判断偏差、AML 调查质量下降
Embedding X-Embedpolicy retrieval recall 下降RAG 召回旧条款或漏掉例外规则客服、信贷和 AML 引用不完整
RAG SaaSACL filter defect客服可检索内部信贷政策片段数据越权、客户沟通风险
Evidence export API事故时 trace 导出延迟三个团队无法及时复盘审计、监管响应和客户纠错困难

Portfolio controls

  1. Concentration limit:同一 vendor / model 不得承载超过既定阈值的 Tier 1 / Tier 2 customer-impact use cases,超过阈值必须由 AI Risk Committee 批准。
  2. Model diversity for critical paths:高影响摘要类用例至少保留一个可运行 fallback model 或 extractive baseline,用于事故、回归测试和紧急切换。
  3. Shared regression pack:每次模型、embedding、RAG 平台或 vendor policy template 变化,都要运行跨用例 golden set,包括客服条款、信贷边界案例、AML typology。
  4. Dependency incident flag:任一 use case 出现异常时,incident triage 必须检查是否存在共同模型、RAG、embedding、vendor、evidence stack。
  5. Evidence independence:关键 use case 的 trace / audit export 不应只依赖 vendor 自有界面;至少要有机构侧日志落地和不可篡改保留策略。

Case 2:财富助手与投诉 Agent 共用同一政策源

场景

财富助手面向理财顾问,帮助解释产品适配性、费用、风险等级和披露要求。投诉 Agent 面向后台投诉团队,帮助分析客户投诉是否涉及误导销售、费用争议或不当建议。

两个系统都连接同一个 “Wealth Policy Knowledge Base”:

Wealth Assistant
  -> Wealth Policy KB
  -> Product Disclosure Docs
  -> Suitability Policy

Complaint Agent
  -> Wealth Policy KB
  -> Product Disclosure Docs
  -> Complaint Handling SOP

Portfolio 级问题

某次政策更新后,产品费用披露文档已更新,但 suitability policy 的例外条款未同步进入 RAG index。财富助手继续引用旧规则,投诉 Agent 则用同一旧规则判断历史投诉是否成立。

这不是一个简单知识库过期问题,而是 policy drift 在前台建议和后台纠错流程之间形成闭环偏差:

  • 前台可能持续给出过期解释;
  • 后台投诉分析可能低估问题严重性;
  • 管理层看到的 complaint trend 被低估;
  • remediation 范围被错误缩小。

架构诊断

Layer控制缺口正确做法
Knowledge governance文档更新没有 mandatory index refresh 和 validation gatepolicy source、index version、effective date、superseded docs 必须绑定
RetrievalRAG 只看 semantic similarity,不强制 effective date检索必须加入 effective date filter、jurisdiction、product version、customer segment
Policy service前台和投诉使用不同 prompt,但没有统一 policy decision record高风险政策解释必须产出 machine-readable policy decision metadata
Monitoring只监控 answer rating,不监控 policy consistency建立 cross-use-case policy consistency eval
Incident投诉团队发现异常没有回传财富助手建立 policy drift incident propagation route

Portfolio controls

  1. Policy source of record:明确每类政策的 authoritative source,不允许团队私自复制政策片段作为长期知识源。
  2. Effective-date aware retrieval:RAG metadata 必须包含 effective date、retirement date、jurisdiction、product、channel、customer segment。
  3. Cross-use-case consistency tests:财富助手、客服、投诉、分行员工助手对同一政策问题必须给出一致边界;不要求措辞相同,但结论、引用和升级路径必须一致。
  4. Policy drift watchlist:高风险政策变更后,在 7 / 14 / 30 天内抽样查看相关 AI 输出、人工 override、投诉、quality review 和 customer correction。
  5. Closed-loop remediation:投诉 Agent 发现政策解释错误时,必须触发前台助手知识库、prompt、training note 和 advisor communication 的同步整改。

Case 3:Branch Operations Agent 打爆共享 HITL Queue

场景

分行运营 Agent 帮员工处理开户、地址变更、遗失卡、异常交易解释和客户资料补全。上线初期设计了人审:

Agent low confidence
-> HITL queue
-> Operations specialist review
-> Approve / edit / reject

同一个 HITL queue 后来被多个 AI 用例复用:

  • 分行运营 Agent;
  • 客服投诉草稿 Agent;
  • KYC exception Agent;
  • Loan documentation completeness Agent;
  • Fraud case pre-review Agent。

Portfolio 级问题

某周新政策和促销活动同时上线,分行运营 Agent 的 low-confidence rate 从 8% 升到 24%。大量任务进入共享 HITL queue,导致:

  • KYC exception 审核超时;
  • fraud case pre-review 延迟;
  • 投诉回复 SLA 破裂;
  • 分行员工绕过 AI 建议,手工处理但缺少记录;
  • 管理层误以为是“人力不足”,没有发现是 AI confidence drift + shared queue contention。

架构诊断

Signal项目级解释Portfolio 级解释
HITL backlog 上升分行用例高峰多个用例共享队列,无风险优先级和容量隔离
Low-confidence rate 上升新政策导致模型不熟知识更新、prompt、policy gate 和 routing 共同漂移
SLA breach运营团队忙不过来人工复核是 shared control,已经成为 systemic bottleneck
Manual workaround 增加员工不适应 AI控制绕过导致 evidence gap 和流程不可追踪

Portfolio controls

  1. Queue segmentation:按风险等级、监管时限、客户影响和业务流程隔离队列,不把所有 AI fallback 都丢进一个池子。
  2. Surge capacity plan:高峰、政策更新、事故、活动、系统变更期间预设临时 reviewer、优先级规则和自动降级策略。
  3. HITL SLO as shared control SLO:人工队列不是运营细节,而是 portfolio control;必须有 SLO、capacity、skill coverage、alert 和 owner。
  4. Confidence drift trigger:任一 use case 的 low-confidence、escalation、override 异常上升时,检查是否会冲击共享 HITL。
  5. Workaround monitoring:监控 AI bypass、manual completion、missing trace、late review,防止员工绕过控制后形成 invisible risk。

5. Portfolio-Level Controls

5.1 Concentration Limits

Concentration limits 不是简单规定“最多几个供应商”。金融零售 AI 要按风险权重定义限制。

Limit type示例规则管理意图
Model exposure limit单一 foundation model 不得承载超过 50% 的 Tier 1 customer-impact interactions;超过需 executive risk acceptance防止模型行为变化影响过多高影响场景
Vendor criticality limit单一 vendor 同时承载模型、RAG、observability、HITL tooling 时,必须触发 enhanced due diligence防止供应商纵向整合形成不可替代性
Knowledge source coupling limit同一政策源被 5 个以上高影响用例使用时,必须有 source owner、effective-date control 和 consistency eval防止政策漂移跨场景传播
Evidence dependency limit关键证据不得只存在于供应商控制台;Tier 1 / Tier 2 use cases 必须有机构侧 evidence retention防止事故和监管响应时失去证据
HITL capacity limit单一人工队列不得同时承载多个监管时限强约束流程,除非有优先级、隔离和 surge plan防止共享复核队列成为系统性瓶颈

建议使用 risk-weighted exposure:

Risk Weighted AI Exposure
= customer interactions x risk tier weight
  + regulated decisions x decision weight
  + sensitive records accessed x data weight
  + revenue / loss exposure x financial weight

然后对每个模型、vendor、cloud、RAG、policy source、HITL queue、evidence stack 计算占比。

5.2 Blast-Radius Segmentation

Blast-radius segmentation 的目标不是所有东西都隔离,而是让一个依赖失败时不会横向吞掉整个 portfolio。

Segmentation layer分段方式控制例子
Business domain客服、信贷、AML、财富、投诉、分行运营不同 domain 的高影响 RAG index 分离,policy change 独立审批
Risk tierTier 1、Tier 2、Tier 3Tier 1 使用更严格 model gateway、logging、human approval、fallback
Customer impact客户可见、员工辅助、后台分析、监管报告客户可见输出有 disclosure、refusal、tone、complaint route
Data sensitivityPublic、internal、confidential、restricted、regulatedrestricted 数据不能进入低治理 vendor SaaS
Action authorityread-only、draft、recommend、write、execute能写入业务系统的 agent 需要 tool approval 和 rollback
Evidence criticalitybest-effort log、audit log、regulatory evidence高关键证据进入独立存储和 retention policy

一个成熟的 AI platform 应该允许共享基础能力,同时用 routing、policy、identity、data filter、logging、rate limit 和 kill switch 做分段。

5.3 Fallback Diversity

Fallback 不是“模型 A 挂了就切模型 B”。有效 fallback 必须覆盖四种差异:

Diversity type说明示例
Model diversity不同 provider、model family、deployment mode 或 smaller model baselineLLM A 失败时切到 LLM B;高风险摘要切到 extractive summarizer
Retrieval diversity不同 index version、search mode、source snapshot 或 manual lookupsemantic search 异常时切到 keyword search + curated policy page
Workflow diversity自动 agent 降级为 draft-only、read-only 或 human-firsttool execution 关闭,但保留 evidence packet 生成
Operational diversity不同人工队列、供应商支持通道、cloud region、incident commanderHITL queue 饱和时切到风险优先级队列和临时 reviewer

Fallback 设计必须测试,不测试的 fallback 只是幻觉控制。每个 Tier 1 / Tier 2 use case 至少每季度做一次 fallback drill 或 tabletop exercise。

5.4 Kill Switch Hierarchy

Kill switch 要分层,避免只有“全关”这一种粗暴选项。

LevelKill switch影响范围使用场景
L0Prompt / response pattern block单个输出模式发现违规话术、错误披露、敏感内容泄露
L1Tool permission off某类动作禁止 AI 写入 CRM、发起退款、提交 case disposition
L2Use case degraded mode单个用例切到 draft-only、read-only、human approval required
L3Shared dependency isolation使用某模型、RAG、policy service 的一组用例共同依赖出现异常,需要阻断传播
L4Domain shutdown某业务域 AI 能力财富、信贷、AML 等高风险域出现系统性异常
L5Enterprise AI freeze全企业 AI 变更或运行冻结重大安全事件、供应商事故、证据失效、监管要求

Kill switch 需要明确:

  • 谁有权触发;
  • 触发后哪些系统自动通知;
  • 降级后的客户和员工体验;
  • 恢复条件和 evidence requirement;
  • 事后是否进入 risk acceptance 或 remediation。

5.5 Shared Service SLO

共享 AI 服务必须像核心平台一样有 SLO,而不是作为项目工具随意使用。

Shared serviceSLO 示例风险解释
Model gatewayavailability、p95 latency、error rate、fallback success、policy decision latency影响所有实时 AI 调用
RAG platformindex freshness、retrieval latency、citation correctness、ACL filter success影响知识正确性和权限安全
Policy servicedecision latency、rule deployment success、rollback time、policy test pass rate影响合规边界和客户承诺
HITL queuetime to first review、SLA breach rate、review quality、backlog by risk tier影响人机控制有效性
Observability / evidencetrace completeness、log delivery latency、replay success、retention compliance影响事故复盘和审计证明
Vendor supportincident response time、root cause report time、data export time、exit support影响恢复和治理能力

5.6 Vendor Exit Drill

Exit plan 写在合同里不等于可执行。AI vendor exit drill 要验证:

  1. 模型调用是否能切到替代 provider 或机构自托管模型。
  2. Prompt、eval、golden set、trace schema 是否 vendor-neutral。
  3. RAG 文档、metadata、embedding、index、citation history 是否能导出或重建。
  4. 生产日志、事故证据、human feedback、annotation 是否能保留。
  5. 数据删除、训练排除、保留期限和子处理方记录是否可证明。
  6. 替代方案的成本、延迟、质量和控制差异是否被业务接受。
  7. 客户沟通、员工指引、监管通知和服务降级脚本是否准备好。

Exit drill 的结果不应只给 procurement,而应进入 architecture review、risk committee 和 portfolio roadmap。

5.7 Dependency Risk Review

重大 AI 变更必须做 dependency risk review,而不是只做功能回归。

触发条件:

  • foundation model、embedding、reranker、judge model 版本变化;
  • vendor 合同、子处理方、数据条款、区域或 SLA 变化;
  • 新用例接入 shared model / RAG / policy / HITL / evidence stack;
  • 高风险政策或产品条款更新;
  • AI use case risk tier 升级;
  • 事故、near miss、监管问询、客户投诉趋势异常;
  • capacity、latency、cost、queue backlog 超过 KRI threshold。

Review 输出:

  • impacted use cases;
  • shared dependencies;
  • blast radius;
  • regression / eval scope;
  • control gaps;
  • kill switch readiness;
  • fallback readiness;
  • residual risk owner;
  • approval / remediation decision。

5.8 Incident Propagation Analysis

AI incident postmortem 不能只问“这个 use case 为什么出错”,还要问“这个错误会不会已经传播到其他 use cases”。

Propagation analysis checklist:

QuestionEvidence
是否有共同模型、embedding、RAG、policy service、vendor、identity、workflow、HITL 或 evidence stack?dependency graph 查询结果
同一时间窗口内其他 use case 是否出现 quality、latency、override、complaint、escalation、cost 异常?cross-use-case anomaly dashboard
错误输出是否来自共同知识源或政策版本?source lineage、index version、citation record
错误是否写入下游系统并被其他 AI 流程再次读取?writes_to edge、data lineage、event log
人工复核是否捕捉到异常,还是被队列积压吞掉?HITL SLA、review quality、backlog
监控和证据是否足以重放事故?trace completeness、model version、prompt、retrieval result、tool call
是否需要启动 shared dependency kill switch 或 domain-level degraded mode?incident commander decision record

6. Artifacts / Templates

6.1 AI Dependency Register

Field说明示例
Dependency ID唯一编号DEP-MODEL-001
Dependency typemodel、vendor、cloud、embedding、vector DB、knowledge source、policy service、identity、workflow、HITL、monitoringModel
Name / version名称与版本Model A v2026-05
Owner技术 owner、业务 owner、风险 ownerAI Platform Owner
Provider内部或外部供应商Vendor X
Used by use cases关联 use case 列表Customer Service AI、Lending AI、AML AI
Risk tier exposureTier 1 / Tier 2 / Tier 3 暴露2 个 Tier 1,4 个 Tier 2
Data classification访问数据等级Confidential + regulated customer data
Coupling moderealtime、batch、fallback、evidence-onlyrealtime
Substitutabilityhigh、medium、lowlow
Exit time estimate替换或退出所需时间90 days
SLO / SLA可用性、延迟、刷新、恢复99.9% availability, 4h incident notice
Controlsguardrail、logging、fallback、approval、rate limit、segmentationmodel gateway, regression pack, L3 kill switch
Open issues已知风险与整改No independent evidence export for RAG citations
Risk acceptance接受人、日期、条件CRO accepted for 6 months with exit drill

6.2 Concentration Risk Heatmap

DependencyTier 1 exposureTier 2 exposureCustomer volumeRegulated processSubstitutabilityHeat
Model A38HighLending, AML, complaintsMediumRed
Vendor X RAG25MediumWealth, complaintsLowRed
HITL Queue Q146HighKYC, fraud, complaintsLowRed
Evidence Stack O1512HighAudit and incident responseMediumAmber
Policy Service P213MediumCustomer disclosuresHighAmber

Heat 判定不要只看数量。一个依赖如果同时具备 high customer impact、low substitutability、evidence criticality,就算 use case 数量不多,也可能是红色。

6.3 Blast-Radius Map

ScenarioImpacted dependenciesImpacted use casesCustomer / regulatory impactImmediate controlRecovery target
Model A behavior driftModel A、shared prompts、judge model客服、信贷、AML错误摘要、拒答异常、调查质量下降L3 dependency isolation,切 fallback model24h 内完成 regression 和恢复
Wealth policy source outdatedWealth KB、vector index、policy service财富助手、投诉 Agent、客服过期披露、投诉判断偏差关闭相关政策问答,启动 manual policy lookup48h 内重建 index 并复测
HITL queue saturationQ1、routing rules、review workforce分行、KYC、fraud、complaintsSLA breach、人工绕过风险优先级队列,冻结低风险 AI escalation8h 内恢复高风险队列
Evidence stack outageO1、trace collector、GRC export所有 Tier 1 / Tier 2 use cases无法复盘、审计证据缺口暂停高风险自动动作,启用 local logging12h 内恢复证据链

6.4 Scenario Stress Test

Stress scenarioTest designPass criteriaRequired evidence
Single model degradation用 golden set 模拟模型升级导致 factuality 降低 15%高风险 use cases 被 regression gate 阻断;fallback 质量达最低标准eval report、blocked release record、fallback trace
Vendor regional outage模拟主 inference region 不可用 4 小时Tier 1 use cases 在 RTO 内降级,客户可见说明正确incident timeline、routing logs、customer comms
Policy drift把旧政策和新政策同时放入知识库RAG 检索必须优先 effective policy,并标注版本citation log、policy metadata、consistency eval
HITL overload模拟 review volume 达平日 3 倍高风险队列 SLA 保持,低风险任务自动延迟或关闭queue dashboard、routing decision、surge staffing record
Evidence loss模拟 trace collector 丢失 30 分钟高风险自动动作暂停,local fallback logging 生效kill switch record、local logs、replay test
Exit drill模拟 Vendor X 90 天内退出数据、prompt、eval、trace、index 重建路径可执行export files、migration runbook、cost / latency comparison

6.5 Shared Control Library

Control IDControl nameApplies toControl objectiveEvidence
CTRL-AI-DEP-001Dependency registrationAll AI use cases所有 shared dependency 可识别、可追踪、可分配 ownerdependency register entry
CTRL-AI-DEP-002Concentration thresholdTier 1 / Tier 2 portfolio防止单一模型、vendor、RAG、HITL、evidence stack 承载过多高影响风险heatmap, committee minutes
CTRL-AI-DEP-003Cross-use-case regressionShared model / RAG / policy变更前发现共同依赖引起的质量、政策和行为漂移regression report
CTRL-AI-DEP-004Blast-radius kill switchShared dependency异常时按依赖范围降级或隔离,而不是只关闭单个应用kill switch log
CTRL-AI-DEP-005Fallback drillCritical dependencies验证替代模型、知识路径、人工流程、证据链可运行drill report
CTRL-AI-DEP-006Incident propagation analysisAI incidents and near misses识别同根因影响的其他 use casespostmortem propagation section
CTRL-AI-DEP-007Policy drift controlPolicy-backed AI systems保证政策更新进入知识库、规则、prompt、eval 和前后台流程policy version record, consistency test
CTRL-AI-DEP-008Shared HITL capacity controlHuman review queues防止人工复核队列成为系统性瓶颈SLO dashboard, capacity plan
CTRL-AI-DEP-009Independent evidence retentionTier 1 / Tier 2 use cases保证事故、审计、监管响应不完全依赖 vendor 控制台trace storage, retention proof

6.6 Portfolio Risk Acceptance Memo

Decision title:
Accept temporary concentration risk for Model A across customer service, lending, and AML AI use cases

Decision owner:
Chief Risk Officer, with AI Governance Committee endorsement

Business rationale:
Model A currently provides materially better multilingual quality, latency, and integration support than alternatives. Immediate diversification would delay three critical risk-reduction initiatives.

Risk accepted:
Model A supports 3 Tier 1 and 5 Tier 2 use cases, including customer-facing service explanations, lending document summarization, and AML case summarization. A model behavior change, regional outage, or vendor evidence export failure could affect multiple regulated workflows simultaneously.

Compensating controls:
1. Cross-use-case regression pack before any model version change.
2. L3 shared dependency kill switch in model gateway.
3. Extractive summarization fallback for lending and AML.
4. Independent institution-side trace retention for Tier 1 use cases.
5. Monthly concentration KRI reporting to AI Governance Committee.
6. Vendor exit drill completed within 90 days.

Time boundary:
Risk acceptance expires in 6 months or earlier if concentration threshold exceeds approved exposure.

Review triggers:
Vendor incident, model version change, new Tier 1 onboarding, KRI breach, regulatory inquiry, evidence export failure, or customer harm incident.

Residual risk statement:
Residual portfolio dependency risk remains elevated but is accepted temporarily because controls reduce immediate blast radius and a funded diversification roadmap is in execution.

7. Metrics / KRIs

Portfolio-level AI KRIs 要同时覆盖 concentration、correlation、control effectiveness、resilience、evidence 和 human capacity。

7.1 Concentration KRIs

KRIDefinitionRed signal
Top model exposure单一模型承载的 risk-weighted use case exposure 占比单一模型超过批准阈值,且缺少 tested fallback
Top vendor dependency单一 vendor 覆盖模型、RAG、observability、workflow 等多个层的 exposureVendor 同时控制关键运行路径和证据路径
Tier 1 shared dependency count每个 shared dependency 连接的 Tier 1 use case 数量超过阈值但没有 executive acceptance
Low substitutability exposurelow substitutability dependency 承载的高影响 use case 占比退出时间超过业务容忍期
Cloud / region AI exposure单一 cloud region 或 AI platform 的调用量和高风险任务占比region outage 会影响多个 regulated workflows

7.2 Correlated Failure KRIs

KRIDefinitionRed signal
Cross-use-case quality drift多个共享模型用例在同一窗口内 quality metric 同向变化factuality、groundedness、refusal、override 同时恶化
Shared policy inconsistency rate不同用例对同一政策问题给出不一致结论的比例财富、投诉、客服输出冲突
RAG citation failure cluster同一知识源引发的 citation missing / unsupported rate多个 use case 同时引用旧文档或错误文档
Common incident root cause ratioAI incidents 中由 shared dependency 引起的比例高比例说明架构耦合风险未被控制
Regression escape rate共享依赖变更后,生产发现但上线前未发现的问题比例说明 cross-use-case regression 不足

7.3 Resilience / Control KRIs

KRIDefinitionRed signal
Fallback drill pass rate关键依赖 fallback drill 通过率未测试或测试失败仍承载 Tier 1
Kill switch time to effect触发到实际阻断或降级生效的时间关键场景超过 RTO
Shared service SLO breachmodel gateway、RAG、policy、HITL、evidence stack 的 SLO breach连续 breach 且没有 remediation
HITL queue saturationbacklog、age、SLA breach、review quality by risk tier高风险队列被低风险任务挤占
Evidence completeness高风险 AI trace 包含 model version、prompt、retrieval、policy decision、tool call、human action 的比例事故无法 replay 或审计证据缺失

7.4 Policy Drift KRIs

KRIDefinitionRed signal
Policy-to-index lagauthoritative policy 更新到 RAG index 生效的时间超过 policy freshness SLO
Superseded document retrieval已废止文档被检索或引用的次数客户可见或高影响流程出现废止引用
Effective-date mismatchAI 使用的政策版本与交易、投诉或申请发生日期不匹配投诉和历史审查场景高发
Policy change eval coverage重大政策变更对应 eval cases 覆盖率重大政策变更没有 regression test
Cross-channel policy consistency客服、分行、财富、投诉对同一问题结论一致性渠道之间结论冲突

7.5 Suggested Thresholding

阈值不要一次定死。建议按三步成熟:

  1. Baseline:先记录 60-90 天,建立模型、RAG、HITL、policy、evidence 的自然波动范围。
  2. Risk appetite alignment:按 customer impact、regulatory obligation、operational resilience 设定红黄线。
  3. Dynamic triggers:在模型升级、政策变更、供应商事件、业务高峰、监管检查期间临时收紧阈值。

8. Governance Cadence

Portfolio dependency risk 必须进入固定治理节奏,否则会被项目进度吞掉。

CadenceParticipantsDecisions / Outputs
Weekly AI operations reviewAI platform、SRE、security、business ops、HITL managersshared service SLO、queue saturation、incident / near miss、urgent dependency issues
Monthly portfolio KRI reviewAI governance、model risk、third-party risk、data governance、cyber、business ownersconcentration heatmap、policy drift、fallback status、open remediation、new onboarding risk
Quarterly dependency risk reviewEnterprise architecture、risk executives、procurement、legal、audit liaisoncritical dependency map、vendor concentration、exit drill results、blast-radius stress tests
Major change gateProduct, architecture, model risk, security, data, compliancedependency impact assessment、cross-use-case regression scope、approval or hold
Incident postmortemIncident commander、affected owners、risk, security, legal, audit evidence ownerroot cause、propagation analysis、customer impact、control failure、portfolio remediation
Annual AI portfolio resilience exerciseSenior management、business lines、risk, technology, vendors where appropriatescenario stress test、kill switch drill、vendor exit tabletop、regulatory response simulation

8.1 RACI

ActivityAccountableResponsibleConsultedInformed
Dependency taxonomy and registerEnterprise ArchitectureAI Platform + Product ArchitectsData, Security, RiskBusiness owners
Concentration limitsCRO / AI Governance CommitteeModel Risk + Third-Party RiskEnterprise Architecture, Legal, ProcurementBusiness executives
Shared service SLOCIO / CTOPlatform EngineeringProduct, Ops, SecurityRisk committee
Policy drift controlCompliance / Policy OwnerKnowledge Governance + ProductLegal, Business, Model RiskCustomer-facing teams
HITL capacity governanceOperations ExecutiveQueue Owners + Workforce PlanningRisk, Product, ComplianceBusiness units
Incident propagation analysisIncident CommanderAI Platform + Use Case OwnersSecurity, Legal, AuditSenior management
Portfolio risk acceptanceCRO or delegated committeeRisk owner + Business ownerArchitecture, Legal, Model Risk, TPRMInternal audit

8.2 Architecture Review Questions

在 AI Architecture Review Board 上,不要只问系统图。问这些问题:

  1. 这个 use case 新增了哪些 shared dependencies?
  2. 它会提高哪个模型、vendor、RAG、policy、HITL、evidence stack 的 concentration?
  3. 依赖失败时,blast radius 是 use-case、domain 还是 enterprise?
  4. fallback 是 tested fallback,还是文档里的想法?
  5. 事故时能否按 dependency 维度 kill switch,而不是只能全关应用?
  6. RAG 的 authoritative source、effective date、ACL 和 index version 如何证明?
  7. 人工复核队列是否已有容量、技能、优先级和 surge plan?
  8. 监控证据是否在机构侧保留,还是只在 vendor portal?
  9. 这个变更是否需要 cross-use-case regression?
  10. 哪个管理层角色接受 residual portfolio dependency risk?

9. Operating Model:从项目治理到 Portfolio Control Plane

9.1 三层控制面

Control plane关注点关键能力
Application control plane单个 use case 的输入、输出、权限、反馈、人工审批prompt policy、UI disclosure、human review、workflow guardrail
Platform control plane跨用例共享的模型、RAG、tool、identity、logging、routingmodel gateway、policy service、tool gateway、trace schema、SLO
Portfolio control plane企业级集中度、blast radius、resilience、risk acceptance、governance cadencedependency graph、heatmap、KRI dashboard、scenario stress test、committee decisions

没有 portfolio control plane 的企业,会不断批准“看起来都可控”的单个用例,直到某个共享依赖出事时才发现整体不可控。

9.2 Control Plane 的最小可行组件

  1. AI use case inventory:不是静态清单,而是连接 dependency graph。
  2. Dependency register:模型、vendor、cloud、embedding、vector DB、knowledge source、policy service、identity、workflow、HITL、monitoring。
  3. Model / RAG gateway:集中记录版本、路由、policy decision、latency、fallback、kill switch。
  4. Knowledge governance workflow:source owner、metadata、effective date、ACL、index refresh、citation eval。
  5. Shared KRI dashboard:concentration、quality drift、HITL saturation、policy drift、evidence completeness。
  6. Change impact analyzer:模型或政策变更时查询 impacted use cases 和 required regression。
  7. Incident propagation playbook:按 dependency 追踪 cross-use-case impact。
  8. Risk acceptance workflow:portfolio-level residual risk 的 owner、期限、条件、复核触发器。

9.3 CBAP+ 需求写法

不要只写:

系统应记录模型调用日志。

要写成 portfolio requirement:

For every Tier 1 and Tier 2 AI use case, the platform shall record model version, prompt version, retrieval source IDs, policy decision ID, tool call parameters, human review action, fallback status, and dependency ID, so that incident responders can identify all use cases affected by a shared dependency failure within 30 minutes.

不要只写:

系统应支持人工复核。

要写成 shared control requirement:

The shared HITL service shall route review tasks by risk tier, regulatory deadline, customer impact, and required reviewer skill, and shall expose backlog, age, SLA breach, override rate, and surge capacity indicators by use case and portfolio dependency group.

10. Interview Section

Question

How do you manage AI risk at portfolio level, not just per project?

30-Second Answer

我会把 AI 风险从 use-case review 提升到 dependency architecture。单个项目可能通过评审,但如果多个客服、信贷、AML、财富或投诉用例共享同一个模型、vendor、RAG、policy service、HITL queue 或 evidence stack,就会产生 correlated failure 和 concentration risk。我的做法是建立 AI dependency register 和 portfolio dependency graph,按模型、供应商、知识源、策略服务、人工队列和证据栈计算 risk-weighted exposure;再用 concentration limits、blast-radius segmentation、fallback diversity、kill switch hierarchy、shared service SLO、vendor exit drill 和 incident propagation analysis 管理组合风险。

2-Minute Answer

项目级 AI risk management 主要回答“这个 use case 是否可以上线”。但金融零售企业真正危险的是 portfolio dependency risk:多个看似独立的 AI 用例共享同一模型、供应商、RAG 知识库、policy service、identity、workflow、human review queue 或 monitoring evidence stack。一旦模型升级、供应商中断、政策源漂移、权限过滤错误或人工队列过载,失败会跨用例传播,影响客户服务、信贷、AML、财富、投诉和分行运营。

我的管理方法分四步。第一,建立 AI dependency taxonomy 和 register,不只登记模型,还登记 vendor、cloud / GPU、embedding、vector DB、knowledge source、policy service、identity、workflow、HITL 和 evidence stack。第二,画 portfolio dependency graph,把 use case、business capability、risk tier、customer impact、dependency、control 和 owner 连接起来,计算 concentration、coupling、substitutability 和 blast radius。第三,设计 portfolio-level controls,例如单一模型和供应商的 concentration limits,高风险域的 blast-radius segmentation,模型和检索的 fallback diversity,按依赖分层的 kill switch,shared service SLO,vendor exit drill,以及任何 AI incident 都要做 propagation analysis。第四,把这些指标纳入治理节奏:周度运营看 SLO 和队列,月度看 KRI 和 concentration heatmap,季度做 dependency risk review 和 scenario stress test,重大变更前做 cross-use-case regression。

如果面试官追问例子,我会用金融零售场景说明:客服、信贷和 AML 如果共用同一模型和 RAG vendor,单个项目都可能是可接受风险,但 portfolio 级别可能已经超过风险偏好。我的架构目标不是阻止共享,而是让共享可见、可度量、可隔离、可降级、可退出、可审计。


11. Portfolio Exercise

Exercise Goal

为一家中型金融零售机构设计 AI Portfolio Systemic Risk / Dependency Architecture。假设已有 12 个 AI use cases:

  1. 客服 AI assistant;
  2. 分行员工知识助手;
  3. 信贷材料摘要;
  4. AML case summarizer;
  5. fraud alert triage;
  6. wealth advisor copilot;
  7. complaint response agent;
  8. KYC exception assistant;
  9. collections script assistant;
  10. operations procedure assistant;
  11. regulatory change summarizer;
  12. developer coding assistant。

Step 1:分级

按客户影响、监管影响、数据敏感度、动作权限和可逆性给每个 use case 分 Tier 1 / Tier 2 / Tier 3。

建议:

Tier示例
Tier 1信贷材料摘要、AML case summarizer、fraud triage、wealth advisor copilot、complaint agent
Tier 2客服 AI、KYC exception assistant、collections script assistant、分行员工知识助手
Tier 3regulatory change summarizer、operations procedure assistant、developer coding assistant

Step 2:画 dependency graph

为每个 use case 标出:

  • model;
  • vendor;
  • cloud / GPU;
  • embedding;
  • vector DB;
  • knowledge source;
  • policy service;
  • identity;
  • workflow;
  • human review queue;
  • monitoring / evidence stack。

输出一张表:

Use caseTierModelRAG / KBPolicy serviceHITLEvidenceKey shared dependency
Customer service AITier 2Model ACustomer KBP1Q1O1Model A, P1, O1
Lending summaryTier 1Model ACredit KBP1Q2O1Model A, P1, O1
AML summarizerTier 1Model AAML KBP1Q3O1Model A, P1, O1
Wealth copilotTier 1Model BWealth KBP2Q4O1Wealth KB, O1
Complaint agentTier 1Model BWealth KB + Complaint SOPP2Q4O1Wealth KB, Q4, O1

Step 3:识别红色依赖

回答:

  1. 哪个 model 支撑最多 Tier 1 / Tier 2 use cases?
  2. 哪个 vendor 同时控制运行路径和证据路径?
  3. 哪个 knowledge source 的 policy drift 会影响前台和后台?
  4. 哪个 HITL queue 可能在事故中成为瓶颈?
  5. 哪个 monitoring / evidence dependency 失效后会导致多个 use case 无法 replay?

Step 4:设计控制组合

对每个红色依赖至少设计:

  • concentration limit;
  • blast-radius segmentation;
  • fallback diversity;
  • kill switch level;
  • SLO / KRI;
  • owner;
  • exit or recovery drill;
  • risk acceptance condition。

Step 5:写 portfolio risk acceptance memo

选择一个无法立即降低的 concentration risk,写一页 memo:

  • business rationale;
  • residual risk;
  • impacted use cases;
  • compensating controls;
  • time boundary;
  • review triggers;
  • exit / diversification roadmap;
  • accountable executive。

Step 6:做 tabletop exercise

选择一个压力场景:

Vendor X announces emergency model rollback after discovering a safety regression.
Your institution uses Vendor X model across customer service, lending, AML, and complaint AI.
Evidence export API is also degraded.

演练 90 分钟:

  1. 识别 impacted use cases;
  2. 决定 kill switch level;
  3. 切换 fallback;
  4. 启动 HITL prioritization;
  5. 固化证据;
  6. 形成客户、员工、监管和管理层沟通;
  7. 输出 remediation backlog。

12. Checklist

12.1 Portfolio Inventory

  • 每个 AI use case 都有 risk tier、business capability、owner、approved boundary。
  • 每个 use case 都连接到 dependency register,而不是孤立记录。
  • Dependency taxonomy 覆盖 model、vendor、cloud / GPU、embedding、vector DB、knowledge source、policy service、identity、workflow、HITL、monitoring / evidence stack。
  • 每个 shared dependency 都有 technical owner、business owner、risk owner。
  • 每个 high-impact dependency 都有 substitutability 和 exit time 估计。

12.2 Concentration And Blast Radius

  • 已计算单一模型、vendor、RAG、policy service、HITL、evidence stack 的 risk-weighted exposure。
  • 高集中度依赖有 heatmap、threshold、executive visibility。
  • Tier 1 / Tier 2 use cases 不会无意识集中在同一不可替代 vendor。
  • Blast-radius map 覆盖模型漂移、RAG 错误、政策漂移、HITL 饱和、证据失效、供应商中断。
  • 高风险共享依赖有明确 kill switch level 和恢复条件。

12.3 Controls And Resilience

  • 关键 use cases 有 tested fallback,而不只是设计文档。
  • Shared services 有 SLO,包括 model gateway、RAG、policy service、HITL、evidence stack。
  • Vendor exit drill 验证数据、prompt、eval、trace、index、合同和运营迁移。
  • Human review queue 有风险优先级、技能路由、surge plan 和 saturation alert。
  • Evidence retention 不完全依赖 vendor portal。

12.4 Policy Drift And Knowledge Governance

  • 每个政策源有 authoritative source owner。
  • RAG metadata 包含 effective date、retirement date、jurisdiction、product、channel、customer segment。
  • 高风险政策变更会触发 index refresh、prompt / policy rule review、cross-use-case regression。
  • 前台和后台用例对同一政策问题有 consistency eval。
  • 投诉、override、manual correction 能回流到知识治理和产品整改。

12.5 Incident And Governance

  • AI incident template 包含 dependency propagation analysis。
  • 事故 triage 会查询共同模型、vendor、RAG、policy、identity、workflow、HITL 和 evidence stack。
  • Portfolio KRI 至少月度进入 AI Governance Committee。
  • Dependency risk review 至少季度执行一次。
  • Portfolio-level risk acceptance 有 owner、期限、条件、触发器和 compensating controls。

13. 最后的架构判断

金融零售 AI 的成熟标志,不是模型数量、PoC 数量或 demo 效果,而是企业能否回答:

  1. 我们的 AI portfolio 最关键的共同依赖是什么?
  2. 哪些单点依赖已经超出风险偏好?
  3. 哪些 use case 会在同一模型、政策、知识库、人工队列或证据栈失败时一起受影响?
  4. 我们能否在 30 分钟内识别 impacted use cases?
  5. 我们能否按依赖隔离、降级、切换和恢复,而不是全企业混乱停机?
  6. 我们能否向管理层、审计和监管证明控制真实运行?

如果答案不清楚,企业还停留在项目级 AI governance。真正的 AI enterprise architecture 要把每个 use case 放回 portfolio graph,把每个 shared dependency 变成可见、可度量、可控制、可演练、可退出、可审计的架构对象。