AI Portfolio Systemic Risk / Dependency Architecture Playbook
核心判断:
AI Portfolio Systemic Risk / Dependency Architecture Playbook
定位:面向 CBAP+、金融零售 AI PM、AI Product Architect、Enterprise Architect、Model Risk、Third-Party Risk、Cyber / Operational Resilience 和 AI Governance 负责人。本文不是入门级“AI 风险清单”,而是训练你在企业 AI portfolio 层面识别、量化和治理 correlated AI failures、model / vendor concentration、shared data / knowledge dependency、policy drift、cross-use-case incident propagation 与 portfolio-level controls。
核心判断:
单个 AI use case 的 residual risk 可能是可接受的;但多个 use case 同时依赖同一个模型、供应商、知识源、身份服务、人工复核队列或证据栈时,portfolio dependency risk 可能不可接受。
金融零售企业的 AI 风险不再只是“某个模型是否准确”。真正的架构问题是:当同一个 foundation model 静默升级、同一个 RAG 知识库过期、同一个 policy service 配置漂移、同一个 human review queue 被打爆、同一个 monitoring stack 丢日志时,多少客户旅程、业务决策、监管流程和运营团队会同时受影响。
Source Anchors
以下锚点用于组织治理语言、监管对话和架构控制设计。本文是学习、作品集和架构训练材料,不构成法律意见、监管解释、审计结论或认证建议。正式项目必须由 legal、compliance、model risk、third-party risk、cyber、operational resilience、business owner 和 internal audit 按机构、司法辖区、客户影响、数据分类和供应商合同复核。
| Anchor | Official link | 本文使用方式 |
|---|---|---|
| NIST AI Risk Management Framework | https://www.nist.gov/itl/ai-risk-management-framework | 用 Govern / Map / Measure / Manage 组织 AI portfolio risk、dependency inventory、risk measurement、control monitoring 和 management reporting。 |
| ISO/IEC 42001 | https://www.iso.org/standard/81230.html | 用 AI management system 语言连接组织目标、政策、过程、运行控制、绩效评价、管理评审和持续改进。 |
| Federal Reserve SR 23-4 | https://www.federalreserve.gov/supervisionreg/srletters/SR2304.htm | 用第三方关系风险管理生命周期审视 AI vendor、cloud、model provider、RAG SaaS、managed service 和 exit planning。 |
| OCC Bulletin 2023-17 | https://www.occ.gov/news-issuances/bulletins/2023/bulletin-2023-17.html | 作为 OCC 对 Interagency Guidance on Third-Party Relationships 的官方公告锚点,支持供应商集中度、合同、持续监控和终止管理。 |
| NIST Cybersecurity Framework | https://www.nist.gov/cyberframework | 用 Govern / Identify / Protect / Detect / Respond / Recover 补齐 AI dependency architecture 中的 resilience、identity、monitoring、incident response 和 recovery language。 |
| FSB: The Financial Stability Implications of Artificial Intelligence | https://www.fsb.org/2024/11/the-financial-stability-implications-of-artificial-intelligence/ | 用于理解 AI 在金融体系层面可能放大的 vulnerabilities:third-party dependencies、service provider concentration、market correlations、cyber risks、model risk、data quality、governance。 |
| FSB: Monitoring Adoption of AI and Related Vulnerabilities in the Financial Sector | https://www.fsb.org/2025/10/monitoring-adoption-of-artificial-intelligence-and-related-vulnerabilities-in-the-financial-sector/ | 用于设计 AI adoption、critical third-party dependency、concentration、substitutability 和 systemic relevance 的监控指标。 |
| FSB: Sound Practices for Responsible Adoption of AI, Consultation Report | https://www.fsb.org/2026/06/sound-practices-for-responsible-adoption-of-artificial-intelligence-ai-consultation-report/ | 作为 2026 年咨询稿锚点,用于观察金融机构 AI adoption sound practices 的演进;正式引用时应注明其咨询状态。 |
1. 核心心智模型:Use Case Risk vs Portfolio Dependency Risk
传统 AI governance 很容易停在项目层:
Use case intake
-> risk tiering
-> model / data review
-> eval gate
-> release approval
-> ongoing monitoring
这条线仍然必要,但不充分。企业 AI portfolio 的风险来自横向耦合:
多个业务用例
-> 共享模型 / RAG / vendor / policy / identity / HITL / monitoring
-> 共同失效条件
-> 同时影响多个客户旅程、业务流程、控制流程和监管义务
1.1 单点通过不等于组合安全
一个客服总结助手可能是中风险;一个信贷材料摘要助手可能在人工审批前使用,单独看也可接受;一个 AML case summarizer 如果只是辅助调查员阅读,也可能被批准。但如果这三个系统共享:
- 同一个 LLM provider;
- 同一个 embedding model;
- 同一个 customer knowledge base;
- 同一个 prompt / policy guardrail;
- 同一个 case evidence logging stack;
- 同一个人工复核队列;
那么组合风险就不是三份低中风险相加,而是一个 portfolio-level correlated failure surface。
典型问题:
| 项目级判断 | Portfolio-level 反问 |
|---|---|
| 该用例准确率达标 | 同一模型升级后,多少用例的 accuracy、groundedness、refusal、tone 和 policy compliance 会同时变化? |
| 该用例供应商通过尽调 | 该供应商承载了多少高影响客户旅程?可替代性、退出时间、数据迁移路径是否足够? |
| 该 RAG 知识库有 owner | 哪些业务域共用同一政策源?政策更新、权限错误或 source poisoning 会传播到哪里? |
| 该流程有人审 | 同一个 human review queue 在高峰、事故或监管事件中会不会成为共同瓶颈? |
| 该系统有监控 | 如果 monitoring / evidence stack 失效,哪些 use case 会失去可追溯性和事故复盘能力? |
1.2 Portfolio Dependency Risk 的定义
AI portfolio dependency risk = 多个 AI use cases 对共同技术、数据、知识、供应商、控制、运营或人员能力的依赖,在特定压力场景下产生同步失效、放大影响、延迟恢复或证据缺失的风险。
它包含六类机制:
- Correlation:同一模型行为变化导致多个用例质量一起下降。
- Concentration:过多高影响用例集中在一个 vendor、cloud、GPU supply、embedding 或 vector DB 上。
- Propagation:一个政策源、知识库、身份授权或 workflow 配置错误跨用例传播。
- Contention:共享队列、人工审核、GPU capacity、rate limit、incident team 或 support channel 被争抢。
- Opacity:共享 observability / evidence stack 失效后,多个用例同时无法解释、复现或证明控制运行。
- Policy Drift:法规、内部政策、产品条款或风险偏好更新没有同步进入所有 AI 流程,导致不同用例给出不一致或过期行为。
1.3 架构师的关键转身
项目级 AI PM 问:“这个 use case 能不能上线?”
AI Product Architect 问:“这个 use case 应该接入哪些 shared platform controls?”
Enterprise Architect 问:“当这个 shared dependency 失败时,哪些 business capabilities 会同时失效,机构是否接受这个风险?”
CBAP+ 的价值在这里体现:你不是只写需求,而是把 business capability、process、decision、data、policy、system、vendor、control、evidence 和 role accountability 串成一张 dependency architecture。
2. Dependency Taxonomy:AI Portfolio 依赖分类
AI dependency taxonomy 要覆盖技术、数据、知识、流程、控制和运营。只登记模型供应商远远不够。
| Dependency type | 示例 | 典型失效模式 | Portfolio-level 风险 |
|---|---|---|---|
| Model | Foundation model、fine-tuned model、reasoning model、vision model、speech model、reranker、judge model | 模型升级、退化、输出风格变化、拒答策略变化、推理成本突增、区域不可用 | 多个用例同时 hallucination、over-refusal、under-refusal、延迟上升或成本失控 |
| Vendor | LLM provider、RAG SaaS、agent platform、data vendor、eval vendor、observability vendor、system integrator | 服务中断、合同变化、数据条款变化、子处理方变化、支持响应慢、供应商被监管审查 | 高影响用例集中在单一第三方,退出困难,监管问询时证据不足 |
| Cloud / GPU | Cloud region、GPU cluster、managed AI platform、serverless inference、network egress | 容量不足、rate limit、region outage、GPU scarcity、成本峰值、quota 下调 | 关键 AI 流程降级,多个业务单元争抢容量,SLO 破裂 |
| Embedding | Embedding model、chunking strategy、tokenization、semantic schema、index version | embedding 版本变化、语义召回漂移、跨语言表现下降、敏感信息被向量化 | 多个 RAG 应用同时检索错误、漏检政策、引用不支持结论 |
| Vector DB | Vector store、hybrid search、metadata filter、ACL filter、index refresh job | 索引损坏、权限过滤错误、延迟上升、备份不可恢复、跨租户泄露 | 知识访问越权、答案过期、客户或员工看到不该看到的内容 |
| Knowledge source | 政策库、产品条款、FAQ、SOP、投诉规则、信贷政策、AML typology、KYC 标准 | source owner 不清、版本过期、同名文档冲突、权限不一致、文档被污染 | 财富、客服、投诉、信贷、AML 等用例给出不一致或违规建议 |
| Policy service | Guardrail、policy-as-code、eligibility rules、risk appetite rules、content policy、disclosure rules | 规则漂移、测试不足、环境配置不一致、审批绕过、异常 fallback | 多个应用同时放松或过度收紧控制,造成客户伤害或业务阻塞 |
| Identity | IAM、SSO、RBAC、ABAC、entitlement、customer consent、service account、tool token | 权限继承错误、token 泄露、role mapping 过宽、break-glass 滥用 | AI 跨流程访问不当数据或执行越权操作,且影响多个渠道 |
| Workflow | Agent orchestration、case routing、tool gateway、approval flow、event bus、CRM / LOS / AML integration | tool call 参数错误、幂等性不足、事件重复、审批顺序错误、回滚失败 | AI 从“建议”变成“错误动作放大器”,跨系统产生数据污染 |
| Human review queue | 客服升级队列、信贷二审、AML investigator、complaint analyst、branch ops review、model risk reviewer | 队列积压、技能错配、疲劳审查、SLA 超时、优先级冲突 | 共享 HITL 从控制变成瓶颈,关键风险事件无法及时处理 |
| Monitoring / evidence stack | Trace、prompt log、model version log、RAG citation log、eval result、SIEM、GRC evidence binder | 日志缺失、采样过低、PII 未脱敏、trace 不可复现、证据分散 | 多个 use case 同时无法解释事故、证明控制运行或支持监管响应 |
2.1 Dependency Criticality 的三个维度
对每个依赖都要打三类分:
| Dimension | 评分问题 | 高风险信号 |
|---|---|---|
| Business criticality | 哪些 business capability、customer journey、regulatory process 依赖它? | 涉及信贷、AML、欺诈、投诉、财富建议、客户权益、监管报告 |
| Coupling intensity | 依赖是否硬编码、同步调用、实时路径、无人工替代、无降级方案? | 单点实时调用、无法缓存、无替代 provider、失败即业务中断 |
| Substitutability | 替代需要多久、证据如何迁移、合同是否允许、数据能否导出? | 退出时间超过业务容忍期,index / trace / fine-tune data 不可导出 |
可用一个简单公式做初筛:
Dependency Portfolio Criticality
= Impacted High-Risk Use Cases
x Coupling Intensity
x Recovery Time Gap
x Evidence Loss Severity
这个公式不是精算模型,而是帮助管理层看到:风险不只来自“这个依赖坏了”,而来自“它坏的时候,我们同时失去多少业务能力、控制能力和证明能力”。
3. Portfolio Risk Map 与 Dependency Graph 方法
AI portfolio 风险图不是项目清单,而是一张有方向、有权重、有 owner、有控制状态的 dependency graph。
3.1 建图对象
| Node type | 示例属性 | Owner |
|---|---|---|
| Use case | name、business capability、risk tier、customer impact、regulatory relevance、RTO / RPO、approved boundary | Business owner + AI PM |
| Model | provider、model id、version、deployment region、approved use boundary、eval pack、fallback | Model owner + Platform owner |
| Data / knowledge | source system、document set、classification、freshness SLA、lineage、ACL model、index version | Data owner + Knowledge owner |
| Control | guardrail、policy rule、human review、rate limit、approval gate、monitoring rule、kill switch | Control owner + Risk owner |
| Vendor | service type、contract owner、criticality、exit plan、subprocessor、SLA、incident notice | Third-party risk + Procurement |
| Workflow | orchestration service、tool gateway、case routing、event topic、integration point、rollback method | Product architect + System owner |
| Evidence | trace schema、retention、dashboard、GRC record、audit pack、incident log | Governance / Audit evidence owner |
3.2 Edge 类型
| Edge | 含义 | 需要记录的权重 |
|---|---|---|
| uses | 用例调用模型、工具、知识库或服务 | 调用频率、同步/异步、失败影响、fallback |
| governed_by | 用例受某个 policy / guardrail / approval gate 控制 | 控制强度、覆盖率、exception rate |
| retrieves_from | RAG / agent 从知识源检索 | freshness、citation correctness、ACL dependency |
| writes_to | AI 或 workflow 写入业务系统 | 可逆性、审批要求、客户影响 |
| monitored_by | 用例依赖 observability / evidence stack | logging coverage、retention、replay ability |
| reviewed_by | 用例依赖人工队列或专家角色 | capacity、skill、SLA、surge plan |
| supplied_by | 组件由供应商提供 | substitutability、exit time、contractual control |
3.3 建图步骤
- 从高影响 business capability 开始:不要从模型清单开始。先列客户服务、信贷、AML、欺诈、财富、投诉、分行运营、监管报告等能力。
- 把 AI use case 映射到 capability:每个 use case 只能有一个 primary capability,但可以有多个 secondary capability。
- 登记 shared dependencies:模型、vendor、cloud / GPU、embedding、vector DB、knowledge source、policy service、identity、workflow、HITL、monitoring / evidence stack。
- 标注 dependency edge:实时路径、批处理路径、控制路径、证据路径、人工路径要分开。
- 计算 exposure concentration:看某个依赖承载了多少高风险用例、多少客户交互量、多少关键流程、多少控制证据。
- 跑压力场景:模型升级、供应商中断、政策漂移、RAG 索引损坏、身份服务误配置、HITL 队列积压、日志丢失。
- 定义 portfolio controls:集中度限制、分段隔离、fallback diversity、kill switch hierarchy、shared SLO、exit drill、dependency risk review。
- 纳入治理节奏:月度 portfolio KRI、季度 dependency risk review、重大变更前 dependency impact assessment、事故后 propagation analysis。
3.4 简化图例
Customer Service AI
-> Model A
-> Embedding E1
-> Vector DB V1
-> Customer Policy KB
-> Policy Service P1
-> HITL Queue Q1
-> Evidence Stack O1
Lending AI
-> Model A
-> Embedding E1
-> Vector DB V1
-> Credit Policy KB
-> Policy Service P1
-> HITL Queue Q2
-> Evidence Stack O1
AML AI
-> Model A
-> Embedding E1
-> Vector DB V1
-> AML Typology KB
-> Policy Service P1
-> HITL Queue Q3
-> Evidence Stack O1
项目级看,三个系统各自有模型、RAG、人工复核和监控。Portfolio 级看,Model A、Embedding E1、Vector DB V1、Policy Service P1、Evidence Stack O1 是共同失效点。
3.5 Heatmap 的两个坐标
Portfolio heatmap 不建议只用 likelihood / impact。对 dependency architecture 更有效的坐标是:
X-axis: Concentration / Coupling
Y-axis: Business / Regulatory Impact
| Zone | 解释 | 管理动作 |
|---|---|---|
| High concentration + high impact | 系统性依赖风险区 | 必须有 executive visibility、concentration limit、fallback diversity、exit drill、incident propagation playbook |
| High concentration + low impact | 规模效率区 | 可接受共享,但要有 SLO、成本、容量、basic fallback 和 monitoring |
| Low concentration + high impact | 高影响定制区 | 聚焦 use-case specific control、validation、human oversight、audit evidence |
| Low concentration + low impact | 常规运营区 | 轻量治理,避免过度控制 |
4. Financial Retail Cases
Case 1:客服 + 信贷 + AML 共用同一模型、RAG、Vendor
场景
一家零售金融机构为了提升效率,采用同一个 enterprise LLM vendor 和 RAG platform:
- 客服 AI:回答账户、费用、产品、争议处理问题。
- Lending AI:总结申请材料、解释信贷政策、生成审批备忘录草稿。
- AML AI:总结 suspicious activity case、提取交易模式、建议调查问题。
项目团队分别完成了风险评估:
| Use case | 项目级判断 |
|---|---|
| 客服 AI | 不直接交易,不做最终决定,人工升级可用,残余风险中等 |
| Lending AI | 仅辅助 underwriter,最终审批由人做,残余风险可接受 |
| AML AI | 仅辅助 investigator,case disposition 由人确认,残余风险可接受 |
Portfolio 级问题
三者共享同一组关键依赖:
Vendor X
-> Model X-Reasoning
-> Embedding X-Embed
-> RAG SaaS X-Knowledge
-> Vector index managed by Vendor X
-> Policy guardrail template maintained by Vendor X
-> Shared evidence export API
如果 Vendor X 的模型更新改变了 summarization bias,可能出现:
- 客服回答更自信,但引用条款不完整;
- Lending summary 低估负面收入波动;
- AML summary 过度压缩异常交易序列,遗漏关键模式;
- 三个团队都以为是“个别质量波动”,没有意识到共同根因是模型行为变化。
架构诊断
| Dependency | Failure mode | Propagation path | Impact |
|---|---|---|---|
| Model X-Reasoning | summarization compression drift | 三个 use case 同时输出更短、更确定但证据不足的摘要 | 客户误导、信贷判断偏差、AML 调查质量下降 |
| Embedding X-Embed | policy retrieval recall 下降 | RAG 召回旧条款或漏掉例外规则 | 客服、信贷和 AML 引用不完整 |
| RAG SaaS | ACL filter defect | 客服可检索内部信贷政策片段 | 数据越权、客户沟通风险 |
| Evidence export API | 事故时 trace 导出延迟 | 三个团队无法及时复盘 | 审计、监管响应和客户纠错困难 |
Portfolio controls
- Concentration limit:同一 vendor / model 不得承载超过既定阈值的 Tier 1 / Tier 2 customer-impact use cases,超过阈值必须由 AI Risk Committee 批准。
- Model diversity for critical paths:高影响摘要类用例至少保留一个可运行 fallback model 或 extractive baseline,用于事故、回归测试和紧急切换。
- Shared regression pack:每次模型、embedding、RAG 平台或 vendor policy template 变化,都要运行跨用例 golden set,包括客服条款、信贷边界案例、AML typology。
- Dependency incident flag:任一 use case 出现异常时,incident triage 必须检查是否存在共同模型、RAG、embedding、vendor、evidence stack。
- Evidence independence:关键 use case 的 trace / audit export 不应只依赖 vendor 自有界面;至少要有机构侧日志落地和不可篡改保留策略。
Case 2:财富助手与投诉 Agent 共用同一政策源
场景
财富助手面向理财顾问,帮助解释产品适配性、费用、风险等级和披露要求。投诉 Agent 面向后台投诉团队,帮助分析客户投诉是否涉及误导销售、费用争议或不当建议。
两个系统都连接同一个 “Wealth Policy Knowledge Base”:
Wealth Assistant
-> Wealth Policy KB
-> Product Disclosure Docs
-> Suitability Policy
Complaint Agent
-> Wealth Policy KB
-> Product Disclosure Docs
-> Complaint Handling SOP
Portfolio 级问题
某次政策更新后,产品费用披露文档已更新,但 suitability policy 的例外条款未同步进入 RAG index。财富助手继续引用旧规则,投诉 Agent 则用同一旧规则判断历史投诉是否成立。
这不是一个简单知识库过期问题,而是 policy drift 在前台建议和后台纠错流程之间形成闭环偏差:
- 前台可能持续给出过期解释;
- 后台投诉分析可能低估问题严重性;
- 管理层看到的 complaint trend 被低估;
- remediation 范围被错误缩小。
架构诊断
| Layer | 控制缺口 | 正确做法 |
|---|---|---|
| Knowledge governance | 文档更新没有 mandatory index refresh 和 validation gate | policy source、index version、effective date、superseded docs 必须绑定 |
| Retrieval | RAG 只看 semantic similarity,不强制 effective date | 检索必须加入 effective date filter、jurisdiction、product version、customer segment |
| Policy service | 前台和投诉使用不同 prompt,但没有统一 policy decision record | 高风险政策解释必须产出 machine-readable policy decision metadata |
| Monitoring | 只监控 answer rating,不监控 policy consistency | 建立 cross-use-case policy consistency eval |
| Incident | 投诉团队发现异常没有回传财富助手 | 建立 policy drift incident propagation route |
Portfolio controls
- Policy source of record:明确每类政策的 authoritative source,不允许团队私自复制政策片段作为长期知识源。
- Effective-date aware retrieval:RAG metadata 必须包含 effective date、retirement date、jurisdiction、product、channel、customer segment。
- Cross-use-case consistency tests:财富助手、客服、投诉、分行员工助手对同一政策问题必须给出一致边界;不要求措辞相同,但结论、引用和升级路径必须一致。
- Policy drift watchlist:高风险政策变更后,在 7 / 14 / 30 天内抽样查看相关 AI 输出、人工 override、投诉、quality review 和 customer correction。
- Closed-loop remediation:投诉 Agent 发现政策解释错误时,必须触发前台助手知识库、prompt、training note 和 advisor communication 的同步整改。
Case 3:Branch Operations Agent 打爆共享 HITL Queue
场景
分行运营 Agent 帮员工处理开户、地址变更、遗失卡、异常交易解释和客户资料补全。上线初期设计了人审:
Agent low confidence
-> HITL queue
-> Operations specialist review
-> Approve / edit / reject
同一个 HITL queue 后来被多个 AI 用例复用:
- 分行运营 Agent;
- 客服投诉草稿 Agent;
- KYC exception Agent;
- Loan documentation completeness Agent;
- Fraud case pre-review Agent。
Portfolio 级问题
某周新政策和促销活动同时上线,分行运营 Agent 的 low-confidence rate 从 8% 升到 24%。大量任务进入共享 HITL queue,导致:
- KYC exception 审核超时;
- fraud case pre-review 延迟;
- 投诉回复 SLA 破裂;
- 分行员工绕过 AI 建议,手工处理但缺少记录;
- 管理层误以为是“人力不足”,没有发现是 AI confidence drift + shared queue contention。
架构诊断
| Signal | 项目级解释 | Portfolio 级解释 |
|---|---|---|
| HITL backlog 上升 | 分行用例高峰 | 多个用例共享队列,无风险优先级和容量隔离 |
| Low-confidence rate 上升 | 新政策导致模型不熟 | 知识更新、prompt、policy gate 和 routing 共同漂移 |
| SLA breach | 运营团队忙不过来 | 人工复核是 shared control,已经成为 systemic bottleneck |
| Manual workaround 增加 | 员工不适应 AI | 控制绕过导致 evidence gap 和流程不可追踪 |
Portfolio controls
- Queue segmentation:按风险等级、监管时限、客户影响和业务流程隔离队列,不把所有 AI fallback 都丢进一个池子。
- Surge capacity plan:高峰、政策更新、事故、活动、系统变更期间预设临时 reviewer、优先级规则和自动降级策略。
- HITL SLO as shared control SLO:人工队列不是运营细节,而是 portfolio control;必须有 SLO、capacity、skill coverage、alert 和 owner。
- Confidence drift trigger:任一 use case 的 low-confidence、escalation、override 异常上升时,检查是否会冲击共享 HITL。
- Workaround monitoring:监控 AI bypass、manual completion、missing trace、late review,防止员工绕过控制后形成 invisible risk。
5. Portfolio-Level Controls
5.1 Concentration Limits
Concentration limits 不是简单规定“最多几个供应商”。金融零售 AI 要按风险权重定义限制。
| Limit type | 示例规则 | 管理意图 |
|---|---|---|
| Model exposure limit | 单一 foundation model 不得承载超过 50% 的 Tier 1 customer-impact interactions;超过需 executive risk acceptance | 防止模型行为变化影响过多高影响场景 |
| Vendor criticality limit | 单一 vendor 同时承载模型、RAG、observability、HITL tooling 时,必须触发 enhanced due diligence | 防止供应商纵向整合形成不可替代性 |
| Knowledge source coupling limit | 同一政策源被 5 个以上高影响用例使用时,必须有 source owner、effective-date control 和 consistency eval | 防止政策漂移跨场景传播 |
| Evidence dependency limit | 关键证据不得只存在于供应商控制台;Tier 1 / Tier 2 use cases 必须有机构侧 evidence retention | 防止事故和监管响应时失去证据 |
| HITL capacity limit | 单一人工队列不得同时承载多个监管时限强约束流程,除非有优先级、隔离和 surge plan | 防止共享复核队列成为系统性瓶颈 |
建议使用 risk-weighted exposure:
Risk Weighted AI Exposure
= customer interactions x risk tier weight
+ regulated decisions x decision weight
+ sensitive records accessed x data weight
+ revenue / loss exposure x financial weight
然后对每个模型、vendor、cloud、RAG、policy source、HITL queue、evidence stack 计算占比。
5.2 Blast-Radius Segmentation
Blast-radius segmentation 的目标不是所有东西都隔离,而是让一个依赖失败时不会横向吞掉整个 portfolio。
| Segmentation layer | 分段方式 | 控制例子 |
|---|---|---|
| Business domain | 客服、信贷、AML、财富、投诉、分行运营 | 不同 domain 的高影响 RAG index 分离,policy change 独立审批 |
| Risk tier | Tier 1、Tier 2、Tier 3 | Tier 1 使用更严格 model gateway、logging、human approval、fallback |
| Customer impact | 客户可见、员工辅助、后台分析、监管报告 | 客户可见输出有 disclosure、refusal、tone、complaint route |
| Data sensitivity | Public、internal、confidential、restricted、regulated | restricted 数据不能进入低治理 vendor SaaS |
| Action authority | read-only、draft、recommend、write、execute | 能写入业务系统的 agent 需要 tool approval 和 rollback |
| Evidence criticality | best-effort log、audit log、regulatory evidence | 高关键证据进入独立存储和 retention policy |
一个成熟的 AI platform 应该允许共享基础能力,同时用 routing、policy、identity、data filter、logging、rate limit 和 kill switch 做分段。
5.3 Fallback Diversity
Fallback 不是“模型 A 挂了就切模型 B”。有效 fallback 必须覆盖四种差异:
| Diversity type | 说明 | 示例 |
|---|---|---|
| Model diversity | 不同 provider、model family、deployment mode 或 smaller model baseline | LLM A 失败时切到 LLM B;高风险摘要切到 extractive summarizer |
| Retrieval diversity | 不同 index version、search mode、source snapshot 或 manual lookup | semantic search 异常时切到 keyword search + curated policy page |
| Workflow diversity | 自动 agent 降级为 draft-only、read-only 或 human-first | tool execution 关闭,但保留 evidence packet 生成 |
| Operational diversity | 不同人工队列、供应商支持通道、cloud region、incident commander | HITL queue 饱和时切到风险优先级队列和临时 reviewer |
Fallback 设计必须测试,不测试的 fallback 只是幻觉控制。每个 Tier 1 / Tier 2 use case 至少每季度做一次 fallback drill 或 tabletop exercise。
5.4 Kill Switch Hierarchy
Kill switch 要分层,避免只有“全关”这一种粗暴选项。
| Level | Kill switch | 影响范围 | 使用场景 |
|---|---|---|---|
| L0 | Prompt / response pattern block | 单个输出模式 | 发现违规话术、错误披露、敏感内容泄露 |
| L1 | Tool permission off | 某类动作 | 禁止 AI 写入 CRM、发起退款、提交 case disposition |
| L2 | Use case degraded mode | 单个用例 | 切到 draft-only、read-only、human approval required |
| L3 | Shared dependency isolation | 使用某模型、RAG、policy service 的一组用例 | 共同依赖出现异常,需要阻断传播 |
| L4 | Domain shutdown | 某业务域 AI 能力 | 财富、信贷、AML 等高风险域出现系统性异常 |
| L5 | Enterprise AI freeze | 全企业 AI 变更或运行冻结 | 重大安全事件、供应商事故、证据失效、监管要求 |
Kill switch 需要明确:
- 谁有权触发;
- 触发后哪些系统自动通知;
- 降级后的客户和员工体验;
- 恢复条件和 evidence requirement;
- 事后是否进入 risk acceptance 或 remediation。
5.5 Shared Service SLO
共享 AI 服务必须像核心平台一样有 SLO,而不是作为项目工具随意使用。
| Shared service | SLO 示例 | 风险解释 |
|---|---|---|
| Model gateway | availability、p95 latency、error rate、fallback success、policy decision latency | 影响所有实时 AI 调用 |
| RAG platform | index freshness、retrieval latency、citation correctness、ACL filter success | 影响知识正确性和权限安全 |
| Policy service | decision latency、rule deployment success、rollback time、policy test pass rate | 影响合规边界和客户承诺 |
| HITL queue | time to first review、SLA breach rate、review quality、backlog by risk tier | 影响人机控制有效性 |
| Observability / evidence | trace completeness、log delivery latency、replay success、retention compliance | 影响事故复盘和审计证明 |
| Vendor support | incident response time、root cause report time、data export time、exit support | 影响恢复和治理能力 |
5.6 Vendor Exit Drill
Exit plan 写在合同里不等于可执行。AI vendor exit drill 要验证:
- 模型调用是否能切到替代 provider 或机构自托管模型。
- Prompt、eval、golden set、trace schema 是否 vendor-neutral。
- RAG 文档、metadata、embedding、index、citation history 是否能导出或重建。
- 生产日志、事故证据、human feedback、annotation 是否能保留。
- 数据删除、训练排除、保留期限和子处理方记录是否可证明。
- 替代方案的成本、延迟、质量和控制差异是否被业务接受。
- 客户沟通、员工指引、监管通知和服务降级脚本是否准备好。
Exit drill 的结果不应只给 procurement,而应进入 architecture review、risk committee 和 portfolio roadmap。
5.7 Dependency Risk Review
重大 AI 变更必须做 dependency risk review,而不是只做功能回归。
触发条件:
- foundation model、embedding、reranker、judge model 版本变化;
- vendor 合同、子处理方、数据条款、区域或 SLA 变化;
- 新用例接入 shared model / RAG / policy / HITL / evidence stack;
- 高风险政策或产品条款更新;
- AI use case risk tier 升级;
- 事故、near miss、监管问询、客户投诉趋势异常;
- capacity、latency、cost、queue backlog 超过 KRI threshold。
Review 输出:
- impacted use cases;
- shared dependencies;
- blast radius;
- regression / eval scope;
- control gaps;
- kill switch readiness;
- fallback readiness;
- residual risk owner;
- approval / remediation decision。
5.8 Incident Propagation Analysis
AI incident postmortem 不能只问“这个 use case 为什么出错”,还要问“这个错误会不会已经传播到其他 use cases”。
Propagation analysis checklist:
| Question | Evidence |
|---|---|
| 是否有共同模型、embedding、RAG、policy service、vendor、identity、workflow、HITL 或 evidence stack? | dependency graph 查询结果 |
| 同一时间窗口内其他 use case 是否出现 quality、latency、override、complaint、escalation、cost 异常? | cross-use-case anomaly dashboard |
| 错误输出是否来自共同知识源或政策版本? | source lineage、index version、citation record |
| 错误是否写入下游系统并被其他 AI 流程再次读取? | writes_to edge、data lineage、event log |
| 人工复核是否捕捉到异常,还是被队列积压吞掉? | HITL SLA、review quality、backlog |
| 监控和证据是否足以重放事故? | trace completeness、model version、prompt、retrieval result、tool call |
| 是否需要启动 shared dependency kill switch 或 domain-level degraded mode? | incident commander decision record |
6. Artifacts / Templates
6.1 AI Dependency Register
| Field | 说明 | 示例 |
|---|---|---|
| Dependency ID | 唯一编号 | DEP-MODEL-001 |
| Dependency type | model、vendor、cloud、embedding、vector DB、knowledge source、policy service、identity、workflow、HITL、monitoring | Model |
| Name / version | 名称与版本 | Model A v2026-05 |
| Owner | 技术 owner、业务 owner、风险 owner | AI Platform Owner |
| Provider | 内部或外部供应商 | Vendor X |
| Used by use cases | 关联 use case 列表 | Customer Service AI、Lending AI、AML AI |
| Risk tier exposure | Tier 1 / Tier 2 / Tier 3 暴露 | 2 个 Tier 1,4 个 Tier 2 |
| Data classification | 访问数据等级 | Confidential + regulated customer data |
| Coupling mode | realtime、batch、fallback、evidence-only | realtime |
| Substitutability | high、medium、low | low |
| Exit time estimate | 替换或退出所需时间 | 90 days |
| SLO / SLA | 可用性、延迟、刷新、恢复 | 99.9% availability, 4h incident notice |
| Controls | guardrail、logging、fallback、approval、rate limit、segmentation | model gateway, regression pack, L3 kill switch |
| Open issues | 已知风险与整改 | No independent evidence export for RAG citations |
| Risk acceptance | 接受人、日期、条件 | CRO accepted for 6 months with exit drill |
6.2 Concentration Risk Heatmap
| Dependency | Tier 1 exposure | Tier 2 exposure | Customer volume | Regulated process | Substitutability | Heat |
|---|---|---|---|---|---|---|
| Model A | 3 | 8 | High | Lending, AML, complaints | Medium | Red |
| Vendor X RAG | 2 | 5 | Medium | Wealth, complaints | Low | Red |
| HITL Queue Q1 | 4 | 6 | High | KYC, fraud, complaints | Low | Red |
| Evidence Stack O1 | 5 | 12 | High | Audit and incident response | Medium | Amber |
| Policy Service P2 | 1 | 3 | Medium | Customer disclosures | High | Amber |
Heat 判定不要只看数量。一个依赖如果同时具备 high customer impact、low substitutability、evidence criticality,就算 use case 数量不多,也可能是红色。
6.3 Blast-Radius Map
| Scenario | Impacted dependencies | Impacted use cases | Customer / regulatory impact | Immediate control | Recovery target |
|---|---|---|---|---|---|
| Model A behavior drift | Model A、shared prompts、judge model | 客服、信贷、AML | 错误摘要、拒答异常、调查质量下降 | L3 dependency isolation,切 fallback model | 24h 内完成 regression 和恢复 |
| Wealth policy source outdated | Wealth KB、vector index、policy service | 财富助手、投诉 Agent、客服 | 过期披露、投诉判断偏差 | 关闭相关政策问答,启动 manual policy lookup | 48h 内重建 index 并复测 |
| HITL queue saturation | Q1、routing rules、review workforce | 分行、KYC、fraud、complaints | SLA breach、人工绕过 | 风险优先级队列,冻结低风险 AI escalation | 8h 内恢复高风险队列 |
| Evidence stack outage | O1、trace collector、GRC export | 所有 Tier 1 / Tier 2 use cases | 无法复盘、审计证据缺口 | 暂停高风险自动动作,启用 local logging | 12h 内恢复证据链 |
6.4 Scenario Stress Test
| Stress scenario | Test design | Pass criteria | Required evidence |
|---|---|---|---|
| Single model degradation | 用 golden set 模拟模型升级导致 factuality 降低 15% | 高风险 use cases 被 regression gate 阻断;fallback 质量达最低标准 | eval report、blocked release record、fallback trace |
| Vendor regional outage | 模拟主 inference region 不可用 4 小时 | Tier 1 use cases 在 RTO 内降级,客户可见说明正确 | incident timeline、routing logs、customer comms |
| Policy drift | 把旧政策和新政策同时放入知识库 | RAG 检索必须优先 effective policy,并标注版本 | citation log、policy metadata、consistency eval |
| HITL overload | 模拟 review volume 达平日 3 倍 | 高风险队列 SLA 保持,低风险任务自动延迟或关闭 | queue dashboard、routing decision、surge staffing record |
| Evidence loss | 模拟 trace collector 丢失 30 分钟 | 高风险自动动作暂停,local fallback logging 生效 | kill switch record、local logs、replay test |
| Exit drill | 模拟 Vendor X 90 天内退出 | 数据、prompt、eval、trace、index 重建路径可执行 | export files、migration runbook、cost / latency comparison |
6.5 Shared Control Library
| Control ID | Control name | Applies to | Control objective | Evidence |
|---|---|---|---|---|
| CTRL-AI-DEP-001 | Dependency registration | All AI use cases | 所有 shared dependency 可识别、可追踪、可分配 owner | dependency register entry |
| CTRL-AI-DEP-002 | Concentration threshold | Tier 1 / Tier 2 portfolio | 防止单一模型、vendor、RAG、HITL、evidence stack 承载过多高影响风险 | heatmap, committee minutes |
| CTRL-AI-DEP-003 | Cross-use-case regression | Shared model / RAG / policy | 变更前发现共同依赖引起的质量、政策和行为漂移 | regression report |
| CTRL-AI-DEP-004 | Blast-radius kill switch | Shared dependency | 异常时按依赖范围降级或隔离,而不是只关闭单个应用 | kill switch log |
| CTRL-AI-DEP-005 | Fallback drill | Critical dependencies | 验证替代模型、知识路径、人工流程、证据链可运行 | drill report |
| CTRL-AI-DEP-006 | Incident propagation analysis | AI incidents and near misses | 识别同根因影响的其他 use cases | postmortem propagation section |
| CTRL-AI-DEP-007 | Policy drift control | Policy-backed AI systems | 保证政策更新进入知识库、规则、prompt、eval 和前后台流程 | policy version record, consistency test |
| CTRL-AI-DEP-008 | Shared HITL capacity control | Human review queues | 防止人工复核队列成为系统性瓶颈 | SLO dashboard, capacity plan |
| CTRL-AI-DEP-009 | Independent evidence retention | Tier 1 / Tier 2 use cases | 保证事故、审计、监管响应不完全依赖 vendor 控制台 | trace storage, retention proof |
6.6 Portfolio Risk Acceptance Memo
Decision title:
Accept temporary concentration risk for Model A across customer service, lending, and AML AI use cases
Decision owner:
Chief Risk Officer, with AI Governance Committee endorsement
Business rationale:
Model A currently provides materially better multilingual quality, latency, and integration support than alternatives. Immediate diversification would delay three critical risk-reduction initiatives.
Risk accepted:
Model A supports 3 Tier 1 and 5 Tier 2 use cases, including customer-facing service explanations, lending document summarization, and AML case summarization. A model behavior change, regional outage, or vendor evidence export failure could affect multiple regulated workflows simultaneously.
Compensating controls:
1. Cross-use-case regression pack before any model version change.
2. L3 shared dependency kill switch in model gateway.
3. Extractive summarization fallback for lending and AML.
4. Independent institution-side trace retention for Tier 1 use cases.
5. Monthly concentration KRI reporting to AI Governance Committee.
6. Vendor exit drill completed within 90 days.
Time boundary:
Risk acceptance expires in 6 months or earlier if concentration threshold exceeds approved exposure.
Review triggers:
Vendor incident, model version change, new Tier 1 onboarding, KRI breach, regulatory inquiry, evidence export failure, or customer harm incident.
Residual risk statement:
Residual portfolio dependency risk remains elevated but is accepted temporarily because controls reduce immediate blast radius and a funded diversification roadmap is in execution.
7. Metrics / KRIs
Portfolio-level AI KRIs 要同时覆盖 concentration、correlation、control effectiveness、resilience、evidence 和 human capacity。
7.1 Concentration KRIs
| KRI | Definition | Red signal |
|---|---|---|
| Top model exposure | 单一模型承载的 risk-weighted use case exposure 占比 | 单一模型超过批准阈值,且缺少 tested fallback |
| Top vendor dependency | 单一 vendor 覆盖模型、RAG、observability、workflow 等多个层的 exposure | Vendor 同时控制关键运行路径和证据路径 |
| Tier 1 shared dependency count | 每个 shared dependency 连接的 Tier 1 use case 数量 | 超过阈值但没有 executive acceptance |
| Low substitutability exposure | low substitutability dependency 承载的高影响 use case 占比 | 退出时间超过业务容忍期 |
| Cloud / region AI exposure | 单一 cloud region 或 AI platform 的调用量和高风险任务占比 | region outage 会影响多个 regulated workflows |
7.2 Correlated Failure KRIs
| KRI | Definition | Red signal |
|---|---|---|
| Cross-use-case quality drift | 多个共享模型用例在同一窗口内 quality metric 同向变化 | factuality、groundedness、refusal、override 同时恶化 |
| Shared policy inconsistency rate | 不同用例对同一政策问题给出不一致结论的比例 | 财富、投诉、客服输出冲突 |
| RAG citation failure cluster | 同一知识源引发的 citation missing / unsupported rate | 多个 use case 同时引用旧文档或错误文档 |
| Common incident root cause ratio | AI incidents 中由 shared dependency 引起的比例 | 高比例说明架构耦合风险未被控制 |
| Regression escape rate | 共享依赖变更后,生产发现但上线前未发现的问题比例 | 说明 cross-use-case regression 不足 |
7.3 Resilience / Control KRIs
| KRI | Definition | Red signal |
|---|---|---|
| Fallback drill pass rate | 关键依赖 fallback drill 通过率 | 未测试或测试失败仍承载 Tier 1 |
| Kill switch time to effect | 触发到实际阻断或降级生效的时间 | 关键场景超过 RTO |
| Shared service SLO breach | model gateway、RAG、policy、HITL、evidence stack 的 SLO breach | 连续 breach 且没有 remediation |
| HITL queue saturation | backlog、age、SLA breach、review quality by risk tier | 高风险队列被低风险任务挤占 |
| Evidence completeness | 高风险 AI trace 包含 model version、prompt、retrieval、policy decision、tool call、human action 的比例 | 事故无法 replay 或审计证据缺失 |
7.4 Policy Drift KRIs
| KRI | Definition | Red signal |
|---|---|---|
| Policy-to-index lag | authoritative policy 更新到 RAG index 生效的时间 | 超过 policy freshness SLO |
| Superseded document retrieval | 已废止文档被检索或引用的次数 | 客户可见或高影响流程出现废止引用 |
| Effective-date mismatch | AI 使用的政策版本与交易、投诉或申请发生日期不匹配 | 投诉和历史审查场景高发 |
| Policy change eval coverage | 重大政策变更对应 eval cases 覆盖率 | 重大政策变更没有 regression test |
| Cross-channel policy consistency | 客服、分行、财富、投诉对同一问题结论一致性 | 渠道之间结论冲突 |
7.5 Suggested Thresholding
阈值不要一次定死。建议按三步成熟:
- Baseline:先记录 60-90 天,建立模型、RAG、HITL、policy、evidence 的自然波动范围。
- Risk appetite alignment:按 customer impact、regulatory obligation、operational resilience 设定红黄线。
- Dynamic triggers:在模型升级、政策变更、供应商事件、业务高峰、监管检查期间临时收紧阈值。
8. Governance Cadence
Portfolio dependency risk 必须进入固定治理节奏,否则会被项目进度吞掉。
| Cadence | Participants | Decisions / Outputs |
|---|---|---|
| Weekly AI operations review | AI platform、SRE、security、business ops、HITL managers | shared service SLO、queue saturation、incident / near miss、urgent dependency issues |
| Monthly portfolio KRI review | AI governance、model risk、third-party risk、data governance、cyber、business owners | concentration heatmap、policy drift、fallback status、open remediation、new onboarding risk |
| Quarterly dependency risk review | Enterprise architecture、risk executives、procurement、legal、audit liaison | critical dependency map、vendor concentration、exit drill results、blast-radius stress tests |
| Major change gate | Product, architecture, model risk, security, data, compliance | dependency impact assessment、cross-use-case regression scope、approval or hold |
| Incident postmortem | Incident commander、affected owners、risk, security, legal, audit evidence owner | root cause、propagation analysis、customer impact、control failure、portfolio remediation |
| Annual AI portfolio resilience exercise | Senior management、business lines、risk, technology, vendors where appropriate | scenario stress test、kill switch drill、vendor exit tabletop、regulatory response simulation |
8.1 RACI
| Activity | Accountable | Responsible | Consulted | Informed |
|---|---|---|---|---|
| Dependency taxonomy and register | Enterprise Architecture | AI Platform + Product Architects | Data, Security, Risk | Business owners |
| Concentration limits | CRO / AI Governance Committee | Model Risk + Third-Party Risk | Enterprise Architecture, Legal, Procurement | Business executives |
| Shared service SLO | CIO / CTO | Platform Engineering | Product, Ops, Security | Risk committee |
| Policy drift control | Compliance / Policy Owner | Knowledge Governance + Product | Legal, Business, Model Risk | Customer-facing teams |
| HITL capacity governance | Operations Executive | Queue Owners + Workforce Planning | Risk, Product, Compliance | Business units |
| Incident propagation analysis | Incident Commander | AI Platform + Use Case Owners | Security, Legal, Audit | Senior management |
| Portfolio risk acceptance | CRO or delegated committee | Risk owner + Business owner | Architecture, Legal, Model Risk, TPRM | Internal audit |
8.2 Architecture Review Questions
在 AI Architecture Review Board 上,不要只问系统图。问这些问题:
- 这个 use case 新增了哪些 shared dependencies?
- 它会提高哪个模型、vendor、RAG、policy、HITL、evidence stack 的 concentration?
- 依赖失败时,blast radius 是 use-case、domain 还是 enterprise?
- fallback 是 tested fallback,还是文档里的想法?
- 事故时能否按 dependency 维度 kill switch,而不是只能全关应用?
- RAG 的 authoritative source、effective date、ACL 和 index version 如何证明?
- 人工复核队列是否已有容量、技能、优先级和 surge plan?
- 监控证据是否在机构侧保留,还是只在 vendor portal?
- 这个变更是否需要 cross-use-case regression?
- 哪个管理层角色接受 residual portfolio dependency risk?
9. Operating Model:从项目治理到 Portfolio Control Plane
9.1 三层控制面
| Control plane | 关注点 | 关键能力 |
|---|---|---|
| Application control plane | 单个 use case 的输入、输出、权限、反馈、人工审批 | prompt policy、UI disclosure、human review、workflow guardrail |
| Platform control plane | 跨用例共享的模型、RAG、tool、identity、logging、routing | model gateway、policy service、tool gateway、trace schema、SLO |
| Portfolio control plane | 企业级集中度、blast radius、resilience、risk acceptance、governance cadence | dependency graph、heatmap、KRI dashboard、scenario stress test、committee decisions |
没有 portfolio control plane 的企业,会不断批准“看起来都可控”的单个用例,直到某个共享依赖出事时才发现整体不可控。
9.2 Control Plane 的最小可行组件
- AI use case inventory:不是静态清单,而是连接 dependency graph。
- Dependency register:模型、vendor、cloud、embedding、vector DB、knowledge source、policy service、identity、workflow、HITL、monitoring。
- Model / RAG gateway:集中记录版本、路由、policy decision、latency、fallback、kill switch。
- Knowledge governance workflow:source owner、metadata、effective date、ACL、index refresh、citation eval。
- Shared KRI dashboard:concentration、quality drift、HITL saturation、policy drift、evidence completeness。
- Change impact analyzer:模型或政策变更时查询 impacted use cases 和 required regression。
- Incident propagation playbook:按 dependency 追踪 cross-use-case impact。
- Risk acceptance workflow:portfolio-level residual risk 的 owner、期限、条件、复核触发器。
9.3 CBAP+ 需求写法
不要只写:
系统应记录模型调用日志。
要写成 portfolio requirement:
For every Tier 1 and Tier 2 AI use case, the platform shall record model version, prompt version, retrieval source IDs, policy decision ID, tool call parameters, human review action, fallback status, and dependency ID, so that incident responders can identify all use cases affected by a shared dependency failure within 30 minutes.
不要只写:
系统应支持人工复核。
要写成 shared control requirement:
The shared HITL service shall route review tasks by risk tier, regulatory deadline, customer impact, and required reviewer skill, and shall expose backlog, age, SLA breach, override rate, and surge capacity indicators by use case and portfolio dependency group.
10. Interview Section
Question
How do you manage AI risk at portfolio level, not just per project?
30-Second Answer
我会把 AI 风险从 use-case review 提升到 dependency architecture。单个项目可能通过评审,但如果多个客服、信贷、AML、财富或投诉用例共享同一个模型、vendor、RAG、policy service、HITL queue 或 evidence stack,就会产生 correlated failure 和 concentration risk。我的做法是建立 AI dependency register 和 portfolio dependency graph,按模型、供应商、知识源、策略服务、人工队列和证据栈计算 risk-weighted exposure;再用 concentration limits、blast-radius segmentation、fallback diversity、kill switch hierarchy、shared service SLO、vendor exit drill 和 incident propagation analysis 管理组合风险。
2-Minute Answer
项目级 AI risk management 主要回答“这个 use case 是否可以上线”。但金融零售企业真正危险的是 portfolio dependency risk:多个看似独立的 AI 用例共享同一模型、供应商、RAG 知识库、policy service、identity、workflow、human review queue 或 monitoring evidence stack。一旦模型升级、供应商中断、政策源漂移、权限过滤错误或人工队列过载,失败会跨用例传播,影响客户服务、信贷、AML、财富、投诉和分行运营。
我的管理方法分四步。第一,建立 AI dependency taxonomy 和 register,不只登记模型,还登记 vendor、cloud / GPU、embedding、vector DB、knowledge source、policy service、identity、workflow、HITL 和 evidence stack。第二,画 portfolio dependency graph,把 use case、business capability、risk tier、customer impact、dependency、control 和 owner 连接起来,计算 concentration、coupling、substitutability 和 blast radius。第三,设计 portfolio-level controls,例如单一模型和供应商的 concentration limits,高风险域的 blast-radius segmentation,模型和检索的 fallback diversity,按依赖分层的 kill switch,shared service SLO,vendor exit drill,以及任何 AI incident 都要做 propagation analysis。第四,把这些指标纳入治理节奏:周度运营看 SLO 和队列,月度看 KRI 和 concentration heatmap,季度做 dependency risk review 和 scenario stress test,重大变更前做 cross-use-case regression。
如果面试官追问例子,我会用金融零售场景说明:客服、信贷和 AML 如果共用同一模型和 RAG vendor,单个项目都可能是可接受风险,但 portfolio 级别可能已经超过风险偏好。我的架构目标不是阻止共享,而是让共享可见、可度量、可隔离、可降级、可退出、可审计。
11. Portfolio Exercise
Exercise Goal
为一家中型金融零售机构设计 AI Portfolio Systemic Risk / Dependency Architecture。假设已有 12 个 AI use cases:
- 客服 AI assistant;
- 分行员工知识助手;
- 信贷材料摘要;
- AML case summarizer;
- fraud alert triage;
- wealth advisor copilot;
- complaint response agent;
- KYC exception assistant;
- collections script assistant;
- operations procedure assistant;
- regulatory change summarizer;
- developer coding assistant。
Step 1:分级
按客户影响、监管影响、数据敏感度、动作权限和可逆性给每个 use case 分 Tier 1 / Tier 2 / Tier 3。
建议:
| Tier | 示例 |
|---|---|
| Tier 1 | 信贷材料摘要、AML case summarizer、fraud triage、wealth advisor copilot、complaint agent |
| Tier 2 | 客服 AI、KYC exception assistant、collections script assistant、分行员工知识助手 |
| Tier 3 | regulatory change summarizer、operations procedure assistant、developer coding assistant |
Step 2:画 dependency graph
为每个 use case 标出:
- model;
- vendor;
- cloud / GPU;
- embedding;
- vector DB;
- knowledge source;
- policy service;
- identity;
- workflow;
- human review queue;
- monitoring / evidence stack。
输出一张表:
| Use case | Tier | Model | RAG / KB | Policy service | HITL | Evidence | Key shared dependency |
|---|---|---|---|---|---|---|---|
| Customer service AI | Tier 2 | Model A | Customer KB | P1 | Q1 | O1 | Model A, P1, O1 |
| Lending summary | Tier 1 | Model A | Credit KB | P1 | Q2 | O1 | Model A, P1, O1 |
| AML summarizer | Tier 1 | Model A | AML KB | P1 | Q3 | O1 | Model A, P1, O1 |
| Wealth copilot | Tier 1 | Model B | Wealth KB | P2 | Q4 | O1 | Wealth KB, O1 |
| Complaint agent | Tier 1 | Model B | Wealth KB + Complaint SOP | P2 | Q4 | O1 | Wealth KB, Q4, O1 |
Step 3:识别红色依赖
回答:
- 哪个 model 支撑最多 Tier 1 / Tier 2 use cases?
- 哪个 vendor 同时控制运行路径和证据路径?
- 哪个 knowledge source 的 policy drift 会影响前台和后台?
- 哪个 HITL queue 可能在事故中成为瓶颈?
- 哪个 monitoring / evidence dependency 失效后会导致多个 use case 无法 replay?
Step 4:设计控制组合
对每个红色依赖至少设计:
- concentration limit;
- blast-radius segmentation;
- fallback diversity;
- kill switch level;
- SLO / KRI;
- owner;
- exit or recovery drill;
- risk acceptance condition。
Step 5:写 portfolio risk acceptance memo
选择一个无法立即降低的 concentration risk,写一页 memo:
- business rationale;
- residual risk;
- impacted use cases;
- compensating controls;
- time boundary;
- review triggers;
- exit / diversification roadmap;
- accountable executive。
Step 6:做 tabletop exercise
选择一个压力场景:
Vendor X announces emergency model rollback after discovering a safety regression.
Your institution uses Vendor X model across customer service, lending, AML, and complaint AI.
Evidence export API is also degraded.
演练 90 分钟:
- 识别 impacted use cases;
- 决定 kill switch level;
- 切换 fallback;
- 启动 HITL prioritization;
- 固化证据;
- 形成客户、员工、监管和管理层沟通;
- 输出 remediation backlog。
12. Checklist
12.1 Portfolio Inventory
- 每个 AI use case 都有 risk tier、business capability、owner、approved boundary。
- 每个 use case 都连接到 dependency register,而不是孤立记录。
- Dependency taxonomy 覆盖 model、vendor、cloud / GPU、embedding、vector DB、knowledge source、policy service、identity、workflow、HITL、monitoring / evidence stack。
- 每个 shared dependency 都有 technical owner、business owner、risk owner。
- 每个 high-impact dependency 都有 substitutability 和 exit time 估计。
12.2 Concentration And Blast Radius
- 已计算单一模型、vendor、RAG、policy service、HITL、evidence stack 的 risk-weighted exposure。
- 高集中度依赖有 heatmap、threshold、executive visibility。
- Tier 1 / Tier 2 use cases 不会无意识集中在同一不可替代 vendor。
- Blast-radius map 覆盖模型漂移、RAG 错误、政策漂移、HITL 饱和、证据失效、供应商中断。
- 高风险共享依赖有明确 kill switch level 和恢复条件。
12.3 Controls And Resilience
- 关键 use cases 有 tested fallback,而不只是设计文档。
- Shared services 有 SLO,包括 model gateway、RAG、policy service、HITL、evidence stack。
- Vendor exit drill 验证数据、prompt、eval、trace、index、合同和运营迁移。
- Human review queue 有风险优先级、技能路由、surge plan 和 saturation alert。
- Evidence retention 不完全依赖 vendor portal。
12.4 Policy Drift And Knowledge Governance
- 每个政策源有 authoritative source owner。
- RAG metadata 包含 effective date、retirement date、jurisdiction、product、channel、customer segment。
- 高风险政策变更会触发 index refresh、prompt / policy rule review、cross-use-case regression。
- 前台和后台用例对同一政策问题有 consistency eval。
- 投诉、override、manual correction 能回流到知识治理和产品整改。
12.5 Incident And Governance
- AI incident template 包含 dependency propagation analysis。
- 事故 triage 会查询共同模型、vendor、RAG、policy、identity、workflow、HITL 和 evidence stack。
- Portfolio KRI 至少月度进入 AI Governance Committee。
- Dependency risk review 至少季度执行一次。
- Portfolio-level risk acceptance 有 owner、期限、条件、触发器和 compensating controls。
13. 最后的架构判断
金融零售 AI 的成熟标志,不是模型数量、PoC 数量或 demo 效果,而是企业能否回答:
- 我们的 AI portfolio 最关键的共同依赖是什么?
- 哪些单点依赖已经超出风险偏好?
- 哪些 use case 会在同一模型、政策、知识库、人工队列或证据栈失败时一起受影响?
- 我们能否在 30 分钟内识别 impacted use cases?
- 我们能否按依赖隔离、降级、切换和恢复,而不是全企业混乱停机?
- 我们能否向管理层、审计和监管证明控制真实运行?
如果答案不清楚,企业还停留在项目级 AI governance。真正的 AI enterprise architecture 要把每个 use case 放回 portfolio graph,把每个 shared dependency 变成可见、可度量、可控制、可演练、可退出、可审计的架构对象。