AI Portfolio Systemic Risk:依赖架构
一句话:
AI Portfolio Systemic Risk / Dependency Architecture 解读
面向对象: Enterprise Architect / AI Portfolio Lead / AI Product Architect / Risk Product Lead / Senior BA。 核心问题: 单个 AI use case 的风险可接受, 不代表整个 AI portfolio 的风险可接受。多个产品共用同一个模型、供应商、RAG 知识源、身份服务、human review queue 或 evidence stack 时, 会产生组合级依赖和相关失败。 学习目标: 建立 AI dependency graph、concentration risk heatmap、blast-radius map、fallback diversity、portfolio KRI 和 systemic incident response 的架构能力。
Source Anchors
| Source | Link | 用途 |
|---|---|---|
| NIST AI RMF | https://www.nist.gov/itl/ai-risk-management-framework | 用 Govern / Map / Measure / Manage 组织组合级 AI 风险 |
| ISO/IEC 42001 | https://www.iso.org/standard/81230.html | 把 portfolio governance、management review 和持续改进纳入 AI 管理体系 |
| Federal Reserve SR 23-4 | https://www.federalreserve.gov/supervisionreg/srletters/SR2304.htm | 参考第三方风险管理和业务韧性思维 |
| OCC Bulletin 2023-17 | https://www.occ.gov/news-issuances/bulletins/2023/bulletin-2023-17.html | 参考银行第三方风险管理原则 |
| NIST CSF | https://www.nist.gov/cyberframework | 参考 identify/protect/detect/respond/recover 的组合级控制 |
| FSB | https://www.fsb.org/ | 参考 AI 对金融稳定、集中度和第三方依赖的系统性风险讨论 |
一句话:
Portfolio risk starts where shared AI dependencies make independent failures correlated.
1. 为什么项目级 AI 风险评审不够
项目评审常问:
- 这个 use case 风险等级是什么。
- 这个模型是否通过验证。
- 这个 prompt 是否测试。
- 这个 agent 是否有 human oversight。
组合级风险问:
- 有多少关键流程依赖同一个模型供应商。
- 同一个政策知识库错误会影响多少产品。
- 同一个 embedding/index bug 会污染多少 RAG 系统。
- 同一个 human review queue 是否会被多个 agent 同时压垮。
- 同一个 tool gateway 故障会导致多少业务流程停止。
- 供应商模型更新会不会同时改变多个产品行为。
项目级看是绿色, portfolio 级可能是红色。
2. Dependency Taxonomy
| Dependency | 例子 | 风险 |
|---|---|---|
| Model | same frontier model for all copilots | correlated behavior drift |
| Vendor | single LLM vendor | concentration, outage, contract leverage |
| Cloud/GPU | same region/provider | capacity and resilience risk |
| Embedding model | shared embedding for RAG | retrieval drift |
| Vector DB | shared vector platform | outage, deletion complexity |
| Knowledge source | policy repository | stale policy affects many systems |
| Tool gateway | shared action layer | systemic tool failure |
| Identity service | delegated auth | cross-agent authorization incident |
| Policy service | runtime guardrails | global false allow/deny |
| Human queue | centralized reviewer pool | overload, escalation failure |
| Evidence stack | trace/evidence lake | audit blackout |
| Vendor support | managed agent platform | incident response dependency |
3. Dependency Graph Method
用图而不是表管理:
Use Case -> AI Capability -> Model -> Data/Knowledge -> Tools -> Control -> Human Queue -> Vendor -> Evidence
每个 node 记录:
- owner。
- criticality。
- number of dependent use cases。
- risk tier mix。
- fallback option。
- exit difficulty。
- incident history。
- SLO/KRI。
- review cadence。
每条 edge 记录:
- dependency type。
- strength。
- data sensitivity。
- action authority。
- failure propagation path。
4. Concentration Risk Heatmap
| Dependency | Dependent use cases | Risk tier | Fallback | Heat |
|---|---|---|---|---|
| LLM vendor A | 18 | medium/high | weak | red |
| Policy RAG source | 9 | high | manual policy search | amber |
| Tool gateway | 14 | high | read-only degrade | red |
| Human review queue | 11 | high | overflow team | amber |
| Evidence lake | 22 | all | delayed export | red |
高风险不是因为组件坏, 而是因为它坏了会同时影响很多高价值流程。
5. 金融零售案例
5.1 Shared model risk
客服、贷款、AML、投诉都接同一个模型。供应商更新模型后:
- 客服拒答率变化。
- 贷款政策解释风格变化。
- AML narrative 漏掉某类 red flag。
- 投诉处理语气不符合品牌/监管要求。
控制:
- model release impact assessment。
- canary by use case。
- high-risk use case freeze window。
- model diversity for critical workflows。
5.2 Shared policy source risk
财富顾问助手和投诉 agent 共用政策库。政策库 ingestion 出错:
- 客户收到过期披露。
- 投诉回复引用旧政策。
- advisor meeting note 误导。
控制:
- source authority registry。
- freshness SLO。
- ingestion validation。
- affected-use-case query。
5.3 Human review queue overload
多个 agent 都把异常升级到同一个中心审核队列。营销活动后 case 激增:
- 高风险贷款例外延迟。
- 投诉 SLA 超时。
- AML alert 积压。
控制:
- queue capacity model。
- priority policy。
- degraded autonomy level。
- surge staffing playbook。
6. Controls
| Control | 作用 |
|---|---|
| Concentration limits | 限制单一模型/供应商/平台承载过多 high-risk use cases |
| Blast-radius segmentation | 按业务域、风险等级、客户影响隔离 |
| Fallback diversity | 不同 use case 有不同降级路径 |
| Kill switch hierarchy | global、domain、agent、tool、model 多级停用 |
| Shared service SLO | 对 tool gateway、identity、evidence stack 定义 SLO |
| Vendor exit drill | 定期演练替换模型/供应商/平台 |
| Dependency review board | 评审新增 use case 对组合风险的影响 |
| Incident propagation analysis | 事故后查受影响 use cases 和 shared nodes |
7. Portfolio KRIs
| KRI | 为什么重要 |
|---|---|
| % high-risk use cases on same model | 模型集中度 |
| % use cases without fallback | 韧性缺口 |
| number of shared critical dependencies | 系统性依赖数量 |
| evidence completeness by dependency | 审计黑洞 |
| vendor incident exposure | 第三方风险 |
| kill-switch coverage | 可控性 |
| review queue utilization | 人类监督可持续性 |
| policy source freshness breach | 知识源风险 |
| cross-use-case incident count | 相关失败 |
8. AI Dependency Register
# AI Dependency Register
Dependency name:
Dependency type:
Owner:
Criticality:
Dependent use cases:
Highest risk tier:
Data sensitivity:
Action authority:
Vendor / platform:
Fallback:
Exit difficulty:
SLO/KRI:
Incident history:
Current risk rating:
Risk acceptance owner:
Review date:
9. Portfolio Governance Cadence
| Cadence | 内容 |
|---|---|
| Weekly | incident, KRI breach, capacity, model/vendor changes |
| Monthly | concentration heatmap, fallback readiness, shared control effectiveness |
| Quarterly | portfolio risk acceptance, vendor exit drill, dependency stress test |
| Event-driven | model update, vendor incident, policy source change, regulatory change |
管理层需要看的不是每个项目的 demo, 而是:
- 哪些 AI 能力已经成为关键基础设施。
- 哪些依赖没有替代方案。
- 哪些风险被多个产品共同放大。
- 哪些控制能证明有效。
10. 面试表达
30 秒版本:
我会把 AI 风险分成 use-case risk 和 portfolio dependency risk。单个 use case 通过评审不代表组合安全。我要画 dependency graph, 看多个 AI 产品是否共用同一模型、供应商、RAG 源、工具网关、身份服务、human review queue 和 evidence stack, 然后管理 concentration、blast radius、fallback、kill switch 和 portfolio KRIs。
2 分钟版本:
在金融零售里, AI 很快会从 POC 变成共享能力。客服、贷款、AML、投诉可能共用同一个模型、政策知识库、tool gateway 和审核队列。单看每个项目都合理, 但同一供应商更新、同一知识源错误、同一审核队列过载, 会导致相关失败。 我的做法是建立 AI dependency register 和 graph, 每个 use case 映射到 model、data/knowledge、tool、policy、identity、human queue、vendor 和 evidence stack。然后做 concentration heatmap 和 blast-radius map, 识别高风险共享依赖。 控制上包括 concentration limit、fallback diversity、domain segmentation、kill switch hierarchy、vendor exit drill、shared service SLO 和 incident propagation analysis。这样 AI portfolio 不只是项目集合, 而是可治理的企业架构。
11. Portfolio Exercise
选 5 个 AI use cases:
- 客服 copilot。
- AML assistant。
- lending policy RAG。
- complaint response agent。
- wealth advisor assistant。
为它们画:
- dependency graph。
- concentration heatmap。
- blast-radius map。
- fallback matrix。
- portfolio KRI dashboard。
最后写一页 memo:
Which shared AI dependency is most dangerous, why, and what architecture decision reduces blast radius?