AI 底层逻辑 / 经典论文

AI Portfolio Systemic Risk：依赖架构

一句话:

272 行ai-foundations/papers/102-ai-portfolio-systemic-risk-dependency-architecture.md

AI Portfolio Systemic Risk / Dependency Architecture 解读

面向对象: Enterprise Architect / AI Portfolio Lead / AI Product Architect / Risk Product Lead / Senior BA。核心问题: 单个 AI use case 的风险可接受, 不代表整个 AI portfolio 的风险可接受。多个产品共用同一个模型、供应商、RAG 知识源、身份服务、human review queue 或 evidence stack 时, 会产生组合级依赖和相关失败。学习目标: 建立 AI dependency graph、concentration risk heatmap、blast-radius map、fallback diversity、portfolio KRI 和 systemic incident response 的架构能力。

Source Anchors

Source	Link	用途
NIST AI RMF	https://www.nist.gov/itl/ai-risk-management-framework	用 Govern / Map / Measure / Manage 组织组合级 AI 风险
ISO/IEC 42001	https://www.iso.org/standard/81230.html	把 portfolio governance、management review 和持续改进纳入 AI 管理体系
Federal Reserve SR 23-4	https://www.federalreserve.gov/supervisionreg/srletters/SR2304.htm	参考第三方风险管理和业务韧性思维
OCC Bulletin 2023-17	https://www.occ.gov/news-issuances/bulletins/2023/bulletin-2023-17.html	参考银行第三方风险管理原则
NIST CSF	https://www.nist.gov/cyberframework	参考 identify/protect/detect/respond/recover 的组合级控制
FSB	https://www.fsb.org/	参考 AI 对金融稳定、集中度和第三方依赖的系统性风险讨论

一句话:

Portfolio risk starts where shared AI dependencies make independent failures correlated.

1. 为什么项目级 AI 风险评审不够

项目评审常问:

这个 use case 风险等级是什么。
这个模型是否通过验证。
这个 prompt 是否测试。
这个 agent 是否有 human oversight。

组合级风险问:

有多少关键流程依赖同一个模型供应商。
同一个政策知识库错误会影响多少产品。
同一个 embedding/index bug 会污染多少 RAG 系统。
同一个 human review queue 是否会被多个 agent 同时压垮。
同一个 tool gateway 故障会导致多少业务流程停止。
供应商模型更新会不会同时改变多个产品行为。

项目级看是绿色, portfolio 级可能是红色。

2. Dependency Taxonomy

Dependency	例子	风险
Model	same frontier model for all copilots	correlated behavior drift
Vendor	single LLM vendor	concentration, outage, contract leverage
Cloud/GPU	same region/provider	capacity and resilience risk
Embedding model	shared embedding for RAG	retrieval drift
Vector DB	shared vector platform	outage, deletion complexity
Knowledge source	policy repository	stale policy affects many systems
Tool gateway	shared action layer	systemic tool failure
Identity service	delegated auth	cross-agent authorization incident
Policy service	runtime guardrails	global false allow/deny
Human queue	centralized reviewer pool	overload, escalation failure
Evidence stack	trace/evidence lake	audit blackout
Vendor support	managed agent platform	incident response dependency

3. Dependency Graph Method

用图而不是表管理:

Use Case -> AI Capability -> Model -> Data/Knowledge -> Tools -> Control -> Human Queue -> Vendor -> Evidence

每个 node 记录:

owner。
criticality。
number of dependent use cases。
risk tier mix。
fallback option。
exit difficulty。
incident history。
SLO/KRI。
review cadence。

每条 edge 记录:

dependency type。
strength。
data sensitivity。
action authority。
failure propagation path。

4. Concentration Risk Heatmap

Dependency	Dependent use cases	Risk tier	Fallback	Heat
LLM vendor A	18	medium/high	weak	red
Policy RAG source	9	high	manual policy search	amber
Tool gateway	14	high	read-only degrade	red
Human review queue	11	high	overflow team	amber
Evidence lake	22	all	delayed export	red

高风险不是因为组件坏, 而是因为它坏了会同时影响很多高价值流程。

5. 金融零售案例

5.1 Shared model risk

客服、贷款、AML、投诉都接同一个模型。供应商更新模型后:

客服拒答率变化。
贷款政策解释风格变化。
AML narrative 漏掉某类 red flag。
投诉处理语气不符合品牌/监管要求。

控制:

model release impact assessment。
canary by use case。
high-risk use case freeze window。
model diversity for critical workflows。

5.2 Shared policy source risk

财富顾问助手和投诉 agent 共用政策库。政策库 ingestion 出错:

客户收到过期披露。
投诉回复引用旧政策。
advisor meeting note 误导。

控制:

source authority registry。
freshness SLO。
ingestion validation。
affected-use-case query。

5.3 Human review queue overload

多个 agent 都把异常升级到同一个中心审核队列。营销活动后 case 激增:

高风险贷款例外延迟。
投诉 SLA 超时。
AML alert 积压。

控制:

queue capacity model。
priority policy。
degraded autonomy level。
surge staffing playbook。

6. Controls

Control	作用
Concentration limits	限制单一模型/供应商/平台承载过多 high-risk use cases
Blast-radius segmentation	按业务域、风险等级、客户影响隔离
Fallback diversity	不同 use case 有不同降级路径
Kill switch hierarchy	global、domain、agent、tool、model 多级停用
Shared service SLO	对 tool gateway、identity、evidence stack 定义 SLO
Vendor exit drill	定期演练替换模型/供应商/平台
Dependency review board	评审新增 use case 对组合风险的影响
Incident propagation analysis	事故后查受影响 use cases 和 shared nodes

7. Portfolio KRIs

KRI	为什么重要
% high-risk use cases on same model	模型集中度
% use cases without fallback	韧性缺口
number of shared critical dependencies	系统性依赖数量
evidence completeness by dependency	审计黑洞
vendor incident exposure	第三方风险
kill-switch coverage	可控性
review queue utilization	人类监督可持续性
policy source freshness breach	知识源风险
cross-use-case incident count	相关失败

8. AI Dependency Register

# AI Dependency Register

Dependency name:
Dependency type:
Owner:
Criticality:
Dependent use cases:
Highest risk tier:
Data sensitivity:
Action authority:
Vendor / platform:
Fallback:
Exit difficulty:
SLO/KRI:
Incident history:
Current risk rating:
Risk acceptance owner:
Review date:

9. Portfolio Governance Cadence

Cadence	内容
Weekly	incident, KRI breach, capacity, model/vendor changes
Monthly	concentration heatmap, fallback readiness, shared control effectiveness
Quarterly	portfolio risk acceptance, vendor exit drill, dependency stress test
Event-driven	model update, vendor incident, policy source change, regulatory change

管理层需要看的不是每个项目的 demo, 而是:

哪些 AI 能力已经成为关键基础设施。
哪些依赖没有替代方案。
哪些风险被多个产品共同放大。
哪些控制能证明有效。

10. 面试表达

30 秒版本:

我会把 AI 风险分成 use-case risk 和 portfolio dependency risk。单个 use case 通过评审不代表组合安全。我要画 dependency graph, 看多个 AI 产品是否共用同一模型、供应商、RAG 源、工具网关、身份服务、human review queue 和 evidence stack, 然后管理 concentration、blast radius、fallback、kill switch 和 portfolio KRIs。

2 分钟版本:

在金融零售里, AI 很快会从 POC 变成共享能力。客服、贷款、AML、投诉可能共用同一个模型、政策知识库、tool gateway 和审核队列。单看每个项目都合理, 但同一供应商更新、同一知识源错误、同一审核队列过载, 会导致相关失败。我的做法是建立 AI dependency register 和 graph, 每个 use case 映射到 model、data/knowledge、tool、policy、identity、human queue、vendor 和 evidence stack。然后做 concentration heatmap 和 blast-radius map, 识别高风险共享依赖。控制上包括 concentration limit、fallback diversity、domain segmentation、kill switch hierarchy、vendor exit drill、shared service SLO 和 incident propagation analysis。这样 AI portfolio 不只是项目集合, 而是可治理的企业架构。

11. Portfolio Exercise

选 5 个 AI use cases:

客服 copilot。
AML assistant。
lending policy RAG。
complaint response agent。
wealth advisor assistant。

为它们画:

dependency graph。
concentration heatmap。
blast-radius map。
fallback matrix。
portfolio KRI dashboard。

最后写一页 memo:

Which shared AI dependency is most dangerous, why, and what architecture decision reduces blast radius?