AI 底层逻辑 / 经典论文

Enterprise AI Reference Architecture：控制平面

一句话:

208 行ai-foundations/papers/79-enterprise-ai-reference-architecture-control-plane.md

Enterprise AI Reference Architecture / Control Plane 解读

面向对象: Enterprise Architect / AI Solution Architect / AI Platform PM / Senior BA / AI Product Lead / Risk Technology Lead。核心问题: 企业 AI 如果每个 use case 都各自画一套方案, 会在模型接入、RAG、工具权限、日志、评估、风控、审计和运营上形成重复建设。参考架构的价值不是画一张漂亮图, 而是定义哪些能力必须共享、哪些边界必须一致、哪些变体允许业务线自己配置。学习目标: 建立一套面向金融零售的 Enterprise AI Reference Architecture: application plane、orchestration plane、model plane、data/knowledge plane、tool/action plane、policy/control plane、eval/observability plane、governance/evidence plane。

Source Anchors

Source	Link	用途
NIST AI RMF	https://www.nist.gov/itl/ai-risk-management-framework	用 Govern / Map / Measure / Manage 定义风险治理、评估、监控和持续管理
ISO/IEC 42001	https://www.iso.org/standard/81230.html	参考 AI management system、职责、运营、绩效评估和持续改进
OpenTelemetry	https://opentelemetry.io/docs/	参考 trace、metric、log 的可观测性语言, 映射到 AI telemetry
NIST Cybersecurity Framework 2.0	https://www.nist.gov/cyberframework	将 AI 参考架构和 identify / protect / detect / respond / recover 的安全运营语言连接

一句话:

Enterprise AI Reference Architecture 是企业级 AI 系统的 shared mental model: 它把体验、编排、模型、数据、工具、策略、评估、可观测性和治理证据拆成可复用、可控制、可演进的架构平面。

1. 为什么需要参考架构

单个 AI use case 常常只画:

User -> App -> LLM -> Response

生产级企业 AI 实际上是:

User / Employee / System
  -> Product experience
  -> Workflow / agent orchestration
  -> Context / retrieval / memory
  -> Model gateway / routing
  -> Tool gateway / business systems
  -> Policy / control plane
  -> Eval / observability / incident loop
  -> Evidence / governance / audit

没有参考架构会出现:

每个团队自己接模型, 成本、隐私、日志和 vendor risk 不一致。
每个团队自己做 RAG, 知识源权限、版本、引用和 freshness 不一致。
每个团队自己做 tool calling, 权限、幂等、审批、回滚和审计不一致。
每个团队自己定义 eval, 质量门槛不可比较。
风险团队只能上线前人工审查, 无法持续监控。
平台团队变成接需求团队, 无法产品化横向能力。

参考架构的作用不是限制创新, 而是把重复且高风险的部分标准化, 让业务团队在明确 guardrails 内更快交付。

2. 八层参考架构

Plane	核心职责	典型组件	关键设计问题
Experience / Application	用户、员工、客户、API 的交互入口	Web/mobile、agent UI、copilot、case screen、API	用户知道 AI 边界吗, 如何反馈和转人工
Orchestration / Workflow	管理任务流、状态、工具调用和人工节点	workflow engine、agent runtime、state machine、HITL queue	何时自动、何时人工、何时补偿和回滚
Model	模型接入、路由、调用、版本和成本	model gateway、router、cache、small/frontier model	哪个任务用哪个模型, 如何隔离 vendor risk
Data / Knowledge	业务数据、知识源、检索、特征和上下文	RAG、knowledge graph、feature store、semantic layer	哪些数据可用、可外发、可引用、可删除
Tool / Action	AI 可调用的业务系统和外部动作	tool gateway、API connectors、event bus、business services	工具权限、幂等、审批、审计和副作用
Policy / Control	策略、权限、风险分层、控制和门禁	policy engine、risk tiering、DLP、guardrails、kill switch	哪些行为允许、拒绝、升级或暂停
Eval / Observability	上线前评估、线上监控、质量和成本	eval harness、trace、metrics、logs、dashboard、alerts	如何证明质量、成本、风险和体验可控
Governance / Evidence	证据、审计、管理评审和持续改进	AI inventory、ADR、model/system card、evidence binder	如何回答审计、监管、管理层和事故复盘

高级架构师的重点是识别每层的 owner 和接口:

哪些能力属于平台团队。
哪些能力由业务产品团队配置。
哪些能力由风险/安全/数据 owner 审批。
哪些能力必须统一观测和留证。

3. Control Plane vs Data Plane

AI reference architecture 需要明确 control plane 和 data plane。

Data plane

Data plane 处理实际请求、上下文、模型输出和工具动作:

request -> context -> model -> tool/action -> response

Control plane

Control plane 决定请求能不能走、走哪条路径、需要什么证据:

risk tier
  -> policy decision
  -> model route
  -> tool permission
  -> eval gate
  -> monitoring threshold
  -> evidence capture

Control Plane Capability	作用	例子
Risk classifier	按任务、用户、数据、动作影响分层	客服问答 low, 信贷解释 high
Policy engine	决定 allow / deny / escalate / redact	PII 外发拦截、投资建议边界
Model gateway	统一接入、路由、记录、限流	approved model allowlist
Tool gateway	控制工具权限和副作用	read-only、approval-required、write action
Eval gate	上线前和变更前强制评估	prompt/model/RAG release gate
Observability	记录 trace、latency、cost、quality、risk	request span、retrieval span、tool span
Evidence capture	将决策、版本和审批沉淀为证据	ADR、eval report、audit log

如果没有 control plane, 每个 AI application 都会变成自己的治理孤岛。

4. Reference Architecture Views

一张大图不够, 至少需要五种视图。

View	回答的问题	典型产物
Capability view	企业需要哪些 AI 能力	capability map、platform service catalog
C4 / container view	系统组件如何部署和集成	context/container/component diagram
Sequence view	一次请求如何穿过策略、检索、模型、工具和日志	sequence diagram、trace design
Control view	哪些风险由哪些控制处理	risk-control matrix、policy flow
Operating view	谁负责运营、变更、事故、复盘和改进	RACI、runbook、review cadence

对 BA/PM 来说, capability view 和 sequence view 最重要, 因为它们把业务动作和架构责任连起来。对架构师来说, control view 和 operating view 最容易暴露生产风险。

5. Financial Retail Case: Shared AI Case Assist Platform

场景:

AML alert triage。
信贷运营 case summary。
客服投诉摘要。
KYC 文档检查。

如果四个团队各自做, 会重复建设:

文档抽取。
case summary。
policy RAG。
human review queue。
audit log。
eval harness。
model gateway。

参考架构做法:

Business apps
  -> shared case-assist workflow
  -> shared knowledge/RAG services
  -> shared model/tool gateways
  -> shared eval/observability
  -> domain-specific policies and templates

Shared Capability	可复用部分	业务线可变部分
Case summarization	summary schema、citation requirement、eval rubric	字段、政策、话术
Document extraction	OCR/extraction pipeline、confidence threshold	文档类型、验证规则
Policy RAG	source registry、permission filter、citation	policy corpus、jurisdiction
HITL queue	review workflow、override reason、SLA	reviewer role、priority rules
EvalOps	golden set tooling、judge calibration、report	scenario set、threshold
Audit evidence	trace id、version capture、approval log	retention, report format

这个参考架构既支持共享平台, 也保留业务线差异。

6. ADR Draft

项目	内容
决策	采用 enterprise AI reference architecture, 将 model gateway、tool gateway、eval/observability、policy/control 和 evidence capture 作为共享平台能力
背景	多个金融零售 AI use case 需要相似的 RAG、模型接入、工具控制、评估和审计能力
替代方案	每个业务线自建 AI stack; 全部集中由 CoE 交付; 只使用单一 vendor 平台
选择理由	共享 control plane 降低风险和重复建设, 业务线可在 guardrails 内配置体验、知识源和流程
影响	需要平台产品 owner、service catalog、SLO、funding model、adoption telemetry 和 governance cadence
反转条件	若共享平台阻碍高差异业务场景, 需要拆分为 federated platform capabilities 而不是回到完全自建

7. 面试表达

30 秒版本

企业 AI 参考架构的核心是把 AI 系统拆成多个平面: 体验、编排、模型、数据/知识、工具、策略控制、评估可观测性和治理证据。这样做的价值是让 model gateway、tool gateway、policy engine、eval gate、observability 和 audit evidence 变成共享能力, 避免每个 use case 重复建设和风险不一致。

2 分钟版本

我会先把业务 AI 场景映射到 capability view, 看哪些能力应该平台化, 哪些允许业务线配置。然后用 C4 和 sequence view 设计请求如何经过 risk tiering、policy engine、RAG、model gateway、tool gateway、HITL、logging 和 evidence capture。高风险金融场景不能只画应用架构, 必须画 control view 和 operating view: 哪些动作被允许, 哪些要转人工, 哪些指标触发暂停, 谁负责 incident 和复盘。例如 AML、信贷、客服和 KYC 都需要 case summary、policy RAG、人工复核、审计 trace 和 eval。与其四个团队各做一套, 不如把这些做成共享平台能力, 业务线只配置知识源、流程、阈值和话术。

Chief Architect / CTO 版本

我会把 Enterprise AI Reference Architecture 看成 AI transformation 的 backbone。CTO 需要看到技术复用和 SLO, CISO/CRO 需要看到 control plane, CPO 需要看到业务团队如何在 guardrails 内创新。成熟的架构不是一个 AI app, 而是一套能支撑多条业务线持续交付、监控、审计和演进的 AI platform operating model。