返回 Papers
AI 底层逻辑 / 经典论文

Enterprise AI Reference Architecture:控制平面

一句话:

208ai-foundations/papers/79-enterprise-ai-reference-architecture-control-plane.md

Enterprise AI Reference Architecture / Control Plane 解读

面向对象: Enterprise Architect / AI Solution Architect / AI Platform PM / Senior BA / AI Product Lead / Risk Technology Lead。 核心问题: 企业 AI 如果每个 use case 都各自画一套方案, 会在模型接入、RAG、工具权限、日志、评估、风控、审计和运营上形成重复建设。参考架构的价值不是画一张漂亮图, 而是定义哪些能力必须共享、哪些边界必须一致、哪些变体允许业务线自己配置。 学习目标: 建立一套面向金融零售的 Enterprise AI Reference Architecture: application plane、orchestration plane、model plane、data/knowledge plane、tool/action plane、policy/control plane、eval/observability plane、governance/evidence plane。


Source Anchors

SourceLink用途
NIST AI RMFhttps://www.nist.gov/itl/ai-risk-management-framework用 Govern / Map / Measure / Manage 定义风险治理、评估、监控和持续管理
ISO/IEC 42001https://www.iso.org/standard/81230.html参考 AI management system、职责、运营、绩效评估和持续改进
OpenTelemetryhttps://opentelemetry.io/docs/参考 trace、metric、log 的可观测性语言, 映射到 AI telemetry
NIST Cybersecurity Framework 2.0https://www.nist.gov/cyberframework将 AI 参考架构和 identify / protect / detect / respond / recover 的安全运营语言连接

一句话:

Enterprise AI Reference Architecture 是企业级 AI 系统的 shared mental model: 它把体验、编排、模型、数据、工具、策略、评估、可观测性和治理证据拆成可复用、可控制、可演进的架构平面。


1. 为什么需要参考架构

单个 AI use case 常常只画:

User -> App -> LLM -> Response

生产级企业 AI 实际上是:

User / Employee / System
  -> Product experience
  -> Workflow / agent orchestration
  -> Context / retrieval / memory
  -> Model gateway / routing
  -> Tool gateway / business systems
  -> Policy / control plane
  -> Eval / observability / incident loop
  -> Evidence / governance / audit

没有参考架构会出现:

  • 每个团队自己接模型, 成本、隐私、日志和 vendor risk 不一致。
  • 每个团队自己做 RAG, 知识源权限、版本、引用和 freshness 不一致。
  • 每个团队自己做 tool calling, 权限、幂等、审批、回滚和审计不一致。
  • 每个团队自己定义 eval, 质量门槛不可比较。
  • 风险团队只能上线前人工审查, 无法持续监控。
  • 平台团队变成接需求团队, 无法产品化横向能力。

参考架构的作用不是限制创新, 而是把重复且高风险的部分标准化, 让业务团队在明确 guardrails 内更快交付。


2. 八层参考架构

Plane核心职责典型组件关键设计问题
Experience / Application用户、员工、客户、API 的交互入口Web/mobile、agent UI、copilot、case screen、API用户知道 AI 边界吗, 如何反馈和转人工
Orchestration / Workflow管理任务流、状态、工具调用和人工节点workflow engine、agent runtime、state machine、HITL queue何时自动、何时人工、何时补偿和回滚
Model模型接入、路由、调用、版本和成本model gateway、router、cache、small/frontier model哪个任务用哪个模型, 如何隔离 vendor risk
Data / Knowledge业务数据、知识源、检索、特征和上下文RAG、knowledge graph、feature store、semantic layer哪些数据可用、可外发、可引用、可删除
Tool / ActionAI 可调用的业务系统和外部动作tool gateway、API connectors、event bus、business services工具权限、幂等、审批、审计和副作用
Policy / Control策略、权限、风险分层、控制和门禁policy engine、risk tiering、DLP、guardrails、kill switch哪些行为允许、拒绝、升级或暂停
Eval / Observability上线前评估、线上监控、质量和成本eval harness、trace、metrics、logs、dashboard、alerts如何证明质量、成本、风险和体验可控
Governance / Evidence证据、审计、管理评审和持续改进AI inventory、ADR、model/system card、evidence binder如何回答审计、监管、管理层和事故复盘

高级架构师的重点是识别每层的 owner 和接口:

  • 哪些能力属于平台团队。
  • 哪些能力由业务产品团队配置。
  • 哪些能力由风险/安全/数据 owner 审批。
  • 哪些能力必须统一观测和留证。

3. Control Plane vs Data Plane

AI reference architecture 需要明确 control plane 和 data plane。

Data plane

Data plane 处理实际请求、上下文、模型输出和工具动作:

request -> context -> model -> tool/action -> response

Control plane

Control plane 决定请求能不能走、走哪条路径、需要什么证据:

risk tier
  -> policy decision
  -> model route
  -> tool permission
  -> eval gate
  -> monitoring threshold
  -> evidence capture
Control Plane Capability作用例子
Risk classifier按任务、用户、数据、动作影响分层客服问答 low, 信贷解释 high
Policy engine决定 allow / deny / escalate / redactPII 外发拦截、投资建议边界
Model gateway统一接入、路由、记录、限流approved model allowlist
Tool gateway控制工具权限和副作用read-only、approval-required、write action
Eval gate上线前和变更前强制评估prompt/model/RAG release gate
Observability记录 trace、latency、cost、quality、riskrequest span、retrieval span、tool span
Evidence capture将决策、版本和审批沉淀为证据ADR、eval report、audit log

如果没有 control plane, 每个 AI application 都会变成自己的治理孤岛。


4. Reference Architecture Views

一张大图不够, 至少需要五种视图。

View回答的问题典型产物
Capability view企业需要哪些 AI 能力capability map、platform service catalog
C4 / container view系统组件如何部署和集成context/container/component diagram
Sequence view一次请求如何穿过策略、检索、模型、工具和日志sequence diagram、trace design
Control view哪些风险由哪些控制处理risk-control matrix、policy flow
Operating view谁负责运营、变更、事故、复盘和改进RACI、runbook、review cadence

对 BA/PM 来说, capability view 和 sequence view 最重要, 因为它们把业务动作和架构责任连起来。 对架构师来说, control view 和 operating view 最容易暴露生产风险。


5. Financial Retail Case: Shared AI Case Assist Platform

场景:

  • AML alert triage。
  • 信贷运营 case summary。
  • 客服投诉摘要。
  • KYC 文档检查。

如果四个团队各自做, 会重复建设:

  • 文档抽取。
  • case summary。
  • policy RAG。
  • human review queue。
  • audit log。
  • eval harness。
  • model gateway。

参考架构做法:

Business apps
  -> shared case-assist workflow
  -> shared knowledge/RAG services
  -> shared model/tool gateways
  -> shared eval/observability
  -> domain-specific policies and templates
Shared Capability可复用部分业务线可变部分
Case summarizationsummary schema、citation requirement、eval rubric字段、政策、话术
Document extractionOCR/extraction pipeline、confidence threshold文档类型、验证规则
Policy RAGsource registry、permission filter、citationpolicy corpus、jurisdiction
HITL queuereview workflow、override reason、SLAreviewer role、priority rules
EvalOpsgolden set tooling、judge calibration、reportscenario set、threshold
Audit evidencetrace id、version capture、approval logretention, report format

这个参考架构既支持共享平台, 也保留业务线差异。


6. ADR Draft

项目内容
决策采用 enterprise AI reference architecture, 将 model gateway、tool gateway、eval/observability、policy/control 和 evidence capture 作为共享平台能力
背景多个金融零售 AI use case 需要相似的 RAG、模型接入、工具控制、评估和审计能力
替代方案每个业务线自建 AI stack; 全部集中由 CoE 交付; 只使用单一 vendor 平台
选择理由共享 control plane 降低风险和重复建设, 业务线可在 guardrails 内配置体验、知识源和流程
影响需要平台产品 owner、service catalog、SLO、funding model、adoption telemetry 和 governance cadence
反转条件若共享平台阻碍高差异业务场景, 需要拆分为 federated platform capabilities 而不是回到完全自建

7. 面试表达

30 秒版本

企业 AI 参考架构的核心是把 AI 系统拆成多个平面: 体验、编排、模型、数据/知识、工具、策略控制、评估可观测性和治理证据。这样做的价值是让 model gateway、tool gateway、policy engine、eval gate、observability 和 audit evidence 变成共享能力, 避免每个 use case 重复建设和风险不一致。

2 分钟版本

我会先把业务 AI 场景映射到 capability view, 看哪些能力应该平台化, 哪些允许业务线配置。然后用 C4 和 sequence view 设计请求如何经过 risk tiering、policy engine、RAG、model gateway、tool gateway、HITL、logging 和 evidence capture。高风险金融场景不能只画应用架构, 必须画 control view 和 operating view: 哪些动作被允许, 哪些要转人工, 哪些指标触发暂停, 谁负责 incident 和复盘。 例如 AML、信贷、客服和 KYC 都需要 case summary、policy RAG、人工复核、审计 trace 和 eval。与其四个团队各做一套, 不如把这些做成共享平台能力, 业务线只配置知识源、流程、阈值和话术。

Chief Architect / CTO 版本

我会把 Enterprise AI Reference Architecture 看成 AI transformation 的 backbone。CTO 需要看到技术复用和 SLO, CISO/CRO 需要看到 control plane, CPO 需要看到业务团队如何在 guardrails 内创新。成熟的架构不是一个 AI app, 而是一套能支撑多条业务线持续交付、监控、审计和演进的 AI platform operating model。