返回 Papers
AI 底层逻辑 / 经典论文

Conway / Team Topologies:AI 平台组织模型

一句话:

265ai-foundations/papers/69-conway-team-topologies-ai-platform-operating-model.md

Conway's Law / Team Topologies / AI Platform Operating Model 解读

面向对象: Enterprise Architect / AI Platform Lead / AI PM / Engineering Manager / Senior BA / Transformation Lead。 核心问题: AI 架构失败常被解释为技术问题, 但根因经常是组织拓扑问题: 数据团队、平台团队、业务团队、模型风险、合规、安全和运营各自优化, 最终系统接口、责任和反馈也碎裂。 学习目标: 用 Conway's Law 和 Team Topologies 的思维, 设计企业 AI 平台与 AI 产品团队的边界、认知负载、交互模式和 operating model。


Source Anchors

SourceLink用途
Conway's Law / Melvin Conwayhttps://www.melconway.com/Home/Conways_Law.html参考系统设计会反映组织沟通结构的核心思想
Team Topologieshttps://teamtopologies.com/参考 stream-aligned、platform、enabling、complicated-subsystem team 和 interaction modes
Team Topologies Key Conceptshttps://teamtopologies.com/key-concepts参考 cognitive load、team API、interaction modes、fast flow 的实践语言
NIST AI RMFhttps://www.nist.gov/itl/ai-risk-management-framework把组织拓扑连接到 AI 风险治理、角色、责任和持续管理

一句话:

AI 平台 operating model 的关键不是画组织图, 而是让团队边界、认知负载和交互模式支持安全、快速、可治理的 AI 价值流。


1. Conway's Law 对 AI 的含义

如果组织结构是:

业务团队 -> 数据团队 -> AI 平台 -> 安全 -> 合规 -> 模型风险 -> 运维

且沟通只通过工单、会议和审批, 系统很可能变成:

业务 UI -> 数据接口 -> 模型 API -> 安全网关 -> 合规检查 -> 风险审批 -> 运维脚本

问题不是分工本身, 而是:

  • 责任边界按职能切开, 但 AI 风险按端到端工作流发生。
  • 反馈从生产回到 eval 和需求的路径太长。
  • 平台团队不了解 domain semantics。
  • 业务团队不了解模型和数据约束。
  • 风险团队只在上线前出现, 无法参与 design-time control。

AI 架构要和团队拓扑共同设计。


2. Team Types 迁移到 AI

Team TypeAI 语境主要责任
Stream-Aligned TeamAML Copilot、客服 Copilot、信贷决策产品团队端到端业务价值、用户流程、domain eval、adoption
Platform TeamAI Gateway、RAG Platform、EvalOps、Tool Gateway降低其他团队认知负载, 提供 self-service 能力
Enabling TeamAI governance enablement、prompt/RAG enablement、risk enablement帮助业务团队掌握新能力, 临时嵌入和 coaching
Complicated-Subsystem Team模型优化、搜索排序、隐私计算、图模型、实时特征处理高专业复杂度组件

错误组织方式:

  • 让平台团队直接拥有所有 AI use cases。
  • 让每个业务团队自建完整 AI stack。
  • 让模型风险团队只做上线前审批。
  • 让安全团队只审查结果, 不参与 tool gateway 设计。

3. Cognitive Load

AI 产品团队需要同时理解:

  • 业务流程。
  • 用户体验。
  • 数据权限。
  • RAG。
  • prompt。
  • model behavior。
  • eval。
  • risk controls。
  • observability。
  • incident response。
  • change management。

认知负载过高时, 团队会:

  • 绕过平台。
  • 只做 demo。
  • 不写 eval。
  • 忽略监控。
  • 把风险转给人工。

平台团队的目标不是控制所有事, 而是降低 stream-aligned team 的认知负载:

平台能力降低的负载
Model Gateway模型接入、路由、成本、供应商差异
RAG Platformingest、chunk、index、permission、citation
EvalOpsdataset registry、judge、release gate、regression
Tool Gatewaytool schema、auth、policy check、audit
Observabilitytrace、latency、cost、quality、incident

4. Team API

AI 平台团队需要定义 Team API:

# AI Platform Team API

## Services
- Model Gateway
- RAG Indexing
- EvalOps
- Tool Gateway
- Observability

## How to Consume
- SDK / API:
- Self-service portal:
- Golden path:
- Support hours:

## Responsibilities
- Platform owns:
- Product team owns:
- Risk team owns:
- Data owner owns:

## Service Levels
- Availability:
- Latency:
- Incident response:
- Change notification:

## Governance
- Required gates:
- Evidence artifacts:
- Escalation:

没有 Team API, 平台会变成“找人问”的内部咨询团队。


5. Interaction Modes

模式AI 场景适用
Collaboration新高风险 use case 早期探索AML agent、信贷解释、客户 facing AI
X-as-a-Service成熟平台能力消费model gateway、embedding service、trace dashboard
Facilitatingenabling team 帮业务团队掌握方法eval contract、HITL design、red-team

成熟路线:

Collaboration -> Facilitating -> X-as-a-Service

例如 RAG:

  1. 早期平台和业务共同设计知识源、权限和 eval。
  2. enabling team 帮业务团队建立 knowledge governance。
  3. 成熟后业务团队通过 self-service ingestion 和 eval gate 使用平台。

6. 金融零售案例

6.1 AML Copilot

推荐拓扑:

  • Stream team: AML Copilot product team。
  • Platform: AI gateway、RAG、EvalOps。
  • Complicated subsystem: graph/entity resolution。
  • Enabling: model risk + AI governance coach。

关键接口:

  • AML team owns typology and golden set。
  • Platform owns retrieval pipeline and trace。
  • Model Risk owns validation criteria and review cadence。
  • Ops owns analyst workload and feedback。

6.2 客服知识平台

如果每个渠道团队自己做 RAG, 会产生:

  • 政策版本不一致。
  • 权限模型不一致。
  • citation quality 不一致。
  • feedback 无法汇总。

更好的拓扑:

  • Platform owns knowledge ingestion and retrieval service。
  • Customer service product team owns intent taxonomy and response policy。
  • Compliance owns approved language and escalation criteria。
  • Ops owns adoption and coaching。

7. AI Operating Model Patterns

模式适合风险
Central AI Factory早期能力集中、稀缺专家远离业务, 交付瓶颈
Federated AI Teams多业务线并行创新重复建设、治理不一致
Platform + Stream Teams规模化企业 AI需要强平台产品能力
Risk-Embedded Model高风险金融场景决策慢, 需要明确 interaction mode
Enabling Guild快速扩散方法如果无 owner, 容易变社区活动

推荐目标状态:

Stream-aligned AI product teams
  consume AI platform golden paths
  supported by enabling teams
  governed by embedded risk/security/privacy patterns
  with complicated subsystem teams for hard domains

8. 反模式

反模式表现后果
AI Center owns everything所有 AI 需求都排队给中心团队速度慢, 业务责任弱
Business teams own full stack每个团队自建 RAG/LLM/eval成本高, 风险失控
Risk as final approver only风险只在上线前审控制补丁化, 返工大
Platform without product thinking平台只交付 APIadoption 低, golden path 不清
Guild without decision rights大量分享, 无实际标准方法不一致

9. 面试回答

Q: AI 平台组织应该集中还是分散?

30 秒版本:

我会避免二选一。企业 AI 通常需要平台 + stream-aligned team 的混合拓扑: 平台团队提供 model gateway、RAG、EvalOps、tool gateway 和 observability, 业务产品团队拥有用户、流程、domain eval 和风险结果。高复杂组件由 specialist team 支撑, enabling team 帮助方法扩散。

Q: Conway's Law 如何影响 AI 架构?

30 秒版本:

如果组织沟通被职能墙切开, AI 系统也会在数据、模型、风险、运营之间形成脆弱接口。AI 架构要和团队拓扑一起设计, 确保端到端反馈、owner 和控制路径清晰。


10. 作品集交付物

  1. AI Team Topology Map。
  2. AI Platform Team API。
  3. Stream Team Responsibility Matrix。
  4. Cognitive Load Assessment。
  5. Interaction Mode Design。
  6. AI Operating Model RACI。
  7. Conway Risk Review。

这套材料能证明你不只是会画系统架构, 还懂组织结构如何塑造 AI 系统质量、交付速度和治理能力。