返回 Papers
AI 底层逻辑 / 经典论文

AI Platform Service Catalog:Golden Paths

一句话:

244ai-foundations/papers/86-ai-platform-service-catalog-golden-paths.md

AI Platform Service Catalog / Golden Paths 解读

面向对象: AI Platform PM / Platform Architect / Enterprise Architect / Product Operations Lead / Senior BA / Developer Experience Lead。 核心问题: AI 平台如果只提供模型 API, 业务团队仍然要自己解决 RAG、eval、tool gateway、权限、日志、HITL、证据和上线门禁。AI 平台产品管理的核心是把安全可复用能力包装成 service catalog 和 golden paths。 学习目标: 用 platform engineering、service catalog、golden paths、self-service with guardrails、SLO/cost/adoption metrics 设计 AI 平台服务目录和业务团队体验。


Source Anchors

SourceLink用途
CNCF Platform Engineeringhttps://tag-app-delivery.cncf.io/wgs/platforms/参考平台工程、平台能力和内部平台产品思路
Backstage Docshttps://backstage.io/docs/参考 service catalog、software templates 和开发者门户
NIST AI RMFhttps://www.nist.gov/itl/ai-risk-management-framework将平台 self-service 与风险、评估、治理和监控连接
OpenTelemetryhttps://opentelemetry.io/docs/参考 trace、metrics、logs 的可观测性基础

一句话:

AI Platform Service Catalog 是把企业 AI 的模型、知识、工具、评估、控制和证据能力产品化; Golden Paths 是让团队按推荐路径快速、安全、可审计地交付 AI use case。


1. 为什么 AI 平台不能只提供模型 API

模型 API 只解决:

input -> model -> output

业务团队还需要:

  • 选择 approved model。
  • 接入知识源和权限过滤。
  • 设计 eval set 和 release gate。
  • 控制 tool call 和副作用。
  • 记录 trace、cost、latency、quality。
  • 处理 PII、retention、audit。
  • 设计 human review queue。
  • 生成 evidence binder。
  • 通过风险和架构评审。

如果平台只提供模型调用, 每个团队都会重复实现这些能力。平台 PM 的任务是把它们包装成可发现、可申请、可配置、可监控、可治理的服务。


2. Service Catalog Taxonomy

Service用户问题平台能力
Model Gateway我该用哪个模型allowlist、routing、quota、cost、logging
RAG Service我如何接入企业知识ingestion、metadata、permission、citation、freshness
Eval Service我如何证明质量golden set、judge、rubric、report、release gate
Tool GatewayAI 如何安全行动connector、policy、approval、idempotency、audit
Policy Engine如何执行 guardrailsrisk tier、DLP、advice boundary、runtime decision
Observability我如何看线上行为trace、metric、log、dashboard、alert
HITL Queue人工如何复核queue、SLA、override、review evidence
Evidence Binder如何应对审计/风险ADR、eval、trace sample、approval、control evidence
Templates如何快速启动app template、workflow template、prompt/eval template

每张 service catalog card 应说明:

  • 服务解决什么问题。
  • 谁适合用。
  • 输入/输出。
  • SLO。
  • 成本模型。
  • 风险等级支持。
  • 数据边界。
  • 接入步骤。
  • 支持方式。
  • 成熟度和限制。

3. Golden Paths

Golden path 是推荐的端到端落地路径。

Golden Path包含服务适用场景
Customer-facing RAGRAG + policy + eval + citation + HITL + evidence客服、政策解释、客户问答
Employee Copilotmodel gateway + retrieval + feedback + observability内部知识助手、运营助手
Agent Workflowworkflow + tool gateway + policy + HITL + trace支付争议、case automation
Document AIOCR/extraction + validation + human review + evalKYC、贷款资料、理赔
Decision Servicefeature/DMN/model + explainability + monitoring欺诈、信贷、风险分层

Golden path 不等于强制唯一方案。它提供:

  • 推荐架构。
  • 默认 controls。
  • templates。
  • 示例代码/配置。
  • eval cases。
  • release checklist。
  • support model。

让团队从“从零拼装”变成“在 guardrails 内配置”。


4. Self-Service with Guardrails

平台要同时支持自助和治理。

Use case intake
  -> risk tier
  -> recommended golden path
  -> service catalog selection
  -> template provisioning
  -> eval/release gate
  -> observability/evidence
GuardrailSelf-service 实现
Risk tierintake 问卷 + policy profile
Data boundarydata classification + approved connectors
Model choicemodel gateway route policy
Tool actiontool permission profile
Eval gaterequired eval template by risk tier
Monitoringdefault dashboard and alerts
Evidenceauto-generated release bundle
Exceptionexception request and expiry

高级平台设计不是把治理变成审批墙, 而是把治理嵌进 golden path。


5. Platform Product Metrics

Metric说明
Time-to-first-pilot从 use case intake 到可运行 pilot
Reuse rate使用 core services/templates 的比例
Golden path adoption推荐路径使用和完成率
Quality gate pass rate首次通过 eval/release gate 比例
Cost per case按业务结果或 case 的单位成本
Risk exceptions例外数量、原因、过期和重复
Developer satisfaction产品团队/工程团队使用体验
Support load平台支持工单和 blocked reasons
Service SLOavailability、latency、trace completeness
Evidence completenessrelease bundle 完整率

平台 PM 需要同时看 adoption 和 constraints:

  • 只看使用量会鼓励无治理扩张。
  • 只看门禁会让平台变成审批机器。
  • 最好的指标是 time-to-safe-value。

6. Financial Retail Case: Bank AI Platform Catalog

银行 AI 平台目录:

Catalog Service用户
Approved Model Gateway所有 AI 产品团队
Retail Policy RAG客服、分行、投诉
AML Knowledge RAGAML investigation
Credit Explanation Template信贷服务
Tool Gateway for Case Systemsagent workflow
HITL Review Queueops/risk reviewer
EvalOps Serviceproduct + QA + model risk
AI Evidence Binderaudit/risk/compliance

Golden path: Customer-facing policy assistant

Intake
  -> risk tier: high
  -> RAG service with approved source registry
  -> model gateway approved route
  -> advice boundary policy
  -> customer disclosure UX template
  -> eval service with groundedness/citation/refusal
  -> HITL for high impact
  -> observability dashboard
  -> evidence bundle

7. Artifact Templates

Service Catalog Card

字段内容
Service name服务名称
Problem solved解决什么问题
Consumers谁使用
Inputs / outputs输入输出
SLO可用性、延迟、质量
Risk support支持哪些 risk tier
Data boundary数据限制
Cost model成本计量
How to onboard接入步骤
Evidence produced产生哪些证据

Golden Path Checklist

StepRequired Artifact
Intakeopportunity brief, risk tier
Provisiontemplate, service config
Buildprompt/RAG/tool workflow
Evaluateeval report
Releaserelease bundle, sign-off
Operatedashboard, runbook

8. ADR Draft

项目内容
决策AI 平台以 service catalog + golden paths 方式产品化模型、RAG、eval、tool gateway、policy、observability、HITL 和 evidence 服务
背景只提供模型 API 会导致业务团队重复建设治理、评估和审计能力
替代方案中央团队手工交付所有 AI 项目; 每个团队自建; 单一 vendor SaaS
选择理由service catalog 提供可发现能力, golden paths 提供安全快速路径, guardrails 内嵌治理
影响需要 platform PM、service owner、SLO、support model、usage telemetry 和 roadmap prioritization
反转条件如果 golden paths 不能覆盖高价值场景, 需要引入 extension mechanism 而不是放弃平台化

9. 面试表达

30 秒版本

AI 平台不能只提供模型 API。真正有用的平台应该有 service catalog 和 golden paths, 包含 model gateway、RAG、eval、tool gateway、policy engine、observability、HITL 和 evidence binder。业务团队可以自助启动, 但风险分层、数据边界、评估门禁和审计证据被内嵌在路径里。

2 分钟版本

我会把 AI 平台当成产品来管理。首先定义 service catalog, 每个服务都有 consumer、SLO、数据边界、成本、风险等级支持和产生的证据。然后为常见场景设计 golden paths, 比如 customer-facing RAG、employee copilot、agent workflow、document AI 和 decision service。 团队通过 intake 选择 risk tier, 平台推荐 golden path, 自动 provision 模板和服务配置, 强制进入 eval/release gate, 上线后进入 observability 和 evidence binder。这样既提高 time-to-pilot, 又避免每个团队重复造治理和审计能力。

AI Platform PM / CTO 版本

平台 PM 要证明平台不是技术组件仓库, 而是让产品团队更快交付 safe value 的 operating system。CTO 关心复用、SLO 和成本, CPO 关心 adoption 和业务速度, CRO 关心 guardrails 和证据。Service catalog + golden paths 是把这些目标放进同一套平台产品语言里。