返回 Papers
AI 扩展计划 / Playbooks

AI Platform PM Playbook

AI 应用可以一个一个做,但企业真正规模化时,会遇到重复问题:

386AI_PLATFORM_PM_PLAYBOOK.md

AI Platform PM Playbook

目的:训练面向企业内部 AI 平台的产品经理能力,把模型、RAG、Agent、EvalOps、治理、成本、权限、开发者体验和业务 adoption 组织成可复用平台。 适用对象:AI PM、Platform PM、AI Solutions Architect、AI BA、企业 AI 转型负责人。 原则:AI 平台不是“接一个模型 API”,而是让多个业务团队能安全、低成本、可评估、可审计地构建 AI 工作流。

1. AI Platform PM 的核心问题

AI 应用可以一个一个做,但企业真正规模化时,会遇到重复问题:

重复问题单点项目做法平台化做法
每个团队重复接模型各自写调用代码统一 model gateway
每个团队重复做 RAG各自建向量库统一 knowledge ingestion + retrieval service
每个团队不知道怎么评测上线靠主观体验统一 eval harness + release gate
成本不可控账单后知后觉quota、budget、cost dashboard
权限和审计不一致各项目临时补identity、policy、audit log 平台能力
Prompt 和配置不可追溯复制粘贴prompt/config registry
业务难 adoption做完没人用adoption analytics + enablement

AI Platform PM 的职责是把这些横向能力产品化,让业务 AI use case 从一次性项目变成可重复交付能力。

2. 平台能力地图

LayerPlatform capabilityPM 要问的问题Architect 要设计的东西BA 要补的事实
Use case intakeAI idea intake and prioritization哪些 use case 值得进入 discovery?intake workflow、scoring data model业务目标、流程痛点、baseline
Model accessModel gateway哪些模型能用、谁能用、用在哪类任务?routing、fallback、quota、logging使用场景、风险等级
Prompt/configPrompt and policy registryprompt 变更如何审批和回滚?versioning、environment、approval业务规则、合规话术
KnowledgeKnowledge ingestion and retrieval哪些知识源可信、如何更新?connectors、metadata、chunking、rerank文档 owner、更新频率、权限
ToolingTool gatewayAI 能调用什么系统和动作?tool catalog、RBAC、HITL、idempotency流程动作、异常路径
EvalEval harness怎样证明质量足够上线?golden set、rubric、judge calibration验收标准、错误成本
SafetyPolicy and guardrails哪些行为必须禁止或升级?policy engine、content filters、risk rules风险场景、审批规则
ObservabilityAI telemetry线上如何知道系统坏了?traces、metrics、feedback、incident logs用户反馈、SLA、业务指标
CostCost governance谁为成本负责,成本如何归因?token accounting、budget、cache使用量预测、价值指标
AdoptionEnablement and analytics用户是否真正改变工作方式?usage analytics、training hub角色、阻力、培训需求

3. 平台产品边界

3.1 平台应该做什么

应该平台化原因
model gateway统一模型接入、日志、成本、fallback、合规控制
RAG ingestion / retrieval知识治理和权限过滤必须一致
eval harness所有 AI 应用都需要可比较的上线门禁
prompt/config registry变更可追溯,便于 rollback 和 audit
tool gateway高风险行动必须统一鉴权、审计和人工审批
AI observability线上质量、成本、延迟、失败模式要统一看
policy guardrails企业统一安全和合规底线
adoption dashboard平台价值不能只看 API 调用量

3.2 不应该过早平台化

不宜过早平台化原因更好的做法
所有业务流程编排流程差异大,容易做成低价值大平台先沉淀 2-3 个高频 workflow pattern
所有 domain ontology需要领域验证,过早统一会误伤业务先按 case 建 domain glossary
自研 foundation model成本高,收益不确定,人才和数据要求高先用 model gateway 管理多模型
全自动 agent marketplace风险和治理复杂先做受控 tool catalog 和 approval flow
统一 UI builder使用场景未稳定先提供 API、组件和 reference app

4. MVP 范围设计

一个务实的 AI 平台 MVP 不追求“大而全”,而是解决最阻碍复用的 5 件事:

MVP capability最小版本证明指标
Model gateway统一调用 2-3 个模型,记录 request/response metadata80% 新 AI POC 通过 gateway 接入
Prompt registryprompt 版本、owner、环境、审批记录prompt 变更可回滚
RAG starter kit文档 ingestion、metadata filter、citation、basic eval2 个业务知识助手复用
Eval harnessgolden set、rubric、批量运行、release threshold每次 release 有 eval report
Cost dashboard按 use case、team、model 归因月度成本可解释

第一版不做:

  • 不做复杂 agent 自动编排平台。
  • 不做企业级全知识图谱。
  • 不做自研大模型训练平台。
  • 不做所有业务统一 UI。
  • 不承诺所有 use case 都能无代码完成。

5. AI 平台 PRD 骨架

# AI Platform MVP PRD

## 1. Problem
- 当前 AI POC 分散,模型接入、RAG、eval、日志、成本、权限重复建设。
- 风险:上线门禁不一致,成本不可控,prompt 变更不可追溯,业务难复用。

## 2. Target Users
- AI app developer
- AI PM / BA
- Data / knowledge owner
- Risk / compliance reviewer
- Platform operator

## 3. Goals
- 让新 AI use case 从 discovery 到 pilot 的重复工作减少。
- 让上线前 eval 和上线后 monitoring 成为默认流程。
- 让模型调用、知识检索、工具调用、成本和审计统一可见。

## 4. Non-goals
- 不替代业务系统。
- 不承诺无代码构建所有 AI 应用。
- 不直接做高风险自动决策。

## 5. MVP Capabilities
- model gateway
- prompt registry
- RAG starter kit
- eval harness
- cost dashboard
- audit log

## 6. Success Metrics
- time-to-first-pilot
- % AI apps using gateway
- % releases with eval report
- cost per successful task
- incident count
- adoption by target teams

## 7. Risks
- 平台过度抽象导致业务不用。
- 只看调用量不看价值。
- eval 变成形式主义。
- 权限和知识治理没有 owner。

## 8. Release Gate
- 至少 2 个业务 use case 完成 pilot。
- 每个 pilot 有 eval report、business metric、risk signoff。
- 成本归因可解释。
- 关键 prompt/config 可回滚。

6. 平台 backlog

6.1 Foundation backlog

PriorityFeatureUser storyAcceptance criteria
P0Model gatewayAs an app team, I want one API to access approved modelsrequests logged, model chosen, fallback recorded, cost attributed
P0Prompt registryAs a PM, I want prompt versions to be reviewed and rolled backversion diff, owner, approval, environment, rollback
P0Eval runnerAs a release owner, I want to run eval before deploymentgolden set upload, rubric, threshold, report
P0Cost dashboardAs a sponsor, I want to see cost by use casemodel, team, use case, token, cache, monthly trend
P1RAG ingestionAs a knowledge owner, I want documents indexed with metadatasource, owner, version, permission, freshness
P1Retrieval evalAs an architect, I want to measure retrieval qualityrecall@k, freshness, citation accuracy
P1Audit logAs risk, I want to inspect AI actionsinput metadata, context sources, tool calls, human approval
P2Tool catalogAs an app team, I want approved tools with risk tierstool owner, read/write, risk, approval requirement
P2Feedback loopAs an operator, I want users to flag bad answersfeedback category, triage owner, fix loop

6.2 Developer experience backlog

FeatureWhy it mattersExample
SDK templates降低接入成本create-ai-use-case starter
reference apps让团队知道怎么做policy assistant、case summarizer
local eval runner开发阶段就能测sample golden set
tracing viewerdebug RAG/agent failuresprompt、retrieval、tool、output trace
cookbook复用模式RAG, summarization, extraction, triage

6.3 Governance backlog

FeatureGovernance value
use case risk tiering决定审批、eval、HITL 强度
model allowlist控制模型来源和数据边界
policy guardrail library复用合规规则
release approval workflow让上线责任可追踪
incident workflow线上问题可分类、分派、关闭

7. 平台指标体系

不要只看 API 调用量。AI 平台指标要同时覆盖 adoption、quality、business value、risk、cost。

DimensionMetricBad interpretationBetter interpretation
Adoptionactive use casesuse case 多就是成功看 use case 是否进入真实流程
Adoptionweekly active users用户打开过就是成功看目标角色是否重复使用
Qualityeval pass rate分数高就能上线看 critical failure 是否为 0
Qualityhuman override rateoverride 高说明 AI 差结合任务风险和 reviewer reason
Valuetime saved per case直接换算裁员转成 capacity、SLA、rework reduction
Riskincidents / near misses低就是安全检查检测覆盖是否足够
Costcost per task越低越好要结合成功率和业务价值
Platformtime-to-first-pilot快就是好不能牺牲 eval 和 control

8. 多租户和权限设计

企业 AI 平台常见失败点是“所有团队共用一套东西,但权限、知识、成本、责任没分清”。

Area设计要求
Tenantteam / business unit / use case 可以作为 tenant 维度
Identity用户、服务账号、agent identity 要区分
Knowledge permissionretrieval 前做权限过滤,不能靠生成后过滤
Tool permissiontool call 必须按 user + agent + use case 授权
Cost attributionrequest 必须带 use_case_id / team_id / environment
Audittrace 要能追到模型、prompt、context、tool、approval
Data boundarydev/test/prod 数据和 prompt config 分环境

9. Model gateway 设计要点

Model gateway 不只是代理 API。它是企业 AI 的控制面。

CapabilityWhy
model routing根据任务、成本、延迟、风险选择模型
fallback主模型失败时降级
quota防止成本失控
redaction调用前处理敏感字段
logging支持 debug、audit、eval replay
policy enforcement阻止未授权模型和高风险调用
latency/cost metric支持 SLO 和预算

一个简化 routing 规则:

If task_risk = high:
  use approved_model_tier_1
  require eval_profile = high_risk
  require human_review = true

If task_type = extraction and latency_slo < 2s:
  use small_fast_model

If task_type = complex_reasoning:
  use reasoning_model
  require cost_budget_check

If data_classification = restricted:
  use private_endpoint_only

10. RAG 平台设计要点

RAG starter kit 不是“上传 PDF 然后聊天”。它至少要管理:

ComponentPlatform responsibility
source registry文档来源、owner、更新频率、有效期
ingestionparsing、chunking、metadata、version
permissionABAC/RBAC before retrieval
retrievalhybrid search、rerank、filter
citationanswer 必须能回溯 source
freshness过期知识不能默认使用
evalretrieval recall、citation accuracy、no-answer behavior
feedback用户标错能回到文档和索引修复

11. Eval platform 设计要点

平台层 eval 不是替业务写所有测试,而是提供标准能力:

Eval capabilityPlatform providesBusiness team provides
golden set formatschema、runner、report题目、正确答案、来源
rubricscoring dimensionsdomain thresholds
judge calibrationsample comparison、human review flowSME labels
regression testingbatch run、diff、historyrelease decision
production monitoringtrace sampling、feedback dashboardtriage owner

上线门禁示例:

GateThreshold
critical hallucination0
permission leakage0
citation accuracy>= 95% for policy answers
no-answer correctness>= 90%
high-risk HITL bypass0
latency p95within use case SLO
monthly cost forecastwithin approved budget

12. AI 平台组织模型

RoleResponsibility
Platform PMplatform roadmap、user research、adoption、business case
Platform Architectreference architecture、gateway、RAG、tooling、security
EvalOps Leadeval standards、golden set process、release gates
AI Risk / Compliancepolicy, approval, incident classification
Data / Knowledge Ownersource quality、metadata、access、freshness
Developer Experience LeadSDK、templates、docs、support
Business Product Owneruse case goals、workflow adoption、ROI
Operations Ownermonitoring、incident、change management

13. 平台 rollout 路线

PhaseGoalExit criteria
Phase 0 Discovery找到 2-3 个真实 use case有 baseline、owner、data、risk tier
Phase 1 MVP打通 gateway + prompt registry + eval runner2 个 pilot 使用平台能力
Phase 2 Shared RAG知识 ingestion/retrieval 可复用2 个知识助手复用同一 RAG pipeline
Phase 3 Governancerelease gate 和 audit 成为默认流程所有 pilot 有 eval report 和 risk signoff
Phase 4 Scale开发者体验和成本治理完善新 use case onboarding 时间下降
Phase 5 Optimization形成平台运营节奏有 roadmap、SLO、cost review、incident review

14. 与 ABPA 模板的连接

Platform activityABPA artifact
use case intaketemplates/01-ai-opportunity-canvas.md
stakeholder alignmenttemplates/02-stakeholder-evidence-map.md
workflow analysistemplates/03-bpmn-pain-metrics.md
eval definitiontemplates/04-requirements-to-eval-matrix.md
risk controltemplates/05-ai-control-pack.md
executive approvaltemplates/06-executive-decision-memo.md
data readinesstemplates/07-data-readiness-pack.md
architecture decisiontemplates/08-ai-architecture-adr-set.md
operating ownershiptemplates/09-operating-model-raci.md
adoption trackingtemplates/10-adoption-dashboard.md
investment logictemplates/11-business-case.md
portfolio prooftemplates/12-portfolio-evidence-map.md

15. 面试表达

30 秒版本

AI 平台 PM 的核心不是做一个模型调用后台,而是把模型接入、RAG、prompt 管理、tool gateway、eval、成本、权限、审计和 adoption 变成企业共享能力。这样每个业务团队不用重复从零开始,也能按统一标准把 AI use case 从 discovery 推到 pilot、release 和 scale。

2 分钟版本

我会先从真实 use case 出发,而不是先建大平台。比如 AML、客服知识助手、支付争议这类场景会反复需要模型接入、知识检索、权限过滤、eval、日志、成本归因和人工审批。平台 MVP 应该先提供 model gateway、prompt registry、RAG starter kit、eval harness、cost dashboard 和 audit log。

成功指标不能只看 API 调用量,而要看 time-to-first-pilot、release with eval report、cost per successful task、adoption by target roles、critical incident count 和业务指标变化。平台的产品挑战是控制抽象层级:太薄没有复用价值,太厚业务团队不用。所以我会用 2-3 个 flagship cases 驱动平台能力沉淀。

CTO 追问回答

Q: 为什么不让各业务团队自己接模型?

A: 初期可以允许探索,但进入 pilot/release 后需要统一 gateway,否则模型选择、日志、成本、权限、数据边界和 incident response 都会分散。平台不是限制创新,而是把重复控制面统一。

Q: 平台会不会变成瓶颈?

A: 会,所以平台要提供 paved road,而不是所有东西都审批。低风险 use case 可以自助接入,高风险 use case 才走强化 gate。平台团队应提供 SDK、模板、reference app 和清晰 SLA。

Q: 你怎么证明平台有价值?

A: 看三类指标:交付效率、质量风险、业务 adoption。比如新 use case onboarding 时间下降、release eval 覆盖率提升、成本可归因、incident 降低、目标用户持续使用、业务流程指标改善。

16. 练习任务

选择一个已有 case,例如 AML Copilot 或 KYC Policy Assistant,完成以下平台化练习:

StepOutput
1标出该 case 需要哪些平台能力
2把能力分成 P0/P1/P2
3写 model gateway routing rule
4写 RAG source registry 样例
5写 eval release gate
6写 cost attribution rule
7写 adoption dashboard 指标
8写一页 platform MVP funding memo

17. 判断自己是否掌握

你能回答下面问题,才算真的理解 AI Platform PM:

  1. 为什么 AI 平台不能从“统一大平台”开始?
  2. 哪些能力必须平台化,哪些应该留给业务团队?
  3. model gateway 和普通 API proxy 的区别是什么?
  4. RAG 平台为什么必须管 metadata、permission、freshness?
  5. eval harness 如何避免变成形式主义?
  6. 成本归因应该按哪些维度做?
  7. 高风险 tool call 应该如何审批和审计?
  8. 平台指标为什么不能只看调用量?
  9. 怎么用 2-3 个 flagship use cases 驱动平台 roadmap?
  10. 什么时候应该停止一个平台 feature?

18. Stop Rules

平台建设也需要停止规则:

SignalDecision
连续两个季度没有业务 use case 复用停止新增平台能力,回到 use case discovery
平台接入时间比业务自建还长简化 onboarding 和 SDK
eval reports 不影响 release 决策重设 gate 和责任人
成本 dashboard 无法归因到 use case暂停 scale,修复 tagging 和 accounting
高风险项目绕开平台上线升级 governance 和 architecture review
开发者只复制 reference app 不理解风险增加 enablement 和 review

AI 平台的成熟,不在于功能列表多,而在于它让业务 AI 能更快、更稳、更可控地进入真实流程。