AI 扩展计划 / Playbooks

AI Platform PM Playbook

AI 应用可以一个一个做，但企业真正规模化时，会遇到重复问题：

386 行AI_PLATFORM_PM_PLAYBOOK.md

AI Platform PM Playbook

目的：训练面向企业内部 AI 平台的产品经理能力，把模型、RAG、Agent、EvalOps、治理、成本、权限、开发者体验和业务 adoption 组织成可复用平台。适用对象：AI PM、Platform PM、AI Solutions Architect、AI BA、企业 AI 转型负责人。原则：AI 平台不是“接一个模型 API”，而是让多个业务团队能安全、低成本、可评估、可审计地构建 AI 工作流。

1. AI Platform PM 的核心问题

AI 应用可以一个一个做，但企业真正规模化时，会遇到重复问题：

重复问题	单点项目做法	平台化做法
每个团队重复接模型	各自写调用代码	统一 model gateway
每个团队重复做 RAG	各自建向量库	统一 knowledge ingestion + retrieval service
每个团队不知道怎么评测	上线靠主观体验	统一 eval harness + release gate
成本不可控	账单后知后觉	quota、budget、cost dashboard
权限和审计不一致	各项目临时补	identity、policy、audit log 平台能力
Prompt 和配置不可追溯	复制粘贴	prompt/config registry
业务难 adoption	做完没人用	adoption analytics + enablement

AI Platform PM 的职责是把这些横向能力产品化，让业务 AI use case 从一次性项目变成可重复交付能力。

2. 平台能力地图

Layer	Platform capability	PM 要问的问题	Architect 要设计的东西	BA 要补的事实
Use case intake	AI idea intake and prioritization	哪些 use case 值得进入 discovery？	intake workflow、scoring data model	业务目标、流程痛点、baseline
Model access	Model gateway	哪些模型能用、谁能用、用在哪类任务？	routing、fallback、quota、logging	使用场景、风险等级
Prompt/config	Prompt and policy registry	prompt 变更如何审批和回滚？	versioning、environment、approval	业务规则、合规话术
Knowledge	Knowledge ingestion and retrieval	哪些知识源可信、如何更新？	connectors、metadata、chunking、rerank	文档 owner、更新频率、权限
Tooling	Tool gateway	AI 能调用什么系统和动作？	tool catalog、RBAC、HITL、idempotency	流程动作、异常路径
Eval	Eval harness	怎样证明质量足够上线？	golden set、rubric、judge calibration	验收标准、错误成本
Safety	Policy and guardrails	哪些行为必须禁止或升级？	policy engine、content filters、risk rules	风险场景、审批规则
Observability	AI telemetry	线上如何知道系统坏了？	traces、metrics、feedback、incident logs	用户反馈、SLA、业务指标
Cost	Cost governance	谁为成本负责，成本如何归因？	token accounting、budget、cache	使用量预测、价值指标
Adoption	Enablement and analytics	用户是否真正改变工作方式？	usage analytics、training hub	角色、阻力、培训需求

3. 平台产品边界

3.1 平台应该做什么

应该平台化	原因
model gateway	统一模型接入、日志、成本、fallback、合规控制
RAG ingestion / retrieval	知识治理和权限过滤必须一致
eval harness	所有 AI 应用都需要可比较的上线门禁
prompt/config registry	变更可追溯，便于 rollback 和 audit
tool gateway	高风险行动必须统一鉴权、审计和人工审批
AI observability	线上质量、成本、延迟、失败模式要统一看
policy guardrails	企业统一安全和合规底线
adoption dashboard	平台价值不能只看 API 调用量

3.2 不应该过早平台化

不宜过早平台化	原因	更好的做法
所有业务流程编排	流程差异大，容易做成低价值大平台	先沉淀 2-3 个高频 workflow pattern
所有 domain ontology	需要领域验证，过早统一会误伤业务	先按 case 建 domain glossary
自研 foundation model	成本高，收益不确定，人才和数据要求高	先用 model gateway 管理多模型
全自动 agent marketplace	风险和治理复杂	先做受控 tool catalog 和 approval flow
统一 UI builder	使用场景未稳定	先提供 API、组件和 reference app

4. MVP 范围设计

一个务实的 AI 平台 MVP 不追求“大而全”，而是解决最阻碍复用的 5 件事：

MVP capability	最小版本	证明指标
Model gateway	统一调用 2-3 个模型，记录 request/response metadata	80% 新 AI POC 通过 gateway 接入
Prompt registry	prompt 版本、owner、环境、审批记录	prompt 变更可回滚
RAG starter kit	文档 ingestion、metadata filter、citation、basic eval	2 个业务知识助手复用
Eval harness	golden set、rubric、批量运行、release threshold	每次 release 有 eval report
Cost dashboard	按 use case、team、model 归因	月度成本可解释

第一版不做：

不做复杂 agent 自动编排平台。
不做企业级全知识图谱。
不做自研大模型训练平台。
不做所有业务统一 UI。
不承诺所有 use case 都能无代码完成。

5. AI 平台 PRD 骨架

# AI Platform MVP PRD

## 1. Problem
- 当前 AI POC 分散，模型接入、RAG、eval、日志、成本、权限重复建设。
- 风险：上线门禁不一致，成本不可控，prompt 变更不可追溯，业务难复用。

## 2. Target Users
- AI app developer
- AI PM / BA
- Data / knowledge owner
- Risk / compliance reviewer
- Platform operator

## 3. Goals
- 让新 AI use case 从 discovery 到 pilot 的重复工作减少。
- 让上线前 eval 和上线后 monitoring 成为默认流程。
- 让模型调用、知识检索、工具调用、成本和审计统一可见。

## 4. Non-goals
- 不替代业务系统。
- 不承诺无代码构建所有 AI 应用。
- 不直接做高风险自动决策。

## 5. MVP Capabilities
- model gateway
- prompt registry
- RAG starter kit
- eval harness
- cost dashboard
- audit log

## 6. Success Metrics
- time-to-first-pilot
- % AI apps using gateway
- % releases with eval report
- cost per successful task
- incident count
- adoption by target teams

## 7. Risks
- 平台过度抽象导致业务不用。
- 只看调用量不看价值。
- eval 变成形式主义。
- 权限和知识治理没有 owner。

## 8. Release Gate
- 至少 2 个业务 use case 完成 pilot。
- 每个 pilot 有 eval report、business metric、risk signoff。
- 成本归因可解释。
- 关键 prompt/config 可回滚。

6. 平台 backlog

6.1 Foundation backlog

Priority	Feature	User story	Acceptance criteria
P0	Model gateway	As an app team, I want one API to access approved models	requests logged, model chosen, fallback recorded, cost attributed
P0	Prompt registry	As a PM, I want prompt versions to be reviewed and rolled back	version diff, owner, approval, environment, rollback
P0	Eval runner	As a release owner, I want to run eval before deployment	golden set upload, rubric, threshold, report
P0	Cost dashboard	As a sponsor, I want to see cost by use case	model, team, use case, token, cache, monthly trend
P1	RAG ingestion	As a knowledge owner, I want documents indexed with metadata	source, owner, version, permission, freshness
P1	Retrieval eval	As an architect, I want to measure retrieval quality	recall@k, freshness, citation accuracy
P1	Audit log	As risk, I want to inspect AI actions	input metadata, context sources, tool calls, human approval
P2	Tool catalog	As an app team, I want approved tools with risk tiers	tool owner, read/write, risk, approval requirement
P2	Feedback loop	As an operator, I want users to flag bad answers	feedback category, triage owner, fix loop

6.2 Developer experience backlog

Feature	Why it matters	Example
SDK templates	降低接入成本	`create-ai-use-case` starter
reference apps	让团队知道怎么做	policy assistant、case summarizer
local eval runner	开发阶段就能测	sample golden set
tracing viewer	debug RAG/agent failures	prompt、retrieval、tool、output trace
cookbook	复用模式	RAG, summarization, extraction, triage

6.3 Governance backlog

Feature	Governance value
use case risk tiering	决定审批、eval、HITL 强度
model allowlist	控制模型来源和数据边界
policy guardrail library	复用合规规则
release approval workflow	让上线责任可追踪
incident workflow	线上问题可分类、分派、关闭

7. 平台指标体系

不要只看 API 调用量。AI 平台指标要同时覆盖 adoption、quality、business value、risk、cost。

Dimension	Metric	Bad interpretation	Better interpretation
Adoption	active use cases	use case 多就是成功	看 use case 是否进入真实流程
Adoption	weekly active users	用户打开过就是成功	看目标角色是否重复使用
Quality	eval pass rate	分数高就能上线	看 critical failure 是否为 0
Quality	human override rate	override 高说明 AI 差	结合任务风险和 reviewer reason
Value	time saved per case	直接换算裁员	转成 capacity、SLA、rework reduction
Risk	incidents / near misses	低就是安全	检查检测覆盖是否足够
Cost	cost per task	越低越好	要结合成功率和业务价值
Platform	time-to-first-pilot	快就是好	不能牺牲 eval 和 control

8. 多租户和权限设计

企业 AI 平台常见失败点是“所有团队共用一套东西，但权限、知识、成本、责任没分清”。

Area	设计要求
Tenant	team / business unit / use case 可以作为 tenant 维度
Identity	用户、服务账号、agent identity 要区分
Knowledge permission	retrieval 前做权限过滤，不能靠生成后过滤
Tool permission	tool call 必须按 user + agent + use case 授权
Cost attribution	request 必须带 use_case_id / team_id / environment
Audit	trace 要能追到模型、prompt、context、tool、approval
Data boundary	dev/test/prod 数据和 prompt config 分环境

9. Model gateway 设计要点

Model gateway 不只是代理 API。它是企业 AI 的控制面。

Capability	Why
model routing	根据任务、成本、延迟、风险选择模型
fallback	主模型失败时降级
quota	防止成本失控
redaction	调用前处理敏感字段
logging	支持 debug、audit、eval replay
policy enforcement	阻止未授权模型和高风险调用
latency/cost metric	支持 SLO 和预算

一个简化 routing 规则：

If task_risk = high:
  use approved_model_tier_1
  require eval_profile = high_risk
  require human_review = true

If task_type = extraction and latency_slo < 2s:
  use small_fast_model

If task_type = complex_reasoning:
  use reasoning_model
  require cost_budget_check

If data_classification = restricted:
  use private_endpoint_only

10. RAG 平台设计要点

RAG starter kit 不是“上传 PDF 然后聊天”。它至少要管理：

Component	Platform responsibility
source registry	文档来源、owner、更新频率、有效期
ingestion	parsing、chunking、metadata、version
permission	ABAC/RBAC before retrieval
retrieval	hybrid search、rerank、filter
citation	answer 必须能回溯 source
freshness	过期知识不能默认使用
eval	retrieval recall、citation accuracy、no-answer behavior
feedback	用户标错能回到文档和索引修复

11. Eval platform 设计要点

平台层 eval 不是替业务写所有测试，而是提供标准能力：

Eval capability	Platform provides	Business team provides
golden set format	schema、runner、report	题目、正确答案、来源
rubric	scoring dimensions	domain thresholds
judge calibration	sample comparison、human review flow	SME labels
regression testing	batch run、diff、history	release decision
production monitoring	trace sampling、feedback dashboard	triage owner

上线门禁示例：

Gate	Threshold
critical hallucination	0
permission leakage	0
citation accuracy	>= 95% for policy answers
no-answer correctness	>= 90%
high-risk HITL bypass	0
latency p95	within use case SLO
monthly cost forecast	within approved budget

12. AI 平台组织模型

Role	Responsibility
Platform PM	platform roadmap、user research、adoption、business case
Platform Architect	reference architecture、gateway、RAG、tooling、security
EvalOps Lead	eval standards、golden set process、release gates
AI Risk / Compliance	policy, approval, incident classification
Data / Knowledge Owner	source quality、metadata、access、freshness
Developer Experience Lead	SDK、templates、docs、support
Business Product Owner	use case goals、workflow adoption、ROI
Operations Owner	monitoring、incident、change management

13. 平台 rollout 路线

Phase	Goal	Exit criteria
Phase 0 Discovery	找到 2-3 个真实 use case	有 baseline、owner、data、risk tier
Phase 1 MVP	打通 gateway + prompt registry + eval runner	2 个 pilot 使用平台能力
Phase 2 Shared RAG	知识 ingestion/retrieval 可复用	2 个知识助手复用同一 RAG pipeline
Phase 3 Governance	release gate 和 audit 成为默认流程	所有 pilot 有 eval report 和 risk signoff
Phase 4 Scale	开发者体验和成本治理完善	新 use case onboarding 时间下降
Phase 5 Optimization	形成平台运营节奏	有 roadmap、SLO、cost review、incident review

14. 与 ABPA 模板的连接

Platform activity	ABPA artifact
use case intake	`templates/01-ai-opportunity-canvas.md`
stakeholder alignment	`templates/02-stakeholder-evidence-map.md`
workflow analysis	`templates/03-bpmn-pain-metrics.md`
eval definition	`templates/04-requirements-to-eval-matrix.md`
risk control	`templates/05-ai-control-pack.md`
executive approval	`templates/06-executive-decision-memo.md`
data readiness	`templates/07-data-readiness-pack.md`
architecture decision	`templates/08-ai-architecture-adr-set.md`
operating ownership	`templates/09-operating-model-raci.md`
adoption tracking	`templates/10-adoption-dashboard.md`
investment logic	`templates/11-business-case.md`
portfolio proof	`templates/12-portfolio-evidence-map.md`

15. 面试表达

30 秒版本

AI 平台 PM 的核心不是做一个模型调用后台，而是把模型接入、RAG、prompt 管理、tool gateway、eval、成本、权限、审计和 adoption 变成企业共享能力。这样每个业务团队不用重复从零开始，也能按统一标准把 AI use case 从 discovery 推到 pilot、release 和 scale。

2 分钟版本

我会先从真实 use case 出发，而不是先建大平台。比如 AML、客服知识助手、支付争议这类场景会反复需要模型接入、知识检索、权限过滤、eval、日志、成本归因和人工审批。平台 MVP 应该先提供 model gateway、prompt registry、RAG starter kit、eval harness、cost dashboard 和 audit log。

成功指标不能只看 API 调用量，而要看 time-to-first-pilot、release with eval report、cost per successful task、adoption by target roles、critical incident count 和业务指标变化。平台的产品挑战是控制抽象层级：太薄没有复用价值，太厚业务团队不用。所以我会用 2-3 个 flagship cases 驱动平台能力沉淀。

CTO 追问回答

Q: 为什么不让各业务团队自己接模型？

A: 初期可以允许探索，但进入 pilot/release 后需要统一 gateway，否则模型选择、日志、成本、权限、数据边界和 incident response 都会分散。平台不是限制创新，而是把重复控制面统一。

Q: 平台会不会变成瓶颈？

A: 会，所以平台要提供 paved road，而不是所有东西都审批。低风险 use case 可以自助接入，高风险 use case 才走强化 gate。平台团队应提供 SDK、模板、reference app 和清晰 SLA。

Q: 你怎么证明平台有价值？

A: 看三类指标：交付效率、质量风险、业务 adoption。比如新 use case onboarding 时间下降、release eval 覆盖率提升、成本可归因、incident 降低、目标用户持续使用、业务流程指标改善。

16. 练习任务

选择一个已有 case，例如 AML Copilot 或 KYC Policy Assistant，完成以下平台化练习：

Step	Output
1	标出该 case 需要哪些平台能力
2	把能力分成 P0/P1/P2
3	写 model gateway routing rule
4	写 RAG source registry 样例
5	写 eval release gate
6	写 cost attribution rule
7	写 adoption dashboard 指标
8	写一页 platform MVP funding memo

17. 判断自己是否掌握

你能回答下面问题，才算真的理解 AI Platform PM：

为什么 AI 平台不能从“统一大平台”开始？
哪些能力必须平台化，哪些应该留给业务团队？
model gateway 和普通 API proxy 的区别是什么？
RAG 平台为什么必须管 metadata、permission、freshness？
eval harness 如何避免变成形式主义？
成本归因应该按哪些维度做？
高风险 tool call 应该如何审批和审计？
平台指标为什么不能只看调用量？
怎么用 2-3 个 flagship use cases 驱动平台 roadmap？
什么时候应该停止一个平台 feature？

18. Stop Rules

平台建设也需要停止规则：

Signal	Decision
连续两个季度没有业务 use case 复用	停止新增平台能力，回到 use case discovery
平台接入时间比业务自建还长	简化 onboarding 和 SDK
eval reports 不影响 release 决策	重设 gate 和责任人
成本 dashboard 无法归因到 use case	暂停 scale，修复 tagging 和 accounting
高风险项目绕开平台上线	升级 governance 和 architecture review
开发者只复制 reference app 不理解风险	增加 enablement 和 review

AI 平台的成熟，不在于功能列表多，而在于它让业务 AI 能更快、更稳、更可控地进入真实流程。