AI 扩展计划 / Playbooks

AI Capability Assessment Rubric

每个能力维度 0-4 分：

576 行AI_CAPABILITY_ASSESSMENT_RUBRIC.md

AI Capability Assessment Rubric

目的：把 AI BA、AI PM、AI Architect、AI Platform PM、EvalOps、Governance、Data Product 等能力变成可自测、可复盘、可面试证明的评分体系。使用方式：每 2 周做一次自评；每做完一个 case drill 或论文解读，就把产物映射到本 rubric。原则：不以“读了多少材料”作为能力证明，只看是否能产出可被追问、可被验证、可复用的 artifact。

1. 总体评分方法

每个能力维度 0-4 分：

分数	定义	证据要求
0	只听过概念	不能独立解释，也没有产物
1	能复述概念	有笔记，但不能落到具体业务场景
2	能做简单练习	有一个 case 片段或模板草稿
3	能做完整方案	有 workflow、requirements、architecture、eval、risk、metrics
4	能 defend 方案	能回答反对意见、追问、trade-off、失败路径和替代方案

每个角色目标不同：

角色	合格线	强竞争线	作品集线
AI BA	平均 2.5	平均 3.2	至少 3 个 4 分 artifact
AI PM	平均 2.7	平均 3.4	至少 3 个跨业务/技术/风险 artifact
AI Architect	平均 2.8	平均 3.5	至少 2 个可讲 C4/ADR/Eval/Risk 完整案例
AI Platform PM	平均 2.6	平均 3.3	至少 1 个 platform MVP + roadmap
EvalOps / Governance	平均 2.8	平均 3.5	至少 1 个 release gate + monitoring + incident loop

2. 能力维度总表

Code	Capability	你要证明什么	典型资产
C1	AI foundation literacy	能解释底层机制如何影响产品/架构	Transformer/RAG/Agent/MoE/Scaling 一页纸
C2	Business problem framing	能定义真实问题和 baseline	opportunity canvas、problem memo
C3	Workflow and BA analysis	能画 AS-IS/TO-BE、规则、异常、验收	BPMN、requirements-to-eval
C4	Product strategy	能定义 MVP、指标、ROI、adoption、stop rule	PRD、pilot memo、business case
C5	Solution architecture	能设计组件、数据流、权限、上下文、fallback	C4、sequence、ADR
C6	Context engineering	能组织 prompt、RAG、tool、policy、schema、memory	context ADR、RAG architecture
C7	EvalOps	能设计 golden set、rubric、release gate、monitoring	eval contract、dashboard
C8	Risk and governance	能设计 controls、audit、RACI、incident、policy	control pack、runbook
C9	Data product management	能把数据治理成 AI 可用产品	data product canvas、quality SLO
C10	Vendor / build-buy	能做 vendor due diligence 和 sourcing 决策	scorecard、TCO、exit plan
C11	Platform thinking	能把重复能力平台化	model gateway、RAG platform、EvalOps backlog
C12	Executive communication	能把复杂方案转成决策语言	executive memo、board report
C13	Interview storytelling	能按 BA/PM/Architect 三种身份讲同一案例	30 秒、2 分钟、8 分钟故事
C14	Learning system	能持续复习、升级、淘汰和组合资产	knowledge graph、review cadence

3. C1 AI Foundation Literacy

评分标准

分数	表现
0	只会说模型名字，例如 Transformer、RAG、Agent
1	能复述定义，但无法说明业务影响
2	能解释机制，并给出一个简单类比
3	能把机制映射到架构、成本、风险、eval
4	能比较替代方案并说明何时不用该技术

必备概念

Concept	你必须能回答
Transformer	Q/K/V、attention、decoder-only、context window 对产品意味着什么
RAG	为什么 RAG 是知识治理，不只是搜索
Agent / tool use	为什么 Agent 是行动系统，不只是长 prompt
RLHF / DPO / alignment	为什么对齐不能替代 runtime control
CoT / reasoning	为什么推理输出不等于事实证据
LoRA / PEFT	RAG、fine-tuning、adapter 的边界
Inference optimization	KV cache、FlashAttention、speculative decoding 如何影响 SLO
LLM-as-Judge	自动评估为什么需要校准和专家复核
MoE	稀疏激活如何影响成本、吞吐和尾延迟
Scaling laws	为什么企业通常不应从零训练 foundation model

4 分证据

一份 Transformer for PM/BA/Architect 一页纸。
一份 RAG vs Fine-tuning vs Long Context ADR。
一份 Agent tool risk catalog。
一份 Model selection and SLO memo。

4. C2 Business Problem Framing

评分标准

分数	表现
0	只说“用 AI 提效”
1	能描述痛点，但没有对象和基线
2	有用户、流程和问题，但指标模糊
3	有 baseline、损耗、目标、范围和不做范围
4	能比较 no-AI、workflow-only、AI-assisted、agentic 方案

必备输出

Artifact	内容
Problem statement	谁在什么流程中，因为什么约束，产生什么损耗
Baseline	volume、cycle time、error、cost、risk、complaint、backlog
Opportunity hypothesis	AI 改善速度、质量、风险、体验还是规模
Non-goals	明确第一阶段不自动化什么
Decision requested	discovery、pilot、scale、stop、vendor selection

金融零售示例

弱表达：

用 AI 帮助 AML 团队提高效率。

强表达：

AML investigator 每天花大量时间在交易证据、KYC、历史 case 和 typology 查找上，导致 alert backlog 增长。第一阶段只做 evidence retrieval 和 narrative draft，不自动关闭 alert，也不决定是否提交 SAR/STR。目标是降低 time-to-first-summary 和 QA rework，同时保持 supervisor review 和 audit trail。

5. C3 Workflow and BA Analysis

评分标准

分数	表现
0	只有功能列表
1	有 user story，但没有流程
2	有 AS-IS/TO-BE，但缺异常和规则
3	有 stakeholder、规则、异常、数据、验收
4	能把流程转成 eval、controls、RACI 和 adoption plan

BA 必备清单

Area	Questions
Stakeholders	使用者、审批者、反对者、数据 owner、风险 owner 是谁
AS-IS	当前步骤、等待、返工、例外、系统切换在哪里
TO-BE	AI 插入哪一步，人保留哪一步，失败如何回退
Rules	哪些规则是硬规则，哪些是判断，哪些必须人工审批
Exceptions	缺数据、冲突数据、高风险、低置信、客户投诉如何处理
Acceptance	什么输出算通过，什么错误必须阻断
Audit	哪些字段必须可追溯

4 分证据

一张 BPMN 或文字流程图。
一张 requirements-to-eval matrix。
一份 exception handling table。
一份 audit evidence list。

6. C4 Product Strategy

评分标准

分数	表现
0	只说功能
1	有 MVP，但范围过大
2	有指标，但不含风险和 adoption
3	有 MVP、metrics、ROI、pilot、stop rule
4	能用 pilot 证据决定 scale、extend、stop、pivot

PM 决策表

Question	Strong answer
Why now	baseline pain 已可量化，数据和 owner 已具备
Why AI	no-AI/workflow-only 无法解决知识、语义、证据综合或生成问题
Why this MVP	最小可验证价值，同时不越过风险边界
What metric	business、quality、risk、adoption、cost 五类指标
What stop rule	质量、风险、adoption、成本任一关键阈值失败就停止或降级

指标平衡

Dimension	Example
Business	cycle time、backlog age、rework rate、cost per case
Quality	groundedness、citation accuracy、classification F1、field accuracy
Risk	unsafe output、PII leakage、policy violation、HITL bypass
Adoption	weekly active target users、override reason、trust score
Cost	cost per successful task、review cost、support cost

7. C5 Solution Architecture

评分标准

分数	表现
0	只说“接大模型”
1	有组件名，但没有边界
2	有数据流，但缺权限、fallback、observability
3	有 C4/sequence、权限、context、eval、logging
4	能解释 trade-off、failure mode、rollback 和 scale path

架构必备问题

Area	Questions
Boundary	AI 读什么、写什么、不能碰什么
Data flow	哪些数据进入 prompt、retrieval、tool、log
Identity	user identity、agent identity、service account 如何区分
Permission	retrieval 前过滤还是生成后过滤
Context	system prompt、business object、documents、tools、policy、schema
Tooling	read-only、draft、low-risk write、high-risk write 如何分级
Observability	trace 是否能重建输入、context、model、output、review
Fallback	模型失败、RAG 失败、tool 失败、policy 失败如何处理

4 分证据

C4 context/container。
sequence diagram。
ADR。
threat model。
rollback plan。

8. C6 Context Engineering

评分标准

分数	表现
0	只会写 prompt
1	能写 system prompt，但没有上下文结构
2	能加入 RAG，但缺权限、schema、policy
3	能组织 prompt/RAG/tool/policy/schema/eval
4	能解释哪些上下文不该给、如何验证和审计上下文

Context Stack

Layer	Example
Intent	用户目标、任务类型、风险等级
Business object	case、customer、transaction、claim、policy
Knowledge	approved source、metadata、version、permission
Tool observation	tool result、timestamp、status、confidence
Policy	allowed、disallowed、escalate、refuse
Schema	output contract、required fields、format
Memory	session state、case history、user preference
Eval hooks	expected citation、risk flag、judge rubric
Audit	source ids、prompt version、model version、reviewer

4 分证据

Context Engineering ADR。
Trusted/untrusted context separation table。
RAG metadata schema。
Prompt injection red-team cases。

9. C7 EvalOps

评分标准

分数	表现
0	只说“准确率”
1	有人工体验反馈
2	有 eval 样例，但没有阈值
3	有 golden set、rubric、threshold、release gate
4	有 offline、shadow、pilot、production monitoring 和 incident loop

Eval 结构

Layer	Example
Task eval	分类、抽取、摘要、问答、生成、工具调用
Retrieval eval	recall@k、citation precision、freshness、permission leakage
Answer eval	correctness、groundedness、completeness、format
Safety eval	PII、prompt injection、unsafe advice、policy violation
Human review	SME sampling、override reason、calibration
Production monitoring	drift、latency、cost、feedback、incident

Stop Rule 示例

Failure	Stop action
permission leakage > 0	停止 release，修复 retrieval 权限
critical hallucination > 0	停止 release，补充 guardrail 和 eval
high-risk HITL bypass > 0	停止 release，修复 workflow gate
citation accuracy below threshold	降级为 draft-only
adoption below target	重新做 workflow research

10. C8 Risk and Governance

评分标准

分数	表现
0	只说“注意合规”
1	有风险清单
2	有 controls，但没有 owner
3	有 preventive/detective/corrective controls、owner、RACI
4	有 risk acceptance、incident runbook、audit evidence、board reporting

Control Matrix

Risk	Preventive	Detective	Corrective	Owner
Hallucination	RAG citation、schema、policy	groundedness eval、sampling	block release、fix source	Product + EvalOps
PII leakage	redaction、RBAC	leakage tests、DLP alert	revoke access、incident	Security + Data
Excessive agency	tool tiering、HITL	tool trace review	kill switch、rollback	Architect + Ops
Bias	feature review、policy	subgroup eval	retrain/reroute/manual	Risk + Model Owner
Vendor change	contract notice、version pin	regression eval	route fallback	Vendor Owner

11. C9 Data Product Management

评分标准

分数	表现
0	只说“有数据”
1	能列数据源
2	能说明质量问题和权限
3	有 data product canvas、contract、quality SLO、owner
4	数据能同时支持 RAG、eval、feedback、governance 和 ROI

数据产品必须回答

Area	Questions
Source of truth	哪个系统是权威来源
Data contract	schema、freshness、SLA、breaking change
Quality	completeness、accuracy、timeliness、consistency
Metadata	owner、classification、retention、permission、version
Lineage	数据从哪里来，如何变换，谁批准
Label	谁标注，如何校准，如何处理争议
Golden set	如何抽样、冻结、版本化、防污染
Feedback	用户反馈如何回流到数据和 eval

12. C10 Vendor / Build-Buy

评分标准

分数	表现
0	只看 demo
1	比较功能和价格
2	加入安全和集成
3	有 scorecard、TCO、risk、exit plan
4	能把 vendor choice 放进 architecture、governance、adoption 和 contract controls

Vendor Scorecard

Dimension	Evidence
Workflow fit	是否支持真实流程，而非 demo flow
Eval access	是否能导出 eval、trace、失败样本
Security	SSO、RBAC、encryption、data residency
Audit	logs、model version、prompt version、reviewer
Integration	API、webhook、event、tool gateway
Cost	license、usage、support、migration、exit
Lock-in	data export、prompt/config export、termination support
Governance	model change notice、incident SLA、DPA

13. C11 Platform Thinking

评分标准

分数	表现
0	每个 use case 单独做
1	看到重复组件
2	有共享能力清单
3	有 platform MVP、backlog、metrics、operating model
4	能用 flagship use cases 驱动平台能力沉淀

平台能力

Capability	Why
Model gateway	routing、fallback、cost、policy、logging
Prompt registry	version、approval、rollback
RAG platform	ingestion、metadata、permission、citation
Eval harness	golden set、runner、report、gate
Tool gateway	least privilege、approval、audit
AI observability	trace、latency、cost、feedback、incident
Adoption analytics	usage、trust、override、workflow change

14. C12 Executive Communication

评分标准

分数	表现
0	技术堆砌
1	能讲业务价值
2	有 memo，但缺 options 和 stop rule
3	有 decision、options、evidence、metrics、risks、next gate
4	能按 CEO/CTO/CFO/Risk/Data/Board 切换表达

一页 memo 必备字段

Field	Question
Decision requested	现在要批准什么
Context	为什么现在需要决策
Options	no-AI、workflow-only、AI-assisted、agentic/vendor/build
Recommendation	推荐什么，为什么
Evidence	哪些事实支持，哪些是假设
Metrics	business、quality、risk、adoption、cost
Risks/controls	剩余风险和控制
Next 30 days	钱换来哪些证据
Stop rule	什么时候停止

15. C13 Interview Storytelling

评分标准

分数	表现
0	只能说“我学过”
1	能讲概念
2	能讲一个案例
3	能按 BA/PM/Architect 三版讲
4	能应对追问、质疑、替代方案和失败路径

Story Pack

Version	Length	Focus
30 秒	5 句	问题、方案、边界、价值、控制
2 分钟	6 段	context、role、decision、design、metrics、risk
8 分钟	deep dive	business architecture、product、solution、eval、risk、trade-off
CTO 追问	3-5 问	data flow、model choice、latency、security、rollback
Risk 追问	3-5 问	decision boundary、controls、audit、incident
CFO 追问	3-5 问	baseline、TCO、unit economics、adoption

16. C14 Learning System

评分标准

分数	表现
0	随机学习
1	有计划但不复盘
2	有笔记和目录
3	有 spaced review、artifact map、weekly self-score
4	能持续把旧资产转成新能力证据

每周复盘表

Question	Answer
本周最强 artifact 是什么
它证明哪项能力
还缺哪项证据
哪个概念仍讲不顺
哪个 case 最值得升级作品集
哪个风险没有被充分控制
下周只做哪 3 件事

17. 角色画像评分

AI BA

Capability	Target
Business framing	4
Workflow / BA analysis	4
Requirements-to-eval	4
Data readiness	3
Governance	3
Architecture awareness	3
Executive communication	3

AI BA 的强证据不是“会写需求”，而是能把模糊 AI 想法转成流程、规则、异常、验收、eval 和责任边界。

AI PM

Capability	Target
Product strategy	4
Metrics / ROI	4
Adoption	4
EvalOps	3
Vendor/build-buy	3
Executive communication	4
Architecture trade-off	3

AI PM 的强证据不是“懂模型”，而是能用 pilot gate 管理价值、风险、质量和 adoption 的不确定性。

AI Architect

Capability	Target
AI foundation literacy	4
Solution architecture	4
Context engineering	4
Security / governance	4
Eval architecture	4
Platform thinking	3
Executive communication	3

AI Architect 的强证据不是“画了架构图”，而是能解释数据、上下文、权限、模型、工具、eval、观测、回滚如何形成生产系统。

AI Platform PM

Capability	Target
Platform thinking	4
Product strategy	4
Developer/user empathy	3
Cost governance	4
EvalOps	3
Vendor/build-buy	3
Operating model	3

AI Platform PM 的强证据是能把多个 use case 的重复能力抽象成平台，而不是先做一个没人复用的大平台。

EvalOps / Governance Lead

Capability	Target
EvalOps	4
Risk and governance	4
Data product management	3
Regulatory response	3
Incident management	4
Board / audit communication	3

EvalOps / Governance 的强证据是能把原则变成 release gate、monitoring、incident、audit 和责任人。

18. 30 天自评节奏

Day	Action
1	选 3 个目标角色：主线、辅线、备选
2	用本 rubric 做第一次基线评分
3-7	每天补一个低分维度 artifact
8	复评 C1-C4
9-14	做一个完整 case pack
15	复评 C5-C8
16-21	做数据、平台、vendor、governance 资产
22	复评 C9-C12
23-28	把 2 个案例转成面试 story
29	做 mock interview Q&A
30	形成 final evidence map

19. Evidence Map 模板

Claim	Evidence	Score	Gap	Next action
我能设计 enterprise RAG	RAG ADR + eval set	3	缺 production monitoring	补 dashboard 和 incident loop
我能做 AI BA 需求	AML requirements-to-eval	4	可补 stakeholder interview	写 objection map
我能做 AI PM pilot	executive pilot memo	3	ROI 假设偏粗	补 baseline 和 sensitivity
我能做 AI 架构	C4 + sequence + ADR	3	缺 threat model	补 prompt injection red-team
我能做 AI governance	control pack	3	缺 board language	写 board risk dashboard

20. 常见误区

误区	更好的做法
把学习量当能力	把每个概念转成 artifact
一份案例想证明所有能力	每个案例明确证明 2-3 个能力
只准备 PM 表达	同一案例准备 BA、PM、Architect、Risk 四种版本
只讲成功路径	主动讲 failure mode、stop rule、fallback
只看模型质量	同时看 business、quality、risk、adoption、cost
只做文档	至少补一个可运行 demo、eval 或 dashboard
只用旧经验	把金融零售经验转成 AI workflow/eval/governance 语言

21. 最终判断

你真正具备 AI BA/PM/Architect 竞争力，不是因为你读过多少 AI 资料，而是因为你能在一个真实业务问题前，连续完成这条链路：

business pain
  -> workflow and stakeholders
  -> AI fit / no-AI alternative
  -> data and knowledge readiness
  -> architecture and context design
  -> requirements-to-eval
  -> risk controls and operating model
  -> pilot metrics and stop rule
  -> executive decision
  -> interview story

这条链路能独立走通，才说明学习资产已经变成职业能力。