返回 Papers
AI 扩展计划 / Playbooks

AI Capability Assessment Rubric

每个能力维度 0-4 分:

576AI_CAPABILITY_ASSESSMENT_RUBRIC.md

AI Capability Assessment Rubric

目的:把 AI BA、AI PM、AI Architect、AI Platform PM、EvalOps、Governance、Data Product 等能力变成可自测、可复盘、可面试证明的评分体系。 使用方式:每 2 周做一次自评;每做完一个 case drill 或论文解读,就把产物映射到本 rubric。 原则:不以“读了多少材料”作为能力证明,只看是否能产出可被追问、可被验证、可复用的 artifact。

1. 总体评分方法

每个能力维度 0-4 分:

分数定义证据要求
0只听过概念不能独立解释,也没有产物
1能复述概念有笔记,但不能落到具体业务场景
2能做简单练习有一个 case 片段或模板草稿
3能做完整方案有 workflow、requirements、architecture、eval、risk、metrics
4能 defend 方案能回答反对意见、追问、trade-off、失败路径和替代方案

每个角色目标不同:

角色合格线强竞争线作品集线
AI BA平均 2.5平均 3.2至少 3 个 4 分 artifact
AI PM平均 2.7平均 3.4至少 3 个跨业务/技术/风险 artifact
AI Architect平均 2.8平均 3.5至少 2 个可讲 C4/ADR/Eval/Risk 完整案例
AI Platform PM平均 2.6平均 3.3至少 1 个 platform MVP + roadmap
EvalOps / Governance平均 2.8平均 3.5至少 1 个 release gate + monitoring + incident loop

2. 能力维度总表

CodeCapability你要证明什么典型资产
C1AI foundation literacy能解释底层机制如何影响产品/架构Transformer/RAG/Agent/MoE/Scaling 一页纸
C2Business problem framing能定义真实问题和 baselineopportunity canvas、problem memo
C3Workflow and BA analysis能画 AS-IS/TO-BE、规则、异常、验收BPMN、requirements-to-eval
C4Product strategy能定义 MVP、指标、ROI、adoption、stop rulePRD、pilot memo、business case
C5Solution architecture能设计组件、数据流、权限、上下文、fallbackC4、sequence、ADR
C6Context engineering能组织 prompt、RAG、tool、policy、schema、memorycontext ADR、RAG architecture
C7EvalOps能设计 golden set、rubric、release gate、monitoringeval contract、dashboard
C8Risk and governance能设计 controls、audit、RACI、incident、policycontrol pack、runbook
C9Data product management能把数据治理成 AI 可用产品data product canvas、quality SLO
C10Vendor / build-buy能做 vendor due diligence 和 sourcing 决策scorecard、TCO、exit plan
C11Platform thinking能把重复能力平台化model gateway、RAG platform、EvalOps backlog
C12Executive communication能把复杂方案转成决策语言executive memo、board report
C13Interview storytelling能按 BA/PM/Architect 三种身份讲同一案例30 秒、2 分钟、8 分钟故事
C14Learning system能持续复习、升级、淘汰和组合资产knowledge graph、review cadence

3. C1 AI Foundation Literacy

评分标准

分数表现
0只会说模型名字,例如 Transformer、RAG、Agent
1能复述定义,但无法说明业务影响
2能解释机制,并给出一个简单类比
3能把机制映射到架构、成本、风险、eval
4能比较替代方案并说明何时不用该技术

必备概念

Concept你必须能回答
TransformerQ/K/V、attention、decoder-only、context window 对产品意味着什么
RAG为什么 RAG 是知识治理,不只是搜索
Agent / tool use为什么 Agent 是行动系统,不只是长 prompt
RLHF / DPO / alignment为什么对齐不能替代 runtime control
CoT / reasoning为什么推理输出不等于事实证据
LoRA / PEFTRAG、fine-tuning、adapter 的边界
Inference optimizationKV cache、FlashAttention、speculative decoding 如何影响 SLO
LLM-as-Judge自动评估为什么需要校准和专家复核
MoE稀疏激活如何影响成本、吞吐和尾延迟
Scaling laws为什么企业通常不应从零训练 foundation model

4 分证据

  • 一份 Transformer for PM/BA/Architect 一页纸。
  • 一份 RAG vs Fine-tuning vs Long Context ADR。
  • 一份 Agent tool risk catalog
  • 一份 Model selection and SLO memo

4. C2 Business Problem Framing

评分标准

分数表现
0只说“用 AI 提效”
1能描述痛点,但没有对象和基线
2有用户、流程和问题,但指标模糊
3有 baseline、损耗、目标、范围和不做范围
4能比较 no-AI、workflow-only、AI-assisted、agentic 方案

必备输出

Artifact内容
Problem statement谁在什么流程中,因为什么约束,产生什么损耗
Baselinevolume、cycle time、error、cost、risk、complaint、backlog
Opportunity hypothesisAI 改善速度、质量、风险、体验还是规模
Non-goals明确第一阶段不自动化什么
Decision requesteddiscovery、pilot、scale、stop、vendor selection

金融零售示例

弱表达:

用 AI 帮助 AML 团队提高效率。

强表达:

AML investigator 每天花大量时间在交易证据、KYC、历史 case 和 typology 查找上,导致 alert backlog 增长。第一阶段只做 evidence retrieval 和 narrative draft,不自动关闭 alert,也不决定是否提交 SAR/STR。目标是降低 time-to-first-summary 和 QA rework,同时保持 supervisor review 和 audit trail。

5. C3 Workflow and BA Analysis

评分标准

分数表现
0只有功能列表
1有 user story,但没有流程
2有 AS-IS/TO-BE,但缺异常和规则
3有 stakeholder、规则、异常、数据、验收
4能把流程转成 eval、controls、RACI 和 adoption plan

BA 必备清单

AreaQuestions
Stakeholders使用者、审批者、反对者、数据 owner、风险 owner 是谁
AS-IS当前步骤、等待、返工、例外、系统切换在哪里
TO-BEAI 插入哪一步,人保留哪一步,失败如何回退
Rules哪些规则是硬规则,哪些是判断,哪些必须人工审批
Exceptions缺数据、冲突数据、高风险、低置信、客户投诉如何处理
Acceptance什么输出算通过,什么错误必须阻断
Audit哪些字段必须可追溯

4 分证据

  • 一张 BPMN 或文字流程图。
  • 一张 requirements-to-eval matrix。
  • 一份 exception handling table。
  • 一份 audit evidence list。

6. C4 Product Strategy

评分标准

分数表现
0只说功能
1有 MVP,但范围过大
2有指标,但不含风险和 adoption
3有 MVP、metrics、ROI、pilot、stop rule
4能用 pilot 证据决定 scale、extend、stop、pivot

PM 决策表

QuestionStrong answer
Why nowbaseline pain 已可量化,数据和 owner 已具备
Why AIno-AI/workflow-only 无法解决知识、语义、证据综合或生成问题
Why this MVP最小可验证价值,同时不越过风险边界
What metricbusiness、quality、risk、adoption、cost 五类指标
What stop rule质量、风险、adoption、成本任一关键阈值失败就停止或降级

指标平衡

DimensionExample
Businesscycle time、backlog age、rework rate、cost per case
Qualitygroundedness、citation accuracy、classification F1、field accuracy
Riskunsafe output、PII leakage、policy violation、HITL bypass
Adoptionweekly active target users、override reason、trust score
Costcost per successful task、review cost、support cost

7. C5 Solution Architecture

评分标准

分数表现
0只说“接大模型”
1有组件名,但没有边界
2有数据流,但缺权限、fallback、observability
3有 C4/sequence、权限、context、eval、logging
4能解释 trade-off、failure mode、rollback 和 scale path

架构必备问题

AreaQuestions
BoundaryAI 读什么、写什么、不能碰什么
Data flow哪些数据进入 prompt、retrieval、tool、log
Identityuser identity、agent identity、service account 如何区分
Permissionretrieval 前过滤还是生成后过滤
Contextsystem prompt、business object、documents、tools、policy、schema
Toolingread-only、draft、low-risk write、high-risk write 如何分级
Observabilitytrace 是否能重建输入、context、model、output、review
Fallback模型失败、RAG 失败、tool 失败、policy 失败如何处理

4 分证据

  • C4 context/container。
  • sequence diagram。
  • ADR。
  • threat model。
  • rollback plan。

8. C6 Context Engineering

评分标准

分数表现
0只会写 prompt
1能写 system prompt,但没有上下文结构
2能加入 RAG,但缺权限、schema、policy
3能组织 prompt/RAG/tool/policy/schema/eval
4能解释哪些上下文不该给、如何验证和审计上下文

Context Stack

LayerExample
Intent用户目标、任务类型、风险等级
Business objectcase、customer、transaction、claim、policy
Knowledgeapproved source、metadata、version、permission
Tool observationtool result、timestamp、status、confidence
Policyallowed、disallowed、escalate、refuse
Schemaoutput contract、required fields、format
Memorysession state、case history、user preference
Eval hooksexpected citation、risk flag、judge rubric
Auditsource ids、prompt version、model version、reviewer

4 分证据

  • Context Engineering ADR。
  • Trusted/untrusted context separation table。
  • RAG metadata schema。
  • Prompt injection red-team cases。

9. C7 EvalOps

评分标准

分数表现
0只说“准确率”
1有人工体验反馈
2有 eval 样例,但没有阈值
3有 golden set、rubric、threshold、release gate
4有 offline、shadow、pilot、production monitoring 和 incident loop

Eval 结构

LayerExample
Task eval分类、抽取、摘要、问答、生成、工具调用
Retrieval evalrecall@k、citation precision、freshness、permission leakage
Answer evalcorrectness、groundedness、completeness、format
Safety evalPII、prompt injection、unsafe advice、policy violation
Human reviewSME sampling、override reason、calibration
Production monitoringdrift、latency、cost、feedback、incident

Stop Rule 示例

FailureStop action
permission leakage > 0停止 release,修复 retrieval 权限
critical hallucination > 0停止 release,补充 guardrail 和 eval
high-risk HITL bypass > 0停止 release,修复 workflow gate
citation accuracy below threshold降级为 draft-only
adoption below target重新做 workflow research

10. C8 Risk and Governance

评分标准

分数表现
0只说“注意合规”
1有风险清单
2有 controls,但没有 owner
3有 preventive/detective/corrective controls、owner、RACI
4有 risk acceptance、incident runbook、audit evidence、board reporting

Control Matrix

RiskPreventiveDetectiveCorrectiveOwner
HallucinationRAG citation、schema、policygroundedness eval、samplingblock release、fix sourceProduct + EvalOps
PII leakageredaction、RBACleakage tests、DLP alertrevoke access、incidentSecurity + Data
Excessive agencytool tiering、HITLtool trace reviewkill switch、rollbackArchitect + Ops
Biasfeature review、policysubgroup evalretrain/reroute/manualRisk + Model Owner
Vendor changecontract notice、version pinregression evalroute fallbackVendor Owner

11. C9 Data Product Management

评分标准

分数表现
0只说“有数据”
1能列数据源
2能说明质量问题和权限
3有 data product canvas、contract、quality SLO、owner
4数据能同时支持 RAG、eval、feedback、governance 和 ROI

数据产品必须回答

AreaQuestions
Source of truth哪个系统是权威来源
Data contractschema、freshness、SLA、breaking change
Qualitycompleteness、accuracy、timeliness、consistency
Metadataowner、classification、retention、permission、version
Lineage数据从哪里来,如何变换,谁批准
Label谁标注,如何校准,如何处理争议
Golden set如何抽样、冻结、版本化、防污染
Feedback用户反馈如何回流到数据和 eval

12. C10 Vendor / Build-Buy

评分标准

分数表现
0只看 demo
1比较功能和价格
2加入安全和集成
3有 scorecard、TCO、risk、exit plan
4能把 vendor choice 放进 architecture、governance、adoption 和 contract controls

Vendor Scorecard

DimensionEvidence
Workflow fit是否支持真实流程,而非 demo flow
Eval access是否能导出 eval、trace、失败样本
SecuritySSO、RBAC、encryption、data residency
Auditlogs、model version、prompt version、reviewer
IntegrationAPI、webhook、event、tool gateway
Costlicense、usage、support、migration、exit
Lock-indata export、prompt/config export、termination support
Governancemodel change notice、incident SLA、DPA

13. C11 Platform Thinking

评分标准

分数表现
0每个 use case 单独做
1看到重复组件
2有共享能力清单
3有 platform MVP、backlog、metrics、operating model
4能用 flagship use cases 驱动平台能力沉淀

平台能力

CapabilityWhy
Model gatewayrouting、fallback、cost、policy、logging
Prompt registryversion、approval、rollback
RAG platformingestion、metadata、permission、citation
Eval harnessgolden set、runner、report、gate
Tool gatewayleast privilege、approval、audit
AI observabilitytrace、latency、cost、feedback、incident
Adoption analyticsusage、trust、override、workflow change

14. C12 Executive Communication

评分标准

分数表现
0技术堆砌
1能讲业务价值
2有 memo,但缺 options 和 stop rule
3有 decision、options、evidence、metrics、risks、next gate
4能按 CEO/CTO/CFO/Risk/Data/Board 切换表达

一页 memo 必备字段

FieldQuestion
Decision requested现在要批准什么
Context为什么现在需要决策
Optionsno-AI、workflow-only、AI-assisted、agentic/vendor/build
Recommendation推荐什么,为什么
Evidence哪些事实支持,哪些是假设
Metricsbusiness、quality、risk、adoption、cost
Risks/controls剩余风险和控制
Next 30 days钱换来哪些证据
Stop rule什么时候停止

15. C13 Interview Storytelling

评分标准

分数表现
0只能说“我学过”
1能讲概念
2能讲一个案例
3能按 BA/PM/Architect 三版讲
4能应对追问、质疑、替代方案和失败路径

Story Pack

VersionLengthFocus
30 秒5 句问题、方案、边界、价值、控制
2 分钟6 段context、role、decision、design、metrics、risk
8 分钟deep divebusiness architecture、product、solution、eval、risk、trade-off
CTO 追问3-5 问data flow、model choice、latency、security、rollback
Risk 追问3-5 问decision boundary、controls、audit、incident
CFO 追问3-5 问baseline、TCO、unit economics、adoption

16. C14 Learning System

评分标准

分数表现
0随机学习
1有计划但不复盘
2有笔记和目录
3有 spaced review、artifact map、weekly self-score
4能持续把旧资产转成新能力证据

每周复盘表

QuestionAnswer
本周最强 artifact 是什么
它证明哪项能力
还缺哪项证据
哪个概念仍讲不顺
哪个 case 最值得升级作品集
哪个风险没有被充分控制
下周只做哪 3 件事

17. 角色画像评分

AI BA

CapabilityTarget
Business framing4
Workflow / BA analysis4
Requirements-to-eval4
Data readiness3
Governance3
Architecture awareness3
Executive communication3

AI BA 的强证据不是“会写需求”,而是能把模糊 AI 想法转成流程、规则、异常、验收、eval 和责任边界。

AI PM

CapabilityTarget
Product strategy4
Metrics / ROI4
Adoption4
EvalOps3
Vendor/build-buy3
Executive communication4
Architecture trade-off3

AI PM 的强证据不是“懂模型”,而是能用 pilot gate 管理价值、风险、质量和 adoption 的不确定性。

AI Architect

CapabilityTarget
AI foundation literacy4
Solution architecture4
Context engineering4
Security / governance4
Eval architecture4
Platform thinking3
Executive communication3

AI Architect 的强证据不是“画了架构图”,而是能解释数据、上下文、权限、模型、工具、eval、观测、回滚如何形成生产系统。

AI Platform PM

CapabilityTarget
Platform thinking4
Product strategy4
Developer/user empathy3
Cost governance4
EvalOps3
Vendor/build-buy3
Operating model3

AI Platform PM 的强证据是能把多个 use case 的重复能力抽象成平台,而不是先做一个没人复用的大平台。

EvalOps / Governance Lead

CapabilityTarget
EvalOps4
Risk and governance4
Data product management3
Regulatory response3
Incident management4
Board / audit communication3

EvalOps / Governance 的强证据是能把原则变成 release gate、monitoring、incident、audit 和责任人。

18. 30 天自评节奏

DayAction
1选 3 个目标角色:主线、辅线、备选
2用本 rubric 做第一次基线评分
3-7每天补一个低分维度 artifact
8复评 C1-C4
9-14做一个完整 case pack
15复评 C5-C8
16-21做数据、平台、vendor、governance 资产
22复评 C9-C12
23-28把 2 个案例转成面试 story
29做 mock interview Q&A
30形成 final evidence map

19. Evidence Map 模板

ClaimEvidenceScoreGapNext action
我能设计 enterprise RAGRAG ADR + eval set3缺 production monitoring补 dashboard 和 incident loop
我能做 AI BA 需求AML requirements-to-eval4可补 stakeholder interview写 objection map
我能做 AI PM pilotexecutive pilot memo3ROI 假设偏粗补 baseline 和 sensitivity
我能做 AI 架构C4 + sequence + ADR3缺 threat model补 prompt injection red-team
我能做 AI governancecontrol pack3缺 board language写 board risk dashboard

20. 常见误区

误区更好的做法
把学习量当能力把每个概念转成 artifact
一份案例想证明所有能力每个案例明确证明 2-3 个能力
只准备 PM 表达同一案例准备 BA、PM、Architect、Risk 四种版本
只讲成功路径主动讲 failure mode、stop rule、fallback
只看模型质量同时看 business、quality、risk、adoption、cost
只做文档至少补一个可运行 demo、eval 或 dashboard
只用旧经验把金融零售经验转成 AI workflow/eval/governance 语言

21. 最终判断

你真正具备 AI BA/PM/Architect 竞争力,不是因为你读过多少 AI 资料,而是因为你能在一个真实业务问题前,连续完成这条链路:

business pain
  -> workflow and stakeholders
  -> AI fit / no-AI alternative
  -> data and knowledge readiness
  -> architecture and context design
  -> requirements-to-eval
  -> risk controls and operating model
  -> pilot metrics and stop rule
  -> executive decision
  -> interview story

这条链路能独立走通,才说明学习资产已经变成职业能力。