目录
AI Capability Assessment Rubric
目的:把 AI BA、AI PM、AI Architect、AI Platform PM、EvalOps、Governance、Data Product 等能力变成可自测、可复盘、可面试证明的评分体系。
使用方式:每 2 周做一次自评;每做完一个 case drill 或论文解读,就把产物映射到本 rubric。
原则:不以“读了多少材料”作为能力证明,只看是否能产出可被追问、可被验证、可复用的 artifact。
1. 总体评分方法
每个能力维度 0-4 分:
分数 定义 证据要求 0 只听过概念 不能独立解释,也没有产物 1 能复述概念 有笔记,但不能落到具体业务场景 2 能做简单练习 有一个 case 片段或模板草稿 3 能做完整方案 有 workflow、requirements、architecture、eval、risk、metrics 4 能 defend 方案 能回答反对意见、追问、trade-off、失败路径和替代方案
每个角色目标不同:
角色 合格线 强竞争线 作品集线 AI BA 平均 2.5 平均 3.2 至少 3 个 4 分 artifact AI PM 平均 2.7 平均 3.4 至少 3 个跨业务/技术/风险 artifact AI Architect 平均 2.8 平均 3.5 至少 2 个可讲 C4/ADR/Eval/Risk 完整案例 AI Platform PM 平均 2.6 平均 3.3 至少 1 个 platform MVP + roadmap EvalOps / Governance 平均 2.8 平均 3.5 至少 1 个 release gate + monitoring + incident loop
2. 能力维度总表
Code Capability 你要证明什么 典型资产 C1 AI foundation literacy 能解释底层机制如何影响产品/架构 Transformer/RAG/Agent/MoE/Scaling 一页纸 C2 Business problem framing 能定义真实问题和 baseline opportunity canvas、problem memo C3 Workflow and BA analysis 能画 AS-IS/TO-BE、规则、异常、验收 BPMN、requirements-to-eval C4 Product strategy 能定义 MVP、指标、ROI、adoption、stop rule PRD、pilot memo、business case C5 Solution architecture 能设计组件、数据流、权限、上下文、fallback C4、sequence、ADR C6 Context engineering 能组织 prompt、RAG、tool、policy、schema、memory context ADR、RAG architecture C7 EvalOps 能设计 golden set、rubric、release gate、monitoring eval contract、dashboard C8 Risk and governance 能设计 controls、audit、RACI、incident、policy control pack、runbook C9 Data product management 能把数据治理成 AI 可用产品 data product canvas、quality SLO C10 Vendor / build-buy 能做 vendor due diligence 和 sourcing 决策 scorecard、TCO、exit plan C11 Platform thinking 能把重复能力平台化 model gateway、RAG platform、EvalOps backlog C12 Executive communication 能把复杂方案转成决策语言 executive memo、board report C13 Interview storytelling 能按 BA/PM/Architect 三种身份讲同一案例 30 秒、2 分钟、8 分钟故事 C14 Learning system 能持续复习、升级、淘汰和组合资产 knowledge graph、review cadence
3. C1 AI Foundation Literacy
评分标准
分数 表现 0 只会说模型名字,例如 Transformer、RAG、Agent 1 能复述定义,但无法说明业务影响 2 能解释机制,并给出一个简单类比 3 能把机制映射到架构、成本、风险、eval 4 能比较替代方案并说明何时不用该技术
必备概念
Concept 你必须能回答 Transformer Q/K/V、attention、decoder-only、context window 对产品意味着什么 RAG 为什么 RAG 是知识治理,不只是搜索 Agent / tool use 为什么 Agent 是行动系统,不只是长 prompt RLHF / DPO / alignment 为什么对齐不能替代 runtime control CoT / reasoning 为什么推理输出不等于事实证据 LoRA / PEFT RAG、fine-tuning、adapter 的边界 Inference optimization KV cache、FlashAttention、speculative decoding 如何影响 SLO LLM-as-Judge 自动评估为什么需要校准和专家复核 MoE 稀疏激活如何影响成本、吞吐和尾延迟 Scaling laws 为什么企业通常不应从零训练 foundation model
4 分证据
一份 Transformer for PM/BA/Architect 一页纸。
一份 RAG vs Fine-tuning vs Long Context ADR。
一份 Agent tool risk catalog。
一份 Model selection and SLO memo。
4. C2 Business Problem Framing
评分标准
分数 表现 0 只说“用 AI 提效” 1 能描述痛点,但没有对象和基线 2 有用户、流程和问题,但指标模糊 3 有 baseline、损耗、目标、范围和不做范围 4 能比较 no-AI、workflow-only、AI-assisted、agentic 方案
必备输出
Artifact 内容 Problem statement 谁在什么流程中,因为什么约束,产生什么损耗 Baseline volume、cycle time、error、cost、risk、complaint、backlog Opportunity hypothesis AI 改善速度、质量、风险、体验还是规模 Non-goals 明确第一阶段不自动化什么 Decision requested discovery、pilot、scale、stop、vendor selection
金融零售示例
弱表达:
用 AI 帮助 AML 团队提高效率。
强表达:
AML investigator 每天花大量时间在交易证据、KYC、历史 case 和 typology 查找上,导致 alert backlog 增长。第一阶段只做 evidence retrieval 和 narrative draft,不自动关闭 alert,也不决定是否提交 SAR/STR。目标是降低 time-to-first-summary 和 QA rework,同时保持 supervisor review 和 audit trail。
5. C3 Workflow and BA Analysis
评分标准
分数 表现 0 只有功能列表 1 有 user story,但没有流程 2 有 AS-IS/TO-BE,但缺异常和规则 3 有 stakeholder、规则、异常、数据、验收 4 能把流程转成 eval、controls、RACI 和 adoption plan
BA 必备清单
Area Questions Stakeholders 使用者、审批者、反对者、数据 owner、风险 owner 是谁 AS-IS 当前步骤、等待、返工、例外、系统切换在哪里 TO-BE AI 插入哪一步,人保留哪一步,失败如何回退 Rules 哪些规则是硬规则,哪些是判断,哪些必须人工审批 Exceptions 缺数据、冲突数据、高风险、低置信、客户投诉如何处理 Acceptance 什么输出算通过,什么错误必须阻断 Audit 哪些字段必须可追溯
4 分证据
一张 BPMN 或文字流程图。
一张 requirements-to-eval matrix。
一份 exception handling table。
一份 audit evidence list。
6. C4 Product Strategy
评分标准
分数 表现 0 只说功能 1 有 MVP,但范围过大 2 有指标,但不含风险和 adoption 3 有 MVP、metrics、ROI、pilot、stop rule 4 能用 pilot 证据决定 scale、extend、stop、pivot
PM 决策表
Question Strong answer Why now baseline pain 已可量化,数据和 owner 已具备 Why AI no-AI/workflow-only 无法解决知识、语义、证据综合或生成问题 Why this MVP 最小可验证价值,同时不越过风险边界 What metric business、quality、risk、adoption、cost 五类指标 What stop rule 质量、风险、adoption、成本任一关键阈值失败就停止或降级
指标平衡
Dimension Example Business cycle time、backlog age、rework rate、cost per case Quality groundedness、citation accuracy、classification F1、field accuracy Risk unsafe output、PII leakage、policy violation、HITL bypass Adoption weekly active target users、override reason、trust score Cost cost per successful task、review cost、support cost
7. C5 Solution Architecture
评分标准
分数 表现 0 只说“接大模型” 1 有组件名,但没有边界 2 有数据流,但缺权限、fallback、observability 3 有 C4/sequence、权限、context、eval、logging 4 能解释 trade-off、failure mode、rollback 和 scale path
架构必备问题
Area Questions Boundary AI 读什么、写什么、不能碰什么 Data flow 哪些数据进入 prompt、retrieval、tool、log Identity user identity、agent identity、service account 如何区分 Permission retrieval 前过滤还是生成后过滤 Context system prompt、business object、documents、tools、policy、schema Tooling read-only、draft、low-risk write、high-risk write 如何分级 Observability trace 是否能重建输入、context、model、output、review Fallback 模型失败、RAG 失败、tool 失败、policy 失败如何处理
4 分证据
C4 context/container。
sequence diagram。
ADR。
threat model。
rollback plan。
8. C6 Context Engineering
评分标准
分数 表现 0 只会写 prompt 1 能写 system prompt,但没有上下文结构 2 能加入 RAG,但缺权限、schema、policy 3 能组织 prompt/RAG/tool/policy/schema/eval 4 能解释哪些上下文不该给、如何验证和审计上下文
Context Stack
Layer Example Intent 用户目标、任务类型、风险等级 Business object case、customer、transaction、claim、policy Knowledge approved source、metadata、version、permission Tool observation tool result、timestamp、status、confidence Policy allowed、disallowed、escalate、refuse Schema output contract、required fields、format Memory session state、case history、user preference Eval hooks expected citation、risk flag、judge rubric Audit source ids、prompt version、model version、reviewer
4 分证据
Context Engineering ADR。
Trusted/untrusted context separation table。
RAG metadata schema。
Prompt injection red-team cases。
9. C7 EvalOps
评分标准
分数 表现 0 只说“准确率” 1 有人工体验反馈 2 有 eval 样例,但没有阈值 3 有 golden set、rubric、threshold、release gate 4 有 offline、shadow、pilot、production monitoring 和 incident loop
Eval 结构
Layer Example Task eval 分类、抽取、摘要、问答、生成、工具调用 Retrieval eval recall@k、citation precision、freshness、permission leakage Answer eval correctness、groundedness、completeness、format Safety eval PII、prompt injection、unsafe advice、policy violation Human review SME sampling、override reason、calibration Production monitoring drift、latency、cost、feedback、incident
Stop Rule 示例
Failure Stop action permission leakage > 0 停止 release,修复 retrieval 权限 critical hallucination > 0 停止 release,补充 guardrail 和 eval high-risk HITL bypass > 0 停止 release,修复 workflow gate citation accuracy below threshold 降级为 draft-only adoption below target 重新做 workflow research
10. C8 Risk and Governance
评分标准
分数 表现 0 只说“注意合规” 1 有风险清单 2 有 controls,但没有 owner 3 有 preventive/detective/corrective controls、owner、RACI 4 有 risk acceptance、incident runbook、audit evidence、board reporting
Control Matrix
Risk Preventive Detective Corrective Owner Hallucination RAG citation、schema、policy groundedness eval、sampling block release、fix source Product + EvalOps PII leakage redaction、RBAC leakage tests、DLP alert revoke access、incident Security + Data Excessive agency tool tiering、HITL tool trace review kill switch、rollback Architect + Ops Bias feature review、policy subgroup eval retrain/reroute/manual Risk + Model Owner Vendor change contract notice、version pin regression eval route fallback Vendor Owner
11. C9 Data Product Management
评分标准
分数 表现 0 只说“有数据” 1 能列数据源 2 能说明质量问题和权限 3 有 data product canvas、contract、quality SLO、owner 4 数据能同时支持 RAG、eval、feedback、governance 和 ROI
数据产品必须回答
Area Questions Source of truth 哪个系统是权威来源 Data contract schema、freshness、SLA、breaking change Quality completeness、accuracy、timeliness、consistency Metadata owner、classification、retention、permission、version Lineage 数据从哪里来,如何变换,谁批准 Label 谁标注,如何校准,如何处理争议 Golden set 如何抽样、冻结、版本化、防污染 Feedback 用户反馈如何回流到数据和 eval
12. C10 Vendor / Build-Buy
评分标准
分数 表现 0 只看 demo 1 比较功能和价格 2 加入安全和集成 3 有 scorecard、TCO、risk、exit plan 4 能把 vendor choice 放进 architecture、governance、adoption 和 contract controls
Vendor Scorecard
Dimension Evidence Workflow fit 是否支持真实流程,而非 demo flow Eval access 是否能导出 eval、trace、失败样本 Security SSO、RBAC、encryption、data residency Audit logs、model version、prompt version、reviewer Integration API、webhook、event、tool gateway Cost license、usage、support、migration、exit Lock-in data export、prompt/config export、termination support Governance model change notice、incident SLA、DPA
评分标准
分数 表现 0 每个 use case 单独做 1 看到重复组件 2 有共享能力清单 3 有 platform MVP、backlog、metrics、operating model 4 能用 flagship use cases 驱动平台能力沉淀
平台能力
Capability Why Model gateway routing、fallback、cost、policy、logging Prompt registry version、approval、rollback RAG platform ingestion、metadata、permission、citation Eval harness golden set、runner、report、gate Tool gateway least privilege、approval、audit AI observability trace、latency、cost、feedback、incident Adoption analytics usage、trust、override、workflow change
14. C12 Executive Communication
评分标准
分数 表现 0 技术堆砌 1 能讲业务价值 2 有 memo,但缺 options 和 stop rule 3 有 decision、options、evidence、metrics、risks、next gate 4 能按 CEO/CTO/CFO/Risk/Data/Board 切换表达
一页 memo 必备字段
Field Question Decision requested 现在要批准什么 Context 为什么现在需要决策 Options no-AI、workflow-only、AI-assisted、agentic/vendor/build Recommendation 推荐什么,为什么 Evidence 哪些事实支持,哪些是假设 Metrics business、quality、risk、adoption、cost Risks/controls 剩余风险和控制 Next 30 days 钱换来哪些证据 Stop rule 什么时候停止
15. C13 Interview Storytelling
评分标准
分数 表现 0 只能说“我学过” 1 能讲概念 2 能讲一个案例 3 能按 BA/PM/Architect 三版讲 4 能应对追问、质疑、替代方案和失败路径
Story Pack
Version Length Focus 30 秒 5 句 问题、方案、边界、价值、控制 2 分钟 6 段 context、role、decision、design、metrics、risk 8 分钟 deep dive business architecture、product、solution、eval、risk、trade-off CTO 追问 3-5 问 data flow、model choice、latency、security、rollback Risk 追问 3-5 问 decision boundary、controls、audit、incident CFO 追问 3-5 问 baseline、TCO、unit economics、adoption
16. C14 Learning System
评分标准
分数 表现 0 随机学习 1 有计划但不复盘 2 有笔记和目录 3 有 spaced review、artifact map、weekly self-score 4 能持续把旧资产转成新能力证据
每周复盘表
Question Answer 本周最强 artifact 是什么 它证明哪项能力 还缺哪项证据 哪个概念仍讲不顺 哪个 case 最值得升级作品集 哪个风险没有被充分控制 下周只做哪 3 件事
17. 角色画像评分
AI BA
Capability Target Business framing 4 Workflow / BA analysis 4 Requirements-to-eval 4 Data readiness 3 Governance 3 Architecture awareness 3 Executive communication 3
AI BA 的强证据不是“会写需求”,而是能把模糊 AI 想法转成流程、规则、异常、验收、eval 和责任边界。
AI PM
Capability Target Product strategy 4 Metrics / ROI 4 Adoption 4 EvalOps 3 Vendor/build-buy 3 Executive communication 4 Architecture trade-off 3
AI PM 的强证据不是“懂模型”,而是能用 pilot gate 管理价值、风险、质量和 adoption 的不确定性。
AI Architect
Capability Target AI foundation literacy 4 Solution architecture 4 Context engineering 4 Security / governance 4 Eval architecture 4 Platform thinking 3 Executive communication 3
AI Architect 的强证据不是“画了架构图”,而是能解释数据、上下文、权限、模型、工具、eval、观测、回滚如何形成生产系统。
Capability Target Platform thinking 4 Product strategy 4 Developer/user empathy 3 Cost governance 4 EvalOps 3 Vendor/build-buy 3 Operating model 3
AI Platform PM 的强证据是能把多个 use case 的重复能力抽象成平台,而不是先做一个没人复用的大平台。
EvalOps / Governance Lead
Capability Target EvalOps 4 Risk and governance 4 Data product management 3 Regulatory response 3 Incident management 4 Board / audit communication 3
EvalOps / Governance 的强证据是能把原则变成 release gate、monitoring、incident、audit 和责任人。
18. 30 天自评节奏
Day Action 1 选 3 个目标角色:主线、辅线、备选 2 用本 rubric 做第一次基线评分 3-7 每天补一个低分维度 artifact 8 复评 C1-C4 9-14 做一个完整 case pack 15 复评 C5-C8 16-21 做数据、平台、vendor、governance 资产 22 复评 C9-C12 23-28 把 2 个案例转成面试 story 29 做 mock interview Q&A 30 形成 final evidence map
19. Evidence Map 模板
Claim Evidence Score Gap Next action 我能设计 enterprise RAG RAG ADR + eval set 3 缺 production monitoring 补 dashboard 和 incident loop 我能做 AI BA 需求 AML requirements-to-eval 4 可补 stakeholder interview 写 objection map 我能做 AI PM pilot executive pilot memo 3 ROI 假设偏粗 补 baseline 和 sensitivity 我能做 AI 架构 C4 + sequence + ADR 3 缺 threat model 补 prompt injection red-team 我能做 AI governance control pack 3 缺 board language 写 board risk dashboard
20. 常见误区
误区 更好的做法 把学习量当能力 把每个概念转成 artifact 一份案例想证明所有能力 每个案例明确证明 2-3 个能力 只准备 PM 表达 同一案例准备 BA、PM、Architect、Risk 四种版本 只讲成功路径 主动讲 failure mode、stop rule、fallback 只看模型质量 同时看 business、quality、risk、adoption、cost 只做文档 至少补一个可运行 demo、eval 或 dashboard 只用旧经验 把金融零售经验转成 AI workflow/eval/governance 语言
21. 最终判断
你真正具备 AI BA/PM/Architect 竞争力,不是因为你读过多少 AI 资料,而是因为你能在一个真实业务问题前,连续完成这条链路:
business pain
-> workflow and stakeholders
-> AI fit / no-AI alternative
-> data and knowledge readiness
-> architecture and context design
-> requirements-to-eval
-> risk controls and operating model
-> pilot metrics and stop rule
-> executive decision
-> interview story
这条链路能独立走通,才说明学习资产已经变成职业能力。