North Star Metrics:AI 价值度量
一句话:
North Star Metrics / AI Product Value Measurement 解读
面向对象: AI PM / Product Analytics Lead / AI Platform PM / Senior BA / Business Architect / Value Office。 核心问题: AI 产品很容易用错误指标证明成功: 调用量、生成字数、聊天次数、满意度问卷、节省工时估算。真正的 AI 价值度量要把业务结果、用户行为、模型质量、风险护栏、运营负载、成本和因果证据连接起来。 学习目标: 用 North Star Metric 和 product analytics governance 思维, 设计 AI 产品的 value measurement system。
Source Anchors
| Source | Link | 用途 |
|---|---|---|
| Amplitude North Star Metric | https://amplitude.com/north-star | 参考 North Star Metric、input metrics 和产品增长度量结构 |
| NIST AI RMF | https://www.nist.gov/itl/ai-risk-management-framework | 把 AI 价值指标与风险、度量、监控和治理连接 |
| DORA | https://dora.dev/ | 参考交付性能和组织能力度量, 避免只看活动量 |
| Product Talk Opportunity Solution Tree | https://www.producttalk.org/opportunity-solution-tree/ | 将 outcome、opportunity、experiment 和 metrics 连接 |
一句话:
AI North Star 不是“AI 被用了多少”, 而是 AI 持续创造的风险可接受、可归因、可扩展的客户和业务价值。
1. AI 指标的常见错误
| 错误指标 | 为什么危险 |
|---|---|
| AI 调用次数 | 可能代表摩擦增加, 不是价值增加 |
| 生成文本数量 | 可能增加审核负载和错误风险 |
| 采纳率 | 可能代表过度信任 |
| 节省工时估算 | 如果没有真实流程数据, 容易变成 ROI theater |
| 模型准确率 | 不等于业务价值和风险可控 |
| 用户满意度 | 可能忽略合规、客户权益和长期效果 |
高级 AI PM 要设计指标系统, 而不是单一成功指标。
2. AI Metrics Taxonomy
| 层级 | 指标问题 |
|---|---|
| North Star | AI 产品为客户/业务持续创造的核心价值是什么 |
| Input Metrics | 哪些用户行为、流程和系统能力驱动 North Star |
| Quality Metrics | AI 输出是否正确、grounded、可用 |
| Risk Guardrails | 是否控制伤害、泄露、偏差、投诉、错误动作 |
| Operational Metrics | 人工负载、review backlog、handoff、incident |
| Cost Metrics | token/case、GPU、vendor、human review cost |
| Learning Metrics | feedback-to-fix time、eval set update、knowledge freshness |
| Adoption Metrics | 有效采用, 而不是表面使用 |
3. North Star 设计
AI North Star 要满足:
- 反映用户/业务价值。
- 可被产品团队影响。
- 与长期战略一致。
- 有输入指标。
- 有 guardrail。
- 不鼓励过度自动化。
3.1 AML Copilot
弱 North Star:
AI summary 使用次数。
更好:
Risk-adjusted alert triage throughput:
在保持高风险升级召回和审计质量的前提下, 每 analyst 每周完成的合格 alert triage 数。
Input metrics:
- evidence retrieval success。
- draft rationale acceptance with edits。
- analyst review time。
- citation precision。
Guardrails:
- missed high-risk escalation。
- critical fact omission。
- QA fail rate。
- analyst overreliance signal。
3.2 Customer Service Copilot
North Star:
Policy-grounded resolved customer interactions:
在不增加投诉和误导承诺的前提下, 每周完成的合规一次解决交互数。
4. Risk-Adjusted Value
AI 价值不能只算收益:
AI Value = business benefit - AI cost - risk cost - operational load - opportunity cost
Risk-adjusted view:
| 价值 | 风险扣减 |
|---|---|
| 处理时长降低 | 投诉、返工、误导话术 |
| 决策速度提升 | 错误批准/拒绝、公平性影响 |
| 人工成本下降 | 审核负载、专家疲劳 |
| 客户体验提升 | 过度信任、错误个性化 |
| 平台复用 | 平台复杂度、供应商锁定 |
5. 因果证据
AI 指标常被 adoption 混淆:
- 使用 AI 的员工本来就更强。
- pilot 选择了低风险 case。
- 并行流程改造也改善了指标。
- manager attention 造成 Hawthorne effect。
更强证据:
| 方法 | 用途 |
|---|---|
| A/B test | 低风险、可随机化场景 |
| Switchback | 团队/时段层面切换 |
| Difference-in-differences | 渐进 rollout |
| Matched cohort | 无法随机时构造对照 |
| Shadow mode | 高风险动作上线前收集对比 |
| Synthetic control | 分行/地区 rollout |
AI value memo 要说明证据强度, 不只报好看的 dashboard。
6. 金融零售案例
6.1 信贷补件助手
North Star:
Qualified first-time document completion rate
Input:
- missing document detection accuracy。
- applicant comprehension。
- time to complete package。
Guardrail:
- 不暗示审批概率。
- 不要求过度收集资料。
- 不扩大特定群体负担。
6.2 AI 平台
North Star:
Risk-approved AI use cases shipped through golden path per quarter
Input:
- model gateway adoption。
- eval gate setup time。
- release evidence completeness。
- reusable components。
Guardrail:
- incident rate。
- vendor concentration。
- cost per use case。
- platform support load。
7. 模板: AI Metrics Tree
# AI Metrics Tree: [Product / Capability]
## North Star
- Metric:
- Why it represents value:
- Who owns it:
## Input Metrics
| Input | Hypothesis | Owner | Frequency |
|---|---|---|---|
## Guardrail Metrics
| Guardrail | Threshold | Action |
|---|---|---|
## Quality / Eval Metrics
| Metric | Dataset | Gate |
|---|---|---|
## Operational Metrics
| Metric | Owner | Review cadence |
|---|---|---|
## Evidence Strength
- Experimental design:
- Confounders:
- Decision rule:
8. 反模式
| 反模式 | 表现 | 修正 |
|---|---|---|
| Usage as success | 调用量越多越好 | 看价值、风险和负载 |
| Accuracy as value | 模型分数高就上线 | 连接 business outcome |
| No guardrail | 只看收益指标 | 加投诉、安全、偏差、成本 |
| ROI spreadsheet theater | 工时节省凭主观估计 | 用流程数据和因果证据 |
| Platform vanity metric | API 调用量 | 看风险批准 use case 和复用效率 |
9. 面试回答
Q: 你如何衡量 AI 产品成功?
30 秒版本:
我会设计 metrics tree, 而不是只看调用量或准确率。先定义 North Star, 例如 risk-adjusted throughput 或 policy-grounded resolution, 再拆 input metrics、quality/eval metrics、risk guardrails、operational load、cost 和 learning metrics。最后用实验或准实验增强因果证据。
Q: 为什么 AI 采纳率高不一定是好事?
30 秒版本:
采纳率高可能代表工具有价值, 也可能代表过度信任、人工偷懒或流程被迫依赖。必须同时看输出质量、人工编辑、错误率、投诉、复核负载和长期业务结果。
10. 作品集交付物
- AI North Star Metric Definition。
- AI Metrics Tree。
- Guardrail Metrics Matrix。
- Risk-Adjusted Value Model。
- Evidence Strength Memo。
- Benefits Realization Dashboard。
- Product Analytics Governance Spec。
这套材料能证明你能把 AI 价值从“看起来很智能”变成可度量、可归因、可治理的业务结果。