AI 底层逻辑 / 经典论文

North Star Metrics：AI 价值度量

一句话:

268 行ai-foundations/papers/73-north-star-ai-product-metrics-value-measurement.md

North Star Metrics / AI Product Value Measurement 解读

面向对象: AI PM / Product Analytics Lead / AI Platform PM / Senior BA / Business Architect / Value Office。核心问题: AI 产品很容易用错误指标证明成功: 调用量、生成字数、聊天次数、满意度问卷、节省工时估算。真正的 AI 价值度量要把业务结果、用户行为、模型质量、风险护栏、运营负载、成本和因果证据连接起来。学习目标: 用 North Star Metric 和 product analytics governance 思维, 设计 AI 产品的 value measurement system。

Source Anchors

Source	Link	用途
Amplitude North Star Metric	https://amplitude.com/north-star	参考 North Star Metric、input metrics 和产品增长度量结构
NIST AI RMF	https://www.nist.gov/itl/ai-risk-management-framework	把 AI 价值指标与风险、度量、监控和治理连接
DORA	https://dora.dev/	参考交付性能和组织能力度量, 避免只看活动量
Product Talk Opportunity Solution Tree	https://www.producttalk.org/opportunity-solution-tree/	将 outcome、opportunity、experiment 和 metrics 连接

一句话:

AI North Star 不是“AI 被用了多少”, 而是 AI 持续创造的风险可接受、可归因、可扩展的客户和业务价值。

1. AI 指标的常见错误

错误指标	为什么危险
AI 调用次数	可能代表摩擦增加, 不是价值增加
生成文本数量	可能增加审核负载和错误风险
采纳率	可能代表过度信任
节省工时估算	如果没有真实流程数据, 容易变成 ROI theater
模型准确率	不等于业务价值和风险可控
用户满意度	可能忽略合规、客户权益和长期效果

高级 AI PM 要设计指标系统, 而不是单一成功指标。

2. AI Metrics Taxonomy

层级	指标问题
North Star	AI 产品为客户/业务持续创造的核心价值是什么
Input Metrics	哪些用户行为、流程和系统能力驱动 North Star
Quality Metrics	AI 输出是否正确、grounded、可用
Risk Guardrails	是否控制伤害、泄露、偏差、投诉、错误动作
Operational Metrics	人工负载、review backlog、handoff、incident
Cost Metrics	token/case、GPU、vendor、human review cost
Learning Metrics	feedback-to-fix time、eval set update、knowledge freshness
Adoption Metrics	有效采用, 而不是表面使用

3. North Star 设计

AI North Star 要满足:

反映用户/业务价值。
可被产品团队影响。
与长期战略一致。
有输入指标。
有 guardrail。
不鼓励过度自动化。

3.1 AML Copilot

弱 North Star:

AI summary 使用次数。

更好:

Risk-adjusted alert triage throughput:
在保持高风险升级召回和审计质量的前提下, 每 analyst 每周完成的合格 alert triage 数。

Input metrics:

evidence retrieval success。
draft rationale acceptance with edits。
analyst review time。
citation precision。

Guardrails:

missed high-risk escalation。
critical fact omission。
QA fail rate。
analyst overreliance signal。

3.2 Customer Service Copilot

North Star:

Policy-grounded resolved customer interactions:
在不增加投诉和误导承诺的前提下, 每周完成的合规一次解决交互数。

4. Risk-Adjusted Value

AI 价值不能只算收益:

AI Value = business benefit - AI cost - risk cost - operational load - opportunity cost

Risk-adjusted view:

价值	风险扣减
处理时长降低	投诉、返工、误导话术
决策速度提升	错误批准/拒绝、公平性影响
人工成本下降	审核负载、专家疲劳
客户体验提升	过度信任、错误个性化
平台复用	平台复杂度、供应商锁定

5. 因果证据

AI 指标常被 adoption 混淆:

使用 AI 的员工本来就更强。
pilot 选择了低风险 case。
并行流程改造也改善了指标。
manager attention 造成 Hawthorne effect。

更强证据:

方法	用途
A/B test	低风险、可随机化场景
Switchback	团队/时段层面切换
Difference-in-differences	渐进 rollout
Matched cohort	无法随机时构造对照
Shadow mode	高风险动作上线前收集对比
Synthetic control	分行/地区 rollout

AI value memo 要说明证据强度, 不只报好看的 dashboard。

6. 金融零售案例

6.1 信贷补件助手

North Star:

Qualified first-time document completion rate

Input:

missing document detection accuracy。
applicant comprehension。
time to complete package。

Guardrail:

不暗示审批概率。
不要求过度收集资料。
不扩大特定群体负担。

6.2 AI 平台

North Star:

Risk-approved AI use cases shipped through golden path per quarter

Input:

model gateway adoption。
eval gate setup time。
release evidence completeness。
reusable components。

Guardrail:

incident rate。
vendor concentration。
cost per use case。
platform support load。

7. 模板: AI Metrics Tree

# AI Metrics Tree: [Product / Capability]

## North Star
- Metric:
- Why it represents value:
- Who owns it:

## Input Metrics
| Input | Hypothesis | Owner | Frequency |
|---|---|---|---|

## Guardrail Metrics
| Guardrail | Threshold | Action |
|---|---|---|

## Quality / Eval Metrics
| Metric | Dataset | Gate |
|---|---|---|

## Operational Metrics
| Metric | Owner | Review cadence |
|---|---|---|

## Evidence Strength
- Experimental design:
- Confounders:
- Decision rule:

8. 反模式

反模式	表现	修正
Usage as success	调用量越多越好	看价值、风险和负载
Accuracy as value	模型分数高就上线	连接 business outcome
No guardrail	只看收益指标	加投诉、安全、偏差、成本
ROI spreadsheet theater	工时节省凭主观估计	用流程数据和因果证据
Platform vanity metric	API 调用量	看风险批准 use case 和复用效率

9. 面试回答

Q: 你如何衡量 AI 产品成功？

30 秒版本:

我会设计 metrics tree, 而不是只看调用量或准确率。先定义 North Star, 例如 risk-adjusted throughput 或 policy-grounded resolution, 再拆 input metrics、quality/eval metrics、risk guardrails、operational load、cost 和 learning metrics。最后用实验或准实验增强因果证据。

Q: 为什么 AI 采纳率高不一定是好事？

30 秒版本:

采纳率高可能代表工具有价值, 也可能代表过度信任、人工偷懒或流程被迫依赖。必须同时看输出质量、人工编辑、错误率、投诉、复核负载和长期业务结果。

10. 作品集交付物

AI North Star Metric Definition。
AI Metrics Tree。
Guardrail Metrics Matrix。
Risk-Adjusted Value Model。
Evidence Strength Memo。
Benefits Realization Dashboard。
Product Analytics Governance Spec。

这套材料能证明你能把 AI 价值从“看起来很智能”变成可度量、可归因、可治理的业务结果。