AIPA Day 3
一页纸 PRD 与 evals 即成功指标
一页纸 PRD 与 evals 即成功指标
2026-06-17
evalsprdllm-as-judgesuccess-metrics
日期: 2026-06-17 阶段: Phase 1 - 产品定义×评测×可观测底座 标签: #evals #prd #llm-as-judge #success-metrics
核心问题
传统 PRD 的成功指标(DAU、转化率、NPS)对 AI 产品失效:模型输出是概率分布,「质量」的定义本身就是产品定义——你不写清「好的 SAR 草稿长什么样」,工程师就无从优化。OpenAI CPO 的判断:「PM 最重要的技能是写 evals」(2025-08)。今天回答:怎么把一页纸 PRD(Day 1)的成功指标直接写成可执行、可进 CI 的 eval 指标,以及「LLM 模拟用户不可靠」(2026-01)给 eval 设计划下的硬约束。
关键内容
A. Hamel Husain + Shreya Shankar 方法论(Lenny's 2025-09)
错误分析驱动的五步流程:
- 错误分析(error analysis):从真实/合成 trace 出发,逐条看失败,而不是先拍指标
- 开放编码(open coding):借自定性研究方法——逐条 trace 写自由文本标注,不预设分类
- 轴向编码(axial coding):把开放编码聚类成 5-6 类 failure taxonomy(失败分类法)
- LLM-as-judge:对高频、需语义判断的失败模式写 judge prompt 自动化评分
- 代码型检查(code-based checks):凡能确定性断言的(格式、引用存在性、字段完整),用代码不用 LLM——更便宜、零方差
核心倒置:evals 不是「先选指标后测量」,而是从真实失败归纳指标——与传统 KPI 自上而下设定的方向相反。该方法论已成行业标准教材(其 Maven 评测课已训练 2000+ 人,含 OpenAI/Anthropic 团队成员,2025-09 口径)。
B. Aman Khan:「Evals are the new PRDs」(2026-04 更新版)
来源:Aakash Gupta《AI PM Crash Course 2026》(2025-06 发布,2026-04-19 更新,本日 WebFetch 核实):
- 角色转变:AI 工程师不想要 Google Docs 需求文档,想要的是带标注的数据集 + 「把这个指标提上去」——PM 定义「好」的方式从写 feature 描述变成标数据、写 rubric
- 三类 evals 递进:vibe check(主观快速判断)→ LLM-as-judge(结构化 prompt 规模化评分)→ 系统化 evals(用 judge 输出对照人工标注,验证 judge 本身的可信度)
- 四段式 judge prompt(2026-04 更新版):角色与任务、评估标准(rubric)、少样本示例、结构化输出格式——四段缺一,judge 方差即不可控
- AI PM 工作流:prototyping → observability → evals。与本项目 P1 排期同构但顺序微调:W1 原型 → W3 evals → W4 完整 tracing——因为阻断式 CI gate 是构建期质量门,必须先于全量可观测性就位
C. 本项目实例:PRD 成功指标 = eval 指标
一页纸 PRD 的成功指标段不写「提升调查效率」类空话,直接写成下表(门槛为 v1 设计假设,W2-W3 用金标数据校准后定稿):
| PRD 语言 | eval 指标 | v1 门槛(假设) | 测量方式 |
|---|---|---|---|
| 准确识别洗钱类型学 | typology recall / precision(金标数据集 ≥60 案例 v1) | recall ≥ 0.85,precision ≥ 0.75,CI 低于门槛阻断 merge | 代码型检查(标签可确定性比对) |
| SAR 草稿质量合格 | LLM-as-judge rubric 分(四段式 prompt) | judge×人工一致率 ≥ 0.8 后 judge 评分才进 CI | judge + 人工抽检双轨 |
| 不产生幻觉证据 | 引用溯源率:每条 SAR 陈述必须指向存在的证据 ID | 100%,硬性 | 代码型检查 |
| 调查成本可控 | $/案件(端到端 token 成本聚合) | 上限待 W7 gateway 实测后设定 | tracing 成本聚合(OTel + Langfuse) |
设计原则:每条 PRD 指标必须能回答「在哪个数据集上、用什么方式、低于多少就拦截」——答不出三问的指标不准写进 PRD。
D. 「LLM 模拟用户是不可靠代理」(2026-01)的三条硬约束
- 不能用 LLM 扮演调查员来评判可用性/可提交性——关键评分(SAR 可提交性、类型学判定正确性)必须保留人工抽检
- judge 必须先校准再上岗:judge 只有在与人工标注的一致率达标(本项目 v1:≥0.8)后才能进 CI;一致率本身是持续监控指标,漂移即降级回人工
- 金标数据集的标注必须人工:本项目合成数据生成器(W2)产出案例后人工复核打标,不允许「LLM 生成 + LLM 自标」闭环(自我证实偏差)
E. 与传统 KPI/OKR 式指标的差异表
| 维度 | 传统 KPI/OKR | evals 即成功指标 |
|---|---|---|
| 定义时机 | 上线后才能测 | 构建前写好,构建期每日跑 |
| 指标来源 | 自上而下的业务目标分解 | 自下而上从错误分析归纳(Hamel/Shreya 2025-09) |
| 粒度 | 聚合漏斗(周/月) | 单条 trace 可归因到失败类别 |
| 执行机制 | 仪表盘回顾会 | CI 阻断 merge(不达标代码进不了主干) |
| 演化方式 | 季度 OKR 评审 | failure taxonomy 随新失败模式持续更新 |
| PM 的角色 | 汇报指标 | 写 eval = 写产品定义(Aman Khan 2026-04) |
设计要点/决策表
| 要点 | 说明 | 与已有方案差异 |
|---|---|---|
| 错误分析先于指标 | 先看 trace 归纳 failure taxonomy,再定指标 | 传统 PRD 先拍指标,与真实失败脱节 |
| 三类 evals 分工 | 代码型查确定性、judge 查语义、人工抽检兜底 | 单一 LLM-judge 方案无法验证 judge 自身可信度 |
| 一致率作为元指标 | judge×人工一致率 ≥0.8 才放行 judge 进 CI | 多数团队直接信任 judge 分数(2026-01 研究证伪) |
| 阻断式 CI gate | eval 低于门槛拦截 merge,而非事后报表 | 升级自本仓库现有 src/agent/eval/ 的非阻断跑法 |
| 成本是一等指标 | $/案件与质量指标并列进 PRD | 传统 AI demo 不算账;AISA 叙事要求成本维度缺一不可 |
对本项目的落地
- docs/AML_COPILOT_PRD.md 成功指标段直接采用 C 节表格(v1 门槛标注「假设,W3 校准」)
- W2(D8-14):合成数据生成器产出金标数据集 ≥60 案例 v1(人工复核打标,D 节约束 3);agent-v2 真实 traces 上跑开放编码→轴向编码,产出 5-6 类 failure taxonomy
- W3(D15-21):src/agent/eval/runRetrievalEval.ts 与 src/agent/eval/retrievalGolden.ts 升级为三类 evals suite v2;GitHub Actions 阻断式 CI eval gate;交付 judge×人工一致率基线
- W4(D22-28):OTel GenAI semconv 埋点(保留独立属性映射层——semconv 仍 experimental,2026-03 口径)+ Langfuse 自托管,为 $/案件 指标提供测量底座
- 长文#1《从 recall@k 到生产级 evals》(W4)以本笔记 A/C 节为骨架
参考资料
- Lenny's Newsletter — Why AI evals are the hottest new skill(Hamel Husain + Shreya Shankar,错误分析→开放编码→轴向编码→LLM-as-judge→代码型检查)(2025-09)
- Aakash Gupta — AI PM Crash Course 2026: Prototyping → Observability → Evals(Aman Khan,「evals are the new PRDs」、三类 evals、四段式 judge prompt)(2025-06 发布,2026-04 更新)
- OpenAI CPO —「PM 最重要的技能是写 evals」(2025-08)
- 「LLM 模拟用户是不可靠代理」研究——关键评分必须保留人工抽检 (2026-01)
- Productify — PRD 未死而是进化为一页纸+原型 (2025-11)
- Builder.io — The 2026 Guide to AI Prototyping for Product Managers(prototype 与 PRD 分工)(2026-01)
SOTA 检查 (2026-06-11)
- Hamel/Shreya 方法论仍是 2026-06 的行业事实标准:其评测课持续开课(已训练 2000+ 人),本日 WebSearch 未发现替代性方法论;Productboard、Product Talk 等 2025-2026 实践文章均沿用其错误分析框架
- 「evals are the new PRDs」叙事处于上升期:Aman Khan 材料 2026-04-19 刚更新,Arize 等厂商同口径推广;注意这是框架叙事而非实证研究,引用时与 2026-01 的「LLM 模拟用户不可靠」实证研究区分证据等级
- OTel GenAI semconv 仍 experimental(2026-03 口径)——埋点必须留独立属性映射层,W4 开工前按计划复查是否转 stable
- 过时认知警示:「上线后 A/B 测试定生死」的 Web2 PM 指标观对 AI 产品过时——eval gate 把质量验证前移到构建期;同时警惕反向过时:纯 vibe check 的「AI 产品凭感觉发布」在 2025 已被淘汰
- 待跟踪:Hamel/Shreya Maven 课程是否报名(W1 决策点,计划已列);judge 一致率门槛 0.8 为 v1 假设,W3 用真实数据校准后本笔记需回填更新