返回 AIPA 笔记
AIPA Day 3

一页纸 PRD 与 evals 即成功指标

一页纸 PRD 与 evals 即成功指标

2026-06-17
evalsprdllm-as-judgesuccess-metrics

日期: 2026-06-17 阶段: Phase 1 - 产品定义×评测×可观测底座 标签: #evals #prd #llm-as-judge #success-metrics

核心问题

传统 PRD 的成功指标(DAU、转化率、NPS)对 AI 产品失效:模型输出是概率分布,「质量」的定义本身就是产品定义——你不写清「好的 SAR 草稿长什么样」,工程师就无从优化。OpenAI CPO 的判断:「PM 最重要的技能是写 evals」(2025-08)。今天回答:怎么把一页纸 PRD(Day 1)的成功指标直接写成可执行、可进 CI 的 eval 指标,以及「LLM 模拟用户不可靠」(2026-01)给 eval 设计划下的硬约束。

关键内容

A. Hamel Husain + Shreya Shankar 方法论(Lenny's 2025-09)

错误分析驱动的五步流程:

  1. 错误分析(error analysis):从真实/合成 trace 出发,逐条看失败,而不是先拍指标
  2. 开放编码(open coding):借自定性研究方法——逐条 trace 写自由文本标注,不预设分类
  3. 轴向编码(axial coding):把开放编码聚类成 5-6 类 failure taxonomy(失败分类法)
  4. LLM-as-judge:对高频、需语义判断的失败模式写 judge prompt 自动化评分
  5. 代码型检查(code-based checks):凡能确定性断言的(格式、引用存在性、字段完整),用代码不用 LLM——更便宜、零方差

核心倒置:evals 不是「先选指标后测量」,而是从真实失败归纳指标——与传统 KPI 自上而下设定的方向相反。该方法论已成行业标准教材(其 Maven 评测课已训练 2000+ 人,含 OpenAI/Anthropic 团队成员,2025-09 口径)。

B. Aman Khan:「Evals are the new PRDs」(2026-04 更新版)

来源:Aakash Gupta《AI PM Crash Course 2026》(2025-06 发布,2026-04-19 更新,本日 WebFetch 核实):

  • 角色转变:AI 工程师不想要 Google Docs 需求文档,想要的是带标注的数据集 + 「把这个指标提上去」——PM 定义「好」的方式从写 feature 描述变成标数据、写 rubric
  • 三类 evals 递进:vibe check(主观快速判断)→ LLM-as-judge(结构化 prompt 规模化评分)→ 系统化 evals(用 judge 输出对照人工标注,验证 judge 本身的可信度)
  • 四段式 judge prompt(2026-04 更新版):角色与任务、评估标准(rubric)、少样本示例、结构化输出格式——四段缺一,judge 方差即不可控
  • AI PM 工作流:prototyping → observability → evals。与本项目 P1 排期同构但顺序微调:W1 原型 → W3 evals → W4 完整 tracing——因为阻断式 CI gate 是构建期质量门,必须先于全量可观测性就位

C. 本项目实例:PRD 成功指标 = eval 指标

一页纸 PRD 的成功指标段不写「提升调查效率」类空话,直接写成下表(门槛为 v1 设计假设,W2-W3 用金标数据校准后定稿):

PRD 语言eval 指标v1 门槛(假设)测量方式
准确识别洗钱类型学typology recall / precision(金标数据集 ≥60 案例 v1)recall ≥ 0.85,precision ≥ 0.75,CI 低于门槛阻断 merge代码型检查(标签可确定性比对)
SAR 草稿质量合格LLM-as-judge rubric 分(四段式 prompt)judge×人工一致率 ≥ 0.8 后 judge 评分才进 CIjudge + 人工抽检双轨
不产生幻觉证据引用溯源率:每条 SAR 陈述必须指向存在的证据 ID100%,硬性代码型检查
调查成本可控$/案件(端到端 token 成本聚合)上限待 W7 gateway 实测后设定tracing 成本聚合(OTel + Langfuse)

设计原则:每条 PRD 指标必须能回答「在哪个数据集上、用什么方式、低于多少就拦截」——答不出三问的指标不准写进 PRD。

D. 「LLM 模拟用户是不可靠代理」(2026-01)的三条硬约束

  1. 不能用 LLM 扮演调查员来评判可用性/可提交性——关键评分(SAR 可提交性、类型学判定正确性)必须保留人工抽检
  2. judge 必须先校准再上岗:judge 只有在与人工标注的一致率达标(本项目 v1:≥0.8)后才能进 CI;一致率本身是持续监控指标,漂移即降级回人工
  3. 金标数据集的标注必须人工:本项目合成数据生成器(W2)产出案例后人工复核打标,不允许「LLM 生成 + LLM 自标」闭环(自我证实偏差)

E. 与传统 KPI/OKR 式指标的差异表

维度传统 KPI/OKRevals 即成功指标
定义时机上线后才能测构建前写好,构建期每日跑
指标来源自上而下的业务目标分解自下而上从错误分析归纳(Hamel/Shreya 2025-09)
粒度聚合漏斗(周/月)单条 trace 可归因到失败类别
执行机制仪表盘回顾会CI 阻断 merge(不达标代码进不了主干)
演化方式季度 OKR 评审failure taxonomy 随新失败模式持续更新
PM 的角色汇报指标写 eval = 写产品定义(Aman Khan 2026-04)

设计要点/决策表

要点说明与已有方案差异
错误分析先于指标先看 trace 归纳 failure taxonomy,再定指标传统 PRD 先拍指标,与真实失败脱节
三类 evals 分工代码型查确定性、judge 查语义、人工抽检兜底单一 LLM-judge 方案无法验证 judge 自身可信度
一致率作为元指标judge×人工一致率 ≥0.8 才放行 judge 进 CI多数团队直接信任 judge 分数(2026-01 研究证伪)
阻断式 CI gateeval 低于门槛拦截 merge,而非事后报表升级自本仓库现有 src/agent/eval/ 的非阻断跑法
成本是一等指标$/案件与质量指标并列进 PRD传统 AI demo 不算账;AISA 叙事要求成本维度缺一不可

对本项目的落地

  • docs/AML_COPILOT_PRD.md 成功指标段直接采用 C 节表格(v1 门槛标注「假设,W3 校准」)
  • W2(D8-14):合成数据生成器产出金标数据集 ≥60 案例 v1(人工复核打标,D 节约束 3);agent-v2 真实 traces 上跑开放编码→轴向编码,产出 5-6 类 failure taxonomy
  • W3(D15-21):src/agent/eval/runRetrievalEval.tssrc/agent/eval/retrievalGolden.ts 升级为三类 evals suite v2;GitHub Actions 阻断式 CI eval gate;交付 judge×人工一致率基线
  • W4(D22-28):OTel GenAI semconv 埋点(保留独立属性映射层——semconv 仍 experimental,2026-03 口径)+ Langfuse 自托管,为 $/案件 指标提供测量底座
  • 长文#1《从 recall@k 到生产级 evals》(W4)以本笔记 A/C 节为骨架

参考资料

  1. Lenny's Newsletter — Why AI evals are the hottest new skill(Hamel Husain + Shreya Shankar,错误分析→开放编码→轴向编码→LLM-as-judge→代码型检查)(2025-09)
  2. Aakash Gupta — AI PM Crash Course 2026: Prototyping → Observability → Evals(Aman Khan,「evals are the new PRDs」、三类 evals、四段式 judge prompt)(2025-06 发布,2026-04 更新)
  3. OpenAI CPO —「PM 最重要的技能是写 evals」(2025-08)
  4. 「LLM 模拟用户是不可靠代理」研究——关键评分必须保留人工抽检 (2026-01)
  5. Productify — PRD 未死而是进化为一页纸+原型 (2025-11)
  6. Builder.io — The 2026 Guide to AI Prototyping for Product Managers(prototype 与 PRD 分工)(2026-01)

SOTA 检查 (2026-06-11)

  • Hamel/Shreya 方法论仍是 2026-06 的行业事实标准:其评测课持续开课(已训练 2000+ 人),本日 WebSearch 未发现替代性方法论;Productboard、Product Talk 等 2025-2026 实践文章均沿用其错误分析框架
  • 「evals are the new PRDs」叙事处于上升期:Aman Khan 材料 2026-04-19 刚更新,Arize 等厂商同口径推广;注意这是框架叙事而非实证研究,引用时与 2026-01 的「LLM 模拟用户不可靠」实证研究区分证据等级
  • OTel GenAI semconv 仍 experimental(2026-03 口径)——埋点必须留独立属性映射层,W4 开工前按计划复查是否转 stable
  • 过时认知警示:「上线后 A/B 测试定生死」的 Web2 PM 指标观对 AI 产品过时——eval gate 把质量验证前移到构建期;同时警惕反向过时:纯 vibe check 的「AI 产品凭感觉发布」在 2025 已被淘汰
  • 待跟踪:Hamel/Shreya Maven 课程是否报名(W1 决策点,计划已列);judge 一致率门槛 0.8 为 v1 假设,W3 用真实数据校准后本笔记需回填更新