AIPA Day 3

一页纸 PRD 与 evals 即成功指标

2026-06-17

evalsprdllm-as-judgesuccess-metrics

日期: 2026-06-17 阶段: Phase 1 - 产品定义×评测×可观测底座标签: #evals #prd #llm-as-judge #success-metrics

核心问题

传统 PRD 的成功指标（DAU、转化率、NPS）对 AI 产品失效：模型输出是概率分布，「质量」的定义本身就是产品定义——你不写清「好的 SAR 草稿长什么样」，工程师就无从优化。OpenAI CPO 的判断：「PM 最重要的技能是写 evals」（2025-08）。今天回答：怎么把一页纸 PRD（Day 1）的成功指标直接写成可执行、可进 CI 的 eval 指标，以及「LLM 模拟用户不可靠」（2026-01）给 eval 设计划下的硬约束。

关键内容

A. Hamel Husain + Shreya Shankar 方法论（Lenny's 2025-09）

错误分析驱动的五步流程：

错误分析（error analysis）：从真实/合成 trace 出发，逐条看失败，而不是先拍指标
开放编码（open coding）：借自定性研究方法——逐条 trace 写自由文本标注，不预设分类
轴向编码（axial coding）:把开放编码聚类成 5-6 类 failure taxonomy（失败分类法）
LLM-as-judge：对高频、需语义判断的失败模式写 judge prompt 自动化评分
代码型检查（code-based checks）：凡能确定性断言的（格式、引用存在性、字段完整），用代码不用 LLM——更便宜、零方差

核心倒置：evals 不是「先选指标后测量」，而是从真实失败归纳指标——与传统 KPI 自上而下设定的方向相反。该方法论已成行业标准教材（其 Maven 评测课已训练 2000+ 人，含 OpenAI/Anthropic 团队成员，2025-09 口径）。

B. Aman Khan：「Evals are the new PRDs」（2026-04 更新版）

来源：Aakash Gupta《AI PM Crash Course 2026》（2025-06 发布，2026-04-19 更新，本日 WebFetch 核实）：

角色转变：AI 工程师不想要 Google Docs 需求文档，想要的是带标注的数据集 + 「把这个指标提上去」——PM 定义「好」的方式从写 feature 描述变成标数据、写 rubric
三类 evals 递进：vibe check（主观快速判断）→ LLM-as-judge（结构化 prompt 规模化评分）→ 系统化 evals（用 judge 输出对照人工标注，验证 judge 本身的可信度）
四段式 judge prompt（2026-04 更新版）：角色与任务、评估标准（rubric）、少样本示例、结构化输出格式——四段缺一，judge 方差即不可控
AI PM 工作流：prototyping → observability → evals。与本项目 P1 排期同构但顺序微调：W1 原型 → W3 evals → W4 完整 tracing——因为阻断式 CI gate 是构建期质量门，必须先于全量可观测性就位

C. 本项目实例：PRD 成功指标 = eval 指标

一页纸 PRD 的成功指标段不写「提升调查效率」类空话，直接写成下表（门槛为 v1 设计假设，W2-W3 用金标数据校准后定稿）：

PRD 语言	eval 指标	v1 门槛（假设）	测量方式
准确识别洗钱类型学	typology recall / precision（金标数据集 ≥60 案例 v1）	recall ≥ 0.85，precision ≥ 0.75，CI 低于门槛阻断 merge	代码型检查（标签可确定性比对）
SAR 草稿质量合格	LLM-as-judge rubric 分（四段式 prompt）	judge×人工一致率 ≥ 0.8 后 judge 评分才进 CI	judge + 人工抽检双轨
不产生幻觉证据	引用溯源率：每条 SAR 陈述必须指向存在的证据 ID	100%，硬性	代码型检查
调查成本可控	$/案件（端到端 token 成本聚合）	上限待 W7 gateway 实测后设定	tracing 成本聚合（OTel + Langfuse）

设计原则：每条 PRD 指标必须能回答「在哪个数据集上、用什么方式、低于多少就拦截」——答不出三问的指标不准写进 PRD。

D. 「LLM 模拟用户是不可靠代理」（2026-01）的三条硬约束

不能用 LLM 扮演调查员来评判可用性/可提交性——关键评分（SAR 可提交性、类型学判定正确性）必须保留人工抽检
judge 必须先校准再上岗：judge 只有在与人工标注的一致率达标（本项目 v1：≥0.8）后才能进 CI；一致率本身是持续监控指标，漂移即降级回人工
金标数据集的标注必须人工：本项目合成数据生成器（W2）产出案例后人工复核打标，不允许「LLM 生成 + LLM 自标」闭环（自我证实偏差）

E. 与传统 KPI/OKR 式指标的差异表

维度	传统 KPI/OKR	evals 即成功指标
定义时机	上线后才能测	构建前写好，构建期每日跑
指标来源	自上而下的业务目标分解	自下而上从错误分析归纳（Hamel/Shreya 2025-09）
粒度	聚合漏斗（周/月）	单条 trace 可归因到失败类别
执行机制	仪表盘回顾会	CI 阻断 merge（不达标代码进不了主干）
演化方式	季度 OKR 评审	failure taxonomy 随新失败模式持续更新
PM 的角色	汇报指标	写 eval = 写产品定义（Aman Khan 2026-04）

设计要点/决策表

要点	说明	与已有方案差异
错误分析先于指标	先看 trace 归纳 failure taxonomy，再定指标	传统 PRD 先拍指标，与真实失败脱节
三类 evals 分工	代码型查确定性、judge 查语义、人工抽检兜底	单一 LLM-judge 方案无法验证 judge 自身可信度
一致率作为元指标	judge×人工一致率 ≥0.8 才放行 judge 进 CI	多数团队直接信任 judge 分数（2026-01 研究证伪）
阻断式 CI gate	eval 低于门槛拦截 merge，而非事后报表	升级自本仓库现有 src/agent/eval/ 的非阻断跑法
成本是一等指标	$/案件与质量指标并列进 PRD	传统 AI demo 不算账；AISA 叙事要求成本维度缺一不可

对本项目的落地

docs/AML_COPILOT_PRD.md 成功指标段直接采用 C 节表格（v1 门槛标注「假设，W3 校准」）
W2（D8-14）：合成数据生成器产出金标数据集 ≥60 案例 v1（人工复核打标，D 节约束 3）；agent-v2 真实 traces 上跑开放编码→轴向编码，产出 5-6 类 failure taxonomy
W3（D15-21）：src/agent/eval/runRetrievalEval.ts 与 src/agent/eval/retrievalGolden.ts 升级为三类 evals suite v2；GitHub Actions 阻断式 CI eval gate；交付 judge×人工一致率基线
W4（D22-28）：OTel GenAI semconv 埋点（保留独立属性映射层——semconv 仍 experimental，2026-03 口径）+ Langfuse 自托管，为 $/案件指标提供测量底座
长文#1《从 recall@k 到生产级 evals》（W4）以本笔记 A/C 节为骨架

参考资料

Lenny's Newsletter — Why AI evals are the hottest new skill（Hamel Husain + Shreya Shankar，错误分析→开放编码→轴向编码→LLM-as-judge→代码型检查）(2025-09)
Aakash Gupta — AI PM Crash Course 2026: Prototyping → Observability → Evals（Aman Khan，「evals are the new PRDs」、三类 evals、四段式 judge prompt）(2025-06 发布，2026-04 更新)
OpenAI CPO —「PM 最重要的技能是写 evals」(2025-08)
「LLM 模拟用户是不可靠代理」研究——关键评分必须保留人工抽检 (2026-01)
Productify — PRD 未死而是进化为一页纸+原型 (2025-11)
Builder.io — The 2026 Guide to AI Prototyping for Product Managers（prototype 与 PRD 分工）(2026-01)

SOTA 检查 (2026-06-11)

Hamel/Shreya 方法论仍是 2026-06 的行业事实标准：其评测课持续开课（已训练 2000+ 人），本日 WebSearch 未发现替代性方法论；Productboard、Product Talk 等 2025-2026 实践文章均沿用其错误分析框架
「evals are the new PRDs」叙事处于上升期：Aman Khan 材料 2026-04-19 刚更新，Arize 等厂商同口径推广；注意这是框架叙事而非实证研究，引用时与 2026-01 的「LLM 模拟用户不可靠」实证研究区分证据等级
OTel GenAI semconv 仍 experimental（2026-03 口径）——埋点必须留独立属性映射层，W4 开工前按计划复查是否转 stable
过时认知警示：「上线后 A/B 测试定生死」的 Web2 PM 指标观对 AI 产品过时——eval gate 把质量验证前移到构建期；同时警惕反向过时：纯 vibe check 的「AI 产品凭感觉发布」在 2025 已被淘汰
待跟踪：Hamel/Shreya Maven 课程是否报名（W1 决策点，计划已列）；judge 一致率门槛 0.8 为 v1 假设，W3 用真实数据校准后本笔记需回填更新