AIPA Day 97

AML Copilot AI PRD 定稿 — 组装而非新写，附定价模型与长文#5 发布

2026-09-19

ai-prdevals-as-specoutcome-pricing

日期: 2026-09-19 阶段: Phase 3 - AML 调查 Copilot 标签: #ai-prd #evals-as-spec #outcome-pricing

核心问题

P3 收口前一天，要把 AML Copilot 的完整 AI PRD 定稿，并发布长文#5。关键认知：今天不是从零写 PRD——W1（day1 JTBD / day3 evals-as-spec）和 W13（day89 单位成本 / day85 SAR rubric）的素材已就位，今天是把散件组装成一份对外可交付的 AI PRD，再补一块以前没写透的：定价模型。

回答三件事：

AI PRD 的结构长什么样、哪些节是传统 PRD 没有的？ 用一手方法论（Torabi 2026-04 七节框架）对齐，逐节标注「本节素材来自哪个已建文件」——这是「证据先于声明」纪律在文档层的体现：每一节都要能链回真实资产。
AI PRD 与传统 PRD 的根本差异在哪？ 不是「多几节」，是验收范式从确定性二元判定转成概率分布判定——「evals 就是新的 PRD」。
定价模型怎么定？ AML Copilot 该按 per-seat、per-case 还是 outcome-based 收费？用 2026 定价数据 + 本项目单位成本（W13 $/案件）推导。

关键内容

A. AI PRD 七节结构 × 证据文件（组装清单）

按 Torabi《Writing PRDs for AI Products》（2026-04-15）的七节框架，逐节映射本项目已有资产——这正是「定稿=组装」的含义：

AI PRD 节	本节核心内容	素材来源（已建文件）	状态
1. The Shift（AI 如何改变 PRD）	确定性→概率、evals 即验收	day3（evals-as-spec）	✅ 复用
2. 战略定义与商业论证	3 条 JTBD、漏斗痛点、ROI	day1（JTBD）、EY 误报降 40-50%	✅ 复用
3. 数据策略（feedstock）	金标 ≥100、数据血缘、新鲜度	`src/aml/generator.ts` + 66/80 案金标	✅ 复用
4. 模型行为与技术需求	概率化需求、系统 persona、guardrail	`sarDraft.ts`、`riskGate`、rubric（day85）	✅ 复用
5. UX 与交互设计	HITL 复核、Agent UX 七模式	`AmlSarPanel.tsx`、Fuselab 七模式	✅ 复用
6. 安全/风险/红队	拒绝规范、对抗向量、ASR 前后	长文#2 红队报告、`riskGate`	✅ 复用
7. 协作与生命周期	Legal/T&S/DS 签字、living doc	day49 Art.50、合规蓝图（96）	✅ 复用
+ 定价模型（本日新增）	per-case/outcome 定价、单位经济	day89 单位成本 + C 节推导	🆕 今日补

反直觉洞察①（PRD 定稿不是写作，是审计自己的资产链）：传统直觉是「定稿日 = 闭门写 8 小时文档」。但对一份证据驱动的 AI PRD，定稿其实是反向操作——先列七节骨架，再逐节问「这一节的声明，有哪个真实文件/数字能撑？」凡撑不起的节，要么补素材要么标红，不能用漂亮措辞糊过去。这天真正的工作量在「核对每节都可链回资产」，而非码字。一份每节都能点开看到代码/eval 数字的 PRD，在面试里的杀伤力远超一份文笔优美但无证据的。

B. AI PRD vs 传统 PRD 的根本差异：验收范式翻转

差异不在节数，在「验收标准的数据类型」。传统 PRD 假设确定性（"same input → same output"，Torabi 2026-04），AI 产品是概率的——同一输入产生不同输出，质量是分布而非点。

核心改写（Torabi 原文）：

传统验收（二元、确定性）:
  "AI 必须生成 <100 词的摘要"
  → 判定: 是 / 否

AI 验收（分布、概率）:
  "在 95% 的案例中，摘要长度须在 80-120 词之间"
  → 判定: P(80 ≤ len ≤ 120) ≥ 0.95 ?

落到 AML Copilot 的 SAR 草稿验收，四维 rubric（day85）全部是分布式断言：

验收谓词（伪代码，对齐 day85 SAR rubric × day17 κ 校准）:

  accept(sar_suite) :=
       P(faithfulness_pass) ≥ 0.95     # 事实忠实：无幻觉实体/金额
    ∧  P(coverage_pass)     ≥ 0.90     # 完整性：5W1H 齐全
    ∧  P(typology_cited)    ≥ 0.95     # 类型学引用正确
    ∧  P(reg_language_ok)   ≥ 0.90     # 监管语言合规
    ∧  judge 自身 κ(judge, human) ≥ 0.6  # 尺子先达标（day17）

注意最后一行——AI PRD 的验收里嵌着「验收器本身的验收」。传统 PRD 不需要校准它的尺子（人工判「按钮是否能点」无需 κ），AI PRD 必须先证明 judge 可信（κ ≥ 0.6），其分布断言才算数。这是「evals 就是新的 PRD」（Braintrust）的最深含义：eval 既是 spec、又是验收标准、又是 roadmap（Innovation Mode 2026），三位一体。

AI PRD 独有节（传统 PRD 完全没有的）：

AI PRD 独有	为什么传统 PRD 没有
系统 persona = 规范	tone of voice「活在 system prompt 里，是核心需求」，需显式审批（Torabi）；传统放设计指南即可
数据供应链文档	数据源/新鲜度/权限继承是模型行为的输入；传统软件 spec 无此
Golden Dataset（50-100 对）	概率系统须有 ground truth 锚点；传统靠人工点测
拒绝/幻觉容忍度规范	模型会编造，须明确「宁拒不错」边界；传统系统不会幻觉
扩大的签字方	「AI PRD 邀请新玩家上桌」——Legal/T&S/DS 必签（Torabi）；传统仅工程
定价模型与单位经济	推理有边际成本（$/案件），定价须覆盖；传统 SaaS 边际成本≈0

C. 定价模型推导：per-seat / per-case / outcome（用 2026 数据 + 自家单位成本）

2026 定价格局已从 per-seat 大幅迁移：Pilot 研究显示 seat-based 占比 12 个月内从 21% 跌到 15%，hybrid（基础订阅+用量超额）从 27% 升到 41% 成行业标准（quickchat.ai / korix 2026）。三种模型横评：

模型	典型价位（2026）	与买方价值对齐度	AML Copilot 适配
per-seat	$30-80/agent/月	弱——「一个 seat 能干 10× 活」时价格失真（Pilot）	差（调查员数 ≠ 价值）
per-ticket/case	$0.30-1.00/件	中——量化但「处理了≠解决了」	好（每案件可计量）
per-resolution（outcome）	$0.50-2.00/解决	强——「厂商收入与买方价值对齐」	中（SAR「解决」难界定，HITL 在环）

关键约束：定价底线 = 单位成本（W13 $/案件）。 AML Copilot 单案件成本分三段（day89）：检索 + 生成 + judge。定价须显著高于单位成本才有毛利。推导逻辑：

设 W13 实测单案件成本 = C_case（检索+生成+judge 三段累加）
毛利率目标 m（如 70%）
  → per-case 定价下限 = C_case / (1 - m)

为何不选纯 outcome（per-resolution）:
  AML 的「resolution」= SAR 提交给监管，但 HITL 在环——
  最终提交决策由人做，AI 只产草稿。把价绑到「提交」会
  让定价依赖于不受 AI 单独控制的人工动作 → 价值归因不清。
  对照客服 agent「解决对话」是 AI 端到端可控的，故 outcome 适配；
  AML 是 copilot（辅助）非 autopilot（自主），故选 per-case。

结论: 主模型 = per-case（每案件调查），hybrid 包装
  = 平台基础订阅（覆盖部署/合规/审计固定成本）
  + per-case 超额（覆盖推理边际成本 + 毛利）
  对齐 2026 hybrid 41% 主流，且 per-case 价值可计量。

反直觉洞察②（AML Copilot 不该学客服 agent 卖 outcome）：2026 最热的叙事是「outcome-based pricing 才是 AI-native 信号」（guptadeepak 2026），按「解决一个对话」收 $0.50-2.00。直觉会想照搬到 AML。但 copilot ≠ autopilot：客服 agent 端到端解决对话（outcome 由 AI 独控），而 AML Copilot 是辅助——最终 SAR 提交是 HITL 里人做的合规决策（day49 编辑责任豁免的同一个 HITL）。把价绑到「SAR 提交」=把定价押在不受 AI 单独控制的人工动作上，价值归因不清且合规上危险（暗示 AI 替人做了申报决策）。HITL 既是合规豁免触发器，也是定价模型的分界线——它决定了该按 per-case 而非 per-resolution 收费。 这条把合规架构和商业模式打通的洞察，是金融 AI 产品独有的。

设计要点/决策表

要点	决策	理由
PRD 形态	组装已有资产，非新写	证据驱动：每节须可链回真实文件/数字
验收范式	概率分布断言（P(pass) ≥ 阈值）	AI 输出非确定，质量是分布（Torabi/Braintrust）
验收器校准	judge κ ≥ 0.6 写进验收谓词	尺子先达标，分布断言才成立（day17）
主定价模型	per-case（每案件）	价值可计量；HITL 在环故非 outcome
定价包装	hybrid（基础订阅 + per-case 超额）	对齐 2026 hybrid 41% 主流；覆盖固定+边际成本
定价下限	C_case /(1-毛利率)	推理有边际成本，须高于单位成本
签字方	+Legal/T&S/Data Science	AI PRD 须扩大 stakeholder（Torabi）

对本项目的落地

新建 docs/aipa/aml-copilot-ai-prd.md：按 B 节七节 + 定价节落地，每节顶部标注证据文件路径（如第 3 节 → src/aml/generator.ts；第 4 节 → sarDraft.ts/riskGate；定价节 → day89 单位成本）。形式上是「一页纸摘要 + 可点击原型链接（src/components/aml/AmlCopilot.tsx）+ eval 定义（A 节验收谓词）+ 定价模型（C 节）」四件套并存，对齐 day1 确立的 prototype-first 交付模式。
验收谓词写进 PRD 即 CI 门：B 节那段 accept(sar_suite) 不是文档措辞，它直接对应 src/aml/evalBaseline.ts 的聚合断言 + judgeCalibration.ts 的 κ 门。PRD 的「验收标准」一栏=代码里真实跑的断言，二者同源——这是 evals-as-spec 的落地证据。
定价节诚实限定：per-case 价位用「C_case ×（1/(1-毛利率)）」公式给区间，不编造绝对定价数字——C_case 取 W13（day89）实测三段成本，毛利率作可调参数；outcome 模型标注「因 HITL 在环不适配，留作 autopilot 演进后再评估」。
长文#5 定稿发布：long-form#5《合规即架构》今日定稿（day96 初稿基础上），与本 AI PRD 是姊妹件——PRD 第 7 节（协作/生命周期）的合规签字方，直接引长文#5 的 C4 合规组件图（绿/黄/红）作证据。两份文档交叉引用，构成「产品定义（PRD）× 合规架构（长文#5）」的完整 P3 交付对。
与 W1/W13 的闭环：本日确认 day1（JTBD）→ day3（evals-as-spec）→ day85（rubric）→ day89（单位成本）这条 P1→P3 的素材链全部可被 PRD 引用，证明 AIPA「每日笔记是过程纪律」的设计成立——120 天后能组装出对外 PRD，正因为每块素材当天就以可链接形式落了地。

参考资料

Nima Torabi — Writing PRDs for AI Products: A Practical Guide for Senior Product and Cross-Functional Teams：七节框架（The Shift / 战略 / 数据策略 / 模型行为 / UX / 安全红队 / 协作生命周期）；「In 95% of cases, the summary length must be between 80 and 120 words」；「tone of voice... lives inside the system prompt as a core requirement」；「AI PRD invites new players to the table」（Legal/T&S/DS）（2026-04-15）
Braintrust — Evals are the new PRD：eval 取代 PRD 作为 spec/验收/roadmap 三合一（持续）
Innovation Mode — Rethinking Product Requirements for AI Products：「the eval framework becomes your acceptance criteria」「defines the target, measures pass or fail, tracks improvement, prevents regression」（2026）
Quickchat AI / Korix — AI Agent Pricing Models 2026：per-seat $30-80/月、per-ticket $0.30-1.00、per-resolution $0.50-2.00；Pilot 研究 seat 占比 21%→15%、hybrid 27%→41%（2026）
guptadeepak.com — Outcome-Based Pricing: The Real AI-Native Signal：outcome 定价作 AI-native 信号（2026）
本仓库 src/aml/generator.ts/sarDraft.ts/evalBaseline.ts/judgeCalibration.ts、src/components/aml/AmlCopilot.tsx/AmlSarPanel.tsx；day1/day3/day49/day85/day89/day96（自产，仓库）（2026-06~09）

SOTA 检查 (2026-09-19)

「evals are the new PRD」在 2026 稳固为 AI PM 主流共识：Braintrust、Innovation Mode、Torabi（2026-04）、ideaplan（2026）口径一致——AI PRD 的验收从二元判定转成概率分布断言，eval 三合一（spec/验收/roadmap）。未见反向论述。本笔记把它落到 SAR 验收谓词，属应用而非理论新创。
定价模型正快速迁移，per-seat 在衰退：Pilot 研究（seat 21%→15%、hybrid 27%→41%）、Intercom $0.99/HubSpot 2026-04 降至 $0.50/Salesforce Agentforce $2.00 等数字均为 2026 当周口径，属快变项——长文/PRD 引用时须按发布当周复核，绝对数字会变。
outcome-based 是热点但非银弹：guptadeepak（2026）力推 outcome 定价，但本笔记反直觉洞察②论证 copilot（HITL 在环）不适配 outcome——这与「outcome 适用于 AI 端到端可控场景」并不矛盾，AML 是辅助非自主。此判断在 2026-09 仍成立，待 autopilot 化（人退出环）后重评。
过时认知警示：把 AI 产品按纯 per-seat 卖已过时（「一个 seat 干 10× 活时价格失真」，Pilot）；把 AI PRD 当传统 PRD「加几节 AI 内容」也过时——根本差异是验收范式翻转，不是节数增加。
待跟踪：W13 的 C_case 实测三段成本（day89）是定价节的输入，PRD 定稿引用时锁定当时数字并标日期；2026 定价格局持续演变，长文/PRD 对外发布前重新检索 per-case/outcome 价位区间；autopilot 化后 outcome 模型适配性重评。