返回 AIPA 笔记
AIPA Day 97

AML Copilot AI PRD 定稿 — 组装而非新写,附定价模型与长文#5 发布

AML Copilot AI PRD 定稿 — 组装而非新写,附定价模型与长文#5 发布

2026-09-19
ai-prdevals-as-specoutcome-pricing

日期: 2026-09-19 阶段: Phase 3 - AML 调查 Copilot 标签: #ai-prd #evals-as-spec #outcome-pricing

核心问题

P3 收口前一天,要把 AML Copilot 的完整 AI PRD 定稿,并发布长文#5。关键认知:今天不是从零写 PRD——W1(day1 JTBD / day3 evals-as-spec)和 W13(day89 单位成本 / day85 SAR rubric)的素材已就位,今天是把散件组装成一份对外可交付的 AI PRD,再补一块以前没写透的:定价模型

回答三件事:

  1. AI PRD 的结构长什么样、哪些节是传统 PRD 没有的? 用一手方法论(Torabi 2026-04 七节框架)对齐,逐节标注「本节素材来自哪个已建文件」——这是「证据先于声明」纪律在文档层的体现:每一节都要能链回真实资产。
  2. AI PRD 与传统 PRD 的根本差异在哪? 不是「多几节」,是验收范式从确定性二元判定转成概率分布判定——「evals 就是新的 PRD」。
  3. 定价模型怎么定? AML Copilot 该按 per-seat、per-case 还是 outcome-based 收费?用 2026 定价数据 + 本项目单位成本(W13 $/案件)推导。

关键内容

A. AI PRD 七节结构 × 证据文件(组装清单)

按 Torabi《Writing PRDs for AI Products》(2026-04-15)的七节框架,逐节映射本项目已有资产——这正是「定稿=组装」的含义:

AI PRD 节本节核心内容素材来源(已建文件)状态
1. The Shift(AI 如何改变 PRD)确定性→概率、evals 即验收day3(evals-as-spec)✅ 复用
2. 战略定义与商业论证3 条 JTBD、漏斗痛点、ROIday1(JTBD)、EY 误报降 40-50%✅ 复用
3. 数据策略(feedstock)金标 ≥100、数据血缘、新鲜度src/aml/generator.ts + 66/80 案金标✅ 复用
4. 模型行为与技术需求概率化需求、系统 persona、guardrailsarDraft.tsriskGate、rubric(day85)✅ 复用
5. UX 与交互设计HITL 复核、Agent UX 七模式AmlSarPanel.tsx、Fuselab 七模式✅ 复用
6. 安全/风险/红队拒绝规范、对抗向量、ASR 前后长文#2 红队报告、riskGate✅ 复用
7. 协作与生命周期Legal/T&S/DS 签字、living docday49 Art.50、合规蓝图(96)✅ 复用
+ 定价模型(本日新增)per-case/outcome 定价、单位经济day89 单位成本 + C 节推导🆕 今日补

反直觉洞察①(PRD 定稿不是写作,是审计自己的资产链):传统直觉是「定稿日 = 闭门写 8 小时文档」。但对一份证据驱动的 AI PRD,定稿其实是反向操作——先列七节骨架,再逐节问「这一节的声明,有哪个真实文件/数字能撑?」凡撑不起的节,要么补素材要么标红,不能用漂亮措辞糊过去。这天真正的工作量在「核对每节都可链回资产」,而非码字。一份每节都能点开看到代码/eval 数字的 PRD,在面试里的杀伤力远超一份文笔优美但无证据的。

B. AI PRD vs 传统 PRD 的根本差异:验收范式翻转

差异不在节数,在「验收标准的数据类型」。传统 PRD 假设确定性("same input → same output",Torabi 2026-04),AI 产品是概率的——同一输入产生不同输出,质量是分布而非点

核心改写(Torabi 原文):

传统验收(二元、确定性):
  "AI 必须生成 <100 词的摘要"
  → 判定: 是 / 否

AI 验收(分布、概率):
  "在 95% 的案例中,摘要长度须在 80-120 词之间"
  → 判定: P(80 ≤ len ≤ 120) ≥ 0.95 ?

落到 AML Copilot 的 SAR 草稿验收,四维 rubric(day85)全部是分布式断言:

验收谓词(伪代码,对齐 day85 SAR rubric × day17 κ 校准):

  accept(sar_suite) :=
       P(faithfulness_pass) ≥ 0.95     # 事实忠实:无幻觉实体/金额
    ∧  P(coverage_pass)     ≥ 0.90     # 完整性:5W1H 齐全
    ∧  P(typology_cited)    ≥ 0.95     # 类型学引用正确
    ∧  P(reg_language_ok)   ≥ 0.90     # 监管语言合规
    ∧  judge 自身 κ(judge, human) ≥ 0.6  # 尺子先达标(day17)

注意最后一行——AI PRD 的验收里嵌着「验收器本身的验收」。传统 PRD 不需要校准它的尺子(人工判「按钮是否能点」无需 κ),AI PRD 必须先证明 judge 可信(κ ≥ 0.6),其分布断言才算数。这是「evals 就是新的 PRD」(Braintrust)的最深含义:eval 既是 spec、又是验收标准、又是 roadmap(Innovation Mode 2026),三位一体。

AI PRD 独有节(传统 PRD 完全没有的):

AI PRD 独有为什么传统 PRD 没有
系统 persona = 规范tone of voice「活在 system prompt 里,是核心需求」,需显式审批(Torabi);传统放设计指南即可
数据供应链文档数据源/新鲜度/权限继承是模型行为的输入;传统软件 spec 无此
Golden Dataset(50-100 对)概率系统须有 ground truth 锚点;传统靠人工点测
拒绝/幻觉容忍度规范模型会编造,须明确「宁拒不错」边界;传统系统不会幻觉
扩大的签字方「AI PRD 邀请新玩家上桌」——Legal/T&S/DS 必签(Torabi);传统仅工程
定价模型与单位经济推理有边际成本($/案件),定价须覆盖;传统 SaaS 边际成本≈0

C. 定价模型推导:per-seat / per-case / outcome(用 2026 数据 + 自家单位成本)

2026 定价格局已从 per-seat 大幅迁移:Pilot 研究显示 seat-based 占比 12 个月内从 21% 跌到 15%,hybrid(基础订阅+用量超额)从 27% 升到 41% 成行业标准(quickchat.ai / korix 2026)。三种模型横评:

模型典型价位(2026)与买方价值对齐度AML Copilot 适配
per-seat$30-80/agent/月弱——「一个 seat 能干 10× 活」时价格失真(Pilot)差(调查员数 ≠ 价值)
per-ticket/case$0.30-1.00/件中——量化但「处理了≠解决了」(每案件可计量)
per-resolution(outcome)$0.50-2.00/解决强——「厂商收入与买方价值对齐」中(SAR「解决」难界定,HITL 在环)

关键约束:定价底线 = 单位成本(W13 $/案件)。 AML Copilot 单案件成本分三段(day89):检索 + 生成 + judge。定价须显著高于单位成本才有毛利。推导逻辑:

设 W13 实测单案件成本 = C_case(检索+生成+judge 三段累加)
毛利率目标 m(如 70%)
  → per-case 定价下限 = C_case / (1 - m)

为何不选纯 outcome(per-resolution):
  AML 的「resolution」= SAR 提交给监管,但 HITL 在环——
  最终提交决策由人做,AI 只产草稿。把价绑到「提交」会
  让定价依赖于不受 AI 单独控制的人工动作 → 价值归因不清。
  对照客服 agent「解决对话」是 AI 端到端可控的,故 outcome 适配;
  AML 是 copilot(辅助)非 autopilot(自主),故选 per-case。

结论: 主模型 = per-case(每案件调查),hybrid 包装
  = 平台基础订阅(覆盖部署/合规/审计固定成本)
  + per-case 超额(覆盖推理边际成本 + 毛利)
  对齐 2026 hybrid 41% 主流,且 per-case 价值可计量。

反直觉洞察②(AML Copilot 不该学客服 agent 卖 outcome):2026 最热的叙事是「outcome-based pricing 才是 AI-native 信号」(guptadeepak 2026),按「解决一个对话」收 $0.50-2.00。直觉会想照搬到 AML。但 copilot ≠ autopilot:客服 agent 端到端解决对话(outcome 由 AI 独控),而 AML Copilot 是辅助——最终 SAR 提交是 HITL 里人做的合规决策(day49 编辑责任豁免的同一个 HITL)。把价绑到「SAR 提交」=把定价押在不受 AI 单独控制的人工动作上,价值归因不清且合规上危险(暗示 AI 替人做了申报决策)。HITL 既是合规豁免触发器,也是定价模型的分界线——它决定了该按 per-case 而非 per-resolution 收费。 这条把合规架构和商业模式打通的洞察,是金融 AI 产品独有的。

设计要点/决策表

要点决策理由
PRD 形态组装已有资产,非新写证据驱动:每节须可链回真实文件/数字
验收范式概率分布断言(P(pass) ≥ 阈值)AI 输出非确定,质量是分布(Torabi/Braintrust)
验收器校准judge κ ≥ 0.6 写进验收谓词尺子先达标,分布断言才成立(day17)
主定价模型per-case(每案件)价值可计量;HITL 在环故非 outcome
定价包装hybrid(基础订阅 + per-case 超额)对齐 2026 hybrid 41% 主流;覆盖固定+边际成本
定价下限C_case /(1-毛利率)推理有边际成本,须高于单位成本
签字方+Legal/T&S/Data ScienceAI PRD 须扩大 stakeholder(Torabi)

对本项目的落地

  • 新建 docs/aipa/aml-copilot-ai-prd.md:按 B 节七节 + 定价节落地,每节顶部标注证据文件路径(如第 3 节 → src/aml/generator.ts;第 4 节 → sarDraft.ts/riskGate;定价节 → day89 单位成本)。形式上是「一页纸摘要 + 可点击原型链接(src/components/aml/AmlCopilot.tsx)+ eval 定义(A 节验收谓词)+ 定价模型(C 节)」四件套并存,对齐 day1 确立的 prototype-first 交付模式。
  • 验收谓词写进 PRD 即 CI 门:B 节那段 accept(sar_suite) 不是文档措辞,它直接对应 src/aml/evalBaseline.ts 的聚合断言 + judgeCalibration.ts 的 κ 门。PRD 的「验收标准」一栏=代码里真实跑的断言,二者同源——这是 evals-as-spec 的落地证据。
  • 定价节诚实限定:per-case 价位用「C_case ×(1/(1-毛利率))」公式给区间,不编造绝对定价数字——C_case 取 W13(day89)实测三段成本,毛利率作可调参数;outcome 模型标注「因 HITL 在环不适配,留作 autopilot 演进后再评估」。
  • 长文#5 定稿发布:long-form#5《合规即架构》今日定稿(day96 初稿基础上),与本 AI PRD 是姊妹件——PRD 第 7 节(协作/生命周期)的合规签字方,直接引长文#5 的 C4 合规组件图(绿/黄/红)作证据。两份文档交叉引用,构成「产品定义(PRD)× 合规架构(长文#5)」的完整 P3 交付对。
  • 与 W1/W13 的闭环:本日确认 day1(JTBD)→ day3(evals-as-spec)→ day85(rubric)→ day89(单位成本)这条 P1→P3 的素材链全部可被 PRD 引用,证明 AIPA「每日笔记是过程纪律」的设计成立——120 天后能组装出对外 PRD,正因为每块素材当天就以可链接形式落了地。

参考资料

  1. Nima Torabi — Writing PRDs for AI Products: A Practical Guide for Senior Product and Cross-Functional Teams:七节框架(The Shift / 战略 / 数据策略 / 模型行为 / UX / 安全红队 / 协作生命周期);「In 95% of cases, the summary length must be between 80 and 120 words」;「tone of voice... lives inside the system prompt as a core requirement」;「AI PRD invites new players to the table」(Legal/T&S/DS)(2026-04-15)
  2. Braintrust — Evals are the new PRD:eval 取代 PRD 作为 spec/验收/roadmap 三合一(持续)
  3. Innovation Mode — Rethinking Product Requirements for AI Products:「the eval framework becomes your acceptance criteria」「defines the target, measures pass or fail, tracks improvement, prevents regression」(2026)
  4. Quickchat AI / Korix — AI Agent Pricing Models 2026:per-seat $30-80/月、per-ticket $0.30-1.00、per-resolution $0.50-2.00;Pilot 研究 seat 占比 21%→15%、hybrid 27%→41%(2026)
  5. guptadeepak.com — Outcome-Based Pricing: The Real AI-Native Signal:outcome 定价作 AI-native 信号(2026)
  6. 本仓库 src/aml/generator.ts/sarDraft.ts/evalBaseline.ts/judgeCalibration.tssrc/components/aml/AmlCopilot.tsx/AmlSarPanel.tsx;day1/day3/day49/day85/day89/day96(自产,仓库)(2026-06~09)

SOTA 检查 (2026-09-19)

  • 「evals are the new PRD」在 2026 稳固为 AI PM 主流共识:Braintrust、Innovation Mode、Torabi(2026-04)、ideaplan(2026)口径一致——AI PRD 的验收从二元判定转成概率分布断言,eval 三合一(spec/验收/roadmap)。未见反向论述。本笔记把它落到 SAR 验收谓词,属应用而非理论新创。
  • 定价模型正快速迁移,per-seat 在衰退:Pilot 研究(seat 21%→15%、hybrid 27%→41%)、Intercom $0.99/HubSpot 2026-04 降至 $0.50/Salesforce Agentforce $2.00 等数字均为 2026 当周口径,属快变项——长文/PRD 引用时须按发布当周复核,绝对数字会变。
  • outcome-based 是热点但非银弹:guptadeepak(2026)力推 outcome 定价,但本笔记反直觉洞察②论证 copilot(HITL 在环)不适配 outcome——这与「outcome 适用于 AI 端到端可控场景」并不矛盾,AML 是辅助非自主。此判断在 2026-09 仍成立,待 autopilot 化(人退出环)后重评。
  • 过时认知警示:把 AI 产品按纯 per-seat 卖已过时(「一个 seat 干 10× 活时价格失真」,Pilot);把 AI PRD 当传统 PRD「加几节 AI 内容」也过时——根本差异是验收范式翻转,不是节数增加。
  • 待跟踪:W13 的 C_case 实测三段成本(day89)是定价节的输入,PRD 定稿引用时锁定当时数字并标日期;2026 定价格局持续演变,长文/PRD 对外发布前重新检索 per-case/outcome 价位区间;autopilot 化后 outcome 模型适配性重评。