AI 底层逻辑 / 经典论文

Online Experimentation / CUPED：AI Release Science

一句话:

249 行ai-foundations/papers/44-online-experimentation-cuped-release-science-ai-products.md

Online Experimentation / CUPED / Release Science 解读

面向对象: AI PM / Experimentation Platform PM / AI Product Architect / Decision Scientist / Risk Product。核心问题: AI 产品上线不能只靠离线 eval 和主观体验。如何把 A/B、CUPED、guardrail、ramp、shadow launch、champion-challenger 和 release gate 组合成 AI Release Science？学习目标: 理解 online controlled experiments、variance reduction、CUPED、guardrail metrics、sequential risk、interleaving 和风险分层发布，并映射到 RAG、Agent、推荐系统、KYC 抽取和支付风控。

Source Anchors

Source	Link	用途
Kohavi et al. online controlled experiments	https://www.exp-platform.com/Pages/OnlineControlledExperiments.aspx	理解线上受控实验的产品和统计基础
Microsoft ExP platform	https://www.microsoft.com/en-us/research/project/experimentation-platform-exp/	理解大规模实验平台的组织和工程形态
CUPED paper	https://www.exp-platform.com/Documents/2013-02-CUPED-ImprovingSensitivityOfControlledExperiments.pdf	理解用实验前数据降低方差
Trustworthy Online Controlled Experiments	https://www.cambridge.org/core/books/trustworthy-online-controlled-experiments/	理解可信实验、陷阱和决策文化
NIST AI RMF	https://www.nist.gov/itl/ai-risk-management-framework	将实验发布纳入风险测量和治理

一句话:

AI Release Science 是用离线 eval、shadow、ramp、线上实验、guardrail 和事后决策模板，把模型/策略变更从“感觉变好”变成可证明、可停止、可回滚的发布系统。

1. 为什么 AI 产品更需要实验科学

AI 系统变化来源很多:

模型版本。
prompt。
RAG chunking / embedding / reranker。
tool policy。
Agent planner。
推荐排序。
guardrail。
UI trust experience。

每一次变化可能同时影响:

质量。
成本。
延迟。
投诉。
过度依赖。
人工工作量。
风险事件。
长期行为。

离线 eval 只能回答:

在这组样本上是否更好？

线上实验回答:

真实用户、真实员工、真实流程中是否更好，且没有伤害护栏指标？

2. AI Release Science 分层

offline eval
  -> replay / simulation
  -> shadow launch
  -> limited ramp
  -> online experiment
  -> decision review
  -> rollout / rollback / iterate

阶段	目的	典型证据
Offline eval	快速排除明显回归	golden set、judge、SME review
Replay	用历史 case 观察行为	trace diff、policy violation
Shadow	不影响用户地跑新系统	latency、cost、decision diff
Ramp	小比例真实流量	incident、guardrail、ops load
A/B	估计真实增量	primary metric、guardrail、slice
Review	决策 scale/stop	memo、confidence、risk acceptance

3. Guardrail Metrics

AI 实验不能只看主指标。

场景	主指标	护栏指标
客服 Copilot	AHT、FCR、adoption	complaint、wrong answer、escalation、overreliance
RAG 助手	task success、grounded answer	permission leakage、outdated citation、latency/cost
推荐系统	conversion、long-term value	opt-out、complaint、suitability violation、fairness delta
KYC 抽取	automation rate	false accept、false reject、manual burden、PII leakage
支付欺诈	fraud loss reduction	false positive、customer friction、manual queue
Agent tool rollout	task completion	tool misuse、HITL bypass、rollback event

Stop rule 示例:

Stop if:
  critical safety incident > 0
  permission leakage > 0
  high-risk HITL bypass > 0
  complaint rate increases above threshold
  p95 latency exceeds SLO for two consecutive windows

4. CUPED 的产品直觉

CUPED 用实验前数据降低方差:

如果某个用户/队列/客户在实验前的行为能解释实验后的指标，就把这部分可解释波动扣除，让实验更敏感。

产品意义:

更快发现小但真实的提升。
减少需要的样本量。
对高成本实验更有价值。
对金融零售这种低流量高风险场景有帮助。

但要注意:

协变量必须来自实验前。
不能引入处理后变量。
不解决样本偏差、网络效应、埋点错误。
结果仍需业务和风险解释。

5. AI 实验特殊风险

风险	说明	控制
Non-stationarity	模型和用户行为会互相适应	时间分层、长期 holdout
Interference	用户、员工、队列互相影响	cluster randomization、网络效应评估
Multiple testing	同时看很多指标容易误判	预注册主指标、调整解释
Novelty effect	新 AI 功能初期使用异常	延长观察、分阶段决策
Learning system	AI 从反馈中变化	固定版本实验或记录学习事件
Safety rare events	低频高损害事件样本不足	红队、shadow、stop rule
Evaluation mismatch	离线 eval 好，线上任务差	trace-level failure analysis

6. 金融零售案例

6.1 RAG 知识助手升级

变更:

新 embedding model。
新 reranker。
新 chunking。

发布:

offline retrieval eval
  -> shadow answer generation
  -> employee pilot ramp 5%
  -> A/B on task success
  -> guardrails: permission leakage, citation freshness, latency

6.2 支付欺诈 Champion-Challenger

变更:

新模型和新 step-up 策略。

实验:

shadow score 新模型。
比较决策 diff。
小比例 challenger。
按商户、金额、客户类型 slice。

护栏:

false positive。
customer friction。
manual review queue。
complaint。

6.3 Agent Tool Rollout

发布:

先 read-only。
再 draft-only。
再 low-risk tool with approval。
最后有限自动执行。

每一步都有:

tool misuse rate。
policy violation。
human override。
rollback drill。

7. Experiment Design Checklist

设计项	高级问题
Hypothesis	具体改善什么，不写“新模型更好”
Unit	user、employee、case、team、branch、merchant 哪个随机化
Primary metric	只能有少数主指标
Guardrails	风险、投诉、权限、成本、延迟、人工负担
Sample/variance	是否使用 CUPED 或历史协变量
Ramp	0% shadow、1%、5%、25%、50%、100% 的门槛
Stop rule	哪些事件立即停止
Slice	客户群、产品、渠道、地区、风险等级
Decision memo	ship、rollback、iterate、extend、inconclusive
Evidence	实验配置、版本、数据、分析代码、审批

8. 面试表达

30 秒版本

AI 产品发布不能只靠离线 eval。我的做法是把 release 拆成 offline eval、replay、shadow、ramp、online experiment 和 decision review。主指标必须配护栏指标，例如权限泄露、投诉、延迟、成本和人工负担。CUPED 可以用实验前数据降低方差，但不能替代正确随机化、埋点质量和风险分层发布。

2 分钟版本

我会先定义 release risk tier。低风险 prompt 改动可能通过 offline eval 和小流量 ramp；高风险 Agent 工具或支付风控模型必须先 shadow，再 champion-challenger。实验设计要明确随机化单位、主指标、护栏指标、样本量或方差计划、stop rule 和 slice analysis。对 AI 特别重要的是离线 eval 与线上指标的桥接：如果 RAG retrieval 指标提升但 task success 和 citation freshness 没有提升，就不能说明产品变好。最后用 post-experiment decision memo 决定 ship、rollback、iterate 或继续收集数据。

架构师版本

AI experimentation platform 需要 experiment registry、feature flags、model/prompt/config versioning、traffic router、trace store、metric pipeline、guardrail monitor、decision log 和 release gate。它不是增长工具，而是生产变更治理系统。

9. 作品集任务

为 KYC extraction model release 写实验方案:

定义 primary metric 和 8 个 guardrails。
设计 offline eval -> shadow -> 5% ramp -> A/B 的发布链路。
写 stop rule。
定义随机化单位和 slice。
设计 CUPED 可用的实验前协变量。
写 post-experiment decision memo 模板。