返回 Papers
AI 底层逻辑 / 经典论文

Online Experimentation / CUPED:AI Release Science

一句话:

249ai-foundations/papers/44-online-experimentation-cuped-release-science-ai-products.md

Online Experimentation / CUPED / Release Science 解读

面向对象: AI PM / Experimentation Platform PM / AI Product Architect / Decision Scientist / Risk Product。 核心问题: AI 产品上线不能只靠离线 eval 和主观体验。如何把 A/B、CUPED、guardrail、ramp、shadow launch、champion-challenger 和 release gate 组合成 AI Release Science? 学习目标: 理解 online controlled experiments、variance reduction、CUPED、guardrail metrics、sequential risk、interleaving 和风险分层发布,并映射到 RAG、Agent、推荐系统、KYC 抽取和支付风控。


Source Anchors

SourceLink用途
Kohavi et al. online controlled experimentshttps://www.exp-platform.com/Pages/OnlineControlledExperiments.aspx理解线上受控实验的产品和统计基础
Microsoft ExP platformhttps://www.microsoft.com/en-us/research/project/experimentation-platform-exp/理解大规模实验平台的组织和工程形态
CUPED paperhttps://www.exp-platform.com/Documents/2013-02-CUPED-ImprovingSensitivityOfControlledExperiments.pdf理解用实验前数据降低方差
Trustworthy Online Controlled Experimentshttps://www.cambridge.org/core/books/trustworthy-online-controlled-experiments/理解可信实验、陷阱和决策文化
NIST AI RMFhttps://www.nist.gov/itl/ai-risk-management-framework将实验发布纳入风险测量和治理

一句话:

AI Release Science 是用离线 eval、shadow、ramp、线上实验、guardrail 和事后决策模板,把模型/策略变更从“感觉变好”变成可证明、可停止、可回滚的发布系统。


1. 为什么 AI 产品更需要实验科学

AI 系统变化来源很多:

  • 模型版本。
  • prompt。
  • RAG chunking / embedding / reranker。
  • tool policy。
  • Agent planner。
  • 推荐排序。
  • guardrail。
  • UI trust experience。

每一次变化可能同时影响:

  • 质量。
  • 成本。
  • 延迟。
  • 投诉。
  • 过度依赖。
  • 人工工作量。
  • 风险事件。
  • 长期行为。

离线 eval 只能回答:

在这组样本上是否更好?

线上实验回答:

真实用户、真实员工、真实流程中是否更好,且没有伤害护栏指标?

2. AI Release Science 分层

offline eval
  -> replay / simulation
  -> shadow launch
  -> limited ramp
  -> online experiment
  -> decision review
  -> rollout / rollback / iterate
阶段目的典型证据
Offline eval快速排除明显回归golden set、judge、SME review
Replay用历史 case 观察行为trace diff、policy violation
Shadow不影响用户地跑新系统latency、cost、decision diff
Ramp小比例真实流量incident、guardrail、ops load
A/B估计真实增量primary metric、guardrail、slice
Review决策 scale/stopmemo、confidence、risk acceptance

3. Guardrail Metrics

AI 实验不能只看主指标。

场景主指标护栏指标
客服 CopilotAHT、FCR、adoptioncomplaint、wrong answer、escalation、overreliance
RAG 助手task success、grounded answerpermission leakage、outdated citation、latency/cost
推荐系统conversion、long-term valueopt-out、complaint、suitability violation、fairness delta
KYC 抽取automation ratefalse accept、false reject、manual burden、PII leakage
支付欺诈fraud loss reductionfalse positive、customer friction、manual queue
Agent tool rollouttask completiontool misuse、HITL bypass、rollback event

Stop rule 示例:

Stop if:
  critical safety incident > 0
  permission leakage > 0
  high-risk HITL bypass > 0
  complaint rate increases above threshold
  p95 latency exceeds SLO for two consecutive windows

4. CUPED 的产品直觉

CUPED 用实验前数据降低方差:

如果某个用户/队列/客户在实验前的行为能解释实验后的指标,就把这部分可解释波动扣除,让实验更敏感。

产品意义:

  • 更快发现小但真实的提升。
  • 减少需要的样本量。
  • 对高成本实验更有价值。
  • 对金融零售这种低流量高风险场景有帮助。

但要注意:

  • 协变量必须来自实验前。
  • 不能引入处理后变量。
  • 不解决样本偏差、网络效应、埋点错误。
  • 结果仍需业务和风险解释。

5. AI 实验特殊风险

风险说明控制
Non-stationarity模型和用户行为会互相适应时间分层、长期 holdout
Interference用户、员工、队列互相影响cluster randomization、网络效应评估
Multiple testing同时看很多指标容易误判预注册主指标、调整解释
Novelty effect新 AI 功能初期使用异常延长观察、分阶段决策
Learning systemAI 从反馈中变化固定版本实验或记录学习事件
Safety rare events低频高损害事件样本不足红队、shadow、stop rule
Evaluation mismatch离线 eval 好,线上任务差trace-level failure analysis

6. 金融零售案例

6.1 RAG 知识助手升级

变更:

  • 新 embedding model。
  • 新 reranker。
  • 新 chunking。

发布:

offline retrieval eval
  -> shadow answer generation
  -> employee pilot ramp 5%
  -> A/B on task success
  -> guardrails: permission leakage, citation freshness, latency

6.2 支付欺诈 Champion-Challenger

变更:

  • 新模型和新 step-up 策略。

实验:

  • shadow score 新模型。
  • 比较决策 diff。
  • 小比例 challenger。
  • 按商户、金额、客户类型 slice。

护栏:

  • false positive。
  • customer friction。
  • manual review queue。
  • complaint。

6.3 Agent Tool Rollout

发布:

  • 先 read-only。
  • 再 draft-only。
  • 再 low-risk tool with approval。
  • 最后有限自动执行。

每一步都有:

  • tool misuse rate。
  • policy violation。
  • human override。
  • rollback drill。

7. Experiment Design Checklist

设计项高级问题
Hypothesis具体改善什么,不写“新模型更好”
Unituser、employee、case、team、branch、merchant 哪个随机化
Primary metric只能有少数主指标
Guardrails风险、投诉、权限、成本、延迟、人工负担
Sample/variance是否使用 CUPED 或历史协变量
Ramp0% shadow、1%、5%、25%、50%、100% 的门槛
Stop rule哪些事件立即停止
Slice客户群、产品、渠道、地区、风险等级
Decision memoship、rollback、iterate、extend、inconclusive
Evidence实验配置、版本、数据、分析代码、审批

8. 面试表达

30 秒版本

AI 产品发布不能只靠离线 eval。我的做法是把 release 拆成 offline eval、replay、shadow、ramp、online experiment 和 decision review。主指标必须配护栏指标,例如权限泄露、投诉、延迟、成本和人工负担。CUPED 可以用实验前数据降低方差,但不能替代正确随机化、埋点质量和风险分层发布。

2 分钟版本

我会先定义 release risk tier。低风险 prompt 改动可能通过 offline eval 和小流量 ramp;高风险 Agent 工具或支付风控模型必须先 shadow,再 champion-challenger。实验设计要明确随机化单位、主指标、护栏指标、样本量或方差计划、stop rule 和 slice analysis。对 AI 特别重要的是离线 eval 与线上指标的桥接:如果 RAG retrieval 指标提升但 task success 和 citation freshness 没有提升,就不能说明产品变好。最后用 post-experiment decision memo 决定 ship、rollback、iterate 或继续收集数据。

架构师版本

AI experimentation platform 需要 experiment registry、feature flags、model/prompt/config versioning、traffic router、trace store、metric pipeline、guardrail monitor、decision log 和 release gate。它不是增长工具,而是生产变更治理系统。


9. 作品集任务

为 KYC extraction model release 写实验方案:

  1. 定义 primary metric 和 8 个 guardrails。
  2. 设计 offline eval -> shadow -> 5% ramp -> A/B 的发布链路。
  3. 写 stop rule。
  4. 定义随机化单位和 slice。
  5. 设计 CUPED 可用的实验前协变量。
  6. 写 post-experiment decision memo 模板。