Online Experimentation / CUPED:AI Release Science
一句话:
Online Experimentation / CUPED / Release Science 解读
面向对象: AI PM / Experimentation Platform PM / AI Product Architect / Decision Scientist / Risk Product。 核心问题: AI 产品上线不能只靠离线 eval 和主观体验。如何把 A/B、CUPED、guardrail、ramp、shadow launch、champion-challenger 和 release gate 组合成 AI Release Science? 学习目标: 理解 online controlled experiments、variance reduction、CUPED、guardrail metrics、sequential risk、interleaving 和风险分层发布,并映射到 RAG、Agent、推荐系统、KYC 抽取和支付风控。
Source Anchors
| Source | Link | 用途 |
|---|---|---|
| Kohavi et al. online controlled experiments | https://www.exp-platform.com/Pages/OnlineControlledExperiments.aspx | 理解线上受控实验的产品和统计基础 |
| Microsoft ExP platform | https://www.microsoft.com/en-us/research/project/experimentation-platform-exp/ | 理解大规模实验平台的组织和工程形态 |
| CUPED paper | https://www.exp-platform.com/Documents/2013-02-CUPED-ImprovingSensitivityOfControlledExperiments.pdf | 理解用实验前数据降低方差 |
| Trustworthy Online Controlled Experiments | https://www.cambridge.org/core/books/trustworthy-online-controlled-experiments/ | 理解可信实验、陷阱和决策文化 |
| NIST AI RMF | https://www.nist.gov/itl/ai-risk-management-framework | 将实验发布纳入风险测量和治理 |
一句话:
AI Release Science 是用离线 eval、shadow、ramp、线上实验、guardrail 和事后决策模板,把模型/策略变更从“感觉变好”变成可证明、可停止、可回滚的发布系统。
1. 为什么 AI 产品更需要实验科学
AI 系统变化来源很多:
- 模型版本。
- prompt。
- RAG chunking / embedding / reranker。
- tool policy。
- Agent planner。
- 推荐排序。
- guardrail。
- UI trust experience。
每一次变化可能同时影响:
- 质量。
- 成本。
- 延迟。
- 投诉。
- 过度依赖。
- 人工工作量。
- 风险事件。
- 长期行为。
离线 eval 只能回答:
在这组样本上是否更好?
线上实验回答:
真实用户、真实员工、真实流程中是否更好,且没有伤害护栏指标?
2. AI Release Science 分层
offline eval
-> replay / simulation
-> shadow launch
-> limited ramp
-> online experiment
-> decision review
-> rollout / rollback / iterate
| 阶段 | 目的 | 典型证据 |
|---|---|---|
| Offline eval | 快速排除明显回归 | golden set、judge、SME review |
| Replay | 用历史 case 观察行为 | trace diff、policy violation |
| Shadow | 不影响用户地跑新系统 | latency、cost、decision diff |
| Ramp | 小比例真实流量 | incident、guardrail、ops load |
| A/B | 估计真实增量 | primary metric、guardrail、slice |
| Review | 决策 scale/stop | memo、confidence、risk acceptance |
3. Guardrail Metrics
AI 实验不能只看主指标。
| 场景 | 主指标 | 护栏指标 |
|---|---|---|
| 客服 Copilot | AHT、FCR、adoption | complaint、wrong answer、escalation、overreliance |
| RAG 助手 | task success、grounded answer | permission leakage、outdated citation、latency/cost |
| 推荐系统 | conversion、long-term value | opt-out、complaint、suitability violation、fairness delta |
| KYC 抽取 | automation rate | false accept、false reject、manual burden、PII leakage |
| 支付欺诈 | fraud loss reduction | false positive、customer friction、manual queue |
| Agent tool rollout | task completion | tool misuse、HITL bypass、rollback event |
Stop rule 示例:
Stop if:
critical safety incident > 0
permission leakage > 0
high-risk HITL bypass > 0
complaint rate increases above threshold
p95 latency exceeds SLO for two consecutive windows
4. CUPED 的产品直觉
CUPED 用实验前数据降低方差:
如果某个用户/队列/客户在实验前的行为能解释实验后的指标,就把这部分可解释波动扣除,让实验更敏感。
产品意义:
- 更快发现小但真实的提升。
- 减少需要的样本量。
- 对高成本实验更有价值。
- 对金融零售这种低流量高风险场景有帮助。
但要注意:
- 协变量必须来自实验前。
- 不能引入处理后变量。
- 不解决样本偏差、网络效应、埋点错误。
- 结果仍需业务和风险解释。
5. AI 实验特殊风险
| 风险 | 说明 | 控制 |
|---|---|---|
| Non-stationarity | 模型和用户行为会互相适应 | 时间分层、长期 holdout |
| Interference | 用户、员工、队列互相影响 | cluster randomization、网络效应评估 |
| Multiple testing | 同时看很多指标容易误判 | 预注册主指标、调整解释 |
| Novelty effect | 新 AI 功能初期使用异常 | 延长观察、分阶段决策 |
| Learning system | AI 从反馈中变化 | 固定版本实验或记录学习事件 |
| Safety rare events | 低频高损害事件样本不足 | 红队、shadow、stop rule |
| Evaluation mismatch | 离线 eval 好,线上任务差 | trace-level failure analysis |
6. 金融零售案例
6.1 RAG 知识助手升级
变更:
- 新 embedding model。
- 新 reranker。
- 新 chunking。
发布:
offline retrieval eval
-> shadow answer generation
-> employee pilot ramp 5%
-> A/B on task success
-> guardrails: permission leakage, citation freshness, latency
6.2 支付欺诈 Champion-Challenger
变更:
- 新模型和新 step-up 策略。
实验:
- shadow score 新模型。
- 比较决策 diff。
- 小比例 challenger。
- 按商户、金额、客户类型 slice。
护栏:
- false positive。
- customer friction。
- manual review queue。
- complaint。
6.3 Agent Tool Rollout
发布:
- 先 read-only。
- 再 draft-only。
- 再 low-risk tool with approval。
- 最后有限自动执行。
每一步都有:
- tool misuse rate。
- policy violation。
- human override。
- rollback drill。
7. Experiment Design Checklist
| 设计项 | 高级问题 |
|---|---|
| Hypothesis | 具体改善什么,不写“新模型更好” |
| Unit | user、employee、case、team、branch、merchant 哪个随机化 |
| Primary metric | 只能有少数主指标 |
| Guardrails | 风险、投诉、权限、成本、延迟、人工负担 |
| Sample/variance | 是否使用 CUPED 或历史协变量 |
| Ramp | 0% shadow、1%、5%、25%、50%、100% 的门槛 |
| Stop rule | 哪些事件立即停止 |
| Slice | 客户群、产品、渠道、地区、风险等级 |
| Decision memo | ship、rollback、iterate、extend、inconclusive |
| Evidence | 实验配置、版本、数据、分析代码、审批 |
8. 面试表达
30 秒版本
AI 产品发布不能只靠离线 eval。我的做法是把 release 拆成 offline eval、replay、shadow、ramp、online experiment 和 decision review。主指标必须配护栏指标,例如权限泄露、投诉、延迟、成本和人工负担。CUPED 可以用实验前数据降低方差,但不能替代正确随机化、埋点质量和风险分层发布。
2 分钟版本
我会先定义 release risk tier。低风险 prompt 改动可能通过 offline eval 和小流量 ramp;高风险 Agent 工具或支付风控模型必须先 shadow,再 champion-challenger。实验设计要明确随机化单位、主指标、护栏指标、样本量或方差计划、stop rule 和 slice analysis。对 AI 特别重要的是离线 eval 与线上指标的桥接:如果 RAG retrieval 指标提升但 task success 和 citation freshness 没有提升,就不能说明产品变好。最后用 post-experiment decision memo 决定 ship、rollback、iterate 或继续收集数据。
架构师版本
AI experimentation platform 需要 experiment registry、feature flags、model/prompt/config versioning、traffic router、trace store、metric pipeline、guardrail monitor、decision log 和 release gate。它不是增长工具,而是生产变更治理系统。
9. 作品集任务
为 KYC extraction model release 写实验方案:
- 定义 primary metric 和 8 个 guardrails。
- 设计 offline eval -> shadow -> 5% ramp -> A/B 的发布链路。
- 写 stop rule。
- 定义随机化单位和 slice。
- 设计 CUPED 可用的实验前协变量。
- 写 post-experiment decision memo 模板。