AI 扩展计划 / Playbooks

AI Decision Intelligence / Causal Product Playbook

这些来源作为因果推断、干预评估和 AI 风险治理的官方/一手锚点。本文把它们转成 AI PM / Product Architect / Value Office 可执行的产品和投资组合语言。

1,112 行AI_DECISION_INTELLIGENCE_CAUSAL_PRODUCT_PLAYBOOK.md

AI Decision Intelligence / Causal Product Playbook

适用对象: AI PM、AI Product Architect、AI Value Office Lead、Data Product Manager、Strategy / Transformation Lead、金融零售 AI 投资组合负责人。 核心问题: 当 AI 项目声称提升效率、降低风险、改善客户体验或创造收入时，如何证明这是 AI 介入造成的增量价值，而不是季节性、人员选择、流程重排、管理关注、样本偏差或外部环境共同造成的相关性。 学习目标: 把 AI PM 能力从“定义功能、做 eval、看 adoption dashboard”升级为“设计可测干预、建立反事实、识别因果效应、管理异质性收益、用 guardrail 和 funding gate 做 scale / stop 决策”。 作品集定位: 本手册可转化为高级 AI 产品管理和产品架构作品集证据，包括 Decision Inventory、Causal DAG、Experiment Design Brief、Quasi-Experiment Brief、Uplift Policy Card、Benefits Attribution Ledger、Portfolio Funding Gate Memo 和金融零售案例包。 边界说明: 本文不是统计学入门、BA 基础需求分析、法律意见、合规意见或模型验证报告。正式项目必须由 business owner、finance、risk、model risk、legal、compliance、privacy、security、data owner 和 architecture review 共同确认。

Source Anchors

这些来源作为因果推断、干预评估和 AI 风险治理的官方/一手锚点。本文把它们转成 AI PM / Product Architect / Value Office 可执行的产品和投资组合语言。

Anchor	Official / primary source	在本 playbook 中的用法
Google CausalImpact	https://google.github.io/CausalImpact/CausalImpact.html	用于解释基于 Bayesian structural time-series 的 intervention impact 估计、counterfactual、pre/post period、control time series 和假设管理。
DoWhy	https://www.pywhy.org/dowhy/main/	用于组织 causal model、identification、estimation、refutation、sensitivity checks 和“先声明假设再估计效果”的工作纪律。
EconML	https://www.pywhy.org/EconML/	用于 heterogenous treatment effects、CATE、DML、DR learners、causal forests、policy interpretation 和“谁真正受益”的决策优化。
CausalML	https://causalml.readthedocs.io/en/latest/	用于 uplift modeling、meta-learners、uplift trees / forests、AUUC / Qini、propensity、sensitivity analysis 和 treatment targeting。
NIST AI RMF	https://www.nist.gov/itl/ai-risk-management-framework	用 Govern / Map / Measure / Manage 组织 AI causal measurement、guardrail metrics、risk tier、monitoring、evidence 和 portfolio governance。

1. 高级定位: AI ROI 不能停留在相关性

很多 AI 项目上线后会展示:

使用 AI 的员工处理时间更短。
使用 AI 的客户投诉更少。
AI 辅助后的转化率更高。
pilot 团队的 SLA 比非 pilot 团队更好。
上线后总成本下降。

这些都可能是事实，但不等于 AI 造成了收益。高级 AI PM 必须把“观察到的变化”拆成“AI 介入的增量因果效应”和“其他因素造成的共同变化”。

1.1 相关性常见陷阱

陷阱	在 AI 项目中的表现	为什么会误判 ROI	产品动作
Selection bias	高能力团队、积极用户、低复杂度 case 更愿意使用 AI	使用者本来就表现更好	随机分配、encouragement design、propensity / matching、DAG 控制混杂
Seasonality	节假日、监管周期、营销季、还款周期影响业务量	pre/post 差异可能来自周期	使用同期 control、seasonal model、switchback、DiD
Regression to mean	选取表现最差团队做 AI pilot	后续自然回归也会变好	设定基线窗口、对照组、placebo test
Management attention	pilot 团队获得更多主管关注和培训	改善可能来自管理干预	把培训、激励、AI 工具拆成 treatment arms
Workflow redesign confounding	AI 上线同时改流程、改 SLA、改队列	无法区分 AI 与流程重构收益	明确 intervention registry 和 phased rollout
Data quality drift	新数据源或标签规则改变	指标变化来自计量口径	metric contract、lineage、data quality gate
Learning curve	用户熟练度提升	短期低估或长期高估	分阶段测量 adoption-adjusted effect
Spillover	对照组从 treatment 组学习提示词或流程	对照组被污染，效果被低估	cluster randomization、team-level rollout、contamination log
Capacity reallocation	AI 释放人力后把人转去更复杂任务	平均处理时长可能变差但总价值提升	追踪 workload mix、case complexity、capacity value
Risk displacement	自动化降低一个错误，增加另一个错误	单点 ROI 掩盖客户或合规风险	guardrail metrics 和 risk-adjusted value

一句话:

AI ROI = observed outcome - credible counterfactual - risk / quality / adoption adjustments.

1.2 模型指标不是价值证据

常见证据	能说明什么	不能说明什么	需要补充的因果证据
Offline eval 分数提升	AI 输出质量更接近标准答案	用户是否采用、流程是否变快、风险是否下降	treatment exposure、workflow outcome、counterfactual
用户满意度提升	用户主观体验改善	是否降低成本、减少投诉、提高复购	randomized survey exposure、投诉率、留存
使用次数增加	功能被打开	是否改变行为或业务结果	action taken rate、downstream outcome
平均处理时长下降	工作流表现改善	是否由 AI 导致，是否牺牲质量	对照组、case mix adjustment、quality guardrail
自动化率提高	更多任务由系统处理	是否正确处理，是否造成隐性返工	defect rate、reopen rate、manual override
成本下降	总账面成本下降	是否与 AI 有关，是否转移到其他团队	activity-based cost、benefits ledger

1.3 Decision Intelligence 的产品定义

Decision Intelligence 不是“多做一个 dashboard”，而是把业务决策、AI 干预、数据、实验、因果估计、风险控制和投资组合治理连接成闭环。

Decision Intelligence =
decision inventory
+ intervention design
+ causal model
+ experiment / quasi-experiment
+ adoption and workflow telemetry
+ guardrail metrics
+ value attribution
+ portfolio funding gates
+ scale / stop decisions

高级 AI PM 的核心任务不是证明 AI “看起来有用”，而是设计一个能回答以下问题的系统:

这个 AI 能力改变了哪个业务决策或流程动作。
干预对象是谁，干预时点在哪里，treatment 是什么。
如果没有 AI，会发生什么。
哪些人或 case 真正受益，哪些没有收益或被伤害。
收益是否足够覆盖成本、风险、运营和治理负担。
是否应该 scale、继续 pilot、改 intervention、转平台化或停止。

2. Advanced Framework: Causal Product Operating System

CPOS = Causal Product Operating System。它把 AI 产品从功能交付升级为可审计的决策和价值系统。

1. Decision inventory
2. Outcome and value tree
3. Intervention design
4. Causal DAG and assumptions
5. Measurement architecture
6. Experiment or quasi-experiment
7. Effect estimation and heterogeneity
8. Guardrail and risk adjustment
9. Value attribution and finance sign-off
10. Portfolio funding gate
11. Scale / stop / redesign decision

2.1 CPOS 十一层

Layer	目标	核心问题	典型产物
L1 Decision Inventory	找到 AI 影响的真实业务决策	哪些判断、动作、审批、分流、回复或补件会被 AI 改变	Decision Inventory、Decision Boundary Map
L2 Outcome Tree	把业务结果拆到可观测指标	价值、风险、质量、采用、成本之间是什么关系	Outcome Tree、Metric Contract
L3 Intervention Design	定义 treatment 和执行机制	AI 到底改变了什么: 信息、建议、草稿、排序、自动动作还是激励	Intervention Brief、Treatment Arms
L4 Causal DAG	声明因果假设	混杂、选择、mediator、collider、spillover 在哪里	Causal DAG、Assumption Register
L5 Measurement Architecture	建立可追溯数据证据链	assignment、exposure、usage、action、outcome、guardrail 是否被记录	Telemetry Spec、Benefits Ledger
L6 Identification Strategy	决定如何识别因果效应	能否随机实验，不能时用什么准实验	Experiment / Quasi-Experiment Design
L7 Estimation	估计平均和分层效果	ATE、ATT、CATE、uplift、confidence interval、sensitivity 如何解释	Impact Report
L8 Guardrail	防止收益掩盖伤害	客户、合规、公平、质量、成本、运营风险是否恶化	Guardrail Dashboard、Risk Gate
L9 Attribution	把效果转成 finance 认可的价值	节省、增收、损失避免、风险降低如何归因	Value Attribution Ledger、Finance Sign-off
L10 Portfolio Gate	决定资金和规模	继续投、扩大、停项、平台化、重设计的证据是什么	Funding Gate Memo
L11 Learning Loop	把结果回流产品和架构	对哪些 segment 做什么 intervention，下次如何优化	Product Decision Log、Policy Update

2.2 从 AI PM 到 Causal Product Architect 的能力跃迁

普通 AI PM 问题	Causal Product Architect 问题
用户会不会用这个功能	哪些用户在什么上下文中因为 AI 改变了行为
eval 分数是否达标	eval 分数是否解释了 downstream business outcome
上线后指标是否改善	改善是否超过可信 counterfactual
哪个模型更好	哪个 intervention 在特定 segment 上产生净增量价值
是否扩大 pilot	规模化后的边际收益、风险和成本是否仍成立
ROI 怎么算	哪部分价值由 AI 增量贡献，哪部分来自流程、培训、季节性或人员结构
需求如何排优先级	哪些决策杠杆有最大可识别、可扩张、可治理的因果价值

2.3 决策原则

Principle	操作化解释	反例
Product starts with decision, not model	先定义 AI 改变哪个决策，再选择模型和 UX	先接 LLM，再找业务场景
Counterfactual is a product requirement	每个高价值 AI use case 必须说明没有 AI 时如何估计结果	只看上线前后变化
Randomize when feasible	能随机就优先随机，不能随机才设计准实验	直接把自愿使用者当 treatment
Guardrail is part of ROI	风险、质量、合规、客户伤害和运营成本必须从收益中扣除	只报节省小时数
Heterogeneity drives product strategy	平均效果不足以决定 scale，必须知道谁受益	全量上线同一体验
Adoption is not impact	使用是暴露和行为变化证据，不是收益证据	DAU 增加就报 ROI
Funding follows evidence	投资阶段由证据强度决定	POC 成功就直接 enterprise rollout

3. Decision Loop: 从决策到干预

AI 产品的因果测量必须从 decision loop 开始，而不是从模型或 dashboard 开始。

flowchart LR
  D[Decision point] --> I[AI intervention]
  I --> U[User exposure]
  U --> A[Adoption and action]
  A --> W[Workflow change]
  W --> O[Business outcome]
  O --> V[Value attribution]
  V --> G[Funding gate]
  G --> R[Redesign / scale / stop]
  R --> D

3.1 Decision Inventory

字段	要回答的问题	金融零售例子
Decision name	这个决策叫什么	AML alert 是否升级 L2；投诉是否升级主管；信贷 memo 是否补件；支付争议是否自动分流
Decision owner	谁对最终结果负责	Financial crime ops lead、CX operations、credit risk、payments ops
Decision frequency	每天/每周发生多少次	每日 8,000 个 AML alerts；每周 12,000 个投诉分类
Decision latency	决策窗口多长	5 分钟内分流、24 小时内回复、T+1 完成初审
Decision cost	当前每次决策成本	人工分钟、返工、升级、赔付、loss、监管成本
Decision risk	错误的客户/合规/财务影响	漏报 SAR、误导客户、错误拒贷、错误退款
AI role	AI 是 read、summarize、recommend、draft、act 还是 decide	credit copilot 只 draft，不做最终授信决定
Reversibility	错误是否可逆	客服草稿可逆，自动拒绝 dispute 不易逆
Measurement unit	用什么单位测效果	case、customer、analyst、branch、team、market、time window

3.2 Intervention Design

Intervention 是 AI 产品改变世界的具体动作。没有清楚的 intervention，就没有清楚的因果估计。

AI Pattern	可能的 intervention	可测 treatment	常见误区
RAG assistant	提供引用和政策解释	某些 team 可用带引用答案	把“有知识库”当 treatment，未记录实际 exposure
Copilot	草拟 memo、摘要、回复	AI draft 默认打开或按 case 类型打开	用户手动打开导致 selection bias
Recommender	排序、优先级、next best action	AI ranking vs existing queue rule	只比较被点击案例，忽略未推荐案例
Agent	自动读取、填表、创建工单	read-only agent vs draft action vs approved action	多种能力混在一个 treatment
Automation	直接处理低风险 case	auto-route eligible cases	eligibility 和 treatment 混淆
Coach	给员工反馈和提示	AI coaching message	管理培训同时变化未登记

3.3 Treatment Arms

高级 AI 产品实验通常不应该只有“AI on / off”。更好的设计是把干预拆成可比较的 arms。

Arm	含义	适用目的
Control	现有流程或现有工具	估计基线
AI information	只提供检索、摘要、引用	测信息质量对效率的影响
AI draft	生成可编辑草稿	测草拟对处理时间和质量的影响
AI recommendation	给出优先级、下一步、风险理由	测决策支持对结果的影响
AI automation with approval	自动准备动作，人工批准	测自动化和 HITL 的边际收益
AI automation bounded	在低风险边界内自动执行	测高自动化的净价值和风险

3.4 干预设计检查表

检查项	必须明确
Treatment definition	什么行为或系统状态算 treatment，被谁触发，什么时候开始
Unit of assignment	随机或分配单位是用户、case、团队、地区、时间窗口还是客户
Unit of analysis	效果分析单位是否与分配单位一致，不一致时如何处理聚类
Eligibility	哪些对象有资格接受 treatment，排除规则是什么
Exposure	用户是否真正看到或可用 AI
Compliance	用户是否按预期使用 AI，例如是否采纳建议、编辑草稿、执行动作
Contamination	对照组是否接触到 AI 输出、提示词、培训或流程变化
Spillover	treatment 是否影响其他用户、队列、客户或时间段
Reversibility	错误输出、错误动作或错误路由能否撤回
Stop rule	哪些 guardrail breach 会暂停实验或 rollout

4. Causal DAG: 产品经理也要会画的因果图

Causal DAG 不是学术装饰，而是高级 AI 产品的假设登记册。它迫使团队说明“为什么我们认为 AI 会造成结果变化”，以及“哪些变量必须控制，哪些变量不能控制”。

4.1 DAG 最小对象

对象	含义	AI 产品例子
Treatment	AI 干预	analyst receives AI case summary
Outcome	业务结果	case handling time、defect rate、customer complaint resolution
Confounder	同时影响 treatment 和 outcome 的变量	analyst seniority、case complexity、branch maturity
Mediator	treatment 影响 outcome 的中间路径	adoption、draft edit rate、evidence completeness
Collider	被两个变量共同影响，控制后会引入偏差	only escalated cases、only users who clicked AI
Moderator	影响 treatment effect 大小的变量	case complexity、customer segment、analyst tenure
Spillover node	一个单位的 treatment 影响其他单位	team learning、queue redistribution
Time-varying factor	随时间变化且影响结果	volume spike、policy change、staffing

4.2 AML Analyst Copilot DAG 示例

flowchart LR
  C[Case complexity] --> T[AI summary exposure]
  C --> O[Handling time]
  S[Analyst seniority] --> T
  S --> O
  V[Alert volume] --> O
  T --> A[AI adoption / action taken]
  A --> E[Evidence completeness]
  E --> O
  E --> Q[QA defect rate]
  P[Policy change] --> O
  P --> Q

这个 DAG 的产品含义:

case complexity 和 analyst seniority 是混杂变量，必须通过随机分配、分层随机、matching 或模型控制处理。
AI adoption / action taken 是 mediator，估计 total effect 时不要简单控制它；估计 per-protocol 或 mechanism effect 时可以单独分析。
只分析“点击 AI 的用户”会引入 selection bias。
QA defect rate 是 guardrail，不是只看处理时长的附属指标。
policy change 需要进入 intervention registry，否则 pre/post 估计会误判。

4.3 DAG 设计规则

规则	正确做法	常见错误
先画业务因果，再画技术链路	从 decision、workflow、outcome 画起	从模型、API、向量库画起
明确 treatment assignment	记录谁被分配、谁暴露、谁实际使用	只有 usage log，无 assignment log
不控制 post-treatment mediator	total effect 不控制 adoption、编辑率等后果变量	为了“公平比较”控制了 AI 造成的行为变化
小心 collider	不只分析完成、升级、投诉或点击样本	只看投诉客户中的 AI 效果
记录不可观测混杂	把无法测的因素写入 assumption register	假装所有混杂都可被数据消除
将 DAG 与指标契约绑定	每个节点有 metric、owner、source	DAG 只是白板图，不进入数据需求

4.4 DAG 到产品 artifact 的映射

DAG 元素	产品 artifact	数据 artifact	治理 artifact
Treatment	Intervention Brief	Assignment / exposure log	Release gate
Outcome	Outcome Tree	Metric contract	Benefits register
Confounder	Assumption Register	Feature / covariate definition	Causal review
Mediator	Mechanism hypothesis	Adoption telemetry	Product learning memo
Guardrail	Risk control map	Guardrail dashboard	AI RMF Measure / Manage evidence
Spillover	Rollout plan	Contamination log	Experiment stop rule

5. Experiment vs Quasi-Experiment

因果产品经理的首要判断是: 能否随机。能随机时，实验通常是最干净的证据；不能随机时，准实验必须有清楚假设、对照构造和敏感性分析。

5.1 方法选择矩阵

方法	适用场景	关键假设	优点	风险
User-level A/B test	客户或员工可以独立分配	SUTVA、无明显 spillover	证据强、解释简单	团队学习、合规限制、个体间污染
Case-level randomization	case 可随机分配 AI 支持	同一用户处理 control/treatment 不互相污染	样本量大、上线快	analyst 学习污染，case mix 需平衡
Cluster randomization	团队、分行、市场为单位 rollout	cluster 可比较，cluster 内相关性处理	降低污染	样本量需求大，cluster 差异明显
Switchback test	按时间窗口切换 treatment	时间段可比较，无强 carryover	适合运营队列、客服、路由	季节性、业务量波动、学习效应
Stepped-wedge rollout	分批随机上线	上线顺序随机，趋势可建模	兼顾公平和运营约束	时间趋势和政策变化需控制
Encouragement design	不强制使用，只随机提示或默认打开	encouragement 只影响 outcome 通过 adoption	适合不能强制 AI 使用	估计的是 LATE，不是全量 ATE
Difference-in-Differences	有 treatment / control 且可观察 pre/post	parallel trends	适合政策、地区、团队 rollout	趋势不平行会误导
Synthetic control / CausalImpact	单个市场、团队或产品发生干预	control time series 未受影响，pre-period relationship stable	适合一个对象上线或一次变更	对照选择和结构稳定性敏感
Matching / weighting	非随机观察数据	no unobserved confounding	可利用历史数据	未观测混杂仍可能严重
Regression discontinuity	明确阈值决定 treatment	阈值附近对象可比	局部因果证据强	只解释阈值附近，不易外推

5.2 实验不是只看显著性

AI 产品实验要同时回答:

实际业务 effect size 是否足够大。
guardrail 是否保持在可接受范围内。
treatment 是否改变了目标行为，而不是只改变 usage。
效果是否集中在某些 segment。
scale 后单位成本、延迟、支持负担和风险是否改变。
是否存在 learning、novelty、fatigue、automation bias。

5.3 准实验最低证据包

证据	说明
Intervention registry	干预时点、范围、treatment 定义、同时发生的流程/政策/人员变化
Control rationale	为什么这个 control group 或 control time series 是可信反事实
Pre-trend evidence	干预前 treatment 和 control 是否趋势相似
Placebo test	在未干预时点或未受影响指标上不应看到假效果
Sensitivity analysis	结果对窗口、对照、协变量、模型设定是否稳定
Guardrail analysis	效率收益是否伴随质量、投诉、合规或公平恶化
Business interpretation	估计效果如何转成可签字价值

5.4 实验设计中的 AI 特有问题

问题	说明	产品处理
Prompt / model drift	treatment 随模型版本变化	versioned intervention，固定实验窗口或记录版本
Human learning	用户从 AI 学到方法后影响 control	cluster design、washout、switchback 限制
Automation bias	用户过度相信 AI 输出	measure override、QA defect、confidence calibration
Cold start	刚上线 adoption 低	区分 ramp-up effect 和 steady-state effect
LLM latency / cost	treatment 同时改变等待时间和成本	latency/cost 作为 guardrail 和 unit economics
Policy guardrail	AI 拒答或升级影响体验	记录 refusal、handoff、escalation quality
Non-compliance	用户绕过 AI 或只在简单 case 用 AI	ITT、TOT、per-protocol 分开报告

6. Synthetic Control / CausalImpact / DiD

6.1 CausalImpact / Synthetic Control

CausalImpact 思路适合评估某个明确时间点发生的干预，例如在一个客服市场上线客户-facing AI、在一个 AML team 上线 case copilot、在一个支付队列启用 AI dispute triage。核心是用未受影响的 control time series 构造干预后如果没有 AI 的 counterfactual。

设计项	要求
Response series	要评估的结果，如 daily complaints resolved、case hours、cost per case
Control series	未受干预但与 response 在 pre-period 关系稳定的序列
Pre-period	足够长，覆盖季节性和正常波动
Post-period	从干预生效到评估截止，避免混入其他重大变更
Assumption	control 未受 treatment 影响，pre-period relationship 在 post-period 仍稳定
Output	pointwise effect、cumulative effect、credible interval、assumption notes

适用场景:

一个地区先上线 AI 客服，其余地区暂未上线。
一个 AML 队列上线 AI summary，其余队列未上线。
一个产品线启用 AI complaint classifier，其余产品线仍用旧流程。

不适用信号:

所有地区同时上线，没有可用 control。
干预同时伴随大规模流程、人员、政策变化。
control 也受到营销、培训、政策或容量重分配影响。
pre-period 太短或结构关系不稳定。

6.2 Difference-in-Differences

DiD 适合 treatment group 和 control group 都有干预前后数据，并且能合理相信如果没有 treatment，双方趋势会平行。

DiD estimate =
(Treatment post - Treatment pre)
- (Control post - Control pre)

产品问题	DiD 设计
AI 投诉分类器是否降低升级率	treatment: 上线产品线；control: 未上线产品线；outcome: escalation rate
Credit copilot 是否缩短 memo cycle time	treatment: pilot lending team；control: matched team；outcome: cycle time
Payment dispute automation 是否减少人工 touches	treatment: eligible dispute type；control: similar ineligible dispute type；outcome: touches per case

DiD 必须检查:

干预前趋势是否平行，而不是只看 pre-period 平均值。
treatment 和 control 是否受到不同外部冲击。
case mix、volume、人员、渠道是否同时变化。
post-period 是否足够长以观察稳定效果。
是否存在 anticipation effect，即用户提前改变行为。

6.3 CausalImpact vs DiD vs A/B

场景	推荐方法	理由
可随机分配用户或 case	A/B、cluster randomization	最强 identification，解释清楚
一个市场/团队先上线	Synthetic control / CausalImpact	有时间序列和多个 control series
多个团队分批 rollout	DiD、staggered DiD、stepped-wedge	可利用 pre/post 和 group difference
无法随机但有阈值	Regression discontinuity	阈值附近可比
目标是找谁最受益	Uplift / CATE	平均效果不足以做 targeting
历史观察数据且混杂可观测	Matching / weighting / doubly robust	需要严肃处理 selection bias

7. Uplift Modeling and Heterogeneous Treatment Effects

平均效果经常掩盖产品决策。一个 AI copilot 可能总体节省 4%，但在复杂 case 上节省 18%，在简单 case 上造成额外 review 成本；客户-facing AI 可能提升普通问题 FCR，但增加高风险投诉误导风险。

7.1 核心概念

概念	含义	产品问题
ATE	全体平均 treatment effect	是否总体值得投
ATT	已接受 treatment 群体的平均效果	当前使用者是否受益
CATE	给定特征下的条件平均效果	哪些 segment 最受益
HTE	treatment effect 在不同群体间的差异	是否需要差异化 rollout
Uplift	treatment 相比不 treatment 的增量概率或价值	该把 AI 给谁、不给谁
Treatment policy	根据 uplift 和 guardrail 决定干预对象	最优 rollout 策略是什么

7.2 Uplift 不等于 propensity

模型	预测对象	产品含义	风险
Propensity model	谁可能使用 AI、点击、投诉、违约	行为倾向或风险预测	高 propensity 不代表 treatment 有效
Outcome model	谁可能有好结果	结果预测	不能说明 AI 是否造成结果
Uplift model	treatment 对结果的增量影响	谁因为 AI 介入而改变结果	需要可信 treatment / control 数据
Policy model	在成本和 guardrail 下选择 treatment	资源分配和 rollout	需要业务约束和风险门槛

7.3 Uplift 四象限

Segment	特征	产品策略
Persuadables	有 AI 才明显改善	优先 treatment，设计默认打开或强提示
Sure things	有没有 AI 都表现好	低成本 exposure 或不干预，避免浪费容量
Lost causes	有没有 AI 都难改善	回到流程、政策、数据或人工专家支持
Do-not-disturb / harmed	AI 反而变差	禁用、增加 guardrail、人工优先

7.4 HTE 在金融零售中的产品用法

场景	HTE 维度	可能发现	产品决策
AML copilot	alert type、analyst tenure、case complexity	新 analyst 和复杂 case uplift 高	对复杂 case 默认打开，对简单 case 轻提示
客服 AI	intent、产品、客户脆弱性、渠道	普通 FAQ uplift 高，高情绪投诉 risk 高	普通问题自助，敏感投诉快速人工升级
Credit copilot	loan type、policy exception、borrower profile	标准贷款 memo 效率提升，例外审批无明显收益	标准 memo draft，例外案例只做资料核对
Payment dispute automation	dispute reason、金额、商户类型	低金额重复争议 uplift 高，高金额争议 guardrail 差	低风险自动 triage，高金额人工 review

7.5 Uplift 模型评估

指标	用法
Qini curve	看 targeting 排序是否比随机 treatment 更能捕获增量收益
AUUC	比较 uplift policy 的整体增量收益
Calibration by segment	检查预测 uplift 和实际 uplift 是否一致
Policy value	在成本、容量、guardrail 下估计 treatment policy 的净价值
Segment guardrail	确保某些 segment 没有被系统性伤害
Stability	检查 uplift ranking 随时间、渠道、模型版本是否稳定

7.6 从 HTE 到产品策略

发现	不成熟动作	成熟动作
平均效果弱，但某 segment 强	停项	对高 uplift segment targeted rollout
平均效果强，但某 segment 被伤害	全量上线	exclude / guardrail / alternate workflow
高 uplift 但高成本	全量上线	用 capacity-constrained policy
uplift 集中在新员工	做更多模型训练	改 onboarding、training、manager coaching
uplift 随时间下降	认为 AI 失效	分析 novelty、learning、case mix、model drift

8. Measurement Architecture: 因果测量不是一个报表

8.1 参考架构

flowchart TB
  subgraph Product[AI Product Runtime]
    UI[User experience]
    AI[Model / RAG / agent]
    WF[Workflow system]
    TOOL[Tool gateway]
  end

  subgraph Causal[Causal Measurement Layer]
    ASSIGN[Assignment log]
    EXP[Exposure log]
    USE[Usage and action log]
    OUT[Outcome events]
    GUARD[Guardrail events]
    COST[Cost and latency log]
  end

  subgraph Data[Data and Metrics]
    SEM[Semantic layer]
    DAG[DAG / assumption registry]
    EXPER[Experiment registry]
    LEDGER[Benefits attribution ledger]
  end

  subgraph Governance[Governance]
    RISK[Risk gate]
    FIN[Finance sign-off]
    PORT[Portfolio funding gate]
    MON[Monitoring and incident loop]
  end

  UI --> AI
  AI --> WF
  AI --> TOOL
  UI --> EXP
  AI --> USE
  WF --> OUT
  TOOL --> OUT
  AI --> COST
  OUT --> SEM
  GUARD --> SEM
  ASSIGN --> EXPER
  EXP --> EXPER
  USE --> EXPER
  SEM --> LEDGER
  DAG --> EXPER
  LEDGER --> FIN
  SEM --> RISK
  RISK --> PORT
  FIN --> PORT
  PORT --> MON

8.2 必备数据对象

数据对象	最小字段	用途
Assignment log	unit_id、assigned_arm、assignment_time、randomization_key、eligibility_version	区分被分配和自愿使用
Exposure log	unit_id、user_id、case_id、feature_visible、model_version、prompt_version、timestamp	证明用户有机会接触 treatment
Usage log	user action、AI output viewed、draft accepted、edit distance、recommendation followed	解释 adoption 和 mechanism
Workflow outcome	cycle time、touches、reopen、SLA、resolution、loss、conversion	业务结果
Guardrail event	complaint、QA defect、policy violation、unsafe output、override、escalation	风险和质量控制
Cost log	token cost、license、infra、human review minutes、support tickets	单位经济
Context log	retrieved docs、citations、tool calls、policy version、data freshness	可审计性和 root cause
Intervention registry	treatment start/end、scope、rollout batch、simultaneous changes	准实验和 portfolio evidence
Assumption register	DAG 假设、不可观测混杂、sensitivity plan	因果解释边界
Benefits ledger	estimated effect、unit value、adjustments、confidence、finance owner	价值签字

8.3 Metric Stack

Metric type	例子	Owner	Gate 用法
Exposure	treatment exposure rate、eligible case coverage	AI PM / product analytics	低 exposure 时不能解释为产品无效
Adoption	active usage、draft accepted、recommendation followed	AI PM / ops	解释 mechanism，但不等于 ROI
Workflow	cycle time、touch time、queue time、handoff、reopen	Business ops	主要业务改善指标
Quality	QA pass rate、defect severity、citation correctness	QA / risk / EvalOps	不达标不能 scale
Customer	complaint rate、CSAT、FCR、escalation、vulnerable customer flag	CX / compliance	客户-facing AI 必备
Risk	policy violation、unauthorized action、fairness slice、audit exception	Risk / compliance	hard stop 或 conditional release
Cost	cost per case、cost per resolved complaint、LLM spend per outcome	Finance / platform	判断 unit economics
Portfolio	value realized、payback、reuse rate、kill/scale ratio	AI Value Office	funding gate

8.4 Guardrail Metrics

Guardrail 不是附属指标，而是 AI ROI 的约束条件。一个 intervention 只有在 guardrail 不恶化或被风险 owner 接受时才有资格报净价值。

Guardrail	金融零售示例	Hard stop 条件
Customer harm	错误承诺费用减免、误导还款、错误拒绝投诉	high-severity customer harm > 0
Compliance	违反披露、KYC、AML、credit policy	unauthorized regulated decision > 0
Privacy	PII 泄露、越权检索	confirmed unauthorized data exposure > 0
Fairness	某受保护或敏感 proxy segment 错误率显著恶化	risk owner 未接受的 material disparity
Quality	QA defect、错误引用、unsupported claim	critical defect rate 超过 release threshold
Operations	backlog、reopen、manual override、incident	backlog 或 rework 抵消效率收益
Model behavior	hallucination、prompt injection、tool misuse	critical attack success > 0
Cost	token / human review / support cost	cost per value unit 超过 business case

9. Adoption and Value Attribution

9.1 Adoption 证据链

Assigned -> exposed -> used -> trusted -> acted -> workflow changed -> outcome changed -> value realized

层级	指标	解释
Assigned	多少 eligible units 被分配到 treatment	ITT 分析基础
Exposed	用户是否看到 AI 或 treatment 是否生效	避免把未暴露当失败
Used	用户是否打开、读取、生成、调用	adoption
Trusted	用户是否采纳、编辑程度、override	信任和可用性
Acted	用户是否改变流程动作	mechanism
Workflow changed	cycle time、touches、quality 是否变化	operational impact
Outcome changed	投诉、损失、转化、风险是否变化	business impact
Value realized	finance 认可的金额或风险价值	portfolio funding

9.2 价值归因公式

Value type	基本公式	必须调整
Labor productivity	causal minutes saved * fully loaded labor cost * adoption-adjusted volume	QA、rework、manager review、training、support
Loss avoided	causal reduction in loss rate * exposure amount	false positive cost、customer friction、model risk
Revenue uplift	incremental conversion / retention * margin	cannibalization、discount、service cost
Risk reduction	causal reduction in defects / breaches * risk value	不确定性、risk owner acceptance
Capacity release	causal capacity freed * redeployed productive work	是否真实减少 FTE 或吸收 backlog
Customer experience	causal FCR / complaint reduction * customer value	fairness、vulnerable customer、escalation quality

建议用净值表达:

Risk-adjusted AI value =
incremental gross value
- AI run cost
- human review cost
- support and training cost
- incremental rework cost
- risk / customer harm adjustment
- platform allocation cost

9.3 ITT、TOT、Per-Protocol

分析口径	含义	适用决策
ITT	按分配到 treatment 估计效果，无论是否实际使用	rollout policy 和 portfolio funding 最重要
TOT	treatment 对实际使用者的效果	理解功能潜力和 adoption gap
Per-protocol	按符合预期使用方式的人/案例估计	机制学习，但 selection bias 风险高
LATE	对受 encouragement 影响而采用的人估计效果	默认打开、提示、培训类干预

对高管汇报时，应同时说清:

ITT 是真实 rollout policy 的保守价值。
TOT 显示如果 adoption 提升可能达到的潜力。
Per-protocol 用于产品学习，不单独作为 ROI 签字依据。

9.4 Finance Sign-off 标准

标准	需要证据
Baseline 明确	干预前业务量、成本、质量、风险基线
Counterfactual 可信	RCT、DiD、synthetic control、matching 或其他说明
Unit value 认可	labor cost、loss、margin、risk value 由 finance / business owner 确认
Adoption 可持续	不只看 launch week，至少覆盖稳定使用窗口
Guardrail 可接受	风险 owner 接受 residual risk
Cost 完整	模型、平台、review、support、training、change management
Attribution 清楚	AI、流程、培训、政策变化拆分或说明不可拆分
Confidence 表达	点估计、区间、敏感性、假设限制

10. Architecture and Product Mapping

10.1 Capability Map

Capability	产品职责	架构职责	治理职责
Decision registry	管理 AI 影响的决策点、owner、风险等级	与 workflow / case system 关联	形成 AI system inventory 和 materiality view
Intervention registry	记录 treatment、rollout、版本、同时变更	与 feature flag / experiment platform 集成	支撑 audit 和 causal review
Experiment platform	随机分配、分层、cluster、switchback	assignment service、feature flags、telemetry	防止不合规实验和 uncontrolled rollout
Causal workbench	DAG、estimation、refutation、sensitivity	notebook / pipeline / model registry	model risk / analytics review
Semantic metrics layer	统一 outcome、guardrail、cost 口径	metric registry、lineage、API	finance / risk sign-off
EvalOps	测 AI behavior quality	golden sets、judge、red-team、release gates	NIST AI RMF Measure evidence
Observability	监控 drift、cost、latency、incident	traces、logs、alerts、dashboards	Manage loop 和 incident response
Benefits ledger	记录 estimated effect 和价值归因	finance data mart、portfolio dashboard	Value Office funding gate
Policy engine	管理 eligibility、risk tier、guardrail	rules、permissions、approval workflow	合规和风险控制
Portfolio cockpit	scale / stop / fund 决策视图	汇总 use case evidence	executive governance

10.2 Decision Intelligence Stack

AI Product Layer
  - copilot, RAG, agent, automation, customer-facing AI

Workflow Layer
  - CRM, case management, LOS, AML system, dispute platform, contact center

Intervention Layer
  - feature flags, assignment, exposure, treatment version, rollout batch

Metric Layer
  - semantic metrics, guardrails, cost, adoption, outcomes

Causal Layer
  - DAG, identification, experiment, quasi-experiment, HTE, sensitivity

Governance Layer
  - AI RMF, risk gate, model risk, finance sign-off, portfolio funding

10.3 Build / Buy / Platform 判断

能力	Point solution 可以接受	平台化信号
Assignment logging	单一低风险 pilot	多 use case 需要统一随机、feature flag、rollout
Causal analysis	一次性 analyst notebook	Value Office 需要可复用 estimation pipeline 和 evidence pack
Benefits ledger	单项目 spreadsheet	多项目要 finance sign-off、portfolio dashboard
Guardrail dashboard	单一产品局部看板	多 AI 系统共享 risk taxonomy 和 incident thresholds
Uplift policy	单个 campaign targeting	多业务需要 treatment policy service
Causal DAG registry	手工图	material AI systems 需要 assumption traceability

10.4 与现有 AI 资产连接

相邻资产	本手册如何承接
AI Transformation Value Office	把 portfolio value proof 从 business case 估算升级为 causal attribution 和 finance sign-off
AI Semantic Layer / Metrics Architecture	把 outcome、guardrail、cost、adoption 指标接入 metric contract 和 lineage
AI Requirements-to-Eval Cookbook	将 AI behavior eval 与 downstream causal outcome 连接
AI Process Mining / Workflow Intelligence	用 process baseline 和 event log 支撑 intervention design 和 ROI
AI Model Risk Management	把 causal assumption、impact evidence、guardrail breach 纳入 model / AI risk evidence
AI Human Oversight / HITL	把人工监督从控制设计转成可测 treatment 和 guardrail

11. Portfolio Funding Gates

AI Value Office 不应按“demo 是否令人印象深刻”拨款，而应按因果证据强度、风险控制和可扩张性分阶段拨款。

11.1 Stage Gates

Stage	资金目标	必备证据	决策
Discovery	证明问题值得测	decision inventory、baseline、outcome tree、risk tier、data readiness	fund causal design / stop / non-AI fix
Causal Design	证明能识别效果	DAG、intervention design、experiment/quasi plan、guardrails、sample sizing	fund pilot / redesign / stop
Instrumented Pilot	证明可用、可控、可测	assignment/exposure logs、eval gate、workflow metrics、risk controls	continue / limited release / stop
Impact Review	证明增量效果	ITT/TOT、counterfactual、guardrail、cost、sensitivity	scale / segment rollout / redesign / stop
Scale Gate	证明单位经济和运营能力	HTE、policy targeting、support model、platform reuse、finance sign-off	scale / platformize / cap expansion
Value Realization	证明长期收益	monthly benefits ledger、drift、adoption retention、risk incidents	continue / optimize / retire

11.2 Funding Memo 标准

Section	必须回答
Decision thesis	这个 AI use case 改变哪个高价值决策
Intervention	treatment 是什么，哪些 arms，谁 eligible
Causal design	RCT、cluster、switchback、DiD、CausalImpact、uplift 或组合方法
Baseline	当前 volume、cost、quality、risk、cycle time
Value hypothesis	预计 effect size、unit value、payback
Guardrails	客户、合规、隐私、公平、质量、成本硬阈值
Data readiness	assignment、exposure、outcome、guardrail 是否可采集
Architecture	需要哪些平台能力、日志、metric、workflow integration
Risk tier	autonomy、customer impact、regulatory sensitivity、reversibility
Stop / scale rule	到什么证据继续、扩大、缩小或停止

11.3 Scale / Stop Rules

结果模式	决策
正向 effect，guardrail 稳定，unit economics 成立	scale，并进入 HTE targeting
平均 effect 弱，但某些 segment 强	targeted rollout，不做全量
effect 正向但 guardrail 恶化	暂停 scale，重设计 intervention 或控制
adoption 低但 TOT 强	投资 UX、培训、默认设置或 workflow embedding
adoption 高但 ITT 弱	停止或重新定义 value hypothesis
短期 effect 强，长期衰减	检查 novelty、learning、drift、case mix
无法建立可信 counterfactual	不签 ROI，只作为 exploratory evidence
成本随规模上升过快	优化架构、routing、model mix 或限制 treatment

12. Financial Retail Cases

12.1 AML Analyst Productivity

维度	设计
Decision	analyst 是否升级 alert、补充证据、撰写 narrative
AI intervention	AI 汇总交易、实体、历史 case、red flags，生成带引用的 narrative draft
Treatment unit	analyst team 或 case，优先 cluster randomization 以降低学习污染
Outcome	handling time、touches、evidence completeness、QA defect、SAR escalation timeliness
Guardrail	missed red flag、unsupported narrative、policy violation、privacy breach、SAR quality defect
Causal method	cluster RCT；如果先在一个队列上线，用 DiD 或 CausalImpact
HTE	alert type、case complexity、analyst tenure、jurisdiction
Value attribution	minutes saved * loaded cost + backlog reduction value - QA/rework/support/model cost
Scale rule	complex alerts uplift > threshold，critical QA defect 不增加，analyst adoption 稳定

高级洞察:

不要只报平均处理时长。AI 可能把 analyst 从简单 case 转向复杂 case，导致平均时长上升但风险覆盖改善。
SAR 决策必须保留人工责任边界，AI 输出是 evidence preparation 和 draft support。
要区分 evidence gathering time、judgment time、narrative drafting time，否则无法优化 intervention。

12.2 Customer-Facing AI Complaints

维度	设计
Decision	客户问题是否自助解决、是否升级人工、是否触发投诉处理流程
AI intervention	带政策引用和 eligibility guardrail 的 customer-facing AI
Treatment unit	customer session、intent cluster、market 或 product line
Outcome	first contact resolution、complaint rate、escalation accuracy、resolution time、CSAT
Guardrail	wrong policy answer、vulnerable customer mishandling、unauthorized promise、regulatory complaint
Causal method	user/session A/B；高风险场景使用 stepped rollout 和 strong guardrail
HTE	intent type、customer vulnerability flag、product complexity、channel
Value attribution	avoided agent contacts + faster resolution + complaint reduction - escalations/rework/model/support cost
Scale rule	普通 intent uplift 明确，高风险投诉无 material harm，人工 handoff 质量达标

高级洞察:

客户-facing AI 的 ROI 必须把错误回答、误升级、投诉再打开和监管投诉作为扣减项。
对 vulnerable customer、金融困难、欺诈、投诉升级等 segment，平均效果没有意义，必须单独 guardrail。
AI 解释不能替代 policy owner 的正式承诺，引用和 refusal 策略是产品契约。

12.3 Credit Copilot

维度	设计
Decision	underwriter 是否需要补件、如何撰写 memo、如何识别 policy exception
AI intervention	信贷资料摘要、policy citation、missing document checklist、memo draft
Treatment unit	loan application、underwriter team、branch
Outcome	memo cycle time、missing document rate、policy exception detection、approval package quality
Guardrail	unauthorized credit decision、fair lending concern、wrong policy citation、adverse action leakage
Causal method	case-level randomization with underwriter fixed effects；敏感场景优先 cluster 或 stepped-wedge
HTE	loan type、borrower profile、exception complexity、underwriter tenure
Value attribution	cycle time reduction + reduced rework + faster conversion - review/control/training cost
Scale rule	不自动做授信决定，memo quality 和 fair treatment guardrail 稳定

高级洞察:

Credit copilot 的 treatment 应定位为 decision support，不应越界成最终 credit decision。
需要把 scorecard、policy rule、AI memo、人工审批四者边界写清。
对不同客户群体的错误率和补件建议必须做 slice guardrail，不能只看平均 memo 质量。

12.4 Payment Dispute Automation

维度	设计
Decision	dispute 是否 eligible 自动分流、是否请求证据、是否发起 chargeback / representment
AI intervention	dispute reason 分类、证据摘要、next action recommendation、低风险自动 triage
Treatment unit	dispute case、merchant segment、reason code、queue
Outcome	touches per case、cycle time、SLA breach、recovery rate、wrong action rate
Guardrail	erroneous refund denial、network rule violation、customer complaint、merchant harm、reopen rate
Causal method	reason-code level randomized rollout；switchback 可用于队列 routing；DiD 用于分批队列上线
HTE	amount band、reason code、merchant type、customer tenure、evidence completeness
Value attribution	labor reduction + avoided SLA penalties + recovery uplift - wrong action/reopen/review/model cost
Scale rule	低金额、规则清晰、证据完整 segment 可自动化；高金额和规则冲突 segment 保留人工

高级洞察:

payment dispute 自动化的价值不是“自动处理率越高越好”，而是正确自动化率和错误成本之间的最优点。
需要把 network rule、SLA、merchant evidence、customer communication 全部纳入 outcome 和 guardrail。
自动化策略应由 uplift 和 risk segmentation 驱动，而不是按技术可行性全量推进。

13. Templates and Artifacts

13.1 Decision Intelligence Canvas

Block	内容
Decision name	AML alert escalation / complaint routing / credit memo preparation / dispute triage
Business owner	对结果和流程负责的人
Decision frequency	日/周/月 volume
Current baseline	cycle time、cost、quality、risk、customer impact
AI role	read / summarize / recommend / draft / act with approval / act autonomously
Treatment definition	AI 具体改变什么
Eligible population	哪些用户、case、客户、团队、渠道进入
Outcome metrics	主结果和次结果
Guardrail metrics	hard stop 和 monitoring
Causal design	RCT、cluster、switchback、DiD、CausalImpact、uplift
Data readiness	assignment、exposure、usage、outcome、guardrail、cost
Value hypothesis	effect size、unit value、cost、payback
Scale / stop rule	继续、扩大、重设计或停止的证据

13.2 Causal DAG Spec

Section	内容
Treatment node	AI 干预和版本
Outcome node	业务结果和指标口径
Confounders	已知和潜在混杂
Mediators	adoption、action、workflow change
Moderators	segment、risk tier、complexity
Colliders to avoid	clicked AI、escalated cases、completed cases only
Spillover paths	team learning、queue redistribution、customer repeat contact
Assumptions	可检验和不可检验假设
Identification	估计策略和控制变量
Sensitivity	placebo、pre-trend、negative control、robustness checks

13.3 Experiment Design Brief

Section	内容
Hypothesis	AI intervention 对哪个 outcome 有什么方向和大小的影响
Unit of randomization	user、case、team、branch、market、time window
Arms	control、AI info、AI draft、AI recommend、AI act-with-approval
Eligibility	纳入和排除规则
Primary metric	一个主 outcome
Secondary metrics	adoption、mechanism、quality、cost
Guardrails	hard stop 和 review thresholds
Sample and duration	样本量逻辑、周期、seasonality
Analysis plan	ITT、TOT、HTE、cluster adjustment、missing data
Operational plan	rollout、training、support、incident、rollback

13.4 Quasi-Experiment Brief

Section	内容
Intervention event	时间点、对象、范围、版本
Control construction	未受影响 group / time series 的选择理由
Identification assumption	parallel trends、stable relationship、no spillover、threshold continuity
Pre-period diagnostics	pre-trend、fit quality、seasonality、covariate balance
Post-period definition	生效期、排除窗口、学习期
Robustness	placebo date、placebo outcome、alternate controls、window sensitivity
Guardrail	客户、风险、质量、成本同步检查
Decision output	scale、targeted rollout、redesign、stop

13.5 Uplift Policy Card

Section	内容
Treatment policy	谁接收 AI，谁不接收，谁接收弱干预
Target outcome	要最大化的增量结果
Cost constraint	每次 treatment 成本、容量、支持成本
Risk constraint	哪些 segment 必须人工、禁用或加强 guardrail
Uplift model inputs	可用且合规的 segment 特征
Evaluation	Qini、AUUC、policy value、calibration、segment guardrail
Monitoring	uplift drift、segment harm、adoption decay、model version
Override policy	业务 owner 何时能覆盖模型推荐

13.6 Value Attribution Ledger

Field	内容
Use case	AI use case 名称
Decision impacted	被改变的业务决策
Causal design	识别方法
Estimated effect	点估计和区间
Baseline volume	可适用 volume
Adoption adjustment	exposure、usage、action taken
Unit value	finance 认可单价
Gross value	增量价值
Cost deductions	model、platform、review、training、support
Risk adjustment	guardrail breach、客户伤害、合规风险扣减
Net value	风险调整后净值
Confidence	high / medium / low，附假设
Sign-off	business、finance、risk、Value Office

13.7 Funding Gate Memo

Section	内容
Recommendation	fund / continue / scale / segment rollout / redesign / stop
Evidence summary	3-5 条关键因果证据
Value summary	net value、payback、confidence
Risk summary	guardrail status、residual risk、risk owner decision
Architecture implications	平台复用、成本、observability、security
Portfolio implications	与其他 use cases 的依赖、冲突、复用
Decision rights	谁批准资金、谁接受风险、谁对收益负责

14. 30-Day Causal Product Lab

目标: 30 天内产出一个可放入作品集的 AI Decision Intelligence case pack。建议选择一个金融零售场景，例如 AML copilot、客服 AI 投诉、credit copilot 或 payment dispute automation。

Day	任务	产出
1	选择 use case，写清 business decision 和 AI role	Decision statement
2	梳理 AS-IS workflow 和 decision points	Workflow decision map
3	建立 baseline: volume、cost、cycle time、quality、risk	Baseline table
4	定义 outcome tree: value、quality、risk、adoption、cost	Outcome tree
5	设计 AI intervention 和 treatment arms	Intervention brief
6	定义 eligible population、unit of assignment、unit of analysis	Eligibility and unit spec
7	画第一版 causal DAG	DAG v1
8	标注 confounder、mediator、collider、moderator	Assumption register
9	设计 assignment、exposure、usage、outcome 日志	Telemetry spec
10	定义主指标、次指标、guardrail metrics	Metric contract
11	判断能否随机实验	Method decision memo
12	如果能随机，写 A/B、cluster 或 switchback 设计	Experiment brief
13	如果不能随机，写 DiD、CausalImpact 或 synthetic control 设计	Quasi-experiment brief
14	设计 pre-trend、placebo、sensitivity checks	Robustness plan
15	设计 adoption analysis: ITT、TOT、per-protocol	Adoption analysis plan
16	设计 HTE / uplift segmentation	Uplift policy draft
17	定义 cost model: model、platform、review、support、training	Unit economics sheet
18	建立 benefits attribution ledger	Value ledger
19	设计 guardrail hard stops 和 incident path	Guardrail gate
20	把 AI RMF Govern / Map / Measure / Manage 映射到 use case	Risk governance map
21	写 architecture mapping: product runtime、metric layer、causal layer	Architecture map
22	设计 portfolio funding gates	Funding gate table
23	写 pilot gate memo	Pilot funding memo
24	写 scale / stop rules	Scale-stop decision rules
25	完成金融零售案例叙事	Case narrative
26	准备 executive one-page	Executive memo
27	准备 interview STAR-T 答案	Interview answer set
28	自查: 是否有未完成项、未定义指标、无 owner、无 guardrail	Quality review
29	将材料整理成 portfolio pack	Portfolio evidence pack
30	进行 20 分钟 mock interview 复盘	Interview rehearsal notes

30 天交付包清单

Artifact	验收标准
Decision Inventory	至少 5 个决策点，标明 AI role 和 risk
Causal DAG	包含 treatment、outcome、confounder、mediator、collider、moderator
Experiment / Quasi Brief	方法选择有理由，假设和 robustness 清楚
Metric Contract	主指标、次指标、guardrail、cost、adoption 都有 owner
Value Ledger	有 effect、unit value、cost deduction、risk adjustment
Funding Memo	能支持 fund / scale / stop 决策
Interview Answers	能解释相关性不足、DAG、DiD、CausalImpact、uplift、guardrail、finance sign-off

15. Interview Answers

Q1: 为什么不能用上线前后指标改善证明 AI ROI?

30 秒回答: 上线前后改善只是相关性，不是因果证据。AI 上线通常伴随培训、流程变化、管理关注、季节性、case mix 和 adoption selection。如果没有 credible counterfactual，就不知道没有 AI 时指标会如何变化。我会先定义 decision 和 treatment，再用 randomized experiment；不能随机时用 DiD、synthetic control、CausalImpact 或 matching，并同步检查 guardrail 和成本，最后才让 finance sign off。

2 分钟回答:

先看 AI 改变哪个业务决策，例如 AML analyst case summary 是否缩短 evidence gathering。
再定义 treatment、eligible population、assignment 和 exposure。
能随机就做 user / case / cluster A/B；不能随机就用 DiD 或 CausalImpact 构造反事实。
同时看 guardrail，如 QA defect、投诉、合规违规、reopen、cost。
ROI 用 incremental effect * unit value - AI run cost - review/support/training cost - risk adjustment。

Q2: 什么时候用实验，什么时候用准实验?

30 秒回答: 能随机且风险可控时优先实验，因为 evidence 最清楚。不能随机通常是因为合规、公平、运营、平台能力或 rollout 约束，这时用准实验，但必须明确假设。一个团队先上线适合 CausalImpact / synthetic control；多团队分批上线适合 DiD 或 stepped-wedge；按阈值分配适合 regression discontinuity；如果重点是 targeting，则补 uplift / CATE。

追问准备:

追问	回答要点
如果业务不允许 withholding 怎么办	使用 stepped-wedge、encouragement design、默认打开随机、或先在低风险 segment 实验
准实验如何增强可信度	pre-trend、placebo、alternate controls、sensitivity、guardrail、intervention registry
如果所有地区同时上线	寻找未受影响 outcome、historical controls、synthetic controls；若无可信反事实，不签强 ROI

Q3: Causal DAG 对 AI PM 有什么实际价值?

30 秒回答: DAG 是产品假设和数据需求的地图。它告诉团队哪些变量是混杂需要控制，哪些是 AI 造成的 mediator 不应在 total effect 中控制，哪些样本选择会形成 collider bias。它还能把业务专家、数据科学、risk 和 finance 对“为什么这个 AI 应该产生价值”的假设写清楚。

2 分钟回答:

对 AML copilot，case complexity 和 analyst seniority 可能同时影响是否使用 AI 和处理时长，是 confounders。
adoption 是 AI 的后果，是 mediator。估计 total effect 时控制 adoption 会低估 AI 的价值路径。
只分析点击 AI 的人是 collider/selection problem。
DAG 最终会映射到 metric contract、experiment design、assumption register 和 sensitivity plan。

Q4: Uplift modeling 和普通预测模型有什么区别?

30 秒回答: 普通预测模型预测谁会有某个结果，uplift 模型预测“因为给了 treatment，结果会改变多少”。AI 产品里这非常关键，因为高风险客户或高复杂 case 不一定是最适合 AI 的对象。我们要找的是 persuadables，而不是本来就会成功的 sure things。

2 分钟回答:

Propensity model 预测谁会用 AI，不代表 AI 对他有效。
Outcome model 预测谁会成功，不代表 AI 造成成功。
Uplift / CATE 估计 treatment 与 no treatment 的差异。
产品上可以用 uplift 决定哪些 case 默认打开 AI，哪些只给人工提示，哪些禁止自动化。
评估用 Qini、AUUC、policy value、segment guardrail 和 calibration。

Q5: 如何向 CFO 证明 AI 节省成本?

30 秒回答: 我不会只报“节省小时数”。我会先建立 baseline 和 counterfactual，估计 incremental minutes saved，再用 finance 认可的 fully loaded cost 转换为 gross value，同时扣除模型、平台、人工审核、培训、支持和返工成本。只有 guardrail 没有不可接受恶化，并且业务 owner 确认释放的 capacity 被减少或重新部署，才进入 benefits ledger。

关键表达:

Net value =
causal effect * eligible volume * finance-approved unit value
- AI run cost
- human review / QA / support cost
- training and change cost
- rework and risk adjustment

Q6: AI adoption 很高但业务指标没改善，你怎么判断?

30 秒回答: 我会把 adoption 链路拆开: assigned、exposed、used、trusted、acted、workflow changed、outcome changed。高 adoption 可能只是用户打开了功能，但没有改变关键动作；也可能 AI 解决了局部任务但瓶颈在下游；还可能 metric 选错或 guardrail 抵消收益。我会做 mechanism analysis、process mining、HTE 和 guardrail 分析，再决定是改 UX、改 workflow、改 target segment 还是停项。

Q7: CausalImpact 的关键假设是什么?

30 秒回答: 核心是假设 control time series 没有受到 intervention 影响，并且 pre-period 中 control 与 treated series 的关系在 post-period 仍然稳定。产品上要做 control 选择说明、pre-period fit 检查、placebo date、alternate controls 和 sensitivity。否则漂亮的 counterfactual 图也不能支撑 ROI 签字。

Q8: AI guardrail metrics 如何进入 ROI?

30 秒回答: Guardrail 不是旁边的安全指标，而是 ROI 的约束和扣减。比如客服 AI 减少人工联系，但增加监管投诉或错误承诺，就不能报净收益。我的做法是把 hard stop guardrail 放入 release gate，把非致命风险转成 rework、赔付、投诉处理、人工审核或 risk adjustment，最终进入 benefits ledger。

Q9: 如何设计金融零售 AI 的 portfolio funding gate?

30 秒回答: 我会把资金分为 discovery、causal design、instrumented pilot、impact review、scale gate 和 value realization。每一关需要不同证据: baseline、DAG、experiment/quasi plan、assignment/exposure logs、guardrail、estimated effect、unit economics、finance sign-off。这样 portfolio 不是按 demo 热度投钱，而是按因果证据、风险控制和可规模化程度投钱。

Q10: Credit copilot 为什么不能只用模型准确率验收?

30 秒回答: 因为 credit copilot 的价值在 workflow 和 risk boundary 中产生。模型准确率只能说明输出接近标准答案，不能说明 memo cycle time 是否下降、补件质量是否提升、policy exception 是否更早发现，也不能说明是否引入 fair lending 或 unauthorized decision 风险。验收必须包含 causal outcome、guardrail、human oversight 和 finance value。

16. 高级自检清单

问题	合格标准
是否定义了 AI 改变的业务决策	有 decision owner、frequency、risk、AI role
是否有明确 treatment	treatment arms、eligibility、assignment、exposure 清楚
是否有 counterfactual	RCT 或准实验设计，不只 pre/post
是否画了 DAG	混杂、mediator、collider、moderator、spillover 清楚
是否区分 adoption 和 impact	adoption chain 与 business outcome 分开
是否有 guardrail	客户、合规、隐私、公平、质量、成本都有阈值
是否有 HTE / uplift	至少有 segment effect 或 targeting 思路
是否有 value ledger	finance unit value、cost deduction、risk adjustment 清楚
是否有 funding gate	fund / scale / stop 规则明确
是否能面试讲清	能用一个金融零售案例解释从 decision 到 ROI 的完整链路

最终能力标准:

能把一个 AI use case 从“这个功能可能有用”提升为“这个 intervention 在这些人群、这些条件、这些风险约束下产生了可归因的增量价值，因此应该 scale / target / redesign / stop”。