2. Advanced Framework: Causal Product Operating System
CPOS = Causal Product Operating System。它把 AI 产品从功能交付升级为可审计的决策和价值系统。
1. Decision inventory
2. Outcome and value tree
3. Intervention design
4. Causal DAG and assumptions
5. Measurement architecture
6. Experiment or quasi-experiment
7. Effect estimation and heterogeneity
8. Guardrail and risk adjustment
9. Value attribution and finance sign-off
10. Portfolio funding gate
11. Scale / stop / redesign decision
AI 产品的因果测量必须从 decision loop 开始,而不是从模型或 dashboard 开始。
flowchart LR
D[Decision point] --> I[AI intervention]
I --> U[User exposure]
U --> A[Adoption and action]
A --> W[Workflow change]
W --> O[Business outcome]
O --> V[Value attribution]
V --> G[Funding gate]
G --> R[Redesign / scale / stop]
R --> D
3.1 Decision Inventory
字段
要回答的问题
金融零售例子
Decision name
这个决策叫什么
AML alert 是否升级 L2;投诉是否升级主管;信贷 memo 是否补件;支付争议是否自动分流
Intervention 是 AI 产品改变世界的具体动作。没有清楚的 intervention,就没有清楚的因果估计。
AI Pattern
可能的 intervention
可测 treatment
常见误区
RAG assistant
提供引用和政策解释
某些 team 可用带引用答案
把“有知识库”当 treatment,未记录实际 exposure
Copilot
草拟 memo、摘要、回复
AI draft 默认打开或按 case 类型打开
用户手动打开导致 selection bias
Recommender
排序、优先级、next best action
AI ranking vs existing queue rule
只比较被点击案例,忽略未推荐案例
Agent
自动读取、填表、创建工单
read-only agent vs draft action vs approved action
多种能力混在一个 treatment
Automation
直接处理低风险 case
auto-route eligible cases
eligibility 和 treatment 混淆
Coach
给员工反馈和提示
AI coaching message
管理培训同时变化未登记
3.3 Treatment Arms
高级 AI 产品实验通常不应该只有“AI on / off”。更好的设计是把干预拆成可比较的 arms。
Arm
含义
适用目的
Control
现有流程或现有工具
估计基线
AI information
只提供检索、摘要、引用
测信息质量对效率的影响
AI draft
生成可编辑草稿
测草拟对处理时间和质量的影响
AI recommendation
给出优先级、下一步、风险理由
测决策支持对结果的影响
AI automation with approval
自动准备动作,人工批准
测自动化和 HITL 的边际收益
AI automation bounded
在低风险边界内自动执行
测高自动化的净价值和风险
3.4 干预设计检查表
检查项
必须明确
Treatment definition
什么行为或系统状态算 treatment,被谁触发,什么时候开始
Unit of assignment
随机或分配单位是用户、case、团队、地区、时间窗口还是客户
Unit of analysis
效果分析单位是否与分配单位一致,不一致时如何处理聚类
Eligibility
哪些对象有资格接受 treatment,排除规则是什么
Exposure
用户是否真正看到或可用 AI
Compliance
用户是否按预期使用 AI,例如是否采纳建议、编辑草稿、执行动作
Contamination
对照组是否接触到 AI 输出、提示词、培训或流程变化
Spillover
treatment 是否影响其他用户、队列、客户或时间段
Reversibility
错误输出、错误动作或错误路由能否撤回
Stop rule
哪些 guardrail breach 会暂停实验或 rollout
4. Causal DAG: 产品经理也要会画的因果图
Causal DAG 不是学术装饰,而是高级 AI 产品的假设登记册。它迫使团队说明“为什么我们认为 AI 会造成结果变化”,以及“哪些变量必须控制,哪些变量不能控制”。
4.1 DAG 最小对象
对象
含义
AI 产品例子
Treatment
AI 干预
analyst receives AI case summary
Outcome
业务结果
case handling time、defect rate、customer complaint resolution
Confounder
同时影响 treatment 和 outcome 的变量
analyst seniority、case complexity、branch maturity
Mediator
treatment 影响 outcome 的中间路径
adoption、draft edit rate、evidence completeness
Collider
被两个变量共同影响,控制后会引入偏差
only escalated cases、only users who clicked AI
Moderator
影响 treatment effect 大小的变量
case complexity、customer segment、analyst tenure
Spillover node
一个单位的 treatment 影响其他单位
team learning、queue redistribution
Time-varying factor
随时间变化且影响结果
volume spike、policy change、staffing
4.2 AML Analyst Copilot DAG 示例
flowchart LR
C[Case complexity] --> T[AI summary exposure]
C --> O[Handling time]
S[Analyst seniority] --> T
S --> O
V[Alert volume] --> O
T --> A[AI adoption / action taken]
A --> E[Evidence completeness]
E --> O
E --> Q[QA defect rate]
P[Policy change] --> O
P --> Q
这个 DAG 的产品含义:
case complexity 和 analyst seniority 是混杂变量,必须通过随机分配、分层随机、matching 或模型控制处理。
AI adoption / action taken 是 mediator,估计 total effect 时不要简单控制它;估计 per-protocol 或 mechanism effect 时可以单独分析。
control time series 未受影响,pre-period relationship stable
适合一个对象上线或一次变更
对照选择和结构稳定性敏感
Matching / weighting
非随机观察数据
no unobserved confounding
可利用历史数据
未观测混杂仍可能严重
Regression discontinuity
明确阈值决定 treatment
阈值附近对象可比
局部因果证据强
只解释阈值附近,不易外推
5.2 实验不是只看显著性
AI 产品实验要同时回答:
实际业务 effect size 是否足够大。
guardrail 是否保持在可接受范围内。
treatment 是否改变了目标行为,而不是只改变 usage。
效果是否集中在某些 segment。
scale 后单位成本、延迟、支持负担和风险是否改变。
是否存在 learning、novelty、fatigue、automation bias。
5.3 准实验最低证据包
证据
说明
Intervention registry
干预时点、范围、treatment 定义、同时发生的流程/政策/人员变化
Control rationale
为什么这个 control group 或 control time series 是可信反事实
Pre-trend evidence
干预前 treatment 和 control 是否趋势相似
Placebo test
在未干预时点或未受影响指标上不应看到假效果
Sensitivity analysis
结果对窗口、对照、协变量、模型设定是否稳定
Guardrail analysis
效率收益是否伴随质量、投诉、合规或公平恶化
Business interpretation
估计效果如何转成可签字价值
5.4 实验设计中的 AI 特有问题
问题
说明
产品处理
Prompt / model drift
treatment 随模型版本变化
versioned intervention,固定实验窗口或记录版本
Human learning
用户从 AI 学到方法后影响 control
cluster design、washout、switchback 限制
Automation bias
用户过度相信 AI 输出
measure override、QA defect、confidence calibration
Cold start
刚上线 adoption 低
区分 ramp-up effect 和 steady-state effect
LLM latency / cost
treatment 同时改变等待时间和成本
latency/cost 作为 guardrail 和 unit economics
Policy guardrail
AI 拒答或升级影响体验
记录 refusal、handoff、escalation quality
Non-compliance
用户绕过 AI 或只在简单 case 用 AI
ITT、TOT、per-protocol 分开报告
6. Synthetic Control / CausalImpact / DiD
6.1 CausalImpact / Synthetic Control
CausalImpact 思路适合评估某个明确时间点发生的干预,例如在一个客服市场上线客户-facing AI、在一个 AML team 上线 case copilot、在一个支付队列启用 AI dispute triage。核心是用未受影响的 control time series 构造干预后如果没有 AI 的 counterfactual。
设计项
要求
Response series
要评估的结果,如 daily complaints resolved、case hours、cost per case
Control series
未受干预但与 response 在 pre-period 关系稳定的序列
Pre-period
足够长,覆盖季节性和正常波动
Post-period
从干预生效到评估截止,避免混入其他重大变更
Assumption
control 未受 treatment 影响,pre-period relationship 在 post-period 仍稳定
treatment: pilot lending team;control: matched team;outcome: cycle time
Payment dispute automation 是否减少人工 touches
treatment: eligible dispute type;control: similar ineligible dispute type;outcome: touches per case
DiD 必须检查:
干预前趋势是否平行,而不是只看 pre-period 平均值。
treatment 和 control 是否受到不同外部冲击。
case mix、volume、人员、渠道是否同时变化。
post-period 是否足够长以观察稳定效果。
是否存在 anticipation effect,即用户提前改变行为。
6.3 CausalImpact vs DiD vs A/B
场景
推荐方法
理由
可随机分配用户或 case
A/B、cluster randomization
最强 identification,解释清楚
一个市场/团队先上线
Synthetic control / CausalImpact
有时间序列和多个 control series
多个团队分批 rollout
DiD、staggered DiD、stepped-wedge
可利用 pre/post 和 group difference
无法随机但有阈值
Regression discontinuity
阈值附近可比
目标是找谁最受益
Uplift / CATE
平均效果不足以做 targeting
历史观察数据且混杂可观测
Matching / weighting / doubly robust
需要严肃处理 selection bias
7. Uplift Modeling and Heterogeneous Treatment Effects
平均效果经常掩盖产品决策。一个 AI copilot 可能总体节省 4%,但在复杂 case 上节省 18%,在简单 case 上造成额外 review 成本;客户-facing AI 可能提升普通问题 FCR,但增加高风险投诉误导风险。
7.1 核心概念
概念
含义
产品问题
ATE
全体平均 treatment effect
是否总体值得投
ATT
已接受 treatment 群体的平均效果
当前使用者是否受益
CATE
给定特征下的条件平均效果
哪些 segment 最受益
HTE
treatment effect 在不同群体间的差异
是否需要差异化 rollout
Uplift
treatment 相比不 treatment 的增量概率或价值
该把 AI 给谁、不给谁
Treatment policy
根据 uplift 和 guardrail 决定干预对象
最优 rollout 策略是什么
7.2 Uplift 不等于 propensity
模型
预测对象
产品含义
风险
Propensity model
谁可能使用 AI、点击、投诉、违约
行为倾向或风险预测
高 propensity 不代表 treatment 有效
Outcome model
谁可能有好结果
结果预测
不能说明 AI 是否造成结果
Uplift model
treatment 对结果的增量影响
谁因为 AI 介入而改变结果
需要可信 treatment / control 数据
Policy model
在成本和 guardrail 下选择 treatment
资源分配和 rollout
需要业务约束和风险门槛
7.3 Uplift 四象限
Segment
特征
产品策略
Persuadables
有 AI 才明显改善
优先 treatment,设计默认打开或强提示
Sure things
有没有 AI 都表现好
低成本 exposure 或不干预,避免浪费容量
Lost causes
有没有 AI 都难改善
回到流程、政策、数据或人工专家支持
Do-not-disturb / harmed
AI 反而变差
禁用、增加 guardrail、人工优先
7.4 HTE 在金融零售中的产品用法
场景
HTE 维度
可能发现
产品决策
AML copilot
alert type、analyst tenure、case complexity
新 analyst 和复杂 case uplift 高
对复杂 case 默认打开,对简单 case 轻提示
客服 AI
intent、产品、客户脆弱性、渠道
普通 FAQ uplift 高,高情绪投诉 risk 高
普通问题自助,敏感投诉快速人工升级
Credit copilot
loan type、policy exception、borrower profile
标准贷款 memo 效率提升,例外审批无明显收益
标准 memo draft,例外案例只做资料核对
Payment dispute automation
dispute reason、金额、商户类型
低金额重复争议 uplift 高,高金额争议 guardrail 差
低风险自动 triage,高金额人工 review
7.5 Uplift 模型评估
指标
用法
Qini curve
看 targeting 排序是否比随机 treatment 更能捕获增量收益
AUUC
比较 uplift policy 的整体增量收益
Calibration by segment
检查预测 uplift 和实际 uplift 是否一致
Policy value
在成本、容量、guardrail 下估计 treatment policy 的净价值
Segment guardrail
确保某些 segment 没有被系统性伤害
Stability
检查 uplift ranking 随时间、渠道、模型版本是否稳定
7.6 从 HTE 到产品策略
发现
不成熟动作
成熟动作
平均效果弱,但某 segment 强
停项
对高 uplift segment targeted rollout
平均效果强,但某 segment 被伤害
全量上线
exclude / guardrail / alternate workflow
高 uplift 但高成本
全量上线
用 capacity-constrained policy
uplift 集中在新员工
做更多模型训练
改 onboarding、training、manager coaching
uplift 随时间下降
认为 AI 失效
分析 novelty、learning、case mix、model drift
8. Measurement Architecture: 因果测量不是一个报表
8.1 参考架构
flowchart TB
subgraph Product[AI Product Runtime]
UI[User experience]
AI[Model / RAG / agent]
WF[Workflow system]
TOOL[Tool gateway]
end
subgraph Causal[Causal Measurement Layer]
ASSIGN[Assignment log]
EXP[Exposure log]
USE[Usage and action log]
OUT[Outcome events]
GUARD[Guardrail events]
COST[Cost and latency log]
end
subgraph Data[Data and Metrics]
SEM[Semantic layer]
DAG[DAG / assumption registry]
EXPER[Experiment registry]
LEDGER[Benefits attribution ledger]
end
subgraph Governance[Governance]
RISK[Risk gate]
FIN[Finance sign-off]
PORT[Portfolio funding gate]
MON[Monitoring and incident loop]
end
UI --> AI
AI --> WF
AI --> TOOL
UI --> EXP
AI --> USE
WF --> OUT
TOOL --> OUT
AI --> COST
OUT --> SEM
GUARD --> SEM
ASSIGN --> EXPER
EXP --> EXPER
USE --> EXPER
SEM --> LEDGER
DAG --> EXPER
LEDGER --> FIN
SEM --> RISK
RISK --> PORT
FIN --> PORT
PORT --> MON
causal reduction in defects / breaches * risk value
不确定性、risk owner acceptance
Capacity release
causal capacity freed * redeployed productive work
是否真实减少 FTE 或吸收 backlog
Customer experience
causal FCR / complaint reduction * customer value
fairness、vulnerable customer、escalation quality
建议用净值表达:
Risk-adjusted AI value =
incremental gross value
- AI run cost
- human review cost
- support and training cost
- incremental rework cost
- risk / customer harm adjustment
- platform allocation cost
9.3 ITT、TOT、Per-Protocol
分析口径
含义
适用决策
ITT
按分配到 treatment 估计效果,无论是否实际使用
rollout policy 和 portfolio funding 最重要
TOT
treatment 对实际使用者的效果
理解功能潜力和 adoption gap
Per-protocol
按符合预期使用方式的人/案例估计
机制学习,但 selection bias 风险高
LATE
对受 encouragement 影响而采用的人估计效果
默认打开、提示、培训类干预
对高管汇报时,应同时说清:
ITT 是真实 rollout policy 的保守价值。
TOT 显示如果 adoption 提升可能达到的潜力。
Per-protocol 用于产品学习,不单独作为 ROI 签字依据。
9.4 Finance Sign-off 标准
标准
需要证据
Baseline 明确
干预前业务量、成本、质量、风险基线
Counterfactual 可信
RCT、DiD、synthetic control、matching 或其他说明
Unit value 认可
labor cost、loss、margin、risk value 由 finance / business owner 确认
Adoption 可持续
不只看 launch week,至少覆盖稳定使用窗口
Guardrail 可接受
风险 owner 接受 residual risk
Cost 完整
模型、平台、review、support、training、change management
Attribution 清楚
AI、流程、培训、政策变化拆分或说明不可拆分
Confidence 表达
点估计、区间、敏感性、假设限制
10. Architecture and Product Mapping
10.1 Capability Map
Capability
产品职责
架构职责
治理职责
Decision registry
管理 AI 影响的决策点、owner、风险等级
与 workflow / case system 关联
形成 AI system inventory 和 materiality view
Intervention registry
记录 treatment、rollout、版本、同时变更
与 feature flag / experiment platform 集成
支撑 audit 和 causal review
Experiment platform
随机分配、分层、cluster、switchback
assignment service、feature flags、telemetry
防止不合规实验和 uncontrolled rollout
Causal workbench
DAG、estimation、refutation、sensitivity
notebook / pipeline / model registry
model risk / analytics review
Semantic metrics layer
统一 outcome、guardrail、cost 口径
metric registry、lineage、API
finance / risk sign-off
EvalOps
测 AI behavior quality
golden sets、judge、red-team、release gates
NIST AI RMF Measure evidence
Observability
监控 drift、cost、latency、incident
traces、logs、alerts、dashboards
Manage loop 和 incident response
Benefits ledger
记录 estimated effect 和价值归因
finance data mart、portfolio dashboard
Value Office funding gate
Policy engine
管理 eligibility、risk tier、guardrail
rules、permissions、approval workflow
合规和风险控制
Portfolio cockpit
scale / stop / fund 决策视图
汇总 use case evidence
executive governance
10.2 Decision Intelligence Stack
AI Product Layer
- copilot, RAG, agent, automation, customer-facing AI
Workflow Layer
- CRM, case management, LOS, AML system, dispute platform, contact center
Intervention Layer
- feature flags, assignment, exposure, treatment version, rollout batch
Metric Layer
- semantic metrics, guardrails, cost, adoption, outcomes
Causal Layer
- DAG, identification, experiment, quasi-experiment, HTE, sensitivity
Governance Layer
- AI RMF, risk gate, model risk, finance sign-off, portfolio funding
10.3 Build / Buy / Platform 判断
能力
Point solution 可以接受
平台化信号
Assignment logging
单一低风险 pilot
多 use case 需要统一随机、feature flag、rollout
Causal analysis
一次性 analyst notebook
Value Office 需要可复用 estimation pipeline 和 evidence pack
Benefits ledger
单项目 spreadsheet
多项目要 finance sign-off、portfolio dashboard
Guardrail dashboard
单一产品局部看板
多 AI 系统共享 risk taxonomy 和 incident thresholds
Uplift policy
单个 campaign targeting
多业务需要 treatment policy service
Causal DAG registry
手工图
material AI systems 需要 assumption traceability
10.4 与现有 AI 资产连接
相邻资产
本手册如何承接
AI Transformation Value Office
把 portfolio value proof 从 business case 估算升级为 causal attribution 和 finance sign-off
寻找未受影响 outcome、historical controls、synthetic controls;若无可信反事实,不签强 ROI
Q3: Causal DAG 对 AI PM 有什么实际价值?
30 秒回答: DAG 是产品假设和数据需求的地图。它告诉团队哪些变量是混杂需要控制,哪些是 AI 造成的 mediator 不应在 total effect 中控制,哪些样本选择会形成 collider bias。它还能把业务专家、数据科学、risk 和 finance 对“为什么这个 AI 应该产生价值”的假设写清楚。
2 分钟回答:
对 AML copilot,case complexity 和 analyst seniority 可能同时影响是否使用 AI 和处理时长,是 confounders。
adoption 是 AI 的后果,是 mediator。估计 total effect 时控制 adoption 会低估 AI 的价值路径。
只分析点击 AI 的人是 collider/selection problem。
DAG 最终会映射到 metric contract、experiment design、assumption register 和 sensitivity plan。
Q4: Uplift modeling 和普通预测模型有什么区别?
30 秒回答: 普通预测模型预测谁会有某个结果,uplift 模型预测“因为给了 treatment,结果会改变多少”。AI 产品里这非常关键,因为高风险客户或高复杂 case 不一定是最适合 AI 的对象。我们要找的是 persuadables,而不是本来就会成功的 sure things。
Net value =
causal effect * eligible volume * finance-approved unit value
- AI run cost
- human review / QA / support cost
- training and change cost
- rework and risk adjustment
30 秒回答: 核心是假设 control time series 没有受到 intervention 影响,并且 pre-period 中 control 与 treated series 的关系在 post-period 仍然稳定。产品上要做 control 选择说明、pre-period fit 检查、placebo date、alternate controls 和 sensitivity。否则漂亮的 counterfactual 图也不能支撑 ROI 签字。
Q8: AI guardrail metrics 如何进入 ROI?
30 秒回答: Guardrail 不是旁边的安全指标,而是 ROI 的约束和扣减。比如客服 AI 减少人工联系,但增加监管投诉或错误承诺,就不能报净收益。我的做法是把 hard stop guardrail 放入 release gate,把非致命风险转成 rework、赔付、投诉处理、人工审核或 risk adjustment,最终进入 benefits ledger。