返回 Papers
AI 扩展计划 / Playbooks

AI Decision Intelligence / Causal Product Playbook

这些来源作为因果推断、干预评估和 AI 风险治理的官方/一手锚点。本文把它们转成 AI PM / Product Architect / Value Office 可执行的产品和投资组合语言。

1,112AI_DECISION_INTELLIGENCE_CAUSAL_PRODUCT_PLAYBOOK.md

AI Decision Intelligence / Causal Product Playbook

适用对象: AI PM、AI Product Architect、AI Value Office Lead、Data Product Manager、Strategy / Transformation Lead、金融零售 AI 投资组合负责人。 核心问题: 当 AI 项目声称提升效率、降低风险、改善客户体验或创造收入时,如何证明这是 AI 介入造成的增量价值,而不是季节性、人员选择、流程重排、管理关注、样本偏差或外部环境共同造成的相关性。 学习目标: 把 AI PM 能力从“定义功能、做 eval、看 adoption dashboard”升级为“设计可测干预、建立反事实、识别因果效应、管理异质性收益、用 guardrail 和 funding gate 做 scale / stop 决策”。 作品集定位: 本手册可转化为高级 AI 产品管理和产品架构作品集证据,包括 Decision Inventory、Causal DAG、Experiment Design Brief、Quasi-Experiment Brief、Uplift Policy Card、Benefits Attribution Ledger、Portfolio Funding Gate Memo 和金融零售案例包。 边界说明: 本文不是统计学入门、BA 基础需求分析、法律意见、合规意见或模型验证报告。正式项目必须由 business owner、finance、risk、model risk、legal、compliance、privacy、security、data owner 和 architecture review 共同确认。


Source Anchors

这些来源作为因果推断、干预评估和 AI 风险治理的官方/一手锚点。本文把它们转成 AI PM / Product Architect / Value Office 可执行的产品和投资组合语言。

AnchorOfficial / primary source在本 playbook 中的用法
Google CausalImpacthttps://google.github.io/CausalImpact/CausalImpact.html用于解释基于 Bayesian structural time-series 的 intervention impact 估计、counterfactual、pre/post period、control time series 和假设管理。
DoWhyhttps://www.pywhy.org/dowhy/main/用于组织 causal model、identification、estimation、refutation、sensitivity checks 和“先声明假设再估计效果”的工作纪律。
EconMLhttps://www.pywhy.org/EconML/用于 heterogenous treatment effects、CATE、DML、DR learners、causal forests、policy interpretation 和“谁真正受益”的决策优化。
CausalMLhttps://causalml.readthedocs.io/en/latest/用于 uplift modeling、meta-learners、uplift trees / forests、AUUC / Qini、propensity、sensitivity analysis 和 treatment targeting。
NIST AI RMFhttps://www.nist.gov/itl/ai-risk-management-framework用 Govern / Map / Measure / Manage 组织 AI causal measurement、guardrail metrics、risk tier、monitoring、evidence 和 portfolio governance。

1. 高级定位: AI ROI 不能停留在相关性

很多 AI 项目上线后会展示:

  • 使用 AI 的员工处理时间更短。
  • 使用 AI 的客户投诉更少。
  • AI 辅助后的转化率更高。
  • pilot 团队的 SLA 比非 pilot 团队更好。
  • 上线后总成本下降。

这些都可能是事实,但不等于 AI 造成了收益。高级 AI PM 必须把“观察到的变化”拆成“AI 介入的增量因果效应”和“其他因素造成的共同变化”。

1.1 相关性常见陷阱

陷阱在 AI 项目中的表现为什么会误判 ROI产品动作
Selection bias高能力团队、积极用户、低复杂度 case 更愿意使用 AI使用者本来就表现更好随机分配、encouragement design、propensity / matching、DAG 控制混杂
Seasonality节假日、监管周期、营销季、还款周期影响业务量pre/post 差异可能来自周期使用同期 control、seasonal model、switchback、DiD
Regression to mean选取表现最差团队做 AI pilot后续自然回归也会变好设定基线窗口、对照组、placebo test
Management attentionpilot 团队获得更多主管关注和培训改善可能来自管理干预把培训、激励、AI 工具拆成 treatment arms
Workflow redesign confoundingAI 上线同时改流程、改 SLA、改队列无法区分 AI 与流程重构收益明确 intervention registry 和 phased rollout
Data quality drift新数据源或标签规则改变指标变化来自计量口径metric contract、lineage、data quality gate
Learning curve用户熟练度提升短期低估或长期高估分阶段测量 adoption-adjusted effect
Spillover对照组从 treatment 组学习提示词或流程对照组被污染,效果被低估cluster randomization、team-level rollout、contamination log
Capacity reallocationAI 释放人力后把人转去更复杂任务平均处理时长可能变差但总价值提升追踪 workload mix、case complexity、capacity value
Risk displacement自动化降低一个错误,增加另一个错误单点 ROI 掩盖客户或合规风险guardrail metrics 和 risk-adjusted value

一句话:

AI ROI = observed outcome - credible counterfactual - risk / quality / adoption adjustments.

1.2 模型指标不是价值证据

常见证据能说明什么不能说明什么需要补充的因果证据
Offline eval 分数提升AI 输出质量更接近标准答案用户是否采用、流程是否变快、风险是否下降treatment exposure、workflow outcome、counterfactual
用户满意度提升用户主观体验改善是否降低成本、减少投诉、提高复购randomized survey exposure、投诉率、留存
使用次数增加功能被打开是否改变行为或业务结果action taken rate、downstream outcome
平均处理时长下降工作流表现改善是否由 AI 导致,是否牺牲质量对照组、case mix adjustment、quality guardrail
自动化率提高更多任务由系统处理是否正确处理,是否造成隐性返工defect rate、reopen rate、manual override
成本下降总账面成本下降是否与 AI 有关,是否转移到其他团队activity-based cost、benefits ledger

1.3 Decision Intelligence 的产品定义

Decision Intelligence 不是“多做一个 dashboard”,而是把业务决策、AI 干预、数据、实验、因果估计、风险控制和投资组合治理连接成闭环。

Decision Intelligence =
decision inventory
+ intervention design
+ causal model
+ experiment / quasi-experiment
+ adoption and workflow telemetry
+ guardrail metrics
+ value attribution
+ portfolio funding gates
+ scale / stop decisions

高级 AI PM 的核心任务不是证明 AI “看起来有用”,而是设计一个能回答以下问题的系统:

  • 这个 AI 能力改变了哪个业务决策或流程动作。
  • 干预对象是谁,干预时点在哪里,treatment 是什么。
  • 如果没有 AI,会发生什么。
  • 哪些人或 case 真正受益,哪些没有收益或被伤害。
  • 收益是否足够覆盖成本、风险、运营和治理负担。
  • 是否应该 scale、继续 pilot、改 intervention、转平台化或停止。

2. Advanced Framework: Causal Product Operating System

CPOS = Causal Product Operating System。它把 AI 产品从功能交付升级为可审计的决策和价值系统。

1. Decision inventory
2. Outcome and value tree
3. Intervention design
4. Causal DAG and assumptions
5. Measurement architecture
6. Experiment or quasi-experiment
7. Effect estimation and heterogeneity
8. Guardrail and risk adjustment
9. Value attribution and finance sign-off
10. Portfolio funding gate
11. Scale / stop / redesign decision

2.1 CPOS 十一层

Layer目标核心问题典型产物
L1 Decision Inventory找到 AI 影响的真实业务决策哪些判断、动作、审批、分流、回复或补件会被 AI 改变Decision Inventory、Decision Boundary Map
L2 Outcome Tree把业务结果拆到可观测指标价值、风险、质量、采用、成本之间是什么关系Outcome Tree、Metric Contract
L3 Intervention Design定义 treatment 和执行机制AI 到底改变了什么: 信息、建议、草稿、排序、自动动作还是激励Intervention Brief、Treatment Arms
L4 Causal DAG声明因果假设混杂、选择、mediator、collider、spillover 在哪里Causal DAG、Assumption Register
L5 Measurement Architecture建立可追溯数据证据链assignment、exposure、usage、action、outcome、guardrail 是否被记录Telemetry Spec、Benefits Ledger
L6 Identification Strategy决定如何识别因果效应能否随机实验,不能时用什么准实验Experiment / Quasi-Experiment Design
L7 Estimation估计平均和分层效果ATE、ATT、CATE、uplift、confidence interval、sensitivity 如何解释Impact Report
L8 Guardrail防止收益掩盖伤害客户、合规、公平、质量、成本、运营风险是否恶化Guardrail Dashboard、Risk Gate
L9 Attribution把效果转成 finance 认可的价值节省、增收、损失避免、风险降低如何归因Value Attribution Ledger、Finance Sign-off
L10 Portfolio Gate决定资金和规模继续投、扩大、停项、平台化、重设计的证据是什么Funding Gate Memo
L11 Learning Loop把结果回流产品和架构对哪些 segment 做什么 intervention,下次如何优化Product Decision Log、Policy Update

2.2 从 AI PM 到 Causal Product Architect 的能力跃迁

普通 AI PM 问题Causal Product Architect 问题
用户会不会用这个功能哪些用户在什么上下文中因为 AI 改变了行为
eval 分数是否达标eval 分数是否解释了 downstream business outcome
上线后指标是否改善改善是否超过可信 counterfactual
哪个模型更好哪个 intervention 在特定 segment 上产生净增量价值
是否扩大 pilot规模化后的边际收益、风险和成本是否仍成立
ROI 怎么算哪部分价值由 AI 增量贡献,哪部分来自流程、培训、季节性或人员结构
需求如何排优先级哪些决策杠杆有最大可识别、可扩张、可治理的因果价值

2.3 决策原则

Principle操作化解释反例
Product starts with decision, not model先定义 AI 改变哪个决策,再选择模型和 UX先接 LLM,再找业务场景
Counterfactual is a product requirement每个高价值 AI use case 必须说明没有 AI 时如何估计结果只看上线前后变化
Randomize when feasible能随机就优先随机,不能随机才设计准实验直接把自愿使用者当 treatment
Guardrail is part of ROI风险、质量、合规、客户伤害和运营成本必须从收益中扣除只报节省小时数
Heterogeneity drives product strategy平均效果不足以决定 scale,必须知道谁受益全量上线同一体验
Adoption is not impact使用是暴露和行为变化证据,不是收益证据DAU 增加就报 ROI
Funding follows evidence投资阶段由证据强度决定POC 成功就直接 enterprise rollout

3. Decision Loop: 从决策到干预

AI 产品的因果测量必须从 decision loop 开始,而不是从模型或 dashboard 开始。

flowchart LR
  D[Decision point] --> I[AI intervention]
  I --> U[User exposure]
  U --> A[Adoption and action]
  A --> W[Workflow change]
  W --> O[Business outcome]
  O --> V[Value attribution]
  V --> G[Funding gate]
  G --> R[Redesign / scale / stop]
  R --> D

3.1 Decision Inventory

字段要回答的问题金融零售例子
Decision name这个决策叫什么AML alert 是否升级 L2;投诉是否升级主管;信贷 memo 是否补件;支付争议是否自动分流
Decision owner谁对最终结果负责Financial crime ops lead、CX operations、credit risk、payments ops
Decision frequency每天/每周发生多少次每日 8,000 个 AML alerts;每周 12,000 个投诉分类
Decision latency决策窗口多长5 分钟内分流、24 小时内回复、T+1 完成初审
Decision cost当前每次决策成本人工分钟、返工、升级、赔付、loss、监管成本
Decision risk错误的客户/合规/财务影响漏报 SAR、误导客户、错误拒贷、错误退款
AI roleAI 是 read、summarize、recommend、draft、act 还是 decidecredit copilot 只 draft,不做最终授信决定
Reversibility错误是否可逆客服草稿可逆,自动拒绝 dispute 不易逆
Measurement unit用什么单位测效果case、customer、analyst、branch、team、market、time window

3.2 Intervention Design

Intervention 是 AI 产品改变世界的具体动作。没有清楚的 intervention,就没有清楚的因果估计。

AI Pattern可能的 intervention可测 treatment常见误区
RAG assistant提供引用和政策解释某些 team 可用带引用答案把“有知识库”当 treatment,未记录实际 exposure
Copilot草拟 memo、摘要、回复AI draft 默认打开或按 case 类型打开用户手动打开导致 selection bias
Recommender排序、优先级、next best actionAI ranking vs existing queue rule只比较被点击案例,忽略未推荐案例
Agent自动读取、填表、创建工单read-only agent vs draft action vs approved action多种能力混在一个 treatment
Automation直接处理低风险 caseauto-route eligible caseseligibility 和 treatment 混淆
Coach给员工反馈和提示AI coaching message管理培训同时变化未登记

3.3 Treatment Arms

高级 AI 产品实验通常不应该只有“AI on / off”。更好的设计是把干预拆成可比较的 arms。

Arm含义适用目的
Control现有流程或现有工具估计基线
AI information只提供检索、摘要、引用测信息质量对效率的影响
AI draft生成可编辑草稿测草拟对处理时间和质量的影响
AI recommendation给出优先级、下一步、风险理由测决策支持对结果的影响
AI automation with approval自动准备动作,人工批准测自动化和 HITL 的边际收益
AI automation bounded在低风险边界内自动执行测高自动化的净价值和风险

3.4 干预设计检查表

检查项必须明确
Treatment definition什么行为或系统状态算 treatment,被谁触发,什么时候开始
Unit of assignment随机或分配单位是用户、case、团队、地区、时间窗口还是客户
Unit of analysis效果分析单位是否与分配单位一致,不一致时如何处理聚类
Eligibility哪些对象有资格接受 treatment,排除规则是什么
Exposure用户是否真正看到或可用 AI
Compliance用户是否按预期使用 AI,例如是否采纳建议、编辑草稿、执行动作
Contamination对照组是否接触到 AI 输出、提示词、培训或流程变化
Spillovertreatment 是否影响其他用户、队列、客户或时间段
Reversibility错误输出、错误动作或错误路由能否撤回
Stop rule哪些 guardrail breach 会暂停实验或 rollout

4. Causal DAG: 产品经理也要会画的因果图

Causal DAG 不是学术装饰,而是高级 AI 产品的假设登记册。它迫使团队说明“为什么我们认为 AI 会造成结果变化”,以及“哪些变量必须控制,哪些变量不能控制”。

4.1 DAG 最小对象

对象含义AI 产品例子
TreatmentAI 干预analyst receives AI case summary
Outcome业务结果case handling time、defect rate、customer complaint resolution
Confounder同时影响 treatment 和 outcome 的变量analyst seniority、case complexity、branch maturity
Mediatortreatment 影响 outcome 的中间路径adoption、draft edit rate、evidence completeness
Collider被两个变量共同影响,控制后会引入偏差only escalated cases、only users who clicked AI
Moderator影响 treatment effect 大小的变量case complexity、customer segment、analyst tenure
Spillover node一个单位的 treatment 影响其他单位team learning、queue redistribution
Time-varying factor随时间变化且影响结果volume spike、policy change、staffing

4.2 AML Analyst Copilot DAG 示例

flowchart LR
  C[Case complexity] --> T[AI summary exposure]
  C --> O[Handling time]
  S[Analyst seniority] --> T
  S --> O
  V[Alert volume] --> O
  T --> A[AI adoption / action taken]
  A --> E[Evidence completeness]
  E --> O
  E --> Q[QA defect rate]
  P[Policy change] --> O
  P --> Q

这个 DAG 的产品含义:

  • case complexityanalyst seniority 是混杂变量,必须通过随机分配、分层随机、matching 或模型控制处理。
  • AI adoption / action taken 是 mediator,估计 total effect 时不要简单控制它;估计 per-protocol 或 mechanism effect 时可以单独分析。
  • 只分析“点击 AI 的用户”会引入 selection bias。
  • QA defect rate 是 guardrail,不是只看处理时长的附属指标。
  • policy change 需要进入 intervention registry,否则 pre/post 估计会误判。

4.3 DAG 设计规则

规则正确做法常见错误
先画业务因果,再画技术链路从 decision、workflow、outcome 画起从模型、API、向量库画起
明确 treatment assignment记录谁被分配、谁暴露、谁实际使用只有 usage log,无 assignment log
不控制 post-treatment mediatortotal effect 不控制 adoption、编辑率等后果变量为了“公平比较”控制了 AI 造成的行为变化
小心 collider不只分析完成、升级、投诉或点击样本只看投诉客户中的 AI 效果
记录不可观测混杂把无法测的因素写入 assumption register假装所有混杂都可被数据消除
将 DAG 与指标契约绑定每个节点有 metric、owner、sourceDAG 只是白板图,不进入数据需求

4.4 DAG 到产品 artifact 的映射

DAG 元素产品 artifact数据 artifact治理 artifact
TreatmentIntervention BriefAssignment / exposure logRelease gate
OutcomeOutcome TreeMetric contractBenefits register
ConfounderAssumption RegisterFeature / covariate definitionCausal review
MediatorMechanism hypothesisAdoption telemetryProduct learning memo
GuardrailRisk control mapGuardrail dashboardAI RMF Measure / Manage evidence
SpilloverRollout planContamination logExperiment stop rule

5. Experiment vs Quasi-Experiment

因果产品经理的首要判断是: 能否随机。能随机时,实验通常是最干净的证据;不能随机时,准实验必须有清楚假设、对照构造和敏感性分析。

5.1 方法选择矩阵

方法适用场景关键假设优点风险
User-level A/B test客户或员工可以独立分配SUTVA、无明显 spillover证据强、解释简单团队学习、合规限制、个体间污染
Case-level randomizationcase 可随机分配 AI 支持同一用户处理 control/treatment 不互相污染样本量大、上线快analyst 学习污染,case mix 需平衡
Cluster randomization团队、分行、市场为单位 rolloutcluster 可比较,cluster 内相关性处理降低污染样本量需求大,cluster 差异明显
Switchback test按时间窗口切换 treatment时间段可比较,无强 carryover适合运营队列、客服、路由季节性、业务量波动、学习效应
Stepped-wedge rollout分批随机上线上线顺序随机,趋势可建模兼顾公平和运营约束时间趋势和政策变化需控制
Encouragement design不强制使用,只随机提示或默认打开encouragement 只影响 outcome 通过 adoption适合不能强制 AI 使用估计的是 LATE,不是全量 ATE
Difference-in-Differences有 treatment / control 且可观察 pre/postparallel trends适合政策、地区、团队 rollout趋势不平行会误导
Synthetic control / CausalImpact单个市场、团队或产品发生干预control time series 未受影响,pre-period relationship stable适合一个对象上线或一次变更对照选择和结构稳定性敏感
Matching / weighting非随机观察数据no unobserved confounding可利用历史数据未观测混杂仍可能严重
Regression discontinuity明确阈值决定 treatment阈值附近对象可比局部因果证据强只解释阈值附近,不易外推

5.2 实验不是只看显著性

AI 产品实验要同时回答:

  • 实际业务 effect size 是否足够大。
  • guardrail 是否保持在可接受范围内。
  • treatment 是否改变了目标行为,而不是只改变 usage。
  • 效果是否集中在某些 segment。
  • scale 后单位成本、延迟、支持负担和风险是否改变。
  • 是否存在 learning、novelty、fatigue、automation bias。

5.3 准实验最低证据包

证据说明
Intervention registry干预时点、范围、treatment 定义、同时发生的流程/政策/人员变化
Control rationale为什么这个 control group 或 control time series 是可信反事实
Pre-trend evidence干预前 treatment 和 control 是否趋势相似
Placebo test在未干预时点或未受影响指标上不应看到假效果
Sensitivity analysis结果对窗口、对照、协变量、模型设定是否稳定
Guardrail analysis效率收益是否伴随质量、投诉、合规或公平恶化
Business interpretation估计效果如何转成可签字价值

5.4 实验设计中的 AI 特有问题

问题说明产品处理
Prompt / model drifttreatment 随模型版本变化versioned intervention,固定实验窗口或记录版本
Human learning用户从 AI 学到方法后影响 controlcluster design、washout、switchback 限制
Automation bias用户过度相信 AI 输出measure override、QA defect、confidence calibration
Cold start刚上线 adoption 低区分 ramp-up effect 和 steady-state effect
LLM latency / costtreatment 同时改变等待时间和成本latency/cost 作为 guardrail 和 unit economics
Policy guardrailAI 拒答或升级影响体验记录 refusal、handoff、escalation quality
Non-compliance用户绕过 AI 或只在简单 case 用 AIITT、TOT、per-protocol 分开报告

6. Synthetic Control / CausalImpact / DiD

6.1 CausalImpact / Synthetic Control

CausalImpact 思路适合评估某个明确时间点发生的干预,例如在一个客服市场上线客户-facing AI、在一个 AML team 上线 case copilot、在一个支付队列启用 AI dispute triage。核心是用未受影响的 control time series 构造干预后如果没有 AI 的 counterfactual。

设计项要求
Response series要评估的结果,如 daily complaints resolved、case hours、cost per case
Control series未受干预但与 response 在 pre-period 关系稳定的序列
Pre-period足够长,覆盖季节性和正常波动
Post-period从干预生效到评估截止,避免混入其他重大变更
Assumptioncontrol 未受 treatment 影响,pre-period relationship 在 post-period 仍稳定
Outputpointwise effect、cumulative effect、credible interval、assumption notes

适用场景:

  • 一个地区先上线 AI 客服,其余地区暂未上线。
  • 一个 AML 队列上线 AI summary,其余队列未上线。
  • 一个产品线启用 AI complaint classifier,其余产品线仍用旧流程。

不适用信号:

  • 所有地区同时上线,没有可用 control。
  • 干预同时伴随大规模流程、人员、政策变化。
  • control 也受到营销、培训、政策或容量重分配影响。
  • pre-period 太短或结构关系不稳定。

6.2 Difference-in-Differences

DiD 适合 treatment group 和 control group 都有干预前后数据,并且能合理相信如果没有 treatment,双方趋势会平行。

DiD estimate =
(Treatment post - Treatment pre)
- (Control post - Control pre)
产品问题DiD 设计
AI 投诉分类器是否降低升级率treatment: 上线产品线;control: 未上线产品线;outcome: escalation rate
Credit copilot 是否缩短 memo cycle timetreatment: pilot lending team;control: matched team;outcome: cycle time
Payment dispute automation 是否减少人工 touchestreatment: eligible dispute type;control: similar ineligible dispute type;outcome: touches per case

DiD 必须检查:

  • 干预前趋势是否平行,而不是只看 pre-period 平均值。
  • treatment 和 control 是否受到不同外部冲击。
  • case mix、volume、人员、渠道是否同时变化。
  • post-period 是否足够长以观察稳定效果。
  • 是否存在 anticipation effect,即用户提前改变行为。

6.3 CausalImpact vs DiD vs A/B

场景推荐方法理由
可随机分配用户或 caseA/B、cluster randomization最强 identification,解释清楚
一个市场/团队先上线Synthetic control / CausalImpact有时间序列和多个 control series
多个团队分批 rolloutDiD、staggered DiD、stepped-wedge可利用 pre/post 和 group difference
无法随机但有阈值Regression discontinuity阈值附近可比
目标是找谁最受益Uplift / CATE平均效果不足以做 targeting
历史观察数据且混杂可观测Matching / weighting / doubly robust需要严肃处理 selection bias

7. Uplift Modeling and Heterogeneous Treatment Effects

平均效果经常掩盖产品决策。一个 AI copilot 可能总体节省 4%,但在复杂 case 上节省 18%,在简单 case 上造成额外 review 成本;客户-facing AI 可能提升普通问题 FCR,但增加高风险投诉误导风险。

7.1 核心概念

概念含义产品问题
ATE全体平均 treatment effect是否总体值得投
ATT已接受 treatment 群体的平均效果当前使用者是否受益
CATE给定特征下的条件平均效果哪些 segment 最受益
HTEtreatment effect 在不同群体间的差异是否需要差异化 rollout
Uplifttreatment 相比不 treatment 的增量概率或价值该把 AI 给谁、不给谁
Treatment policy根据 uplift 和 guardrail 决定干预对象最优 rollout 策略是什么

7.2 Uplift 不等于 propensity

模型预测对象产品含义风险
Propensity model谁可能使用 AI、点击、投诉、违约行为倾向或风险预测高 propensity 不代表 treatment 有效
Outcome model谁可能有好结果结果预测不能说明 AI 是否造成结果
Uplift modeltreatment 对结果的增量影响谁因为 AI 介入而改变结果需要可信 treatment / control 数据
Policy model在成本和 guardrail 下选择 treatment资源分配和 rollout需要业务约束和风险门槛

7.3 Uplift 四象限

Segment特征产品策略
Persuadables有 AI 才明显改善优先 treatment,设计默认打开或强提示
Sure things有没有 AI 都表现好低成本 exposure 或不干预,避免浪费容量
Lost causes有没有 AI 都难改善回到流程、政策、数据或人工专家支持
Do-not-disturb / harmedAI 反而变差禁用、增加 guardrail、人工优先

7.4 HTE 在金融零售中的产品用法

场景HTE 维度可能发现产品决策
AML copilotalert type、analyst tenure、case complexity新 analyst 和复杂 case uplift 高对复杂 case 默认打开,对简单 case 轻提示
客服 AIintent、产品、客户脆弱性、渠道普通 FAQ uplift 高,高情绪投诉 risk 高普通问题自助,敏感投诉快速人工升级
Credit copilotloan type、policy exception、borrower profile标准贷款 memo 效率提升,例外审批无明显收益标准 memo draft,例外案例只做资料核对
Payment dispute automationdispute reason、金额、商户类型低金额重复争议 uplift 高,高金额争议 guardrail 差低风险自动 triage,高金额人工 review

7.5 Uplift 模型评估

指标用法
Qini curve看 targeting 排序是否比随机 treatment 更能捕获增量收益
AUUC比较 uplift policy 的整体增量收益
Calibration by segment检查预测 uplift 和实际 uplift 是否一致
Policy value在成本、容量、guardrail 下估计 treatment policy 的净价值
Segment guardrail确保某些 segment 没有被系统性伤害
Stability检查 uplift ranking 随时间、渠道、模型版本是否稳定

7.6 从 HTE 到产品策略

发现不成熟动作成熟动作
平均效果弱,但某 segment 强停项对高 uplift segment targeted rollout
平均效果强,但某 segment 被伤害全量上线exclude / guardrail / alternate workflow
高 uplift 但高成本全量上线用 capacity-constrained policy
uplift 集中在新员工做更多模型训练改 onboarding、training、manager coaching
uplift 随时间下降认为 AI 失效分析 novelty、learning、case mix、model drift

8. Measurement Architecture: 因果测量不是一个报表

8.1 参考架构

flowchart TB
  subgraph Product[AI Product Runtime]
    UI[User experience]
    AI[Model / RAG / agent]
    WF[Workflow system]
    TOOL[Tool gateway]
  end

  subgraph Causal[Causal Measurement Layer]
    ASSIGN[Assignment log]
    EXP[Exposure log]
    USE[Usage and action log]
    OUT[Outcome events]
    GUARD[Guardrail events]
    COST[Cost and latency log]
  end

  subgraph Data[Data and Metrics]
    SEM[Semantic layer]
    DAG[DAG / assumption registry]
    EXPER[Experiment registry]
    LEDGER[Benefits attribution ledger]
  end

  subgraph Governance[Governance]
    RISK[Risk gate]
    FIN[Finance sign-off]
    PORT[Portfolio funding gate]
    MON[Monitoring and incident loop]
  end

  UI --> AI
  AI --> WF
  AI --> TOOL
  UI --> EXP
  AI --> USE
  WF --> OUT
  TOOL --> OUT
  AI --> COST
  OUT --> SEM
  GUARD --> SEM
  ASSIGN --> EXPER
  EXP --> EXPER
  USE --> EXPER
  SEM --> LEDGER
  DAG --> EXPER
  LEDGER --> FIN
  SEM --> RISK
  RISK --> PORT
  FIN --> PORT
  PORT --> MON

8.2 必备数据对象

数据对象最小字段用途
Assignment logunit_id、assigned_arm、assignment_time、randomization_key、eligibility_version区分被分配和自愿使用
Exposure logunit_id、user_id、case_id、feature_visible、model_version、prompt_version、timestamp证明用户有机会接触 treatment
Usage loguser action、AI output viewed、draft accepted、edit distance、recommendation followed解释 adoption 和 mechanism
Workflow outcomecycle time、touches、reopen、SLA、resolution、loss、conversion业务结果
Guardrail eventcomplaint、QA defect、policy violation、unsafe output、override、escalation风险和质量控制
Cost logtoken cost、license、infra、human review minutes、support tickets单位经济
Context logretrieved docs、citations、tool calls、policy version、data freshness可审计性和 root cause
Intervention registrytreatment start/end、scope、rollout batch、simultaneous changes准实验和 portfolio evidence
Assumption registerDAG 假设、不可观测混杂、sensitivity plan因果解释边界
Benefits ledgerestimated effect、unit value、adjustments、confidence、finance owner价值签字

8.3 Metric Stack

Metric type例子OwnerGate 用法
Exposuretreatment exposure rate、eligible case coverageAI PM / product analytics低 exposure 时不能解释为产品无效
Adoptionactive usage、draft accepted、recommendation followedAI PM / ops解释 mechanism,但不等于 ROI
Workflowcycle time、touch time、queue time、handoff、reopenBusiness ops主要业务改善指标
QualityQA pass rate、defect severity、citation correctnessQA / risk / EvalOps不达标不能 scale
Customercomplaint rate、CSAT、FCR、escalation、vulnerable customer flagCX / compliance客户-facing AI 必备
Riskpolicy violation、unauthorized action、fairness slice、audit exceptionRisk / compliancehard stop 或 conditional release
Costcost per case、cost per resolved complaint、LLM spend per outcomeFinance / platform判断 unit economics
Portfoliovalue realized、payback、reuse rate、kill/scale ratioAI Value Officefunding gate

8.4 Guardrail Metrics

Guardrail 不是附属指标,而是 AI ROI 的约束条件。一个 intervention 只有在 guardrail 不恶化或被风险 owner 接受时才有资格报净价值。

Guardrail金融零售示例Hard stop 条件
Customer harm错误承诺费用减免、误导还款、错误拒绝投诉high-severity customer harm > 0
Compliance违反披露、KYC、AML、credit policyunauthorized regulated decision > 0
PrivacyPII 泄露、越权检索confirmed unauthorized data exposure > 0
Fairness某受保护或敏感 proxy segment 错误率显著恶化risk owner 未接受的 material disparity
QualityQA defect、错误引用、unsupported claimcritical defect rate 超过 release threshold
Operationsbacklog、reopen、manual override、incidentbacklog 或 rework 抵消效率收益
Model behaviorhallucination、prompt injection、tool misusecritical attack success > 0
Costtoken / human review / support costcost per value unit 超过 business case

9. Adoption and Value Attribution

9.1 Adoption 证据链

Assigned -> exposed -> used -> trusted -> acted -> workflow changed -> outcome changed -> value realized
层级指标解释
Assigned多少 eligible units 被分配到 treatmentITT 分析基础
Exposed用户是否看到 AI 或 treatment 是否生效避免把未暴露当失败
Used用户是否打开、读取、生成、调用adoption
Trusted用户是否采纳、编辑程度、override信任和可用性
Acted用户是否改变流程动作mechanism
Workflow changedcycle time、touches、quality 是否变化operational impact
Outcome changed投诉、损失、转化、风险是否变化business impact
Value realizedfinance 认可的金额或风险价值portfolio funding

9.2 价值归因公式

Value type基本公式必须调整
Labor productivitycausal minutes saved * fully loaded labor cost * adoption-adjusted volumeQA、rework、manager review、training、support
Loss avoidedcausal reduction in loss rate * exposure amountfalse positive cost、customer friction、model risk
Revenue upliftincremental conversion / retention * margincannibalization、discount、service cost
Risk reductioncausal reduction in defects / breaches * risk value不确定性、risk owner acceptance
Capacity releasecausal capacity freed * redeployed productive work是否真实减少 FTE 或吸收 backlog
Customer experiencecausal FCR / complaint reduction * customer valuefairness、vulnerable customer、escalation quality

建议用净值表达:

Risk-adjusted AI value =
incremental gross value
- AI run cost
- human review cost
- support and training cost
- incremental rework cost
- risk / customer harm adjustment
- platform allocation cost

9.3 ITT、TOT、Per-Protocol

分析口径含义适用决策
ITT按分配到 treatment 估计效果,无论是否实际使用rollout policy 和 portfolio funding 最重要
TOTtreatment 对实际使用者的效果理解功能潜力和 adoption gap
Per-protocol按符合预期使用方式的人/案例估计机制学习,但 selection bias 风险高
LATE对受 encouragement 影响而采用的人估计效果默认打开、提示、培训类干预

对高管汇报时,应同时说清:

  • ITT 是真实 rollout policy 的保守价值。
  • TOT 显示如果 adoption 提升可能达到的潜力。
  • Per-protocol 用于产品学习,不单独作为 ROI 签字依据。

9.4 Finance Sign-off 标准

标准需要证据
Baseline 明确干预前业务量、成本、质量、风险基线
Counterfactual 可信RCT、DiD、synthetic control、matching 或其他说明
Unit value 认可labor cost、loss、margin、risk value 由 finance / business owner 确认
Adoption 可持续不只看 launch week,至少覆盖稳定使用窗口
Guardrail 可接受风险 owner 接受 residual risk
Cost 完整模型、平台、review、support、training、change management
Attribution 清楚AI、流程、培训、政策变化拆分或说明不可拆分
Confidence 表达点估计、区间、敏感性、假设限制

10. Architecture and Product Mapping

10.1 Capability Map

Capability产品职责架构职责治理职责
Decision registry管理 AI 影响的决策点、owner、风险等级与 workflow / case system 关联形成 AI system inventory 和 materiality view
Intervention registry记录 treatment、rollout、版本、同时变更与 feature flag / experiment platform 集成支撑 audit 和 causal review
Experiment platform随机分配、分层、cluster、switchbackassignment service、feature flags、telemetry防止不合规实验和 uncontrolled rollout
Causal workbenchDAG、estimation、refutation、sensitivitynotebook / pipeline / model registrymodel risk / analytics review
Semantic metrics layer统一 outcome、guardrail、cost 口径metric registry、lineage、APIfinance / risk sign-off
EvalOps测 AI behavior qualitygolden sets、judge、red-team、release gatesNIST AI RMF Measure evidence
Observability监控 drift、cost、latency、incidenttraces、logs、alerts、dashboardsManage loop 和 incident response
Benefits ledger记录 estimated effect 和价值归因finance data mart、portfolio dashboardValue Office funding gate
Policy engine管理 eligibility、risk tier、guardrailrules、permissions、approval workflow合规和风险控制
Portfolio cockpitscale / stop / fund 决策视图汇总 use case evidenceexecutive governance

10.2 Decision Intelligence Stack

AI Product Layer
  - copilot, RAG, agent, automation, customer-facing AI

Workflow Layer
  - CRM, case management, LOS, AML system, dispute platform, contact center

Intervention Layer
  - feature flags, assignment, exposure, treatment version, rollout batch

Metric Layer
  - semantic metrics, guardrails, cost, adoption, outcomes

Causal Layer
  - DAG, identification, experiment, quasi-experiment, HTE, sensitivity

Governance Layer
  - AI RMF, risk gate, model risk, finance sign-off, portfolio funding

10.3 Build / Buy / Platform 判断

能力Point solution 可以接受平台化信号
Assignment logging单一低风险 pilot多 use case 需要统一随机、feature flag、rollout
Causal analysis一次性 analyst notebookValue Office 需要可复用 estimation pipeline 和 evidence pack
Benefits ledger单项目 spreadsheet多项目要 finance sign-off、portfolio dashboard
Guardrail dashboard单一产品局部看板多 AI 系统共享 risk taxonomy 和 incident thresholds
Uplift policy单个 campaign targeting多业务需要 treatment policy service
Causal DAG registry手工图material AI systems 需要 assumption traceability

10.4 与现有 AI 资产连接

相邻资产本手册如何承接
AI Transformation Value Office把 portfolio value proof 从 business case 估算升级为 causal attribution 和 finance sign-off
AI Semantic Layer / Metrics Architecture把 outcome、guardrail、cost、adoption 指标接入 metric contract 和 lineage
AI Requirements-to-Eval Cookbook将 AI behavior eval 与 downstream causal outcome 连接
AI Process Mining / Workflow Intelligence用 process baseline 和 event log 支撑 intervention design 和 ROI
AI Model Risk Management把 causal assumption、impact evidence、guardrail breach 纳入 model / AI risk evidence
AI Human Oversight / HITL把人工监督从控制设计转成可测 treatment 和 guardrail

11. Portfolio Funding Gates

AI Value Office 不应按“demo 是否令人印象深刻”拨款,而应按因果证据强度、风险控制和可扩张性分阶段拨款。

11.1 Stage Gates

Stage资金目标必备证据决策
Discovery证明问题值得测decision inventory、baseline、outcome tree、risk tier、data readinessfund causal design / stop / non-AI fix
Causal Design证明能识别效果DAG、intervention design、experiment/quasi plan、guardrails、sample sizingfund pilot / redesign / stop
Instrumented Pilot证明可用、可控、可测assignment/exposure logs、eval gate、workflow metrics、risk controlscontinue / limited release / stop
Impact Review证明增量效果ITT/TOT、counterfactual、guardrail、cost、sensitivityscale / segment rollout / redesign / stop
Scale Gate证明单位经济和运营能力HTE、policy targeting、support model、platform reuse、finance sign-offscale / platformize / cap expansion
Value Realization证明长期收益monthly benefits ledger、drift、adoption retention、risk incidentscontinue / optimize / retire

11.2 Funding Memo 标准

Section必须回答
Decision thesis这个 AI use case 改变哪个高价值决策
Interventiontreatment 是什么,哪些 arms,谁 eligible
Causal designRCT、cluster、switchback、DiD、CausalImpact、uplift 或组合方法
Baseline当前 volume、cost、quality、risk、cycle time
Value hypothesis预计 effect size、unit value、payback
Guardrails客户、合规、隐私、公平、质量、成本硬阈值
Data readinessassignment、exposure、outcome、guardrail 是否可采集
Architecture需要哪些平台能力、日志、metric、workflow integration
Risk tierautonomy、customer impact、regulatory sensitivity、reversibility
Stop / scale rule到什么证据继续、扩大、缩小或停止

11.3 Scale / Stop Rules

结果模式决策
正向 effect,guardrail 稳定,unit economics 成立scale,并进入 HTE targeting
平均 effect 弱,但某些 segment 强targeted rollout,不做全量
effect 正向但 guardrail 恶化暂停 scale,重设计 intervention 或控制
adoption 低但 TOT 强投资 UX、培训、默认设置或 workflow embedding
adoption 高但 ITT 弱停止或重新定义 value hypothesis
短期 effect 强,长期衰减检查 novelty、learning、drift、case mix
无法建立可信 counterfactual不签 ROI,只作为 exploratory evidence
成本随规模上升过快优化架构、routing、model mix 或限制 treatment

12. Financial Retail Cases

12.1 AML Analyst Productivity

维度设计
Decisionanalyst 是否升级 alert、补充证据、撰写 narrative
AI interventionAI 汇总交易、实体、历史 case、red flags,生成带引用的 narrative draft
Treatment unitanalyst team 或 case,优先 cluster randomization 以降低学习污染
Outcomehandling time、touches、evidence completeness、QA defect、SAR escalation timeliness
Guardrailmissed red flag、unsupported narrative、policy violation、privacy breach、SAR quality defect
Causal methodcluster RCT;如果先在一个队列上线,用 DiD 或 CausalImpact
HTEalert type、case complexity、analyst tenure、jurisdiction
Value attributionminutes saved * loaded cost + backlog reduction value - QA/rework/support/model cost
Scale rulecomplex alerts uplift > threshold,critical QA defect 不增加,analyst adoption 稳定

高级洞察:

  • 不要只报平均处理时长。AI 可能把 analyst 从简单 case 转向复杂 case,导致平均时长上升但风险覆盖改善。
  • SAR 决策必须保留人工责任边界,AI 输出是 evidence preparation 和 draft support。
  • 要区分 evidence gathering time、judgment time、narrative drafting time,否则无法优化 intervention。

12.2 Customer-Facing AI Complaints

维度设计
Decision客户问题是否自助解决、是否升级人工、是否触发投诉处理流程
AI intervention带政策引用和 eligibility guardrail 的 customer-facing AI
Treatment unitcustomer session、intent cluster、market 或 product line
Outcomefirst contact resolution、complaint rate、escalation accuracy、resolution time、CSAT
Guardrailwrong policy answer、vulnerable customer mishandling、unauthorized promise、regulatory complaint
Causal methoduser/session A/B;高风险场景使用 stepped rollout 和 strong guardrail
HTEintent type、customer vulnerability flag、product complexity、channel
Value attributionavoided agent contacts + faster resolution + complaint reduction - escalations/rework/model/support cost
Scale rule普通 intent uplift 明确,高风险投诉无 material harm,人工 handoff 质量达标

高级洞察:

  • 客户-facing AI 的 ROI 必须把错误回答、误升级、投诉再打开和监管投诉作为扣减项。
  • 对 vulnerable customer、金融困难、欺诈、投诉升级等 segment,平均效果没有意义,必须单独 guardrail。
  • AI 解释不能替代 policy owner 的正式承诺,引用和 refusal 策略是产品契约。

12.3 Credit Copilot

维度设计
Decisionunderwriter 是否需要补件、如何撰写 memo、如何识别 policy exception
AI intervention信贷资料摘要、policy citation、missing document checklist、memo draft
Treatment unitloan application、underwriter team、branch
Outcomememo cycle time、missing document rate、policy exception detection、approval package quality
Guardrailunauthorized credit decision、fair lending concern、wrong policy citation、adverse action leakage
Causal methodcase-level randomization with underwriter fixed effects;敏感场景优先 cluster 或 stepped-wedge
HTEloan type、borrower profile、exception complexity、underwriter tenure
Value attributioncycle time reduction + reduced rework + faster conversion - review/control/training cost
Scale rule不自动做授信决定,memo quality 和 fair treatment guardrail 稳定

高级洞察:

  • Credit copilot 的 treatment 应定位为 decision support,不应越界成最终 credit decision。
  • 需要把 scorecard、policy rule、AI memo、人工审批四者边界写清。
  • 对不同客户群体的错误率和补件建议必须做 slice guardrail,不能只看平均 memo 质量。

12.4 Payment Dispute Automation

维度设计
Decisiondispute 是否 eligible 自动分流、是否请求证据、是否发起 chargeback / representment
AI interventiondispute reason 分类、证据摘要、next action recommendation、低风险自动 triage
Treatment unitdispute case、merchant segment、reason code、queue
Outcometouches per case、cycle time、SLA breach、recovery rate、wrong action rate
Guardrailerroneous refund denial、network rule violation、customer complaint、merchant harm、reopen rate
Causal methodreason-code level randomized rollout;switchback 可用于队列 routing;DiD 用于分批队列上线
HTEamount band、reason code、merchant type、customer tenure、evidence completeness
Value attributionlabor reduction + avoided SLA penalties + recovery uplift - wrong action/reopen/review/model cost
Scale rule低金额、规则清晰、证据完整 segment 可自动化;高金额和规则冲突 segment 保留人工

高级洞察:

  • payment dispute 自动化的价值不是“自动处理率越高越好”,而是正确自动化率和错误成本之间的最优点。
  • 需要把 network rule、SLA、merchant evidence、customer communication 全部纳入 outcome 和 guardrail。
  • 自动化策略应由 uplift 和 risk segmentation 驱动,而不是按技术可行性全量推进。

13. Templates and Artifacts

13.1 Decision Intelligence Canvas

Block内容
Decision nameAML alert escalation / complaint routing / credit memo preparation / dispute triage
Business owner对结果和流程负责的人
Decision frequency日/周/月 volume
Current baselinecycle time、cost、quality、risk、customer impact
AI roleread / summarize / recommend / draft / act with approval / act autonomously
Treatment definitionAI 具体改变什么
Eligible population哪些用户、case、客户、团队、渠道进入
Outcome metrics主结果和次结果
Guardrail metricshard stop 和 monitoring
Causal designRCT、cluster、switchback、DiD、CausalImpact、uplift
Data readinessassignment、exposure、usage、outcome、guardrail、cost
Value hypothesiseffect size、unit value、cost、payback
Scale / stop rule继续、扩大、重设计或停止的证据

13.2 Causal DAG Spec

Section内容
Treatment nodeAI 干预和版本
Outcome node业务结果和指标口径
Confounders已知和潜在混杂
Mediatorsadoption、action、workflow change
Moderatorssegment、risk tier、complexity
Colliders to avoidclicked AI、escalated cases、completed cases only
Spillover pathsteam learning、queue redistribution、customer repeat contact
Assumptions可检验和不可检验假设
Identification估计策略和控制变量
Sensitivityplacebo、pre-trend、negative control、robustness checks

13.3 Experiment Design Brief

Section内容
HypothesisAI intervention 对哪个 outcome 有什么方向和大小的影响
Unit of randomizationuser、case、team、branch、market、time window
Armscontrol、AI info、AI draft、AI recommend、AI act-with-approval
Eligibility纳入和排除规则
Primary metric一个主 outcome
Secondary metricsadoption、mechanism、quality、cost
Guardrailshard stop 和 review thresholds
Sample and duration样本量逻辑、周期、seasonality
Analysis planITT、TOT、HTE、cluster adjustment、missing data
Operational planrollout、training、support、incident、rollback

13.4 Quasi-Experiment Brief

Section内容
Intervention event时间点、对象、范围、版本
Control construction未受影响 group / time series 的选择理由
Identification assumptionparallel trends、stable relationship、no spillover、threshold continuity
Pre-period diagnosticspre-trend、fit quality、seasonality、covariate balance
Post-period definition生效期、排除窗口、学习期
Robustnessplacebo date、placebo outcome、alternate controls、window sensitivity
Guardrail客户、风险、质量、成本同步检查
Decision outputscale、targeted rollout、redesign、stop

13.5 Uplift Policy Card

Section内容
Treatment policy谁接收 AI,谁不接收,谁接收弱干预
Target outcome要最大化的增量结果
Cost constraint每次 treatment 成本、容量、支持成本
Risk constraint哪些 segment 必须人工、禁用或加强 guardrail
Uplift model inputs可用且合规的 segment 特征
EvaluationQini、AUUC、policy value、calibration、segment guardrail
Monitoringuplift drift、segment harm、adoption decay、model version
Override policy业务 owner 何时能覆盖模型推荐

13.6 Value Attribution Ledger

Field内容
Use caseAI use case 名称
Decision impacted被改变的业务决策
Causal design识别方法
Estimated effect点估计和区间
Baseline volume可适用 volume
Adoption adjustmentexposure、usage、action taken
Unit valuefinance 认可单价
Gross value增量价值
Cost deductionsmodel、platform、review、training、support
Risk adjustmentguardrail breach、客户伤害、合规风险扣减
Net value风险调整后净值
Confidencehigh / medium / low,附假设
Sign-offbusiness、finance、risk、Value Office

13.7 Funding Gate Memo

Section内容
Recommendationfund / continue / scale / segment rollout / redesign / stop
Evidence summary3-5 条关键因果证据
Value summarynet value、payback、confidence
Risk summaryguardrail status、residual risk、risk owner decision
Architecture implications平台复用、成本、observability、security
Portfolio implications与其他 use cases 的依赖、冲突、复用
Decision rights谁批准资金、谁接受风险、谁对收益负责

14. 30-Day Causal Product Lab

目标: 30 天内产出一个可放入作品集的 AI Decision Intelligence case pack。建议选择一个金融零售场景,例如 AML copilot、客服 AI 投诉、credit copilot 或 payment dispute automation。

Day任务产出
1选择 use case,写清 business decision 和 AI roleDecision statement
2梳理 AS-IS workflow 和 decision pointsWorkflow decision map
3建立 baseline: volume、cost、cycle time、quality、riskBaseline table
4定义 outcome tree: value、quality、risk、adoption、costOutcome tree
5设计 AI intervention 和 treatment armsIntervention brief
6定义 eligible population、unit of assignment、unit of analysisEligibility and unit spec
7画第一版 causal DAGDAG v1
8标注 confounder、mediator、collider、moderatorAssumption register
9设计 assignment、exposure、usage、outcome 日志Telemetry spec
10定义主指标、次指标、guardrail metricsMetric contract
11判断能否随机实验Method decision memo
12如果能随机,写 A/B、cluster 或 switchback 设计Experiment brief
13如果不能随机,写 DiD、CausalImpact 或 synthetic control 设计Quasi-experiment brief
14设计 pre-trend、placebo、sensitivity checksRobustness plan
15设计 adoption analysis: ITT、TOT、per-protocolAdoption analysis plan
16设计 HTE / uplift segmentationUplift policy draft
17定义 cost model: model、platform、review、support、trainingUnit economics sheet
18建立 benefits attribution ledgerValue ledger
19设计 guardrail hard stops 和 incident pathGuardrail gate
20把 AI RMF Govern / Map / Measure / Manage 映射到 use caseRisk governance map
21写 architecture mapping: product runtime、metric layer、causal layerArchitecture map
22设计 portfolio funding gatesFunding gate table
23写 pilot gate memoPilot funding memo
24写 scale / stop rulesScale-stop decision rules
25完成金融零售案例叙事Case narrative
26准备 executive one-pageExecutive memo
27准备 interview STAR-T 答案Interview answer set
28自查: 是否有未完成项、未定义指标、无 owner、无 guardrailQuality review
29将材料整理成 portfolio packPortfolio evidence pack
30进行 20 分钟 mock interview 复盘Interview rehearsal notes

30 天交付包清单

Artifact验收标准
Decision Inventory至少 5 个决策点,标明 AI role 和 risk
Causal DAG包含 treatment、outcome、confounder、mediator、collider、moderator
Experiment / Quasi Brief方法选择有理由,假设和 robustness 清楚
Metric Contract主指标、次指标、guardrail、cost、adoption 都有 owner
Value Ledger有 effect、unit value、cost deduction、risk adjustment
Funding Memo能支持 fund / scale / stop 决策
Interview Answers能解释相关性不足、DAG、DiD、CausalImpact、uplift、guardrail、finance sign-off

15. Interview Answers

Q1: 为什么不能用上线前后指标改善证明 AI ROI?

30 秒回答: 上线前后改善只是相关性,不是因果证据。AI 上线通常伴随培训、流程变化、管理关注、季节性、case mix 和 adoption selection。如果没有 credible counterfactual,就不知道没有 AI 时指标会如何变化。我会先定义 decision 和 treatment,再用 randomized experiment;不能随机时用 DiD、synthetic control、CausalImpact 或 matching,并同步检查 guardrail 和成本,最后才让 finance sign off。

2 分钟回答:

  • 先看 AI 改变哪个业务决策,例如 AML analyst case summary 是否缩短 evidence gathering。
  • 再定义 treatment、eligible population、assignment 和 exposure。
  • 能随机就做 user / case / cluster A/B;不能随机就用 DiD 或 CausalImpact 构造反事实。
  • 同时看 guardrail,如 QA defect、投诉、合规违规、reopen、cost。
  • ROI 用 incremental effect * unit value - AI run cost - review/support/training cost - risk adjustment。

Q2: 什么时候用实验,什么时候用准实验?

30 秒回答: 能随机且风险可控时优先实验,因为 evidence 最清楚。不能随机通常是因为合规、公平、运营、平台能力或 rollout 约束,这时用准实验,但必须明确假设。一个团队先上线适合 CausalImpact / synthetic control;多团队分批上线适合 DiD 或 stepped-wedge;按阈值分配适合 regression discontinuity;如果重点是 targeting,则补 uplift / CATE。

追问准备:

追问回答要点
如果业务不允许 withholding 怎么办使用 stepped-wedge、encouragement design、默认打开随机、或先在低风险 segment 实验
准实验如何增强可信度pre-trend、placebo、alternate controls、sensitivity、guardrail、intervention registry
如果所有地区同时上线寻找未受影响 outcome、historical controls、synthetic controls;若无可信反事实,不签强 ROI

Q3: Causal DAG 对 AI PM 有什么实际价值?

30 秒回答: DAG 是产品假设和数据需求的地图。它告诉团队哪些变量是混杂需要控制,哪些是 AI 造成的 mediator 不应在 total effect 中控制,哪些样本选择会形成 collider bias。它还能把业务专家、数据科学、risk 和 finance 对“为什么这个 AI 应该产生价值”的假设写清楚。

2 分钟回答:

  • 对 AML copilot,case complexity 和 analyst seniority 可能同时影响是否使用 AI 和处理时长,是 confounders。
  • adoption 是 AI 的后果,是 mediator。估计 total effect 时控制 adoption 会低估 AI 的价值路径。
  • 只分析点击 AI 的人是 collider/selection problem。
  • DAG 最终会映射到 metric contract、experiment design、assumption register 和 sensitivity plan。

Q4: Uplift modeling 和普通预测模型有什么区别?

30 秒回答: 普通预测模型预测谁会有某个结果,uplift 模型预测“因为给了 treatment,结果会改变多少”。AI 产品里这非常关键,因为高风险客户或高复杂 case 不一定是最适合 AI 的对象。我们要找的是 persuadables,而不是本来就会成功的 sure things。

2 分钟回答:

  • Propensity model 预测谁会用 AI,不代表 AI 对他有效。
  • Outcome model 预测谁会成功,不代表 AI 造成成功。
  • Uplift / CATE 估计 treatment 与 no treatment 的差异。
  • 产品上可以用 uplift 决定哪些 case 默认打开 AI,哪些只给人工提示,哪些禁止自动化。
  • 评估用 Qini、AUUC、policy value、segment guardrail 和 calibration。

Q5: 如何向 CFO 证明 AI 节省成本?

30 秒回答: 我不会只报“节省小时数”。我会先建立 baseline 和 counterfactual,估计 incremental minutes saved,再用 finance 认可的 fully loaded cost 转换为 gross value,同时扣除模型、平台、人工审核、培训、支持和返工成本。只有 guardrail 没有不可接受恶化,并且业务 owner 确认释放的 capacity 被减少或重新部署,才进入 benefits ledger。

关键表达:

Net value =
causal effect * eligible volume * finance-approved unit value
- AI run cost
- human review / QA / support cost
- training and change cost
- rework and risk adjustment

Q6: AI adoption 很高但业务指标没改善,你怎么判断?

30 秒回答: 我会把 adoption 链路拆开: assigned、exposed、used、trusted、acted、workflow changed、outcome changed。高 adoption 可能只是用户打开了功能,但没有改变关键动作;也可能 AI 解决了局部任务但瓶颈在下游;还可能 metric 选错或 guardrail 抵消收益。我会做 mechanism analysis、process mining、HTE 和 guardrail 分析,再决定是改 UX、改 workflow、改 target segment 还是停项。

Q7: CausalImpact 的关键假设是什么?

30 秒回答: 核心是假设 control time series 没有受到 intervention 影响,并且 pre-period 中 control 与 treated series 的关系在 post-period 仍然稳定。产品上要做 control 选择说明、pre-period fit 检查、placebo date、alternate controls 和 sensitivity。否则漂亮的 counterfactual 图也不能支撑 ROI 签字。

Q8: AI guardrail metrics 如何进入 ROI?

30 秒回答: Guardrail 不是旁边的安全指标,而是 ROI 的约束和扣减。比如客服 AI 减少人工联系,但增加监管投诉或错误承诺,就不能报净收益。我的做法是把 hard stop guardrail 放入 release gate,把非致命风险转成 rework、赔付、投诉处理、人工审核或 risk adjustment,最终进入 benefits ledger。

Q9: 如何设计金融零售 AI 的 portfolio funding gate?

30 秒回答: 我会把资金分为 discovery、causal design、instrumented pilot、impact review、scale gate 和 value realization。每一关需要不同证据: baseline、DAG、experiment/quasi plan、assignment/exposure logs、guardrail、estimated effect、unit economics、finance sign-off。这样 portfolio 不是按 demo 热度投钱,而是按因果证据、风险控制和可规模化程度投钱。

Q10: Credit copilot 为什么不能只用模型准确率验收?

30 秒回答: 因为 credit copilot 的价值在 workflow 和 risk boundary 中产生。模型准确率只能说明输出接近标准答案,不能说明 memo cycle time 是否下降、补件质量是否提升、policy exception 是否更早发现,也不能说明是否引入 fair lending 或 unauthorized decision 风险。验收必须包含 causal outcome、guardrail、human oversight 和 finance value。


16. 高级自检清单

问题合格标准
是否定义了 AI 改变的业务决策有 decision owner、frequency、risk、AI role
是否有明确 treatmenttreatment arms、eligibility、assignment、exposure 清楚
是否有 counterfactualRCT 或准实验设计,不只 pre/post
是否画了 DAG混杂、mediator、collider、moderator、spillover 清楚
是否区分 adoption 和 impactadoption chain 与 business outcome 分开
是否有 guardrail客户、合规、隐私、公平、质量、成本都有阈值
是否有 HTE / uplift至少有 segment effect 或 targeting 思路
是否有 value ledgerfinance unit value、cost deduction、risk adjustment 清楚
是否有 funding gatefund / scale / stop 规则明确
是否能面试讲清能用一个金融零售案例解释从 decision 到 ROI 的完整链路

最终能力标准:

能把一个 AI use case 从“这个功能可能有用”提升为“这个 intervention 在这些人群、这些条件、这些风险约束下产生了可归因的增量价值,因此应该 scale / target / redesign / stop”。