AI 扩展计划 / Playbooks

AI BA / PM Practice Lab

AI 转型最缺的不是概念，而是把模糊诉求变成可执行决策的肌肉。

441 行AI_BA_PM_PRACTICE_LAB.md

AI BA / AI PM 实战演练实验室

面向金融零售 PM / BA / Developer，目标岗位包括 AI BA、AI PM、AI Solutions Architect。这不是阅读计划，而是把业务问题拆成 AI 方案、验证指标、治理机制和面试作品的练习场。

Why practice lab: from reading to decision muscle

AI 转型最缺的不是概念，而是把模糊诉求变成可执行决策的肌肉。阅读让你知道“RAG、Agent、Eval、Governance”这些词，练习让你能判断何时该用、何时不该用、怎么上线、怎么负责。金融零售场景尤其如此：一个错误建议可能影响客户权益、信贷风险、合规解释、反洗钱调查或运营资金。所以本实验室训练的核心不是 prompt，而是“业务判断 + 需求澄清 + AI 质量验证 + 风险控制 + 组织采用”。

每个练习必须产出 artifact，不能只写感想。推荐最小产出组合：

1 页问题定义。
1 页流程或决策图。
1 页需求与边界。
1 页 eval 与控制。
1 页 ROI 或 executive summary。

每次练习都问自己：

当前 baseline 是什么？
AI 介入哪一步，而不是介入全部流程？
输出由谁确认、谁拒绝、谁负责？
如何判断 AI 比现状更好？
出错时如何回退？
使用者为什么愿意采用？
业务价值能否用高层听得懂的方式表达？

练习目标：从“我了解 AI 产品”升级为“我能负责一个 AI 业务能力从定义到上线治理”。

Skill loops: problem framing, stakeholder interview, workflow modeling, requirement writing, eval design, risk control, adoption, ROI, executive communication

1. Problem framing

输出：一句话业务问题、现状 baseline、目标角色、失败成本、AI 适用边界。
关键问题：这是速度、质量、成本、风险、体验还是规模化问题？
练习标准：不允许写“提升效率”这种空话，必须说明从多少提升到多少。
反问：如果规则、搜索、BI 或流程优化就能解决，为什么还需要 AI？

2. Stakeholder interview

输出：stakeholder map、访谈问题、冲突点、待决策项。
典型对象：一线操作员、主管、合规、风控、数据、工程、财务、客服。
关键问题：谁使用、谁审批、谁承担风险、谁维护、谁为结果背书？
练习标准：至少写出 5 个痛点、5 个约束、3 个角色冲突。

3. Workflow modeling

输出：as-is 流程、to-be 流程、AI 触发点、人工复核点、异常回退路径。
关键问题：AI 输出进入流程后，下一步由谁处理？
练习标准：必须画出低置信度、无答案、系统失败、用户拒绝四类路径。
注意：金融场景里，责任链比聊天界面更重要。

4. Requirement writing

输出：业务目标、角色、输入、输出、规则、例外、权限、审计、验收标准、不做范围。
高质量写法：说明输入字段、输出 schema、置信度展示、纠错机制、人工确认点。
低质量写法：系统应支持智能分析、智能推荐、智能审核。
练习标准：工程、合规、测试都能据此行动。

5. Eval design

输出：baseline、golden set、离线 eval、在线 eval、业务 KPI、guardrail metrics、抽检方案。
常见指标：准确性、覆盖率、一致性、误报、漏报、延迟、成本、人工节省、投诉变化。
关键问题：模型指标和业务指标如何同时成立？
练习标准：能说清哪些指标触发暂停上线或回退。

6. Risk control

输出：风险登记表、等级、触发条件、控制措施、责任人、审批和回退。
风险类型：错误拒绝、错误放贷、合规误导、隐私泄露、偏见、越权、供应商失败。
关键问题：AI 是否影响客户权益、资金、合规结论或员工绩效？
练习标准：每个高风险输出都有人工复核和审计证据。

7. Adoption

输出：pilot 范围、培训、SOP、champion 用户、反馈渠道、采用率指标、30/60/90 天复盘。
关键问题：AI 是减少工作，还是增加核对负担？
练习标准：写出谁会抵触、为什么抵触、如何降低抵触。
注意：上线不是 adoption，使用稳定并产生业务结果才是 adoption。

8. ROI

输出：成本基线、价值来源、一次性投入、运营成本、节省、风险降低、收入增加、payback。
价值来源：减少处理时长、降低损失、减少处罚、提升转化、降低投诉、提高一致性。
关键问题：最保守、最可能、最乐观三种情景分别是什么？
练习标准：不用“AI 很先进”说服管理层，而用业务数字说服。

9. Executive communication

输出：3 分钟汇报稿：问题、方案、价值、风险、控制、pilot 请求、成功指标、下一步。
关键问题：你需要高层批准什么？
练习标准：先讲业务损耗，再讲 AI 能力；先讲控制边界，再讲自动化程度。
面试价值：这能展示你不是只懂需求文档，而是能推动决策。

20 case drills across financial retail and enterprise AI

使用方式：每个 drill 用 60-90 分钟完成第一版，用 30 分钟自评。每个 drill 必须包含：scenario、task、inputs provided、output artifact、success criteria、follow-up interview questions。

Drill 01: AML 可疑交易 triage 助手

Scenario：AML 团队每天收到大量 alerts，人工调查慢，误报率高。
Task：设计 AI triage 助手，汇总证据、解释风险、建议优先级，但不自动关闭案件。
Inputs provided：交易流水、客户信息、历史 SAR 标签、规则命中原因、调查员备注。
Output artifact：问题定义、to-be 流程、AI 输出模板、eval 指标。
Success criteria：明确辅助边界、误报漏报控制、审计证据和人工复核阈值。
Follow-up interview questions：低风险建议错了怎么办？如何证明 AI 没替代 AML officer？

Drill 02: KYC 文件审核与缺件识别

Scenario：开户材料常出现缺件、过期、字段不一致和上传质量差。
Task：设计 AI 审核助手，识别文件问题并生成客户或运营下一步提示。
Inputs provided：KYC checklist、文件样例、拒绝原因、渠道、平均审核时长。
Output artifact：需求说明、异常规则、提示文案、抽检方案。
Success criteria：覆盖 OCR 错误、隐私、客户体验、人工确认和拒绝边界。
Follow-up interview questions：哪些问题可自动提示客户？如何避免歧视性拒绝理由？

Drill 03: 小微信贷预审助手

Scenario：小微贷款需要快速判断是否进入人工审批队列。
Task：整合财务摘要、流水趋势、行业风险和还款历史，生成预审建议。
Inputs provided：申请表、流水摘要、征信指标、行业代码、历史审批结果。
Output artifact：决策辅助 PRD、风险控制矩阵、golden set 设计。
Success criteria：AI 只辅助不批贷，能解释公平性、坏账和业务增长取舍。
Follow-up interview questions：业务要求提高通过率时如何守住风险？如何解释增长与坏账？

Drill 04: 信用卡欺诈告警降噪

Scenario：实时欺诈规则告警过多，误拦截影响客户体验。
Task：设计 AI 排序层，建议风险优先级和客户验证方式。
Inputs provided：金额、商户、位置、设备、历史行为、规则命中记录。
Output artifact：流程图、分层验证策略、风险和体验 KPI。
Success criteria：平衡 false positive 和 fraud loss，定义高风险不可降级场景。
Follow-up interview questions：欺诈损失下降但投诉上升怎么办？海外旅行如何处理？

Drill 05: 客服对话总结与下一步建议

Scenario：客服通话后处理时间长，CRM 记录质量不稳定。
Task：自动总结对话、标记意图、建议下一步动作和合规提示。
Inputs provided：通话转写、CRM 字段、服务脚本、投诉分类、合规禁语。
Output artifact：输出 schema、agent desktop 需求、人工确认流程。
Success criteria：定义摘要质量 eval，处理转写错误和敏感信息。
Follow-up interview questions：如何衡量节省时间？摘要错误如何纠正并反馈？

Drill 06: 支付运营异常处理 copilot

Scenario：支付失败、清算差异、退款卡单需要跨系统排查。
Task：按交易号聚合状态、识别异常原因、推荐处理路径。
Inputs provided：网关日志、清算文件、退款记录、错误码、SLA。
Output artifact：操作流程、数据接口清单、异常分类、回退机制。
Success criteria：AI 不直接改账，能处理状态不一致和升级规则。
Follow-up interview questions：AI 建议退款但清算未确认怎么办？如何审计操作？

Drill 07: 合规变更影响分析助手

Scenario：监管新规发布后，需要判断影响哪些产品、流程、文案和系统。
Task：解析条款，映射内部制度和流程，生成影响清单。
Inputs provided：监管文件、制度库、产品清单、流程库、历史整改记录。
Output artifact：影响分析模板、RAG 检索策略、人工审核流程。
Success criteria：引用证据清晰，法律解释由合规确认，不让 AI 独立定性。
Follow-up interview questions：漏掉受影响流程怎么办？如何建立合规信任？

Drill 08: 内部知识助手 for frontline staff

Scenario：分行和客服频繁查询产品政策、费率、资格条件和 SOP。
Task：设计内部知识助手，回答问题并引用权威来源。
Inputs provided：产品手册、SOP、FAQ、政策版本、权限角色。
Output artifact：RAG 需求、权限模型、答案质量评估表。
Success criteria：处理版本冲突、权限隔离、拒答策略和引用证据。
Follow-up interview questions：员工问如何绕过检查怎么办？制度冲突时如何回答？

Drill 09: 企业 RAG 搜索质量提升

Scenario：知识库搜索已有，但员工抱怨找不到正确答案。
Task：从 query、chunking、rerank、生成和反馈闭环设计改善方案。
Inputs provided：搜索日志、点击率、无结果查询、文档结构、用户反馈。
Output artifact：搜索诊断报告、eval set、改进路线图。
Success criteria：区分检索失败和生成失败，定义 relevance 与业务指标。
Follow-up interview questions：满意度不够时补哪些指标？golden queries 如何构造？

Drill 10: Agent 工作流自动化 for dispute resolution

Scenario：银行卡争议处理涉及客户材料、商户、卡组织规则和内部审批。
Task：设计受控 agent workflow，整理证据、填写草稿、提醒节点，关键提交人工确认。
Inputs provided：争议类型、SLA、卡组织规则、材料清单、历史案件。
Output artifact：agent 状态机、工具权限、human-in-the-loop 设计。
Success criteria：定义 agent 可做与不可做，处理超时、工具失败和审批门。
Follow-up interview questions：调错系统怎么办？如何设计 kill switch 和 replay log？

Drill 11: AI 质量 dashboard

Scenario：多个部门上线 AI 助手，但没有统一质量监控。
Task：设计 dashboard，覆盖质量、风险、成本、采用、反馈和漂移。
Inputs provided：模型日志、用户反馈、抽检结果、成本、业务 KPI。
Output artifact：指标体系、dashboard 描述、告警规则。
Success criteria：区分模型质量、业务采用和风险红线。
Follow-up interview questions：一个“AI 成功率”为什么不够？哪些指标需按场景拆分？

Drill 12: 投诉分类与根因分析

Scenario：投诉来自电话、邮件、App 和社交渠道，分类不一致。
Task：设计 AI 分类和根因分析能力，帮助服务和产品团队发现系统性问题。
Inputs provided：投诉文本、现有分类、处理结果、产品线、监管标签。
Output artifact：taxonomy、模型评估方案、产品反馈流程。
Success criteria：处理多标签、低频严重问题、监管优先级和分类漂移。
Follow-up interview questions：严重投诉被归为普通咨询怎么办？抽检样本如何设计？

Drill 13: 个性化金融推荐合规控制

Scenario：银行希望推荐信用卡、理财、贷款或保险产品。
Task：设计推荐需求，确保适当性、解释、冷启动和合规边界。
Inputs provided：客户画像、资格条件、历史购买、风险等级、营销规则。
Output artifact：推荐策略 PRD、禁止推荐规则、A/B test 方案。
Success criteria：不只优化转化率，能设计 suitability controls 和可解释推荐。
Follow-up interview questions：高转化但不适合客户怎么办？如何衡量长期价值？

Drill 14: 分行销售辅导助手

Scenario：分行经理需要辅导客户经理提升交叉销售和合规话术。
Task：基于互动记录和业绩数据生成 coaching 建议。
Inputs provided：业绩、互动摘要、产品目标、合规话术、培训材料。
Output artifact：用户故事、数据权限方案、adoption plan。
Success criteria：避免变成员工监控，区分经理和员工可见信息。
Follow-up interview questions：员工抵触 AI 评分怎么办？哪些数据不能用于绩效？

Drill 15: 财务对账异常解释助手

Scenario：月末对账差异多，财务需要定位原因。
Task：聚合交易、发票、付款、调整分录，生成差异原因候选。
Inputs provided：总账、子账、发票、付款流水、调整规则、历史原因。
Output artifact：数据映射表、异常解释模板、审批流程。
Success criteria：AI 不直接过账，证据链可审计，能处理数据质量问题。
Follow-up interview questions：证据不足如何展示？如何避免过度信任？

Drill 16: IT helpdesk agent

Scenario：IT 工单量大，重复问题多，权限申请慢。
Task：回答常见问题、收集诊断信息、创建工单、引导审批。
Inputs provided：工单历史、知识库、权限矩阵、系统状态、SLA。
Output artifact：conversation flow、工具权限清单、SLA 指标。
Success criteria：不绕过审批，处理身份验证、越权和失败转人工。
Follow-up interview questions：高权限账号重置怎么办？如何防 prompt injection？

Drill 17: 采购合同审阅助手

Scenario：采购和法务需审阅供应商合同，识别风险条款和模板偏离。
Task：标记责任限制、数据处理、续约、终止、赔偿和审计权条款。
Inputs provided：标准条款库、合同文本、风险等级、谈判记录、审批矩阵。
Output artifact：风险标注 schema、legal review workflow、供应商风险报告。
Success criteria：AI 不提供最终法律意见，引用条款位置，区分建议和强制审批。
Follow-up interview questions：扫描件 OCR 不稳定怎么办？哪些条款必须二审？

Drill 18: HR 政策问答与敏感升级

Scenario：员工询问假期、福利、绩效、离职和申诉政策。
Task：回答政策问题，并识别敏感场景升级给 HR。
Inputs provided：员工手册、地区政策、员工角色、HR tickets、敏感分类。
Output artifact：回答边界、升级规则、隐私控制方案。
Success criteria：处理地区差异、拒答、情绪化表达和不当承诺风险。
Follow-up interview questions：员工说遭遇歧视时怎么答？如何记录又保护隐私？

Drill 19: 模型供应商评估与 build vs buy

Scenario：公司要选择大模型供应商或自建方案，业务只关注 demo。
Task：设计评估框架，覆盖能力、成本、数据、合规、延迟、可用性、退出机制。
Inputs provided：供应商报价、PoC 结果、数据分类、现有架构、使用量预估。
Output artifact：build vs buy matrix、采购评估表、决策备忘录。
Success criteria：加入 TCO、锁定风险、数据驻留、SLA 和可替换性。
Follow-up interview questions：最佳模型不合规怎么办？如何避免供应商锁定？

Drill 20: AI 产品上线治理委员会

Scenario：多个 AI 项目并行推进，但缺少统一上线门禁和责任机制。
Task：设计 AI governance operating model，定义评审、分级、门禁和持续监控。
Inputs provided：AI 项目清单、风险等级、部门职责、变更流程、审计要求。
Output artifact：治理流程、RACI、上线 checklist、例外审批机制。
Success criteria：按风险分级治理，连接监控、审计和 incident response。
Follow-up interview questions：业务嫌治理慢怎么办？哪些项目可走轻量流程？

Weekly practice cadence: 2h/day, 5 days/week, for 12 weeks

每天 2 小时固定节奏：

00:00-00:15：读案例，补充合理假设。
00:15-00:35：写问题定义和 stakeholder map。
00:35-01:00：画流程或决策路径。
01:00-01:25：写需求、控制或 eval。
01:25-01:45：写 executive summary。
01:45-02:00：按 rubric 自评并记录改进点。

12 周安排：

Week 1：AML、KYC、客服总结，重点练 AI BA 问题定义。
Week 2：信贷、欺诈、合规变更，重点练风险和人工复核。
Week 3：内部知识助手、RAG 搜索，重点练检索质量和引用证据。
Week 4：争议处理 agent、IT helpdesk，重点练工具权限和状态机。
Week 5：AI quality dashboard、个性化推荐，重点练 AI PM 指标。
Week 6：支付运营、投诉根因、财务对账，重点练 ops ROI。
Week 7：销售辅导、HR 政策，重点练 adoption 和组织阻力。
Week 8：供应商评估、AI 治理，重点练 build vs buy 和门禁。
Week 9：选择 3 个案例扩写成 portfolio one-pager。
Week 10：同一案例分别用 AI BA、AI PM、AI Architect 视角回答。
Week 11：给 portfolio 加事故场景、漂移场景、数据质量场景。
Week 12：整理面试故事库，完成 3 分钟和 15 分钟版本。

每周五必须完成一次复盘：

本周最强 artifact 是什么？
哪个案例最能体现你的金融零售背景？
哪个案例的 eval 最弱？
哪个案例的 adoption 计划最不可信？
下周要补哪个能力环节？

Rubrics for grading your own output: BA clarity, PM judgment, architecture awareness, eval rigor, governance awareness, business value

每个维度 1-5 分，总分 30 分。 18 分以下：重写。 18-23 分：练习记录。 24-27 分：可做面试案例。 28-30 分：可转 portfolio asset。

BA clarity

1 分：复述需求，没有定义问题。
3 分：能说明角色、流程、输入输出和验收标准。
5 分：能把模糊诉求转成可执行、可测试、可审计的需求。

PM judgment

1 分：把 AI 当目标。
3 分：能说明目标用户、价值和 MVP 范围。
5 分：能给出 product bet、guardrails、pilot 和迭代路线。

Architecture awareness

1 分：只说模型。
3 分：能描述数据流、集成点、权限和日志。
5 分：能设计可替换、可监控、可回退、可审计的 AI 架构。

Eval rigor

1 分：没有 eval。
3 分：有 golden set、人工抽检和业务指标。
5 分：能把 eval 连接到上线门禁、持续监控和业务复盘。

Governance awareness

1 分：没有控制。
3 分：有风险清单、审批和审计。
5 分：能整合模型风险、数据隐私、合规、供应商和运营责任。

Business value

1 分：价值空泛。
3 分：能量化时间、成本或质量改善。
5 分：能用 ROI、敏感性分析和 executive story 支撑决策。

Shadow interview mode: how to answer as AI BA vs AI PM vs AI Architect

As AI BA

重点：问题澄清、访谈、流程建模、需求边界、验收标准。
结构：baseline -> stakeholder -> as-is pain point -> to-be flow -> requirements -> exceptions。
代表句：“我先确认这个流程中哪类判断最耗时、最不一致、最能被证据化。”

As AI PM

重点：机会判断、用户价值、业务价值、MVP、指标、adoption。
结构：pain -> target user -> product bet -> MVP -> metrics -> pilot -> iteration。
代表句：“我把 AI 当成提升决策质量和流程吞吐的产品能力，而不是单独上线聊天框。”

As AI Architect

重点：系统边界、数据流、模型、RAG、agent tools、权限、日志、监控、回退。
结构：capability -> data -> orchestration -> controls -> observability -> cost -> replaceability。
代表句：“我会把 AI 设计成受控系统能力：输入可追溯，输出可评估，操作可审批，异常可回退。”

三种回答都要避免只讲模型名称。面试官更想听你如何控制风险、证明价值、推动采用。

Portfolio conversion: when a practice drill becomes a portfolio asset

一个 drill 满足以下条件时，可以转成 portfolio：

有清晰业务问题和 baseline。
有 stakeholder、现状流程和目标流程。
有需求、边界和不做范围。
有 eval，不只写准确率。
有风险控制、人工复核和审计。
有 adoption plan 和 ROI。
有 trade-off，不假装全自动无风险。
能讲 30 秒、3 分钟、15 分钟三个版本。

Anti-patterns: vague user stories, no baseline, no eval, no control, no owner, no adoption plan

Vague user stories：不要写“智能分析风险”，要写角色、输入、输出、判断、下一步。
No baseline：不要写“提高效率”，要写当前耗时、错误率、成本或投诉率。
No eval：不要只看用户反馈，要有 golden set、抽检、业务 KPI 和 guardrails。
No control：不要让 AI 直接影响客户权益、资金或合规结论，必须有审批边界。
No owner：不要写“业务和技术共同负责”，要写 product、business、model、compliance、ops owner。
No adoption plan：不要以为上线等于采用，要有 pilot、培训、反馈和采用率。
Prompt-only thinking：prompt 是接口，不是方案；方案还包括数据、流程、eval、监控和治理。
Demo success equals production readiness：PoC 成功不代表能上线，还要验证数据覆盖、SLA、成本和回退。
Over-automation：越高风险越需要 human-in-the-loop，不要为了炫技牺牲责任链。
No executive ask：汇报最后必须说明你需要批准什么、资源是什么、何时复盘。

30 reusable prompts/questions for self-practice, but avoid making it only prompt engineering

这些问题用于训练思考，不是把工作简化为 prompt。每次练习任选 5-8 个问题回答。

这个 AI 场景解决的具体业务损耗是什么？
当前 baseline 是什么，数据从哪里来？
如果不用 AI，最好的非 AI 方案是什么？
哪些判断必须保留人工？
失败成本是什么，谁承担？
谁是 daily user、decision maker、risk owner？
哪些 stakeholder 的目标冲突？
一线人员现在如何绕过流程或补救问题？
合规或风控最可能反对什么？
谁会因为 AI 上线而改变工作方式？
当前流程哪一步最耗时？
当前流程哪一步最容易出错？
AI 输出由谁确认、修改或拒绝？
低置信度、无答案、工具失败时怎么走？
审计人员如何还原一次 AI 辅助决策？
输入字段、来源和更新频率是什么？
输出应该是文本、结构化字段、评分、建议还是操作草稿？
用户如何纠错，纠错如何进入反馈闭环？
哪些场景必须拒答或升级？
MVP 明确不做什么？
Golden set 覆盖哪些正常、异常和高风险样本？
只看准确率会遗漏什么？
业务 KPI 和模型 KPI 如何同时设计？
上线后如何监控漂移、成本和采用率？
哪个指标触发 kill switch？
涉及哪些隐私、合规、公平性或供应商风险？
哪些输出需要引用证据？
谁有权批准上线，谁有权暂停系统？
RACI 如何避免“大家负责”等于无人负责？
如果发生错误建议或错误操作，incident response 怎么做？

使用方式总结

每个 drill 完成后压缩成三层表达：

30 秒版本：问题、方案、价值。
3 分钟版本：问题、方案、控制、指标、下一步。
15 分钟版本：流程、需求、eval、治理、ROI、trade-off。

最终目标不是“学会 AI 术语”，而是能负责一个 AI 业务能力从问题定义到上线治理的全过程。