AI BA / PM Practice Lab
AI 转型最缺的不是概念,而是把模糊诉求变成可执行决策的肌肉。
AI BA / AI PM 实战演练实验室
面向金融零售 PM / BA / Developer,目标岗位包括 AI BA、AI PM、AI Solutions Architect。 这不是阅读计划,而是把业务问题拆成 AI 方案、验证指标、治理机制和面试作品的练习场。
Why practice lab: from reading to decision muscle
AI 转型最缺的不是概念,而是把模糊诉求变成可执行决策的肌肉。 阅读让你知道“RAG、Agent、Eval、Governance”这些词,练习让你能判断何时该用、何时不该用、怎么上线、怎么负责。 金融零售场景尤其如此:一个错误建议可能影响客户权益、信贷风险、合规解释、反洗钱调查或运营资金。 所以本实验室训练的核心不是 prompt,而是“业务判断 + 需求澄清 + AI 质量验证 + 风险控制 + 组织采用”。
每个练习必须产出 artifact,不能只写感想。 推荐最小产出组合:
- 1 页问题定义。
- 1 页流程或决策图。
- 1 页需求与边界。
- 1 页 eval 与控制。
- 1 页 ROI 或 executive summary。
每次练习都问自己:
- 当前 baseline 是什么?
- AI 介入哪一步,而不是介入全部流程?
- 输出由谁确认、谁拒绝、谁负责?
- 如何判断 AI 比现状更好?
- 出错时如何回退?
- 使用者为什么愿意采用?
- 业务价值能否用高层听得懂的方式表达?
练习目标:从“我了解 AI 产品”升级为“我能负责一个 AI 业务能力从定义到上线治理”。
Skill loops: problem framing, stakeholder interview, workflow modeling, requirement writing, eval design, risk control, adoption, ROI, executive communication
1. Problem framing
- 输出:一句话业务问题、现状 baseline、目标角色、失败成本、AI 适用边界。
- 关键问题:这是速度、质量、成本、风险、体验还是规模化问题?
- 练习标准:不允许写“提升效率”这种空话,必须说明从多少提升到多少。
- 反问:如果规则、搜索、BI 或流程优化就能解决,为什么还需要 AI?
2. Stakeholder interview
- 输出:stakeholder map、访谈问题、冲突点、待决策项。
- 典型对象:一线操作员、主管、合规、风控、数据、工程、财务、客服。
- 关键问题:谁使用、谁审批、谁承担风险、谁维护、谁为结果背书?
- 练习标准:至少写出 5 个痛点、5 个约束、3 个角色冲突。
3. Workflow modeling
- 输出:as-is 流程、to-be 流程、AI 触发点、人工复核点、异常回退路径。
- 关键问题:AI 输出进入流程后,下一步由谁处理?
- 练习标准:必须画出低置信度、无答案、系统失败、用户拒绝四类路径。
- 注意:金融场景里,责任链比聊天界面更重要。
4. Requirement writing
- 输出:业务目标、角色、输入、输出、规则、例外、权限、审计、验收标准、不做范围。
- 高质量写法:说明输入字段、输出 schema、置信度展示、纠错机制、人工确认点。
- 低质量写法:系统应支持智能分析、智能推荐、智能审核。
- 练习标准:工程、合规、测试都能据此行动。
5. Eval design
- 输出:baseline、golden set、离线 eval、在线 eval、业务 KPI、guardrail metrics、抽检方案。
- 常见指标:准确性、覆盖率、一致性、误报、漏报、延迟、成本、人工节省、投诉变化。
- 关键问题:模型指标和业务指标如何同时成立?
- 练习标准:能说清哪些指标触发暂停上线或回退。
6. Risk control
- 输出:风险登记表、等级、触发条件、控制措施、责任人、审批和回退。
- 风险类型:错误拒绝、错误放贷、合规误导、隐私泄露、偏见、越权、供应商失败。
- 关键问题:AI 是否影响客户权益、资金、合规结论或员工绩效?
- 练习标准:每个高风险输出都有人工复核和审计证据。
7. Adoption
- 输出:pilot 范围、培训、SOP、champion 用户、反馈渠道、采用率指标、30/60/90 天复盘。
- 关键问题:AI 是减少工作,还是增加核对负担?
- 练习标准:写出谁会抵触、为什么抵触、如何降低抵触。
- 注意:上线不是 adoption,使用稳定并产生业务结果才是 adoption。
8. ROI
- 输出:成本基线、价值来源、一次性投入、运营成本、节省、风险降低、收入增加、payback。
- 价值来源:减少处理时长、降低损失、减少处罚、提升转化、降低投诉、提高一致性。
- 关键问题:最保守、最可能、最乐观三种情景分别是什么?
- 练习标准:不用“AI 很先进”说服管理层,而用业务数字说服。
9. Executive communication
- 输出:3 分钟汇报稿:问题、方案、价值、风险、控制、pilot 请求、成功指标、下一步。
- 关键问题:你需要高层批准什么?
- 练习标准:先讲业务损耗,再讲 AI 能力;先讲控制边界,再讲自动化程度。
- 面试价值:这能展示你不是只懂需求文档,而是能推动决策。
20 case drills across financial retail and enterprise AI
使用方式:每个 drill 用 60-90 分钟完成第一版,用 30 分钟自评。 每个 drill 必须包含:scenario、task、inputs provided、output artifact、success criteria、follow-up interview questions。
Drill 01: AML 可疑交易 triage 助手
- Scenario:AML 团队每天收到大量 alerts,人工调查慢,误报率高。
- Task:设计 AI triage 助手,汇总证据、解释风险、建议优先级,但不自动关闭案件。
- Inputs provided:交易流水、客户信息、历史 SAR 标签、规则命中原因、调查员备注。
- Output artifact:问题定义、to-be 流程、AI 输出模板、eval 指标。
- Success criteria:明确辅助边界、误报漏报控制、审计证据和人工复核阈值。
- Follow-up interview questions:低风险建议错了怎么办?如何证明 AI 没替代 AML officer?
Drill 02: KYC 文件审核与缺件识别
- Scenario:开户材料常出现缺件、过期、字段不一致和上传质量差。
- Task:设计 AI 审核助手,识别文件问题并生成客户或运营下一步提示。
- Inputs provided:KYC checklist、文件样例、拒绝原因、渠道、平均审核时长。
- Output artifact:需求说明、异常规则、提示文案、抽检方案。
- Success criteria:覆盖 OCR 错误、隐私、客户体验、人工确认和拒绝边界。
- Follow-up interview questions:哪些问题可自动提示客户?如何避免歧视性拒绝理由?
Drill 03: 小微信贷预审助手
- Scenario:小微贷款需要快速判断是否进入人工审批队列。
- Task:整合财务摘要、流水趋势、行业风险和还款历史,生成预审建议。
- Inputs provided:申请表、流水摘要、征信指标、行业代码、历史审批结果。
- Output artifact:决策辅助 PRD、风险控制矩阵、golden set 设计。
- Success criteria:AI 只辅助不批贷,能解释公平性、坏账和业务增长取舍。
- Follow-up interview questions:业务要求提高通过率时如何守住风险?如何解释增长与坏账?
Drill 04: 信用卡欺诈告警降噪
- Scenario:实时欺诈规则告警过多,误拦截影响客户体验。
- Task:设计 AI 排序层,建议风险优先级和客户验证方式。
- Inputs provided:金额、商户、位置、设备、历史行为、规则命中记录。
- Output artifact:流程图、分层验证策略、风险和体验 KPI。
- Success criteria:平衡 false positive 和 fraud loss,定义高风险不可降级场景。
- Follow-up interview questions:欺诈损失下降但投诉上升怎么办?海外旅行如何处理?
Drill 05: 客服对话总结与下一步建议
- Scenario:客服通话后处理时间长,CRM 记录质量不稳定。
- Task:自动总结对话、标记意图、建议下一步动作和合规提示。
- Inputs provided:通话转写、CRM 字段、服务脚本、投诉分类、合规禁语。
- Output artifact:输出 schema、agent desktop 需求、人工确认流程。
- Success criteria:定义摘要质量 eval,处理转写错误和敏感信息。
- Follow-up interview questions:如何衡量节省时间?摘要错误如何纠正并反馈?
Drill 06: 支付运营异常处理 copilot
- Scenario:支付失败、清算差异、退款卡单需要跨系统排查。
- Task:按交易号聚合状态、识别异常原因、推荐处理路径。
- Inputs provided:网关日志、清算文件、退款记录、错误码、SLA。
- Output artifact:操作流程、数据接口清单、异常分类、回退机制。
- Success criteria:AI 不直接改账,能处理状态不一致和升级规则。
- Follow-up interview questions:AI 建议退款但清算未确认怎么办?如何审计操作?
Drill 07: 合规变更影响分析助手
- Scenario:监管新规发布后,需要判断影响哪些产品、流程、文案和系统。
- Task:解析条款,映射内部制度和流程,生成影响清单。
- Inputs provided:监管文件、制度库、产品清单、流程库、历史整改记录。
- Output artifact:影响分析模板、RAG 检索策略、人工审核流程。
- Success criteria:引用证据清晰,法律解释由合规确认,不让 AI 独立定性。
- Follow-up interview questions:漏掉受影响流程怎么办?如何建立合规信任?
Drill 08: 内部知识助手 for frontline staff
- Scenario:分行和客服频繁查询产品政策、费率、资格条件和 SOP。
- Task:设计内部知识助手,回答问题并引用权威来源。
- Inputs provided:产品手册、SOP、FAQ、政策版本、权限角色。
- Output artifact:RAG 需求、权限模型、答案质量评估表。
- Success criteria:处理版本冲突、权限隔离、拒答策略和引用证据。
- Follow-up interview questions:员工问如何绕过检查怎么办?制度冲突时如何回答?
Drill 09: 企业 RAG 搜索质量提升
- Scenario:知识库搜索已有,但员工抱怨找不到正确答案。
- Task:从 query、chunking、rerank、生成和反馈闭环设计改善方案。
- Inputs provided:搜索日志、点击率、无结果查询、文档结构、用户反馈。
- Output artifact:搜索诊断报告、eval set、改进路线图。
- Success criteria:区分检索失败和生成失败,定义 relevance 与业务指标。
- Follow-up interview questions:满意度不够时补哪些指标?golden queries 如何构造?
Drill 10: Agent 工作流自动化 for dispute resolution
- Scenario:银行卡争议处理涉及客户材料、商户、卡组织规则和内部审批。
- Task:设计受控 agent workflow,整理证据、填写草稿、提醒节点,关键提交人工确认。
- Inputs provided:争议类型、SLA、卡组织规则、材料清单、历史案件。
- Output artifact:agent 状态机、工具权限、human-in-the-loop 设计。
- Success criteria:定义 agent 可做与不可做,处理超时、工具失败和审批门。
- Follow-up interview questions:调错系统怎么办?如何设计 kill switch 和 replay log?
Drill 11: AI 质量 dashboard
- Scenario:多个部门上线 AI 助手,但没有统一质量监控。
- Task:设计 dashboard,覆盖质量、风险、成本、采用、反馈和漂移。
- Inputs provided:模型日志、用户反馈、抽检结果、成本、业务 KPI。
- Output artifact:指标体系、dashboard 描述、告警规则。
- Success criteria:区分模型质量、业务采用和风险红线。
- Follow-up interview questions:一个“AI 成功率”为什么不够?哪些指标需按场景拆分?
Drill 12: 投诉分类与根因分析
- Scenario:投诉来自电话、邮件、App 和社交渠道,分类不一致。
- Task:设计 AI 分类和根因分析能力,帮助服务和产品团队发现系统性问题。
- Inputs provided:投诉文本、现有分类、处理结果、产品线、监管标签。
- Output artifact:taxonomy、模型评估方案、产品反馈流程。
- Success criteria:处理多标签、低频严重问题、监管优先级和分类漂移。
- Follow-up interview questions:严重投诉被归为普通咨询怎么办?抽检样本如何设计?
Drill 13: 个性化金融推荐合规控制
- Scenario:银行希望推荐信用卡、理财、贷款或保险产品。
- Task:设计推荐需求,确保适当性、解释、冷启动和合规边界。
- Inputs provided:客户画像、资格条件、历史购买、风险等级、营销规则。
- Output artifact:推荐策略 PRD、禁止推荐规则、A/B test 方案。
- Success criteria:不只优化转化率,能设计 suitability controls 和可解释推荐。
- Follow-up interview questions:高转化但不适合客户怎么办?如何衡量长期价值?
Drill 14: 分行销售辅导助手
- Scenario:分行经理需要辅导客户经理提升交叉销售和合规话术。
- Task:基于互动记录和业绩数据生成 coaching 建议。
- Inputs provided:业绩、互动摘要、产品目标、合规话术、培训材料。
- Output artifact:用户故事、数据权限方案、adoption plan。
- Success criteria:避免变成员工监控,区分经理和员工可见信息。
- Follow-up interview questions:员工抵触 AI 评分怎么办?哪些数据不能用于绩效?
Drill 15: 财务对账异常解释助手
- Scenario:月末对账差异多,财务需要定位原因。
- Task:聚合交易、发票、付款、调整分录,生成差异原因候选。
- Inputs provided:总账、子账、发票、付款流水、调整规则、历史原因。
- Output artifact:数据映射表、异常解释模板、审批流程。
- Success criteria:AI 不直接过账,证据链可审计,能处理数据质量问题。
- Follow-up interview questions:证据不足如何展示?如何避免过度信任?
Drill 16: IT helpdesk agent
- Scenario:IT 工单量大,重复问题多,权限申请慢。
- Task:回答常见问题、收集诊断信息、创建工单、引导审批。
- Inputs provided:工单历史、知识库、权限矩阵、系统状态、SLA。
- Output artifact:conversation flow、工具权限清单、SLA 指标。
- Success criteria:不绕过审批,处理身份验证、越权和失败转人工。
- Follow-up interview questions:高权限账号重置怎么办?如何防 prompt injection?
Drill 17: 采购合同审阅助手
- Scenario:采购和法务需审阅供应商合同,识别风险条款和模板偏离。
- Task:标记责任限制、数据处理、续约、终止、赔偿和审计权条款。
- Inputs provided:标准条款库、合同文本、风险等级、谈判记录、审批矩阵。
- Output artifact:风险标注 schema、legal review workflow、供应商风险报告。
- Success criteria:AI 不提供最终法律意见,引用条款位置,区分建议和强制审批。
- Follow-up interview questions:扫描件 OCR 不稳定怎么办?哪些条款必须二审?
Drill 18: HR 政策问答与敏感升级
- Scenario:员工询问假期、福利、绩效、离职和申诉政策。
- Task:回答政策问题,并识别敏感场景升级给 HR。
- Inputs provided:员工手册、地区政策、员工角色、HR tickets、敏感分类。
- Output artifact:回答边界、升级规则、隐私控制方案。
- Success criteria:处理地区差异、拒答、情绪化表达和不当承诺风险。
- Follow-up interview questions:员工说遭遇歧视时怎么答?如何记录又保护隐私?
Drill 19: 模型供应商评估与 build vs buy
- Scenario:公司要选择大模型供应商或自建方案,业务只关注 demo。
- Task:设计评估框架,覆盖能力、成本、数据、合规、延迟、可用性、退出机制。
- Inputs provided:供应商报价、PoC 结果、数据分类、现有架构、使用量预估。
- Output artifact:build vs buy matrix、采购评估表、决策备忘录。
- Success criteria:加入 TCO、锁定风险、数据驻留、SLA 和可替换性。
- Follow-up interview questions:最佳模型不合规怎么办?如何避免供应商锁定?
Drill 20: AI 产品上线治理委员会
- Scenario:多个 AI 项目并行推进,但缺少统一上线门禁和责任机制。
- Task:设计 AI governance operating model,定义评审、分级、门禁和持续监控。
- Inputs provided:AI 项目清单、风险等级、部门职责、变更流程、审计要求。
- Output artifact:治理流程、RACI、上线 checklist、例外审批机制。
- Success criteria:按风险分级治理,连接监控、审计和 incident response。
- Follow-up interview questions:业务嫌治理慢怎么办?哪些项目可走轻量流程?
Weekly practice cadence: 2h/day, 5 days/week, for 12 weeks
每天 2 小时固定节奏:
- 00:00-00:15:读案例,补充合理假设。
- 00:15-00:35:写问题定义和 stakeholder map。
- 00:35-01:00:画流程或决策路径。
- 01:00-01:25:写需求、控制或 eval。
- 01:25-01:45:写 executive summary。
- 01:45-02:00:按 rubric 自评并记录改进点。
12 周安排:
- Week 1:AML、KYC、客服总结,重点练 AI BA 问题定义。
- Week 2:信贷、欺诈、合规变更,重点练风险和人工复核。
- Week 3:内部知识助手、RAG 搜索,重点练检索质量和引用证据。
- Week 4:争议处理 agent、IT helpdesk,重点练工具权限和状态机。
- Week 5:AI quality dashboard、个性化推荐,重点练 AI PM 指标。
- Week 6:支付运营、投诉根因、财务对账,重点练 ops ROI。
- Week 7:销售辅导、HR 政策,重点练 adoption 和组织阻力。
- Week 8:供应商评估、AI 治理,重点练 build vs buy 和门禁。
- Week 9:选择 3 个案例扩写成 portfolio one-pager。
- Week 10:同一案例分别用 AI BA、AI PM、AI Architect 视角回答。
- Week 11:给 portfolio 加事故场景、漂移场景、数据质量场景。
- Week 12:整理面试故事库,完成 3 分钟和 15 分钟版本。
每周五必须完成一次复盘:
- 本周最强 artifact 是什么?
- 哪个案例最能体现你的金融零售背景?
- 哪个案例的 eval 最弱?
- 哪个案例的 adoption 计划最不可信?
- 下周要补哪个能力环节?
Rubrics for grading your own output: BA clarity, PM judgment, architecture awareness, eval rigor, governance awareness, business value
每个维度 1-5 分,总分 30 分。 18 分以下:重写。 18-23 分:练习记录。 24-27 分:可做面试案例。 28-30 分:可转 portfolio asset。
BA clarity
- 1 分:复述需求,没有定义问题。
- 3 分:能说明角色、流程、输入输出和验收标准。
- 5 分:能把模糊诉求转成可执行、可测试、可审计的需求。
PM judgment
- 1 分:把 AI 当目标。
- 3 分:能说明目标用户、价值和 MVP 范围。
- 5 分:能给出 product bet、guardrails、pilot 和迭代路线。
Architecture awareness
- 1 分:只说模型。
- 3 分:能描述数据流、集成点、权限和日志。
- 5 分:能设计可替换、可监控、可回退、可审计的 AI 架构。
Eval rigor
- 1 分:没有 eval。
- 3 分:有 golden set、人工抽检和业务指标。
- 5 分:能把 eval 连接到上线门禁、持续监控和业务复盘。
Governance awareness
- 1 分:没有控制。
- 3 分:有风险清单、审批和审计。
- 5 分:能整合模型风险、数据隐私、合规、供应商和运营责任。
Business value
- 1 分:价值空泛。
- 3 分:能量化时间、成本或质量改善。
- 5 分:能用 ROI、敏感性分析和 executive story 支撑决策。
Shadow interview mode: how to answer as AI BA vs AI PM vs AI Architect
As AI BA
- 重点:问题澄清、访谈、流程建模、需求边界、验收标准。
- 结构:baseline -> stakeholder -> as-is pain point -> to-be flow -> requirements -> exceptions。
- 代表句:“我先确认这个流程中哪类判断最耗时、最不一致、最能被证据化。”
As AI PM
- 重点:机会判断、用户价值、业务价值、MVP、指标、adoption。
- 结构:pain -> target user -> product bet -> MVP -> metrics -> pilot -> iteration。
- 代表句:“我把 AI 当成提升决策质量和流程吞吐的产品能力,而不是单独上线聊天框。”
As AI Architect
- 重点:系统边界、数据流、模型、RAG、agent tools、权限、日志、监控、回退。
- 结构:capability -> data -> orchestration -> controls -> observability -> cost -> replaceability。
- 代表句:“我会把 AI 设计成受控系统能力:输入可追溯,输出可评估,操作可审批,异常可回退。”
三种回答都要避免只讲模型名称。 面试官更想听你如何控制风险、证明价值、推动采用。
Portfolio conversion: when a practice drill becomes a portfolio asset
一个 drill 满足以下条件时,可以转成 portfolio:
- 有清晰业务问题和 baseline。
- 有 stakeholder、现状流程和目标流程。
- 有需求、边界和不做范围。
- 有 eval,不只写准确率。
- 有风险控制、人工复核和审计。
- 有 adoption plan 和 ROI。
- 有 trade-off,不假装全自动无风险。
- 能讲 30 秒、3 分钟、15 分钟三个版本。
推荐 portfolio 结构:
- 背景:业务问题和为什么重要。
- 角色:你作为 AI BA / PM / Architect 做了什么。
- 方法:访谈、流程、需求、eval、治理。
- 方案:MVP、系统能力、人工复核、监控。
- 价值:指标、ROI、风险降低、采用计划。
- 取舍:为什么先 pilot,为什么不全自动。
优先转化:AML triage、KYC 审核、支付运营 copilot、RAG 搜索、agent workflow、AI quality dashboard。
Anti-patterns: vague user stories, no baseline, no eval, no control, no owner, no adoption plan
- Vague user stories:不要写“智能分析风险”,要写角色、输入、输出、判断、下一步。
- No baseline:不要写“提高效率”,要写当前耗时、错误率、成本或投诉率。
- No eval:不要只看用户反馈,要有 golden set、抽检、业务 KPI 和 guardrails。
- No control:不要让 AI 直接影响客户权益、资金或合规结论,必须有审批边界。
- No owner:不要写“业务和技术共同负责”,要写 product、business、model、compliance、ops owner。
- No adoption plan:不要以为上线等于采用,要有 pilot、培训、反馈和采用率。
- Prompt-only thinking:prompt 是接口,不是方案;方案还包括数据、流程、eval、监控和治理。
- Demo success equals production readiness:PoC 成功不代表能上线,还要验证数据覆盖、SLA、成本和回退。
- Over-automation:越高风险越需要 human-in-the-loop,不要为了炫技牺牲责任链。
- No executive ask:汇报最后必须说明你需要批准什么、资源是什么、何时复盘。
30 reusable prompts/questions for self-practice, but avoid making it only prompt engineering
这些问题用于训练思考,不是把工作简化为 prompt。 每次练习任选 5-8 个问题回答。
- 这个 AI 场景解决的具体业务损耗是什么?
- 当前 baseline 是什么,数据从哪里来?
- 如果不用 AI,最好的非 AI 方案是什么?
- 哪些判断必须保留人工?
- 失败成本是什么,谁承担?
- 谁是 daily user、decision maker、risk owner?
- 哪些 stakeholder 的目标冲突?
- 一线人员现在如何绕过流程或补救问题?
- 合规或风控最可能反对什么?
- 谁会因为 AI 上线而改变工作方式?
- 当前流程哪一步最耗时?
- 当前流程哪一步最容易出错?
- AI 输出由谁确认、修改或拒绝?
- 低置信度、无答案、工具失败时怎么走?
- 审计人员如何还原一次 AI 辅助决策?
- 输入字段、来源和更新频率是什么?
- 输出应该是文本、结构化字段、评分、建议还是操作草稿?
- 用户如何纠错,纠错如何进入反馈闭环?
- 哪些场景必须拒答或升级?
- MVP 明确不做什么?
- Golden set 覆盖哪些正常、异常和高风险样本?
- 只看准确率会遗漏什么?
- 业务 KPI 和模型 KPI 如何同时设计?
- 上线后如何监控漂移、成本和采用率?
- 哪个指标触发 kill switch?
- 涉及哪些隐私、合规、公平性或供应商风险?
- 哪些输出需要引用证据?
- 谁有权批准上线,谁有权暂停系统?
- RACI 如何避免“大家负责”等于无人负责?
- 如果发生错误建议或错误操作,incident response 怎么做?
使用方式总结
每个 drill 完成后压缩成三层表达:
- 30 秒版本:问题、方案、价值。
- 3 分钟版本:问题、方案、控制、指标、下一步。
- 15 分钟版本:流程、需求、eval、治理、ROI、trade-off。
最终目标不是“学会 AI 术语”,而是能负责一个 AI 业务能力从问题定义到上线治理的全过程。