AI Continuous Discovery / Opportunity Solution Tree Playbook
这些来源作为方法论和风险管理锚点。本文将其转成 AI 产品发现、机会树、假设测试、评估和金融零售 pilot 的工作语言。
AI Continuous Discovery & Opportunity Solution Tree Playbook
定位:面向高级 AI PM / AI BA / Product Architect / AI Solutions Architect 的持续发现与机会树手册。目标不是重新讲“需求收集”,而是把 AI 产品从 stakeholder idea、模型能力、流程痛点和风险假设,转成可验证的 outcome、opportunity、solution、assumption、eval 和 pilot decision。 适用对象:金融零售 AI 产品负责人、AI 转型负责人、企业 AI 平台 PM、风控/合规/运营场景 AI PM、已具备成熟 BA/产品经验但需要升级 AI 产品判断的人。 核心问题:如何判断一个 AI use case 是否值得做、应该做成 copilot / RAG / agent / workflow automation / 平台能力,如何证明它在受监管业务中真的创造价值且风险可控。 作品集定位:本文可直接转化为 AI Discovery Portfolio,包括 Opportunity Solution Tree、Assumption Map、Eval Contract、Pilot Protocol、Learning Decision Record、Financial Retail AI Case Pack 和 30 天训练资产。 边界说明:本文不是基础 BA 教材、法律意见、合规意见、模型验证报告或监管解释。正式金融零售 AI 项目必须由 business owner、risk、model risk、legal、compliance、privacy、security、data owner、operations owner 和 architecture review 共同确认。
Source Anchors
这些来源作为方法论和风险管理锚点。本文将其转成 AI 产品发现、机会树、假设测试、评估和金融零售 pilot 的工作语言。
| Anchor | Official / primary source | 本 playbook 中的用法 |
|---|---|---|
| Product Talk Opportunity Solution Tree | https://www.producttalk.org/opportunity-solution-tree/ | 用 outcome -> opportunity space -> solution space -> assumption tests 的结构组织 AI discovery;强调机会不是解决方案,解决方案需要拆成假设并测试。 |
| Product Talk Continuous Discovery | https://www.producttalk.org/continuous-discovery/ | 用持续、每周、与客户/用户保持连接的 discovery cadence,替代一次性项目调研;强调 discovery 是决定做什么的过程,不是交付前的需求阶段。 |
| NIST AI RMF | https://www.nist.gov/itl/ai-risk-management-framework | 用 Govern / Map / Measure / Manage 将 AI opportunity 的风险、可测性、控制、上线门禁和持续监控纳入产品发现。 |
| NIST AI RMF 1.0 publication | https://doi.org/10.6028/NIST.AI.100-1 | 用 AI lifecycle、trustworthy AI characteristics、risk measurement difficulty 和 human-AI interaction 风险校准金融零售 AI 发现活动。 |
| NIST GenAI Profile | https://doi.org/10.6028/NIST.AI.600-1 | 用生成式 AI 特有风险,如 hallucination、data leakage、over-reliance、misuse、content provenance,补强 GenAI 产品发现和 eval 设计。 |
1. One-Sentence Positioning
一句话:
AI Continuous Discovery =
持续识别真实业务机会、用户工作流机会、AI 可行性假设和风险控制假设,
用 Opportunity Solution Tree 明确 outcome、opportunity、solution、assumption,
再通过 prototype、eval、shadow、pilot 和 production learning 决定 scale、iterate、pivot、stop 或 platformize。
更短的面试版:
AI 产品发现不是把业务方想要的 AI 功能写成需求,而是持续证明:哪个高价值工作流机会值得 AI 化,哪种 AI 形态最合适,关键假设是否被证据支持,风险是否能被 eval、控制和运营闭环管理。
1.1 高级 AI PM 的发现责任
| 普通交付视角 | 高级 AI discovery 视角 |
|---|---|
| 业务说要一个 chatbot | 客户/员工在哪个 workflow moment 需要更好的判断、速度、解释或控制 |
| 需求写清楚即可开工 | 先拆 outcome、opportunity、solution options 和 riskiest assumptions |
| 模型 demo 能跑就是进展 | demo 只证明可演示,不证明可上线、可审计、可采纳、可规模化 |
| 验收看用户是否满意 | 验收看 business outcome、AI quality、risk guardrail、adoption、cost 和 control evidence |
| 项目上线后结束 | 上线只是进入真实学习循环,仍需 drift、feedback、incident、knowledge freshness 和 model/config change loop |
1.2 适用场景
| 场景 | 是否适用 | 原因 |
|---|---|---|
| AML case summarization copilot | 是 | 需要从 analyst workflow、证据质量、SAR 边界、人工复核和 eval 风险开始发现。 |
| 客服 AI 知识助手 | 是 | 需要识别知识检索、话术边界、投诉升级、人工接管和客户伤害风险。 |
| 信贷 memo drafting | 是 | 需要明确 AI 只能草拟和查缺补漏,不替代信贷决策。 |
| 财富顾问 copilot | 是 | 需要严格区分教育、产品信息、个性化建议、适当性和销售合规。 |
| 企业 AI 平台能力规划 | 是 | 需要从多个 use case 中发现可复用机会,而不是先建大平台。 |
| 已知规则、低风险、确定性自动化 | 可能不需要完整 OST | 若规则明确、无 AI 不确定性、风险低,可用轻量 discovery 和普通流程改造。 |
2. 为什么 AI 产品发现不是需求收集
对已成熟的 BA / PM 而言,真正的升级点不是“多问用户需求”,而是把 AI 的不确定性前置管理。
2.1 需求收集默认会犯的 AI 错误
| 需求收集语言 | 隐含错误 | AI discovery 语言 |
|---|---|---|
| “业务要一个 AI 助手” | 把 solution 当成 problem | 哪个角色在什么流程节点,因为哪些信息、判断或动作成本高而无法达成 outcome |
| “回答要准确” | 不可验收 | 哪类问题、哪些证据源、什么 rubric、什么 threshold、哪些 critical failure 为 0 |
| “减少人工工作量” | 没有定义价值路径 | 哪个工作步骤减少多少 cycle time、rework、escalation、defect 或 opportunity cost |
| “用最新大模型” | 技术先行 | 任务需要 retrieval、rules、workflow、small model、LLM、agent 还是非 AI 改造 |
| “人审就安全” | 把监督当口号 | 人审在何处、审什么、如何发现错误、如何记录采纳/修改/拒绝、如何回流 eval |
| “先 PoC 看看” | 没有学习目标 | PoC 要测试哪条假设,成功/失败如何改变下一步投资决策 |
2.2 AI 产品发现的五个新增变量
| 变量 | 为什么传统需求不够 | Discovery 产物 |
|---|---|---|
| Probabilistic behavior | AI 输出非确定,边缘案例和长尾风险会在平均体验之外出现 | Failure taxonomy、eval set、guardrail、risk-tiered release gate |
| Context quality | 模型表现受知识源、检索、权限、版本、上下文窗口影响 | Context map、source inventory、retrieval eval、freshness control |
| Human-AI interaction | 用户可能过度信任、忽略、误用、绕过或复制错误输出 | Adoption hypothesis、trust UX、override tracking、training loop |
| Regulatory / control boundary | 金融零售场景有信贷、AML、投诉、隐私、销售合规、适当性边界 | Decision boundary map、HITL design、audit evidence |
| Unit economics | AI 的成本不是一次性开发成本,推理、检索、监控、人工复核和供应商成本持续发生 | Cost per successful task、capacity model、scale economics |
2.3 从需求文档到发现系统
Stakeholder request
-> outcome hypothesis
-> workflow story evidence
-> opportunity taxonomy
-> opportunity solution tree
-> solution alternatives
-> assumption map
-> prototype / eval / pilot learning plan
-> scale / stop / platform decision
高级判断:
- 如果一个 AI idea 不能写成 outcome,就还不是产品机会。
- 如果一个 opportunity 只有一种解决方式,它多半是 solution disguised as opportunity。
- 如果一个 solution 没有 assumption tests,就只是交付赌注。
- 如果一个 pilot 没有 eval contract、guardrail 和 learning decision rule,就只是生产环境试用。
- 如果一个平台 backlog 没有多个 use case 的重复证据,就可能是过早平台化。
3. AI Continuous Discovery Operating Model
AI continuous discovery 不是一次 workshop,而是一个常设学习系统。
3.1 Discovery Cell
传统 product trio 在 AI 金融零售场景通常要扩展成 discovery cell。
| 角色 | 发现责任 | 关键输出 |
|---|---|---|
| AI PM / Product Lead | 设定 outcome、机会优先级、solution trade-off、scale/stop decision | OST、opportunity scorecard、decision memo |
| Domain expert / Operations lead | 解释真实 workflow、异常、口径、人工判断和运营约束 | Workflow story、edge case、pilot design |
| Data / ML lead | 判断数据可用性、模型模式、eval、drift、可观测性 | Data readiness、eval plan、model risk assumptions |
| Engineer / Architect | 判断系统集成、权限、工具调用、延迟、回滚和平台复用 | Architecture sketch、integration risk、platform reuse map |
| Risk / Compliance / Legal | 确认受监管边界、禁止行为、证据、披露、人工监督 | Risk tier、control requirement、approval path |
| Designer / Service designer | 设计人机协作、信任、升级、可解释、工作流嵌入 | Prototype、trust UX、HITL interaction |
3.2 Cadence
| 节奏 | 活动 | 产物 | 退出标准 |
|---|---|---|---|
| 每周 | 2-4 个 story-based interviews / workflow observations / SME review | 更新 opportunity nodes 和 evidence notes | 至少新增或修正 1 个 opportunity / assumption |
| 每两周 | OST review + assumption mapping | 目标 opportunity、solution alternatives、riskiest assumptions | 决定下一轮 prototype / eval / research |
| 每月 | Pilot evidence review | eval result、adoption、guardrail、cost、incident、learning decision | scale / iterate / pivot / stop / platformize |
| 每季度 | AI opportunity portfolio review | use case heatmap、platform reuse thesis、funding decision | 投资组合重新排序,停止低证据项目 |
3.3 Evidence Types
AI discovery 不能只看访谈,也不能只看日志。需要多证据合成。
| Evidence | 能证明什么 | 不能证明什么 |
|---|---|---|
| Workflow observation | 真实操作、切换系统、等待、复制粘贴、人工判断 | 大规模业务价值 |
| Story interview | 角色在具体过去场景中的目标、约束、困惑和 workaround | 模型可行性 |
| Case audit | 典型错误、返工、缺失证据、政策冲突 | 用户是否会采纳 AI |
| Data profiling | 数据可得性、字段质量、覆盖率、延迟、标签质量 | 业务是否值得做 |
| Prototype test | 用户是否理解、信任、愿意使用某种交互 | 生产质量和风险可控 |
| Offline eval | 模型/RAG/agent 在测试集上的能力和失败模式 | 真实流程中的行为改变 |
| Shadow run | 新系统在真实输入下的输出质量,不影响用户或客户 | 用户采纳和线上业务效果 |
| Pilot / controlled exposure | 真实流程价值、风险、成本和运营负载 | 长期 drift 和规模化稳定性 |
4. AI Opportunity Taxonomy
机会不是“做一个 AI 功能”。机会是某个 outcome 下,真实用户、业务流程或控制系统中尚未满足的需要、痛点或愿望。
4.1 AI Opportunity 的合格表达
For [role / customer segment],
when [workflow moment / decision context],
they struggle to [job / decision / control],
because [evidence-backed constraint],
which affects [business / customer / risk outcome].
示例:
| 弱表达 | 合格 opportunity |
|---|---|
| 做 AML AI 助手 | AML analyst 在准备 case narrative 时,需要跨 6 个系统找证据且很难确保 red flags 覆盖完整,导致 case preparation cycle time 高、返工多。 |
| 做客服 chatbot | 客服在处理收费争议时,难以快速定位当前有效政策和客户账户事实,导致答复不一致、升级率高、投诉风险上升。 |
| 做信贷 AI | Underwriter 在草拟贷款 memo 时,需要整理多来源材料并引用政策例外,导致审批前返工和口径不一致。 |
| 做财富 AI 顾问 | 顾问在会前准备时难以把客户目标、持仓、风险等级和合规话术整合成可讨论材料,导致会面质量不稳定。 |
| 做企业 AI 平台 | 多个业务团队重复构建模型调用、RAG、eval、日志和成本管理,导致 pilot 周期长、上线门禁不一致、无法复用学习。 |
4.2 Opportunity Taxonomy
| Opportunity type | 问题本质 | 金融零售例子 | 常见 solution space |
|---|---|---|---|
| Knowledge access | 用户找不到、找不准、找不到有效版本 | KYC 政策、产品条款、客服 SOP、投资披露 | RAG、semantic search、policy assistant、knowledge governance |
| Evidence synthesis | 证据分散,人工整合慢且容易漏 | AML case、投诉处理、信贷 memo、争议交易调查 | Summarization、entity extraction、case graph、template drafting |
| Decision support | 人需要更好排序、建议、解释或查缺补漏 | SAR priority、fraud alert triage、补件建议、客户下一步行动 | Scoring、rules + ML、recommendation、copilot |
| Workflow friction | 流程跨系统、重复输入、手工复制 | 客服建单、KYC remediation、payment exception | Workflow automation、agent with approval、forms prefill |
| Control / compliance | 需要稳定执行政策、升级、记录和审核 | 投诉识别、销售合规、adverse action reason、PII redaction | Policy engine、guardrails、audit log、review queue |
| Personalization / relevance | 信息太泛,不能匹配客户情境 | 财富教育、信用卡权益、商户服务建议 | Retrieval + eligibility rules、recommendation、next-best-action |
| Capacity / throughput | 专家稀缺、队列堆积、SLA 压力大 | AML backlog、客服旺季、贷款高峰 | Copilot、triage、drafting、queue prioritization |
| Quality consistency | 不同人输出质量差异大 | 客服话术、贷审 memo、合规 review | Standardized templates、AI reviewer、QA assistant |
| Learning / feedback | 组织无法把错误转成改进 | AI bad answers、case rework、model drift | Feedback taxonomy、eval update loop、incident learning |
| Platform leverage | 多团队重复构建同一类 AI 能力 | model gateway、eval harness、prompt registry、RAG ingestion | Shared platform capabilities、reference patterns |
4.3 Opportunity Scoring
AI opportunity 优先级不只看价值,还要看风险可控性、可评估性和复用潜力。
| Dimension | 1 分 | 3 分 | 5 分 |
|---|---|---|---|
| Outcome relevance | 只改善局部便利 | 支持部门 KPI | 直接支持高优先级业务、风险或客户 outcome |
| Workflow pain intensity | 偶发不便 | 高频但可忍受 | 高频、高成本、高返工或高风险 |
| Evidence strength | 只有 stakeholder opinion | 有访谈或个案 | 有访谈、日志、case audit、baseline 数据 |
| AI fit | 规则/流程改造更合适 | AI 可作为辅助 | AI 在理解、生成、排序、检索或模式识别上有明显优势 |
| Data / context readiness | source owner 不清 | 可接入但需治理 | 权威来源、权限、版本、标签、日志基本清楚 |
| Evalability | 难定义好坏 | 可定义人工 rubric | 可建立 golden set、critical failure、online outcome |
| Risk controllability | 难以控制客户/合规影响 | 可用人审和限制场景 | 风险边界、HITL、guardrail、audit、fallback 清楚 |
| Adoption likelihood | 用户不信任或流程入口弱 | pilot 用户愿意试 | 嵌入真实 workflow,有激励和管理支持 |
| Unit economics | 成本可能超过收益 | 成本收益需验证 | 成本与价值路径清晰,可规模化 |
| Platform reuse | 单点特殊 | 相关 use case 可复用 | 多团队共享能力明显 |
决策建议:
| Score | 建议 |
|---|---|
| 40-50 | 进入受控 prototype + eval + pilot,准备 portfolio evidence。 |
| 30-39 | 进入 discovery backlog,先测试最高风险假设。 |
| 20-29 | 先补 workflow evidence、data readiness、risk boundary 或非 AI 方案。 |
| 低于 20 | 停止或重写 opportunity;不要进入 AI build。 |
5. OST for AI Products
Product Talk 的 Opportunity Solution Tree 用 outcome、opportunity、solution、assumption tests 可视化 discovery。AI 场景要额外加入 risk、data、eval、HITL 和 platform reuse 维度。
5.1 AI OST 基本结构
Outcome
-> Opportunity space
-> workflow opportunity
-> knowledge / data opportunity
-> decision quality opportunity
-> control / trust opportunity
-> platform reuse opportunity
-> Target opportunity
-> Solution option A
-> Assumptions
-> Tests
-> Solution option B
-> Assumptions
-> Tests
-> Non-AI / process option
-> Assumptions
-> Tests
-> Learning decision
-> scale / iterate / pivot / stop / platformize
5.2 Outcome at the Top
AI OST 顶部不能写“上线 AI 助手”。应该写可观测 outcome。
| 不合格 outcome | 合格 outcome |
|---|---|
| 上线 AML Copilot | 将 AML case preparation median cycle time 降低 25%,同时 critical evidence omission 为 0,SAR 决策仍由人工负责。 |
| 部署客服 GenAI | 将收费争议类客服 first-contact resolution 提升 10%,错误政策回答率不高于现行流程,投诉升级不增加。 |
| 做信贷 AI | 将中小企业贷款 memo 返工率降低 20%,policy citation defect 为 0,高风险例外全部进入人工审批。 |
| 做财富 AI 顾问 | 将顾问会前准备时间降低 30%,不产生未经适当性评估的个性化推荐,客户会议质量评分提升。 |
| 建 AI 平台 | 让 3 个高价值 AI pilot 复用 model gateway、prompt registry、eval harness 和 audit log,使 time-to-first-pilot 降低 30%。 |
5.3 Opportunity Space 分层
AI OST 的机会空间建议按 workflow moments,而不是按组织部门或技术模块分。
| Layer | 问题 | 例子 |
|---|---|---|
| L1 Workflow moment | 哪个流程节点最影响 outcome | Case intake、evidence gathering、drafting、review、escalation |
| L2 Human struggle | 人在该节点的真实困难 | 找不到资料、判断不一致、担心越界、重复输入 |
| L3 AI leverage | AI 可能改善的能力 | summarize、retrieve、classify、rank、draft、check、route |
| L4 Control need | 风险和边界 | 不自动决策、引用证据、敏感信息遮蔽、人工批准 |
| L5 Reuse potential | 是否可沉淀平台 | retrieval、eval、audit、tool gateway、prompt registry |
5.4 Solution Space 不只放 AI 功能
每个 target opportunity 至少比较 3 类 solution,其中至少包含一个非 AI 或低 AI 方案。
| Solution type | 适合场景 | 例子 |
|---|---|---|
| Process redesign | 痛点来自职责、审批、队列或政策不清 | 重排 AML case queue,统一 evidence checklist |
| Rules / deterministic automation | 逻辑稳定、可解释、边界明确 | 信贷材料 completeness rules,客服政策版本校验 |
| RAG / semantic search | 知识查找和引用是主痛点 | KYC policy assistant,客服 SOP search |
| Copilot drafting | 人需要草稿、摘要、话术或 memo | AML narrative draft,credit memo draft |
| AI reviewer | 人已经有输出,但需要检查缺陷 | Policy citation checker,complaint risk detector |
| Agent with approval | 需要跨系统动作但风险需人控 | 创建 case、生成补件请求、更新低风险字段 |
| Platform capability | 多个 use case 共享横向能力 | Eval harness、prompt registry、model gateway |
5.5 AI OST 示例:AML
Outcome:
AML case preparation median cycle time -25%;
critical evidence omission = 0;
SAR decision remains human-owned.
Opportunities:
O1 Analyst must search transactions, KYC, alerts and prior cases across systems.
O2 Analyst struggles to connect entity relationships and red flags quickly.
O3 Narrative drafting quality varies by analyst experience.
O4 Reviewers spend time finding missing evidence rather than judging risk.
O5 Audit team needs evidence lineage and rationale trace.
Target opportunity:
O2 Analyst struggles to connect entity relationships and red flags quickly.
Solutions:
S1 Entity graph + red-flag summarizer.
S2 Checklist-based evidence assistant.
S3 Senior analyst review template and training.
Assumption tests:
A1 Red flags can be detected from available transaction / KYC / case data.
A2 Analysts trust AI only when every claim links to evidence.
A3 Reviewer defect rate improves without increasing false comfort.
A4 Tool can avoid suggesting SAR decision and stay in evidence support boundary.
6. Assumption Mapping
Assumption mapping 是 AI discovery 的核心。AI solution 的风险通常不是“能不能写代码”,而是业务、模型、数据、控制和 adoption 假设是否成立。
6.1 AI Assumption Categories
| Category | 典型假设 | 常用测试 |
|---|---|---|
| Desirability | 目标角色真的愿意在该流程节点使用 AI | Story interview、prototype test、workflow observation |
| Value | 解决该机会会显著影响 outcome | Baseline analysis、time study、case audit、business case |
| Usability | 用户能理解输出、置信度、引用和下一步 | Usability test、think-aloud、A/B prototype |
| Adoption | 用户会把 AI 嵌入真实工作,而不是试一次就不用 | Pilot telemetry、repeat usage、override reason |
| Data availability | 所需数据存在、可接入、质量足够 | Data profiling、source owner review、coverage analysis |
| Context / retrieval | AI 能找到正确证据并拒绝不可靠来源 | Retrieval eval、citation audit、freshness test |
| Model performance | 模型在关键任务上达到最低质量 | Golden set、SME review、LLM judge calibration |
| Safety / compliance | AI 不会越过禁止边界 | Red-team cases、policy test、risk review |
| Human oversight | 人能发现并纠正 AI 错误 | Reviewer simulation、override audit、HITL workload test |
| Operational fit | 队列、SLA、权限、异常处理能承受 | Pilot dry run、SOP rehearsal、fallback drill |
| Cost / latency | 单任务成本和响应时间可接受 | Load test、cost model、latency budget |
| Platform reuse | 横向能力确实被多个 use case 需要 | Use case inventory、architecture review、reuse score |
6.2 Risk x Uncertainty x Evidence Cost
优先测试的不是最容易测的假设,而是高风险、高不确定、低到中等测试成本的假设。
| Risk | Uncertainty | Evidence cost | Test priority |
|---|---|---|---|
| 高 | 高 | 低 | 立即测试,决定是否继续 |
| 高 | 高 | 高 | 设计最小证据版本,必要时先做 shadow 或 expert review |
| 高 | 低 | 低 | 验证是否仍成立,避免过度自信 |
| 中 | 高 | 低 | 放入下一轮 discovery |
| 低 | 高 | 高 | 暂缓,不阻塞当前决策 |
6.3 Assumption Map Template
## Assumption Map
**Outcome:** [可观测业务/客户/风险结果]
**Target opportunity:** [证据支持的机会]
**Solution option:** [待验证的方案]
**Risk tier:** [Low / Medium / High / Critical]
| Assumption | Category | Why it matters | Risk | Uncertainty | Evidence now | Test | Pass signal | Fail signal | Decision impact |
|---|---|---|---|---|---|---|---|---|---|
| Analysts will trust generated AML red flags only when every claim links to transaction evidence. | Adoption / Trust | Without trust, usage will stay superficial. | High | Medium | 4 analyst interviews, 2 case audits | Prototype with citation trace on 8 cases | 6/8 analysts can explain and use evidence trace | Analysts ignore output or cannot verify claims | Redesign UX or stop summarizer path |
6.4 金融零售常见 Riskiest Assumptions
| Use case | Riskiest assumption | 最小测试 |
|---|---|---|
| AML copilot | AI 能提升证据整理速度,但不会让 analyst 过度依赖或暗示 SAR 决策 | 20 个历史 case replay + analyst blind review + SAR decision boundary test |
| 客服 AI | AI 能回答政策问题且在投诉、费用、欺诈、困难援助场景正确升级 | 100 条真实意图 eval + 20 条 adversarial complaint cases |
| 信贷 memo | AI 草稿能减少返工,但不会编造理由、遗漏政策例外或影响最终信贷责任 | 历史申请材料 replay + underwriter review + adverse-action boundary test |
| 财富顾问 | AI 能提升会前准备质量,但不越界生成个性化投资建议 | Suitability scenario eval + compliance review + advisor prototype |
| AI 平台 | 多个业务团队真的需要同一 eval / gateway / audit 能力,而不是各自特殊 | 5 个 use case architecture review + duplicated work cost analysis |
7. Prototype / Eval / Pilot Learning Loop
AI discovery 的学习循环不能停在原型。原型回答“人是否理解和愿意用”,eval 回答“系统是否达到质量和风险门槛”,pilot 回答“真实流程是否产生可控价值”。
7.1 Learning Loop
Opportunity evidence
-> solution alternatives
-> assumption map
-> prototype test
-> offline eval
-> shadow / replay
-> controlled pilot
-> learning decision
-> OST update
7.2 Prototype Types for AI
| Prototype | 用途 | 金融零售例子 | 注意事项 |
|---|---|---|---|
| Paper / clickable prototype | 测试工作流、信任、信息架构 | AML evidence panel、客服引用卡片 | 不要让用户误以为模型能力已验证 |
| Wizard of Oz | 测试用户价值和交互,背后人工生成输出 | 财富顾问会前 brief | 明确内部测试伦理和数据保护 |
| Prompt-only prototype | 快速探索输出格式和 rubric | 信贷 memo draft | 不能直接代表生产能力 |
| Concierge prototype | 专家手工完成 AI 将来可能辅助的工作 | AML red-flag summary | 用于验证价值,不是规模化方案 |
| Static replay | 用历史案例测试多种 solution output | 客服历史聊天、信贷申请 | 注意历史数据权限和抽样偏差 |
| Shadow mode | 在真实输入下运行但不影响决策 | Fraud alert triage challenger | 不能证明 adoption,只证明输出表现 |
| Limited pilot | 小范围真实使用 | 10 名 analyst / 2 个客服队列 | 必须有 rollback、monitoring 和 manual fallback |
7.3 Eval Contract
Eval contract 是 AI 产品需求的验收形式。
## Eval Contract
**Use case:** AML Case Evidence Copilot
**Workflow boundary:** Evidence gathering and narrative draft only; no SAR decision.
**Risk tier:** High
**Primary quality metric:** Evidence completeness score >= 4/5 on SME rubric
**Critical failure classes:** unsupported claim, missing mandatory red flag, wrong citation, SAR recommendation, PII leakage
**Critical threshold:** 0 critical failures in release set
**Golden set:** 80 historical cases, stratified by typology, complexity, customer segment and alert type
**Reviewer:** AML SME + model risk reviewer
**Release decision:** pass / limited pilot / fail / exception
**Monitoring:** override reason, reviewer defect, citation issue, hallucination report, cycle time, incident
7.4 Pilot Protocol
| Pilot element | 必须定义的问题 |
|---|---|
| Scope | 哪些用户、队列、产品、地区、客户类型、case 类型进入 pilot |
| Control / comparison | 与历史 baseline、control group、shadow challenger 或 stepped rollout 如何比较 |
| Risk gate | 哪些错误立即 pause / rollback / escalate |
| Human role | 人在何处复核、批准、修改、拒绝、标记错误 |
| Telemetry | 记录 exposure、usage、edit、override、latency、cost、feedback、incident |
| Outcome | 业务 outcome、用户 outcome、质量 outcome、风险 outcome、成本 outcome |
| Duration | 覆盖足够 case volume 和业务周期,不被单周波动误导 |
| Decision | scale、iterate、pivot、stop、platformize 的明确规则 |
7.5 Learning Decision Record
## Learning Decision Record
**Date:** 2026-06-29
**Use case:** Customer Service Fee Dispute AI Assistant
**Decision:** Limited scale to two more queues
**Evidence reviewed:**
- 1200 pilot conversations, 84% eligible exposure
- First-contact resolution +8.7% versus baseline
- Wrong policy answer 0.4%, below 0.5% guardrail
- Complaint misclassification 0 critical failures in sampled audit
- Cost per successful resolved contact $0.18
**What we learned:**
- Retrieval works well for fee policy when source has effective date metadata.
- AI still struggles with hardship language and should escalate earlier.
- Agents trust cited answers but ignore confidence badges; citations matter more.
**Decision rationale:**
- Business value is positive and risk within appetite for fee dispute queue.
- Hardship and complaint branches remain excluded from scale until new eval passes.
**Next action:**
- Expand to two fee-related queues.
- Add hardship detection cases to eval.
- Update opportunity tree: split "fee policy confusion" and "financial hardship escalation".
8. Financial Retail Case Pack
以下案例按 discovery 资产组织,不是完整 PRD。重点是高级判断:何时 AI 值得做,哪里必须限制,如何验证,何时停止。
8.1 AML Investigation Copilot
| Item | Discovery design |
|---|---|
| Outcome | AML case preparation median cycle time -25%,critical evidence omission = 0,SAR decision remains human-owned。 |
| Target users | AML analyst、QA reviewer、financial crime operations lead。 |
| Opportunity space | 跨系统找证据慢;实体关系难串联;red flag 覆盖不稳定;narrative 返工;审计证据链不清。 |
| Solution options | RAG + transaction evidence summary;entity graph + typology hints;AI reviewer for missing evidence;non-AI evidence checklist redesign。 |
| Riskiest assumptions | AI 能从可用数据中准确引用证据;analyst 能发现 AI 错误;AI 不暗示 SAR 决策;输出不泄露不必要敏感信息。 |
| Prototype | 历史 case replay,生成 evidence panel 和 narrative draft,由 analyst blind review。 |
| Eval | typology coverage、citation accuracy、unsupported claim、mandatory evidence completeness、SAR recommendation prohibition。 |
| Pilot | 只进入 evidence gathering 和 draft 阶段;analyst 必须 edit / approve;QA 抽样复核;kill switch。 |
| Scale signal | cycle time 下降、QA defect 不上升、critical failure 为 0、analyst repeat usage 上升。 |
| Stop signal | 出现 unsupported high-risk claim、SAR decision suggestion、analyst 过度复制且不核验、audit 无法追溯。 |
OST snippet:
Outcome: Reduce AML case preparation cycle time while preserving evidence quality.
Opportunity: Analyst struggles to connect red flags across transaction and KYC evidence.
Solutions: entity graph summary / evidence checklist / senior analyst review template.
Assumptions: evidence can be grounded; analyst trusts citations; SAR boundary is enforced.
Tests: 20 case replay, red-team SAR prompts, SME blind scoring.
8.2 Customer Service AI for Regulated Servicing
| Item | Discovery design |
|---|---|
| Outcome | First-contact resolution +10%,wrong policy answers 不高于现行流程,complaint / hardship / fraud intents 不被错误关闭。 |
| Target users | Contact center agents、digital support customers、supervisors、QA team。 |
| Opportunity space | 政策版本难找;账户事实和政策混用;复杂意图没有及时升级;客服话术不一致;客户重复陈述。 |
| Solution options | Agent-facing policy copilot;customer-facing constrained assistant;intent classifier + escalation;conversation summarizer;SOP redesign。 |
| Riskiest assumptions | RAG 能按产品、地区、客户状态返回有效政策;AI 能识别投诉和困难援助;客户不会把 AI 回答误认为不可申诉决定。 |
| Prototype | Agent desktop prototype,展示 answer + citation + escalation reason;用 30 条真实对话做模拟。 |
| Eval | policy correctness、citation support、regulated-intent recall、unsafe advice、handoff quality、tone。 |
| Pilot | 先做 agent-facing,不做自动客户承诺;选择低到中风险队列;所有客户外发内容由 agent 发送。 |
| Scale signal | FCR 上升、AHT 合理下降、QA defect 不上升、升级准确率提升、agent adoption 稳定。 |
| Stop signal | 投诉识别漏报、错误费用/权利承诺、人工入口被阻断、低置信输出被直接发送。 |
8.3 Credit Underwriting / Loan Memo Copilot
| Item | Discovery design |
|---|---|
| Outcome | Loan memo rework -20%,policy citation defect = 0,高风险例外全部进入人工审批,AI 不生成正式信贷决定。 |
| Target users | Underwriter、relationship manager、credit risk reviewer、fair lending / model risk。 |
| Opportunity space | 材料分散;政策条款难引用;例外理由写法不一致;缺失材料发现晚;memo 格式和质量不稳定。 |
| Solution options | Document extraction + memo prefill;policy citation assistant;missing-data checker;exception reason taxonomy;non-AI checklist enforcement。 |
| Riskiest assumptions | AI 能区分事实、政策、推断;不会编造 adverse action reason;不会引入 prohibited basis 或 proxy bias;human reviewer 能有效纠偏。 |
| Prototype | 使用已脱敏历史申请材料生成 memo sections,由 underwriter 和 risk reviewer 双评。 |
| Eval | factual consistency、policy citation accuracy、missing document detection、prohibited language、decision boundary violation。 |
| Pilot | 仅内部草稿;不可自动拒贷、批贷或生成正式通知;所有输出保留修改记录。 |
| Scale signal | memo cycle time 下降、返工下降、policy defect 为 0、reviewer trust 上升。 |
| Stop signal | 错误或不准确的拒绝理由、遗漏关键风险、隐含歧视性语言、未授权自动决策。 |
8.4 Wealth Advisor Copilot
| Item | Discovery design |
|---|---|
| Outcome | Advisor pre-meeting preparation time -30%,client meeting quality score 提升,不生成未经适当性评估的个性化投资建议。 |
| Target users | Wealth advisor、investment product specialist、supervisor、compliance reviewer。 |
| Opportunity space | 会前资料分散;客户目标、风险等级、持仓、产品资料难整合;合规话术和披露要求复杂;顾问经验差异大。 |
| Solution options | Pre-meeting client brief;education content assistant;portfolio discussion checklist;compliance review helper;non-AI template library。 |
| Riskiest assumptions | AI 能清楚区分教育信息、一般产品信息、个性化建议和交易引导;顾问不会复制未审查建议;知识源有有效版本和披露。 |
| Prototype | 生成 client brief 和 discussion topics,不生成“买/卖/持有”建议;合规 reviewer 评估。 |
| Eval | suitability boundary、disclosure completeness、unsupported product claim、tone、source freshness、advisor edit behavior。 |
| Pilot | 只限 advisor-facing;禁止客户直接使用;所有客户材料需人工确认和合规抽样。 |
| Scale signal | 顾问准备时间下降、客户会面质量提升、合规 defect 不上升、advisor repeat use 高。 |
| Stop signal | 个性化投资建议越界、暗示收益保证、披露缺失、过期产品资料被引用。 |
8.5 Enterprise AI Platform Discovery
| Item | Discovery design |
|---|---|
| Outcome | 3 个高价值 pilot 复用 core AI platform capabilities,使 time-to-first-pilot -30%,每个 release 有 eval report 和 audit trace。 |
| Target users | AI app teams、business PM、data scientists、risk reviewers、platform operations。 |
| Opportunity space | 各团队重复接模型;prompt 不可追溯;RAG ingestion 重复;eval 缺失;成本不可归因;审计证据散落。 |
| Solution options | Model gateway;prompt/config registry;eval harness;RAG ingestion service;audit log;reference app templates。 |
| Riskiest assumptions | 多个 use case 的平台需求足够相似;平台不会拖慢业务 pilot;治理能力能嵌入开发流程;成本归因可自动化。 |
| Prototype | 选择 AML、客服、信贷 3 个 use case,映射共用 capability,做 thin platform slice。 |
| Eval | 平台不直接评估业务效果,而是评估 reuse、time-to-pilot、release gate coverage、trace completeness、developer adoption。 |
| Pilot | 让 2-3 个应用通过同一 model gateway + eval runner + audit schema 上线有限 pilot。 |
| Scale signal | 新 use case 接入时间下降,eval 报告标准化,platform support ticket 不爆炸,重复组件减少。 |
| Stop signal | 平台抽象无法覆盖真实 use case、团队绕过平台、治理变成手工审批瓶颈、成本高于复用收益。 |
9. Templates
这些模板可直接用于作品集或项目材料。每个模板都要求填写真实证据,不接受空泛结论。
9.1 AI Discovery Brief
# AI Discovery Brief
## 1. Outcome
- Business / customer / risk outcome:
- Baseline:
- Target:
- Time horizon:
- Guardrail:
## 2. Workflow Scope
- Role:
- Workflow moment:
- Current pain:
- Current workaround:
- Existing system / data:
## 3. Opportunity Statement
- For:
- When:
- They struggle to:
- Because:
- Which affects:
- Evidence:
## 4. Solution Alternatives
| Option | Type | Why it may work | Why it may fail | First test |
|---|---|---|---|---|
## 5. Risk and Controls
| Risk | Severity | Control | Eval / monitoring |
|---|---|---|---|
## 6. Learning Plan
- Prototype:
- Eval:
- Shadow / pilot:
- Decision rule:
9.2 Story-Based AI Interview Guide
# Story Interview Guide
## Opening
- Tell me about the last time you handled [specific workflow / case type].
- What triggered the work?
- What were you trying to accomplish?
## Workflow Detail
- What systems, documents or people did you use?
- Where did you slow down, double-check or ask for help?
- What did you copy, rewrite, summarize or interpret?
- What could go wrong if this step is done poorly?
## Judgment and Risk
- What parts require expert judgment?
- What signals make you escalate?
- What decisions are you not allowed to delegate?
- What evidence do reviewers or auditors expect?
## AI Reaction
- If AI produced [specific output], how would you verify it?
- What would make you trust or distrust it?
- What mistake would be unacceptable?
- What would you still want a human to own?
## Evidence Capture
- Quote:
- Workflow artifact:
- Opportunity:
- Assumption:
- Follow-up test:
9.3 AI Opportunity Card
# AI Opportunity Card
**Outcome:**
**Opportunity:**
**Role / segment:**
**Workflow moment:**
**Evidence:**
**Current workaround:**
**Business impact:**
**Customer / employee impact:**
**Risk impact:**
**AI leverage:** retrieve / summarize / classify / rank / draft / check / route / act with approval
**Non-AI alternative:**
**Top assumptions:**
**First test:**
**Decision after test:** scale discovery / revise / stop
9.4 AI OST Canvas
# AI Opportunity Solution Tree Canvas
## Outcome
- Direction:
- Target:
- Guardrails:
## Opportunity Space
| Opportunity | Evidence | Segment / role | Workflow moment | Opportunity type | Score |
|---|---|---|---|---|---:|
## Target Opportunity
- Selected opportunity:
- Why now:
- Why not other opportunities:
## Solution Space
| Solution | Type | Differentiator | Key risk | Reuse potential |
|---|---|---|---|---|
## Assumption Tests
| Solution | Assumption | Test | Pass signal | Fail signal | Decision impact |
|---|---|---|---|---|---|
## Learning Decision
- Continue:
- Change:
- Stop:
- Platformize:
9.5 Eval Rubric Template
# Eval Rubric
**Use case:**
**Task boundary:**
**Risk tier:**
**Reviewer role:**
| Dimension | 1 - Fail | 3 - Acceptable with issues | 5 - Strong |
|---|---|---|---|
| Grounding | Unsupported claims or missing sources | Mostly grounded but incomplete evidence | All key claims supported by approved evidence |
| Completeness | Misses required facts or steps | Covers main facts, minor gaps | Covers required facts, exceptions and next steps |
| Boundary | Gives prohibited advice or action | Minor wording risk | Stays within role and escalates appropriately |
| Usefulness | Not actionable | Partially useful | Clear, concise, workflow-ready |
| Auditability | Cannot trace source or reviewer action | Partial trace | Source, version, reviewer and action trace complete |
## Critical Failures
- Unsupported high-impact claim
- Wrong or fabricated citation
- Prohibited recommendation / decision
- Missing mandatory escalation
- Sensitive data leakage
- Policy version error
9.6 Pilot Protocol Template
# AI Pilot Protocol
## Pilot Scope
- Use case:
- Users / teams:
- Customer / case eligibility:
- Exclusions:
- Duration:
## Controls
- Human review:
- Approval points:
- Fallback:
- Kill switch:
- Incident owner:
## Metrics
| Metric | Type | Baseline | Target / threshold | Owner |
|---|---|---:|---:|---|
## Data and Telemetry
- Exposure event:
- User action:
- AI output:
- Human edit / override:
- Feedback:
- Cost:
- Latency:
## Decision Rule
- Scale if:
- Iterate if:
- Pivot if:
- Stop if:
- Platformize if:
10. Review Checklist
10.1 Discovery Readiness
| Check | Pass criteria |
|---|---|
| Outcome is clear | 有 baseline、target、time horizon 和 guardrails,不是“上线 AI 功能”。 |
| Evidence exists | 至少有访谈、workflow observation、case audit、日志或 data profiling 中的两类证据。 |
| Opportunity is not a solution | 该 opportunity 至少有 3 种可能 solution,其中包括非 AI 或低 AI 方案。 |
| Role and workflow are specific | 明确谁、何时、在什么系统或流程节点遇到困难。 |
| Current workaround is known | 了解用户今天如何绕开问题,以及该 workaround 的成本。 |
10.2 AI Fit Review
| Check | Pass criteria |
|---|---|
| AI leverage is explicit | 说明 AI 是 retrieve、summarize、classify、rank、draft、check、route 还是 act with approval。 |
| Non-AI option considered | 比较流程、规则、模板、培训、系统集成等方案。 |
| Data readiness assessed | source owner、permission、freshness、coverage、label、lineage 清楚。 |
| Evalability confirmed | 关键输出能用 rubric、golden set、critical failure 和 online metric 评估。 |
| Unit economics plausible | 有初步 cost per task、人工节省、返工减少或风险成本模型。 |
10.3 Risk and Governance Review
| Check | Pass criteria |
|---|---|
| Risk tier assigned | 按客户影响、决策影响、监管触点、不可逆性和自动化程度分层。 |
| Decision boundary documented | 明确 AI 不做什么,尤其是信贷、财富建议、AML SAR、投诉、资金动作。 |
| Human oversight designed | 人的角色、复核点、审批点、抽样、纠错和责任明确。 |
| NIST AI RMF lens applied | Govern / Map / Measure / Manage 都有对应证据或计划。 |
| Audit evidence defined | 可追踪 input、source、prompt/config、model、output、human action、approval、incident。 |
10.4 Eval / Pilot Review
| Check | Pass criteria |
|---|---|
| Eval set is representative | 覆盖 common、edge、missing-data、policy conflict、adversarial、high-risk cases。 |
| Critical failures are zero-tolerance | 高风险失败类设为 release blocker。 |
| Pilot has comparison | 有 baseline、control、shadow、holdout 或明确对照方法。 |
| Monitoring is actionable | 指标异常能触发 pause、rollback、escalation 或 fix loop。 |
| Learning decision is explicit | scale、iterate、pivot、stop、platformize 的条件事先写清。 |
11. Anti-Patterns
| Anti-pattern | 为什么危险 | 更好的做法 |
|---|---|---|
| AI-first ideation | 从模型能力出发,容易做出炫技但低价值产品 | 从 outcome 和 workflow opportunity 出发 |
| Stakeholder request = opportunity | 业务方常以 solution 表达问题 | 用 story evidence 还原底层机会 |
| Chatbot as default UI | 很多工作流需要 embedded copilot、checklist、reviewer 或 workflow automation | 根据 workflow moment 选择交互形态 |
| PoC without eval | 只证明能 demo,不证明能上线 | 每个 PoC 都有 assumption、eval 和 learning decision |
| Accuracy as single metric | 平均准确率掩盖高风险失败 | 使用 rubric、critical failures、guardrails、slice metrics |
| Human-in-the-loop theater | 写了人审,但人没有时间、能力或界面发现错误 | 设计 reviewer workload、evidence trace、override telemetry |
| Platform too early | 第一个 use case 就建大平台,抽象不稳 | 至少用 2-3 个 use case 证明重复能力 |
| Over-automation in regulated decisions | AI 越过信贷、AML、财富、投诉等责任边界 | 先做 read / summarize / draft / recommend with approval |
| Ignoring knowledge governance | 把文档丢进向量库,忽略版本、权限、owner | 建 source inventory、metadata、freshness、retrieval eval |
| Pilot as adoption theater | 让友好用户试用,没有对照和风险门禁 | 定义 exposure、baseline、decision rule 和 stop rule |
| Cost blindness | 只看节省人力,不看推理、检索、审计、人工复核成本 | 计算 cost per successful task 和规模化成本 |
| No stop rule | 失败项目继续换模型、换 prompt、换说法 | 事先定义 stop / pivot / platformize 条件 |
12. 30 天训练计划
目标:30 天内产出一个金融零售 AI use case 的完整 discovery portfolio。每天 60-90 分钟,重点训练高级判断,而不是基础需求技巧。
| Day | 训练主题 | 任务 | 产出 |
|---|---|---|---|
| 1 | 选择 use case | 从 AML、客服、信贷、财富顾问、AI 平台中选 1 个 | Use case one-pager |
| 2 | Outcome framing | 写 3 个 outcome,剔除 feature / output 指标 | Outcome statement + guardrails |
| 3 | Workflow mapping | 画 AS-IS workflow,标记等待、返工、判断和风险点 | Workflow map |
| 4 | Evidence inventory | 收集可用访谈、日志、case audit、政策、数据源 | Evidence inventory |
| 5 | Story interview design | 设计 8-10 个 story-based questions | Interview guide |
| 6 | Simulated interview 1 | 用一个真实或模拟案例回答访谈问题 | Story notes |
| 7 | Opportunity extraction | 从故事中提取 8-12 个 opportunity | Opportunity cards |
| 8 | Opportunity taxonomy | 将机会按 knowledge、evidence、decision、control、platform 分类 | Opportunity taxonomy table |
| 9 | Opportunity scoring | 用 10 维 scorecard 评分 | Opportunity scorecard |
| 10 | OST draft | 画第一个 OST:outcome、opportunities、target opportunity | OST v1 |
| 11 | Solution alternatives | 为 target opportunity 生成 3-5 个 solution,包括非 AI 方案 | Solution comparison |
| 12 | Assumption mapping | 每个 solution 写 5-8 条假设 | Assumption map v1 |
| 13 | Riskiest assumption | 用 risk x uncertainty x evidence cost 排序 | Test priority list |
| 14 | Prototype design | 选择 paper、Wizard of Oz、prompt、replay 或 shadow 原型 | Prototype plan |
| 15 | Eval boundary | 定义 AI 任务边界和禁止行为 | Decision boundary map |
| 16 | Failure taxonomy | 写 common failures 和 critical failures | Failure taxonomy |
| 17 | Rubric design | 写 1/3/5 分 rubric 和 reviewer role | Eval rubric |
| 18 | Golden set design | 设计 30-80 条 case 的分层抽样 | Golden set plan |
| 19 | Red-team cases | 写 15 条 adversarial / policy conflict cases | Red-team set |
| 20 | Pilot scope | 定义 pilot 用户、队列、排除项、duration | Pilot protocol v1 |
| 21 | Metrics tree | 设计 outcome、quality、risk、adoption、cost metrics | Metric tree |
| 22 | Monitoring plan | 定义 telemetry、override、incident、feedback loop | Monitoring plan |
| 23 | NIST AI RMF mapping | 将 use case 映射到 Govern / Map / Measure / Manage | Risk control map |
| 24 | Financial control review | 写客户影响、监管触点、HITL、audit evidence | Control checklist |
| 25 | Learning decision rules | 写 scale / iterate / pivot / stop / platformize 条件 | Decision rules |
| 26 | OST revision | 根据假设和 eval 结果重构 OST | OST v2 |
| 27 | Executive memo | 写 1 页 discovery decision memo | Executive memo |
| 28 | Portfolio packaging | 整理 discovery brief、OST、assumption map、eval、pilot | Portfolio pack |
| 29 | Interview rehearsal | 用 5 个面试问题讲清决策过程 | Interview answers |
| 30 | Retrospective | 写 10 条高级洞察和下一轮 discovery backlog | Learning retrospective |
13. 面试答案
Q1:AI 产品发现和传统需求收集有什么不同?
30 秒版
AI 产品发现不是把业务方想要的 AI 功能写成需求,而是持续证明某个工作流机会是否值得 AI 化。它要同时验证 desirability、business value、data readiness、model performance、risk controls、human oversight、unit economics 和 adoption。传统需求强调“要做什么”,AI discovery 更强调“为什么这个机会值得做、哪种 AI 形态合适、哪些假设最危险、用什么 eval 和 pilot 证明”。
2 分钟版
在金融零售场景,业务方经常以 solution 表达需求,比如“做一个 AML 助手”或“做一个客服 chatbot”。我会先把它还原为 outcome 和 workflow opportunity:哪个角色、哪个流程节点、什么痛点、影响什么指标。然后用 Opportunity Solution Tree 拆出 opportunity space、多个 solution options 和 assumption tests。AI 的特殊之处是输出概率化、上下文依赖强、风险边界复杂,所以需求不能只写 acceptance criteria,而要写 eval contract、critical failures、HITL、monitoring 和 learning decision。最终目标不是交付一个 AI 功能,而是做出 scale、iterate、pivot、stop 或 platformize 的证据化判断。
Q2:你会如何用 Opportunity Solution Tree 做 AI 产品?
30 秒版
我会把 outcome 放在树顶,例如降低 AML case preparation 时间且保持证据质量。下面是 opportunity space,如证据分散、red flag 难串联、narrative 返工。选择一个 target opportunity 后,比较至少 3 个 solution,包括 AI 和非 AI 方案。每个 solution 拆成假设,再用 prototype、eval、shadow 或 pilot 测试最高风险假设。
2 分钟版
OST 的价值是防止团队直接跳到“做 chatbot”或“接大模型”。AI OST 顶部必须是可观测 outcome,并带 guardrails。机会层要来自真实 workflow evidence,而不是会议想象。解决方案层要有多选项,比如 RAG、copilot、AI reviewer、rules automation 或流程改造。AI 场景还要在每个 solution 下面挂 assumption tests,例如检索是否能找到有效政策、模型是否会编造引用、人审是否能发现错误、成本是否可接受。每一轮 prototype / eval / pilot 后更新树,保留学习痕迹,最终形成投资决策证据。
Q3:如何判断一个 AI opportunity 是否值得做?
30 秒版
我会看 10 个维度:outcome relevance、workflow pain、evidence strength、AI fit、data readiness、evalability、risk controllability、adoption likelihood、unit economics 和 platform reuse。高价值但不可评估或风险不可控的机会不应该直接进入 build。
2 分钟版
AI opportunity 的判断不能只看“能不能自动化”。金融零售尤其要看它是否能改善高优先级 outcome,是否发生在高频或高风险流程节点,是否有证据支持,AI 是否比规则或流程改造更适合。然后看数据和上下文是否可用,输出好坏是否能评估,风险是否能通过人审、guardrail、audit 和 fallback 控制。最后看用户是否会在真实流程中采纳,以及成本收益是否成立。如果多个业务场景共享同一能力,还可能进入平台化机会。反过来,如果机会只是“业务想试 AI”,没有 outcome、eval 或 risk boundary,我会先停止或重写机会。
Q4:怎么做 AI assumption mapping?
30 秒版
我把假设分成 desirability、value、usability、adoption、data、retrieval、model performance、safety、human oversight、operations、cost 和 platform reuse。然后按 risk、uncertainty、evidence cost 排序,优先测试高风险高不确定的假设。
2 分钟版
例如信贷 memo copilot 的 solution 可能看起来很简单,但关键假设很多:申请材料能否正确抽取,政策引用是否准确,AI 是否会编造拒绝理由,underwriter 是否能有效复核,输出是否引入 fair lending 风险。每条假设都要写清为什么重要、当前证据、测试方法、通过信号、失败信号和决策影响。最高风险假设不一定用生产 pilot 测,可以先用历史 case replay、SME blind review、red-team cases 或 shadow run。这样做的好处是把“感觉可行”变成可学习、可停止的证据链。
Q5:prototype、eval 和 pilot 的区别是什么?
30 秒版
Prototype 测用户是否理解和愿意用,eval 测 AI 输出是否达到质量和风险门槛,pilot 测真实流程中是否创造可控业务价值。三者回答的问题不同,不能互相替代。
2 分钟版
比如客服 AI,clickable prototype 可以测试 agent 是否理解引用和升级提示;offline eval 可以用真实意图和政策冲突样本测试正确率、引用、投诉识别和 unsafe answer;pilot 才能看 first-contact resolution、AHT、QA defect、投诉、人工升级和成本。很多团队把 demo 当 eval,或把 pilot 当 discovery,这是危险的。成熟做法是先用 prototype 降低交互风险,再用 eval 降低质量和安全风险,再用受控 pilot 验证业务价值和运营可行性。
Q6:金融零售 AI discovery 最大的产品判断是什么?
30 秒版
最大判断是 AI 应该停在哪个 decision boundary。很多场景适合 read、summarize、draft、check、recommend with approval,但不适合直接 decide 或 act autonomously。
2 分钟版
在 AML,AI 可以整理证据和草拟 narrative,但 SAR 决策应由人负责。在信贷,AI 可以预填 memo、引用政策和提示缺失材料,但不能自动拒贷或编造 adverse action reason。在财富,AI 可以帮助顾问准备教育材料,但不能绕过适当性给个性化投资建议。在客服,AI 可以回答低风险问题,但投诉、欺诈、困难援助、费用争议要有升级和人工入口。这个边界决定了 solution pattern、UX、eval、审批、日志和上线门禁。
Q7:你如何把 NIST AI RMF 用在 discovery?
30 秒版
我不会把 NIST AI RMF 当合规清单,而是把 Govern / Map / Measure / Manage 转成 discovery 问题:谁负责、场景和影响是什么、如何测量风险、上线后如何管理。
2 分钟版
在 discovery 阶段,Govern 对应 owner、risk tier、decision rights 和 approval path;Map 对应用例背景、角色、数据、客户影响和受监管边界;Measure 对应 eval、rubric、critical failures、model/retrieval quality 和 monitoring;Manage 对应 mitigation、HITL、fallback、incident、rollback 和 continuous improvement。这样 NIST AI RMF 不只是上线前审查,而是贯穿 opportunity selection、assumption testing、pilot 和 scale decision。
Q8:什么时候把多个 AI use case 平台化?
30 秒版
当 2-3 个高价值 use case 证明有重复能力,例如 model gateway、prompt registry、eval harness、RAG ingestion、audit log 和 cost attribution,并且平台化能缩短 pilot 周期、提高控制一致性时,才值得平台化。
2 分钟版
过早平台化是 AI 转型常见失败。第一个 use case 还没有跑通,就建大平台,通常会抽象错误、交付慢、业务绕开。我的做法是从 use case discovery 中抽取重复模式:哪些团队都需要模型接入、日志、权限、eval、RAG、prompt versioning、工具审批和成本归因。如果多个高价值 pilot 重复建设这些能力,并且风险团队也需要统一 evidence,那么可以做 thin platform slice。平台的 outcome 不是功能多,而是 time-to-first-pilot、release gate coverage、reuse rate、audit completeness 和 cost visibility。
14. Portfolio Deliverables
一个有说服力的高级 AI discovery 作品集,不是 PRD 文件堆砌,而是一组能证明决策质量的 artifacts。
| Deliverable | 内容 | 面试中证明什么 |
|---|---|---|
| AI Discovery Brief | outcome、workflow scope、opportunity、evidence、solution alternatives、risk、learning plan | 你能把 AI idea 转成产品判断问题 |
| Opportunity Solution Tree | outcome、opportunity space、target opportunity、solutions、assumption tests | 你不会跳到 solution,会管理 discovery 结构 |
| Opportunity Scorecard | 10 维机会评分和取舍理由 | 你能做 portfolio prioritization |
| Assumption Map | 假设类别、风险、不确定性、测试、通过/失败信号 | 你能识别 AI use case 的真实不确定性 |
| Prototype Pack | 原型、脚本、用户反馈、学习结论 | 你能验证 human-AI workflow 和 trust UX |
| Eval Contract | task boundary、rubric、golden set、critical failures、threshold、reviewer | 你能把 AI 需求转成可测试承诺 |
| Pilot Protocol | scope、control、metrics、telemetry、risk gate、decision rule | 你能把 pilot 设计成学习系统 |
| Risk Control Map | NIST AI RMF mapping、decision boundary、HITL、audit、incident | 你理解金融零售 AI 风险和治理 |
| Learning Decision Record | evidence、decision、rationale、next action、OST update | 你能做 scale / iterate / stop 判断 |
| Executive Memo | 1 页向高管解释机会、证据、风险、投资建议 | 你能把技术和 discovery 转成业务决策 |
14.1 推荐作品集结构
01 Executive Summary
02 Use Case Context and Outcome
03 Workflow Evidence
04 Opportunity Solution Tree
05 Opportunity Scorecard
06 Solution Alternatives
07 Assumption Map
08 Prototype Findings
09 Eval Contract and Results
10 Pilot Protocol
11 Risk / Governance Evidence
12 Learning Decision and Roadmap
13 Platform Reuse Opportunities
14.2 高级表达句式
| 场景 | 表达 |
|---|---|
| 拒绝 solution-first | “我不会从 chatbot 开始。我会先确认哪个 workflow opportunity 能驱动 outcome,再比较 AI 和非 AI 方案。” |
| 解释 eval | “在这个场景里 eval 不是测试活动,而是产品合同:哪些输出被允许,哪些失败是 release blocker。” |
| 解释风险 | “我把风险边界前置到 discovery,而不是等模型 demo 完再让合规兜底。” |
| 解释 pilot | “Pilot 的目的不是让用户试用,而是用受控 exposure 学习 business value、risk、adoption 和 cost 是否同时成立。” |
| 解释平台 | “平台化不是先建基础设施,而是在多个 use case 证明重复能力后,把 learning、control 和 speed 产品化。” |
15. Final Decision Heuristics
15.1 When to Build
进入 build / pilot 的最低条件:
- Outcome 清楚且值得投入。
- Opportunity 来自真实 workflow evidence。
- 至少比较过 3 个 solution options。
- Riskiest assumptions 已有初步证据。
- Eval contract 能定义好坏和 critical failures。
- Risk tier、decision boundary、HITL、audit evidence 清楚。
- Pilot 有 scope、metrics、guardrails 和 stop rule。
15.2 When to Stop
出现以下信号,应停止或重写 opportunity:
- 业务 outcome 不清,只剩“用 AI”本身。
- 机会无法从真实用户故事、case audit 或数据中证明。
- 非 AI 方案明显更简单、更稳、更便宜。
- 关键数据源没有 owner、权限或质量基础。
- 高风险失败无法被 eval 或 human oversight 发现。
- 用户不愿在真实工作流中使用,或使用会转移负担。
- 单任务成本高于可解释价值,且没有规模化改善路径。
15.3 When to Platformize
满足以下条件时考虑平台化:
- 至少 2-3 个 use case 需要相同横向能力。
- 复用能力与风险控制强相关,如 eval、audit、model gateway、prompt registry。
- 平台化可以缩短 time-to-pilot,而不是增加审批摩擦。
- 有明确 owner、SLO、support model、cost attribution 和 adoption metric。
- 平台能力可以支持未来 use case,而不是只服务当前项目。
16. Quick Reference
AI discovery quality test:
Can you explain:
1. What outcome are we trying to move?
2. What workflow opportunity did evidence reveal?
3. Why is this an AI opportunity rather than process / rules / training?
4. What are at least three solution options?
5. Which assumptions are riskiest?
6. What prototype / eval / pilot will test them?
7. What failures are unacceptable?
8. What decision will we make with the evidence?
9. What risk controls and audit evidence are required?
10. Is this a point solution, platform candidate, or stop decision?
如果不能清楚回答以上问题,团队还没有完成 AI continuous discovery。