返回 Papers
AI 扩展计划 / Playbooks

AI Continuous Discovery / Opportunity Solution Tree Playbook

这些来源作为方法论和风险管理锚点。本文将其转成 AI 产品发现、机会树、假设测试、评估和金融零售 pilot 的工作语言。

1,062AI_CONTINUOUS_DISCOVERY_OPPORTUNITY_SOLUTION_TREE_PLAYBOOK.md

AI Continuous Discovery & Opportunity Solution Tree Playbook

定位:面向高级 AI PM / AI BA / Product Architect / AI Solutions Architect 的持续发现与机会树手册。目标不是重新讲“需求收集”,而是把 AI 产品从 stakeholder idea、模型能力、流程痛点和风险假设,转成可验证的 outcome、opportunity、solution、assumption、eval 和 pilot decision。 适用对象:金融零售 AI 产品负责人、AI 转型负责人、企业 AI 平台 PM、风控/合规/运营场景 AI PM、已具备成熟 BA/产品经验但需要升级 AI 产品判断的人。 核心问题:如何判断一个 AI use case 是否值得做、应该做成 copilot / RAG / agent / workflow automation / 平台能力,如何证明它在受监管业务中真的创造价值且风险可控。 作品集定位:本文可直接转化为 AI Discovery Portfolio,包括 Opportunity Solution Tree、Assumption Map、Eval Contract、Pilot Protocol、Learning Decision Record、Financial Retail AI Case Pack 和 30 天训练资产。 边界说明:本文不是基础 BA 教材、法律意见、合规意见、模型验证报告或监管解释。正式金融零售 AI 项目必须由 business owner、risk、model risk、legal、compliance、privacy、security、data owner、operations owner 和 architecture review 共同确认。


Source Anchors

这些来源作为方法论和风险管理锚点。本文将其转成 AI 产品发现、机会树、假设测试、评估和金融零售 pilot 的工作语言。

AnchorOfficial / primary source本 playbook 中的用法
Product Talk Opportunity Solution Treehttps://www.producttalk.org/opportunity-solution-tree/用 outcome -> opportunity space -> solution space -> assumption tests 的结构组织 AI discovery;强调机会不是解决方案,解决方案需要拆成假设并测试。
Product Talk Continuous Discoveryhttps://www.producttalk.org/continuous-discovery/用持续、每周、与客户/用户保持连接的 discovery cadence,替代一次性项目调研;强调 discovery 是决定做什么的过程,不是交付前的需求阶段。
NIST AI RMFhttps://www.nist.gov/itl/ai-risk-management-framework用 Govern / Map / Measure / Manage 将 AI opportunity 的风险、可测性、控制、上线门禁和持续监控纳入产品发现。
NIST AI RMF 1.0 publicationhttps://doi.org/10.6028/NIST.AI.100-1用 AI lifecycle、trustworthy AI characteristics、risk measurement difficulty 和 human-AI interaction 风险校准金融零售 AI 发现活动。
NIST GenAI Profilehttps://doi.org/10.6028/NIST.AI.600-1用生成式 AI 特有风险,如 hallucination、data leakage、over-reliance、misuse、content provenance,补强 GenAI 产品发现和 eval 设计。

1. One-Sentence Positioning

一句话:

AI Continuous Discovery =
持续识别真实业务机会、用户工作流机会、AI 可行性假设和风险控制假设,
用 Opportunity Solution Tree 明确 outcome、opportunity、solution、assumption,
再通过 prototype、eval、shadow、pilot 和 production learning 决定 scale、iterate、pivot、stop 或 platformize。

更短的面试版:

AI 产品发现不是把业务方想要的 AI 功能写成需求,而是持续证明:哪个高价值工作流机会值得 AI 化,哪种 AI 形态最合适,关键假设是否被证据支持,风险是否能被 eval、控制和运营闭环管理。

1.1 高级 AI PM 的发现责任

普通交付视角高级 AI discovery 视角
业务说要一个 chatbot客户/员工在哪个 workflow moment 需要更好的判断、速度、解释或控制
需求写清楚即可开工先拆 outcome、opportunity、solution options 和 riskiest assumptions
模型 demo 能跑就是进展demo 只证明可演示,不证明可上线、可审计、可采纳、可规模化
验收看用户是否满意验收看 business outcome、AI quality、risk guardrail、adoption、cost 和 control evidence
项目上线后结束上线只是进入真实学习循环,仍需 drift、feedback、incident、knowledge freshness 和 model/config change loop

1.2 适用场景

场景是否适用原因
AML case summarization copilot需要从 analyst workflow、证据质量、SAR 边界、人工复核和 eval 风险开始发现。
客服 AI 知识助手需要识别知识检索、话术边界、投诉升级、人工接管和客户伤害风险。
信贷 memo drafting需要明确 AI 只能草拟和查缺补漏,不替代信贷决策。
财富顾问 copilot需要严格区分教育、产品信息、个性化建议、适当性和销售合规。
企业 AI 平台能力规划需要从多个 use case 中发现可复用机会,而不是先建大平台。
已知规则、低风险、确定性自动化可能不需要完整 OST若规则明确、无 AI 不确定性、风险低,可用轻量 discovery 和普通流程改造。

2. 为什么 AI 产品发现不是需求收集

对已成熟的 BA / PM 而言,真正的升级点不是“多问用户需求”,而是把 AI 的不确定性前置管理。

2.1 需求收集默认会犯的 AI 错误

需求收集语言隐含错误AI discovery 语言
“业务要一个 AI 助手”把 solution 当成 problem哪个角色在什么流程节点,因为哪些信息、判断或动作成本高而无法达成 outcome
“回答要准确”不可验收哪类问题、哪些证据源、什么 rubric、什么 threshold、哪些 critical failure 为 0
“减少人工工作量”没有定义价值路径哪个工作步骤减少多少 cycle time、rework、escalation、defect 或 opportunity cost
“用最新大模型”技术先行任务需要 retrieval、rules、workflow、small model、LLM、agent 还是非 AI 改造
“人审就安全”把监督当口号人审在何处、审什么、如何发现错误、如何记录采纳/修改/拒绝、如何回流 eval
“先 PoC 看看”没有学习目标PoC 要测试哪条假设,成功/失败如何改变下一步投资决策

2.2 AI 产品发现的五个新增变量

变量为什么传统需求不够Discovery 产物
Probabilistic behaviorAI 输出非确定,边缘案例和长尾风险会在平均体验之外出现Failure taxonomy、eval set、guardrail、risk-tiered release gate
Context quality模型表现受知识源、检索、权限、版本、上下文窗口影响Context map、source inventory、retrieval eval、freshness control
Human-AI interaction用户可能过度信任、忽略、误用、绕过或复制错误输出Adoption hypothesis、trust UX、override tracking、training loop
Regulatory / control boundary金融零售场景有信贷、AML、投诉、隐私、销售合规、适当性边界Decision boundary map、HITL design、audit evidence
Unit economicsAI 的成本不是一次性开发成本,推理、检索、监控、人工复核和供应商成本持续发生Cost per successful task、capacity model、scale economics

2.3 从需求文档到发现系统

Stakeholder request
  -> outcome hypothesis
  -> workflow story evidence
  -> opportunity taxonomy
  -> opportunity solution tree
  -> solution alternatives
  -> assumption map
  -> prototype / eval / pilot learning plan
  -> scale / stop / platform decision

高级判断:

  • 如果一个 AI idea 不能写成 outcome,就还不是产品机会。
  • 如果一个 opportunity 只有一种解决方式,它多半是 solution disguised as opportunity。
  • 如果一个 solution 没有 assumption tests,就只是交付赌注。
  • 如果一个 pilot 没有 eval contract、guardrail 和 learning decision rule,就只是生产环境试用。
  • 如果一个平台 backlog 没有多个 use case 的重复证据,就可能是过早平台化。

3. AI Continuous Discovery Operating Model

AI continuous discovery 不是一次 workshop,而是一个常设学习系统。

3.1 Discovery Cell

传统 product trio 在 AI 金融零售场景通常要扩展成 discovery cell。

角色发现责任关键输出
AI PM / Product Lead设定 outcome、机会优先级、solution trade-off、scale/stop decisionOST、opportunity scorecard、decision memo
Domain expert / Operations lead解释真实 workflow、异常、口径、人工判断和运营约束Workflow story、edge case、pilot design
Data / ML lead判断数据可用性、模型模式、eval、drift、可观测性Data readiness、eval plan、model risk assumptions
Engineer / Architect判断系统集成、权限、工具调用、延迟、回滚和平台复用Architecture sketch、integration risk、platform reuse map
Risk / Compliance / Legal确认受监管边界、禁止行为、证据、披露、人工监督Risk tier、control requirement、approval path
Designer / Service designer设计人机协作、信任、升级、可解释、工作流嵌入Prototype、trust UX、HITL interaction

3.2 Cadence

节奏活动产物退出标准
每周2-4 个 story-based interviews / workflow observations / SME review更新 opportunity nodes 和 evidence notes至少新增或修正 1 个 opportunity / assumption
每两周OST review + assumption mapping目标 opportunity、solution alternatives、riskiest assumptions决定下一轮 prototype / eval / research
每月Pilot evidence revieweval result、adoption、guardrail、cost、incident、learning decisionscale / iterate / pivot / stop / platformize
每季度AI opportunity portfolio reviewuse case heatmap、platform reuse thesis、funding decision投资组合重新排序,停止低证据项目

3.3 Evidence Types

AI discovery 不能只看访谈,也不能只看日志。需要多证据合成。

Evidence能证明什么不能证明什么
Workflow observation真实操作、切换系统、等待、复制粘贴、人工判断大规模业务价值
Story interview角色在具体过去场景中的目标、约束、困惑和 workaround模型可行性
Case audit典型错误、返工、缺失证据、政策冲突用户是否会采纳 AI
Data profiling数据可得性、字段质量、覆盖率、延迟、标签质量业务是否值得做
Prototype test用户是否理解、信任、愿意使用某种交互生产质量和风险可控
Offline eval模型/RAG/agent 在测试集上的能力和失败模式真实流程中的行为改变
Shadow run新系统在真实输入下的输出质量,不影响用户或客户用户采纳和线上业务效果
Pilot / controlled exposure真实流程价值、风险、成本和运营负载长期 drift 和规模化稳定性

4. AI Opportunity Taxonomy

机会不是“做一个 AI 功能”。机会是某个 outcome 下,真实用户、业务流程或控制系统中尚未满足的需要、痛点或愿望。

4.1 AI Opportunity 的合格表达

For [role / customer segment],
when [workflow moment / decision context],
they struggle to [job / decision / control],
because [evidence-backed constraint],
which affects [business / customer / risk outcome].

示例:

弱表达合格 opportunity
做 AML AI 助手AML analyst 在准备 case narrative 时,需要跨 6 个系统找证据且很难确保 red flags 覆盖完整,导致 case preparation cycle time 高、返工多。
做客服 chatbot客服在处理收费争议时,难以快速定位当前有效政策和客户账户事实,导致答复不一致、升级率高、投诉风险上升。
做信贷 AIUnderwriter 在草拟贷款 memo 时,需要整理多来源材料并引用政策例外,导致审批前返工和口径不一致。
做财富 AI 顾问顾问在会前准备时难以把客户目标、持仓、风险等级和合规话术整合成可讨论材料,导致会面质量不稳定。
做企业 AI 平台多个业务团队重复构建模型调用、RAG、eval、日志和成本管理,导致 pilot 周期长、上线门禁不一致、无法复用学习。

4.2 Opportunity Taxonomy

Opportunity type问题本质金融零售例子常见 solution space
Knowledge access用户找不到、找不准、找不到有效版本KYC 政策、产品条款、客服 SOP、投资披露RAG、semantic search、policy assistant、knowledge governance
Evidence synthesis证据分散,人工整合慢且容易漏AML case、投诉处理、信贷 memo、争议交易调查Summarization、entity extraction、case graph、template drafting
Decision support人需要更好排序、建议、解释或查缺补漏SAR priority、fraud alert triage、补件建议、客户下一步行动Scoring、rules + ML、recommendation、copilot
Workflow friction流程跨系统、重复输入、手工复制客服建单、KYC remediation、payment exceptionWorkflow automation、agent with approval、forms prefill
Control / compliance需要稳定执行政策、升级、记录和审核投诉识别、销售合规、adverse action reason、PII redactionPolicy engine、guardrails、audit log、review queue
Personalization / relevance信息太泛,不能匹配客户情境财富教育、信用卡权益、商户服务建议Retrieval + eligibility rules、recommendation、next-best-action
Capacity / throughput专家稀缺、队列堆积、SLA 压力大AML backlog、客服旺季、贷款高峰Copilot、triage、drafting、queue prioritization
Quality consistency不同人输出质量差异大客服话术、贷审 memo、合规 reviewStandardized templates、AI reviewer、QA assistant
Learning / feedback组织无法把错误转成改进AI bad answers、case rework、model driftFeedback taxonomy、eval update loop、incident learning
Platform leverage多团队重复构建同一类 AI 能力model gateway、eval harness、prompt registry、RAG ingestionShared platform capabilities、reference patterns

4.3 Opportunity Scoring

AI opportunity 优先级不只看价值,还要看风险可控性、可评估性和复用潜力。

Dimension1 分3 分5 分
Outcome relevance只改善局部便利支持部门 KPI直接支持高优先级业务、风险或客户 outcome
Workflow pain intensity偶发不便高频但可忍受高频、高成本、高返工或高风险
Evidence strength只有 stakeholder opinion有访谈或个案有访谈、日志、case audit、baseline 数据
AI fit规则/流程改造更合适AI 可作为辅助AI 在理解、生成、排序、检索或模式识别上有明显优势
Data / context readinesssource owner 不清可接入但需治理权威来源、权限、版本、标签、日志基本清楚
Evalability难定义好坏可定义人工 rubric可建立 golden set、critical failure、online outcome
Risk controllability难以控制客户/合规影响可用人审和限制场景风险边界、HITL、guardrail、audit、fallback 清楚
Adoption likelihood用户不信任或流程入口弱pilot 用户愿意试嵌入真实 workflow,有激励和管理支持
Unit economics成本可能超过收益成本收益需验证成本与价值路径清晰,可规模化
Platform reuse单点特殊相关 use case 可复用多团队共享能力明显

决策建议:

Score建议
40-50进入受控 prototype + eval + pilot,准备 portfolio evidence。
30-39进入 discovery backlog,先测试最高风险假设。
20-29先补 workflow evidence、data readiness、risk boundary 或非 AI 方案。
低于 20停止或重写 opportunity;不要进入 AI build。

5. OST for AI Products

Product Talk 的 Opportunity Solution Tree 用 outcome、opportunity、solution、assumption tests 可视化 discovery。AI 场景要额外加入 risk、data、eval、HITL 和 platform reuse 维度。

5.1 AI OST 基本结构

Outcome
  -> Opportunity space
      -> workflow opportunity
      -> knowledge / data opportunity
      -> decision quality opportunity
      -> control / trust opportunity
      -> platform reuse opportunity
  -> Target opportunity
      -> Solution option A
          -> Assumptions
          -> Tests
      -> Solution option B
          -> Assumptions
          -> Tests
      -> Non-AI / process option
          -> Assumptions
          -> Tests
  -> Learning decision
      -> scale / iterate / pivot / stop / platformize

5.2 Outcome at the Top

AI OST 顶部不能写“上线 AI 助手”。应该写可观测 outcome。

不合格 outcome合格 outcome
上线 AML Copilot将 AML case preparation median cycle time 降低 25%,同时 critical evidence omission 为 0,SAR 决策仍由人工负责。
部署客服 GenAI将收费争议类客服 first-contact resolution 提升 10%,错误政策回答率不高于现行流程,投诉升级不增加。
做信贷 AI将中小企业贷款 memo 返工率降低 20%,policy citation defect 为 0,高风险例外全部进入人工审批。
做财富 AI 顾问将顾问会前准备时间降低 30%,不产生未经适当性评估的个性化推荐,客户会议质量评分提升。
建 AI 平台让 3 个高价值 AI pilot 复用 model gateway、prompt registry、eval harness 和 audit log,使 time-to-first-pilot 降低 30%。

5.3 Opportunity Space 分层

AI OST 的机会空间建议按 workflow moments,而不是按组织部门或技术模块分。

Layer问题例子
L1 Workflow moment哪个流程节点最影响 outcomeCase intake、evidence gathering、drafting、review、escalation
L2 Human struggle人在该节点的真实困难找不到资料、判断不一致、担心越界、重复输入
L3 AI leverageAI 可能改善的能力summarize、retrieve、classify、rank、draft、check、route
L4 Control need风险和边界不自动决策、引用证据、敏感信息遮蔽、人工批准
L5 Reuse potential是否可沉淀平台retrieval、eval、audit、tool gateway、prompt registry

5.4 Solution Space 不只放 AI 功能

每个 target opportunity 至少比较 3 类 solution,其中至少包含一个非 AI 或低 AI 方案。

Solution type适合场景例子
Process redesign痛点来自职责、审批、队列或政策不清重排 AML case queue,统一 evidence checklist
Rules / deterministic automation逻辑稳定、可解释、边界明确信贷材料 completeness rules,客服政策版本校验
RAG / semantic search知识查找和引用是主痛点KYC policy assistant,客服 SOP search
Copilot drafting人需要草稿、摘要、话术或 memoAML narrative draft,credit memo draft
AI reviewer人已经有输出,但需要检查缺陷Policy citation checker,complaint risk detector
Agent with approval需要跨系统动作但风险需人控创建 case、生成补件请求、更新低风险字段
Platform capability多个 use case 共享横向能力Eval harness、prompt registry、model gateway

5.5 AI OST 示例:AML

Outcome:
  AML case preparation median cycle time -25%;
  critical evidence omission = 0;
  SAR decision remains human-owned.

Opportunities:
  O1 Analyst must search transactions, KYC, alerts and prior cases across systems.
  O2 Analyst struggles to connect entity relationships and red flags quickly.
  O3 Narrative drafting quality varies by analyst experience.
  O4 Reviewers spend time finding missing evidence rather than judging risk.
  O5 Audit team needs evidence lineage and rationale trace.

Target opportunity:
  O2 Analyst struggles to connect entity relationships and red flags quickly.

Solutions:
  S1 Entity graph + red-flag summarizer.
  S2 Checklist-based evidence assistant.
  S3 Senior analyst review template and training.

Assumption tests:
  A1 Red flags can be detected from available transaction / KYC / case data.
  A2 Analysts trust AI only when every claim links to evidence.
  A3 Reviewer defect rate improves without increasing false comfort.
  A4 Tool can avoid suggesting SAR decision and stay in evidence support boundary.

6. Assumption Mapping

Assumption mapping 是 AI discovery 的核心。AI solution 的风险通常不是“能不能写代码”,而是业务、模型、数据、控制和 adoption 假设是否成立。

6.1 AI Assumption Categories

Category典型假设常用测试
Desirability目标角色真的愿意在该流程节点使用 AIStory interview、prototype test、workflow observation
Value解决该机会会显著影响 outcomeBaseline analysis、time study、case audit、business case
Usability用户能理解输出、置信度、引用和下一步Usability test、think-aloud、A/B prototype
Adoption用户会把 AI 嵌入真实工作,而不是试一次就不用Pilot telemetry、repeat usage、override reason
Data availability所需数据存在、可接入、质量足够Data profiling、source owner review、coverage analysis
Context / retrievalAI 能找到正确证据并拒绝不可靠来源Retrieval eval、citation audit、freshness test
Model performance模型在关键任务上达到最低质量Golden set、SME review、LLM judge calibration
Safety / complianceAI 不会越过禁止边界Red-team cases、policy test、risk review
Human oversight人能发现并纠正 AI 错误Reviewer simulation、override audit、HITL workload test
Operational fit队列、SLA、权限、异常处理能承受Pilot dry run、SOP rehearsal、fallback drill
Cost / latency单任务成本和响应时间可接受Load test、cost model、latency budget
Platform reuse横向能力确实被多个 use case 需要Use case inventory、architecture review、reuse score

6.2 Risk x Uncertainty x Evidence Cost

优先测试的不是最容易测的假设,而是高风险、高不确定、低到中等测试成本的假设。

RiskUncertaintyEvidence costTest priority
立即测试,决定是否继续
设计最小证据版本,必要时先做 shadow 或 expert review
验证是否仍成立,避免过度自信
放入下一轮 discovery
暂缓,不阻塞当前决策

6.3 Assumption Map Template

## Assumption Map

**Outcome:** [可观测业务/客户/风险结果]
**Target opportunity:** [证据支持的机会]
**Solution option:** [待验证的方案]
**Risk tier:** [Low / Medium / High / Critical]

| Assumption | Category | Why it matters | Risk | Uncertainty | Evidence now | Test | Pass signal | Fail signal | Decision impact |
|---|---|---|---|---|---|---|---|---|---|
| Analysts will trust generated AML red flags only when every claim links to transaction evidence. | Adoption / Trust | Without trust, usage will stay superficial. | High | Medium | 4 analyst interviews, 2 case audits | Prototype with citation trace on 8 cases | 6/8 analysts can explain and use evidence trace | Analysts ignore output or cannot verify claims | Redesign UX or stop summarizer path |

6.4 金融零售常见 Riskiest Assumptions

Use caseRiskiest assumption最小测试
AML copilotAI 能提升证据整理速度,但不会让 analyst 过度依赖或暗示 SAR 决策20 个历史 case replay + analyst blind review + SAR decision boundary test
客服 AIAI 能回答政策问题且在投诉、费用、欺诈、困难援助场景正确升级100 条真实意图 eval + 20 条 adversarial complaint cases
信贷 memoAI 草稿能减少返工,但不会编造理由、遗漏政策例外或影响最终信贷责任历史申请材料 replay + underwriter review + adverse-action boundary test
财富顾问AI 能提升会前准备质量,但不越界生成个性化投资建议Suitability scenario eval + compliance review + advisor prototype
AI 平台多个业务团队真的需要同一 eval / gateway / audit 能力,而不是各自特殊5 个 use case architecture review + duplicated work cost analysis

7. Prototype / Eval / Pilot Learning Loop

AI discovery 的学习循环不能停在原型。原型回答“人是否理解和愿意用”,eval 回答“系统是否达到质量和风险门槛”,pilot 回答“真实流程是否产生可控价值”。

7.1 Learning Loop

Opportunity evidence
  -> solution alternatives
  -> assumption map
  -> prototype test
  -> offline eval
  -> shadow / replay
  -> controlled pilot
  -> learning decision
  -> OST update

7.2 Prototype Types for AI

Prototype用途金融零售例子注意事项
Paper / clickable prototype测试工作流、信任、信息架构AML evidence panel、客服引用卡片不要让用户误以为模型能力已验证
Wizard of Oz测试用户价值和交互,背后人工生成输出财富顾问会前 brief明确内部测试伦理和数据保护
Prompt-only prototype快速探索输出格式和 rubric信贷 memo draft不能直接代表生产能力
Concierge prototype专家手工完成 AI 将来可能辅助的工作AML red-flag summary用于验证价值,不是规模化方案
Static replay用历史案例测试多种 solution output客服历史聊天、信贷申请注意历史数据权限和抽样偏差
Shadow mode在真实输入下运行但不影响决策Fraud alert triage challenger不能证明 adoption,只证明输出表现
Limited pilot小范围真实使用10 名 analyst / 2 个客服队列必须有 rollback、monitoring 和 manual fallback

7.3 Eval Contract

Eval contract 是 AI 产品需求的验收形式。

## Eval Contract

**Use case:** AML Case Evidence Copilot
**Workflow boundary:** Evidence gathering and narrative draft only; no SAR decision.
**Risk tier:** High
**Primary quality metric:** Evidence completeness score >= 4/5 on SME rubric
**Critical failure classes:** unsupported claim, missing mandatory red flag, wrong citation, SAR recommendation, PII leakage
**Critical threshold:** 0 critical failures in release set
**Golden set:** 80 historical cases, stratified by typology, complexity, customer segment and alert type
**Reviewer:** AML SME + model risk reviewer
**Release decision:** pass / limited pilot / fail / exception
**Monitoring:** override reason, reviewer defect, citation issue, hallucination report, cycle time, incident

7.4 Pilot Protocol

Pilot element必须定义的问题
Scope哪些用户、队列、产品、地区、客户类型、case 类型进入 pilot
Control / comparison与历史 baseline、control group、shadow challenger 或 stepped rollout 如何比较
Risk gate哪些错误立即 pause / rollback / escalate
Human role人在何处复核、批准、修改、拒绝、标记错误
Telemetry记录 exposure、usage、edit、override、latency、cost、feedback、incident
Outcome业务 outcome、用户 outcome、质量 outcome、风险 outcome、成本 outcome
Duration覆盖足够 case volume 和业务周期,不被单周波动误导
Decisionscale、iterate、pivot、stop、platformize 的明确规则

7.5 Learning Decision Record

## Learning Decision Record

**Date:** 2026-06-29
**Use case:** Customer Service Fee Dispute AI Assistant
**Decision:** Limited scale to two more queues

**Evidence reviewed:**
- 1200 pilot conversations, 84% eligible exposure
- First-contact resolution +8.7% versus baseline
- Wrong policy answer 0.4%, below 0.5% guardrail
- Complaint misclassification 0 critical failures in sampled audit
- Cost per successful resolved contact $0.18

**What we learned:**
- Retrieval works well for fee policy when source has effective date metadata.
- AI still struggles with hardship language and should escalate earlier.
- Agents trust cited answers but ignore confidence badges; citations matter more.

**Decision rationale:**
- Business value is positive and risk within appetite for fee dispute queue.
- Hardship and complaint branches remain excluded from scale until new eval passes.

**Next action:**
- Expand to two fee-related queues.
- Add hardship detection cases to eval.
- Update opportunity tree: split "fee policy confusion" and "financial hardship escalation".

8. Financial Retail Case Pack

以下案例按 discovery 资产组织,不是完整 PRD。重点是高级判断:何时 AI 值得做,哪里必须限制,如何验证,何时停止。

8.1 AML Investigation Copilot

ItemDiscovery design
OutcomeAML case preparation median cycle time -25%,critical evidence omission = 0,SAR decision remains human-owned。
Target usersAML analyst、QA reviewer、financial crime operations lead。
Opportunity space跨系统找证据慢;实体关系难串联;red flag 覆盖不稳定;narrative 返工;审计证据链不清。
Solution optionsRAG + transaction evidence summary;entity graph + typology hints;AI reviewer for missing evidence;non-AI evidence checklist redesign。
Riskiest assumptionsAI 能从可用数据中准确引用证据;analyst 能发现 AI 错误;AI 不暗示 SAR 决策;输出不泄露不必要敏感信息。
Prototype历史 case replay,生成 evidence panel 和 narrative draft,由 analyst blind review。
Evaltypology coverage、citation accuracy、unsupported claim、mandatory evidence completeness、SAR recommendation prohibition。
Pilot只进入 evidence gathering 和 draft 阶段;analyst 必须 edit / approve;QA 抽样复核;kill switch。
Scale signalcycle time 下降、QA defect 不上升、critical failure 为 0、analyst repeat usage 上升。
Stop signal出现 unsupported high-risk claim、SAR decision suggestion、analyst 过度复制且不核验、audit 无法追溯。

OST snippet:

Outcome: Reduce AML case preparation cycle time while preserving evidence quality.
Opportunity: Analyst struggles to connect red flags across transaction and KYC evidence.
Solutions: entity graph summary / evidence checklist / senior analyst review template.
Assumptions: evidence can be grounded; analyst trusts citations; SAR boundary is enforced.
Tests: 20 case replay, red-team SAR prompts, SME blind scoring.

8.2 Customer Service AI for Regulated Servicing

ItemDiscovery design
OutcomeFirst-contact resolution +10%,wrong policy answers 不高于现行流程,complaint / hardship / fraud intents 不被错误关闭。
Target usersContact center agents、digital support customers、supervisors、QA team。
Opportunity space政策版本难找;账户事实和政策混用;复杂意图没有及时升级;客服话术不一致;客户重复陈述。
Solution optionsAgent-facing policy copilot;customer-facing constrained assistant;intent classifier + escalation;conversation summarizer;SOP redesign。
Riskiest assumptionsRAG 能按产品、地区、客户状态返回有效政策;AI 能识别投诉和困难援助;客户不会把 AI 回答误认为不可申诉决定。
PrototypeAgent desktop prototype,展示 answer + citation + escalation reason;用 30 条真实对话做模拟。
Evalpolicy correctness、citation support、regulated-intent recall、unsafe advice、handoff quality、tone。
Pilot先做 agent-facing,不做自动客户承诺;选择低到中风险队列;所有客户外发内容由 agent 发送。
Scale signalFCR 上升、AHT 合理下降、QA defect 不上升、升级准确率提升、agent adoption 稳定。
Stop signal投诉识别漏报、错误费用/权利承诺、人工入口被阻断、低置信输出被直接发送。

8.3 Credit Underwriting / Loan Memo Copilot

ItemDiscovery design
OutcomeLoan memo rework -20%,policy citation defect = 0,高风险例外全部进入人工审批,AI 不生成正式信贷决定。
Target usersUnderwriter、relationship manager、credit risk reviewer、fair lending / model risk。
Opportunity space材料分散;政策条款难引用;例外理由写法不一致;缺失材料发现晚;memo 格式和质量不稳定。
Solution optionsDocument extraction + memo prefill;policy citation assistant;missing-data checker;exception reason taxonomy;non-AI checklist enforcement。
Riskiest assumptionsAI 能区分事实、政策、推断;不会编造 adverse action reason;不会引入 prohibited basis 或 proxy bias;human reviewer 能有效纠偏。
Prototype使用已脱敏历史申请材料生成 memo sections,由 underwriter 和 risk reviewer 双评。
Evalfactual consistency、policy citation accuracy、missing document detection、prohibited language、decision boundary violation。
Pilot仅内部草稿;不可自动拒贷、批贷或生成正式通知;所有输出保留修改记录。
Scale signalmemo cycle time 下降、返工下降、policy defect 为 0、reviewer trust 上升。
Stop signal错误或不准确的拒绝理由、遗漏关键风险、隐含歧视性语言、未授权自动决策。

8.4 Wealth Advisor Copilot

ItemDiscovery design
OutcomeAdvisor pre-meeting preparation time -30%,client meeting quality score 提升,不生成未经适当性评估的个性化投资建议。
Target usersWealth advisor、investment product specialist、supervisor、compliance reviewer。
Opportunity space会前资料分散;客户目标、风险等级、持仓、产品资料难整合;合规话术和披露要求复杂;顾问经验差异大。
Solution optionsPre-meeting client brief;education content assistant;portfolio discussion checklist;compliance review helper;non-AI template library。
Riskiest assumptionsAI 能清楚区分教育信息、一般产品信息、个性化建议和交易引导;顾问不会复制未审查建议;知识源有有效版本和披露。
Prototype生成 client brief 和 discussion topics,不生成“买/卖/持有”建议;合规 reviewer 评估。
Evalsuitability boundary、disclosure completeness、unsupported product claim、tone、source freshness、advisor edit behavior。
Pilot只限 advisor-facing;禁止客户直接使用;所有客户材料需人工确认和合规抽样。
Scale signal顾问准备时间下降、客户会面质量提升、合规 defect 不上升、advisor repeat use 高。
Stop signal个性化投资建议越界、暗示收益保证、披露缺失、过期产品资料被引用。

8.5 Enterprise AI Platform Discovery

ItemDiscovery design
Outcome3 个高价值 pilot 复用 core AI platform capabilities,使 time-to-first-pilot -30%,每个 release 有 eval report 和 audit trace。
Target usersAI app teams、business PM、data scientists、risk reviewers、platform operations。
Opportunity space各团队重复接模型;prompt 不可追溯;RAG ingestion 重复;eval 缺失;成本不可归因;审计证据散落。
Solution optionsModel gateway;prompt/config registry;eval harness;RAG ingestion service;audit log;reference app templates。
Riskiest assumptions多个 use case 的平台需求足够相似;平台不会拖慢业务 pilot;治理能力能嵌入开发流程;成本归因可自动化。
Prototype选择 AML、客服、信贷 3 个 use case,映射共用 capability,做 thin platform slice。
Eval平台不直接评估业务效果,而是评估 reuse、time-to-pilot、release gate coverage、trace completeness、developer adoption。
Pilot让 2-3 个应用通过同一 model gateway + eval runner + audit schema 上线有限 pilot。
Scale signal新 use case 接入时间下降,eval 报告标准化,platform support ticket 不爆炸,重复组件减少。
Stop signal平台抽象无法覆盖真实 use case、团队绕过平台、治理变成手工审批瓶颈、成本高于复用收益。

9. Templates

这些模板可直接用于作品集或项目材料。每个模板都要求填写真实证据,不接受空泛结论。

9.1 AI Discovery Brief

# AI Discovery Brief

## 1. Outcome
- Business / customer / risk outcome:
- Baseline:
- Target:
- Time horizon:
- Guardrail:

## 2. Workflow Scope
- Role:
- Workflow moment:
- Current pain:
- Current workaround:
- Existing system / data:

## 3. Opportunity Statement
- For:
- When:
- They struggle to:
- Because:
- Which affects:
- Evidence:

## 4. Solution Alternatives
| Option | Type | Why it may work | Why it may fail | First test |
|---|---|---|---|---|

## 5. Risk and Controls
| Risk | Severity | Control | Eval / monitoring |
|---|---|---|---|

## 6. Learning Plan
- Prototype:
- Eval:
- Shadow / pilot:
- Decision rule:

9.2 Story-Based AI Interview Guide

# Story Interview Guide

## Opening
- Tell me about the last time you handled [specific workflow / case type].
- What triggered the work?
- What were you trying to accomplish?

## Workflow Detail
- What systems, documents or people did you use?
- Where did you slow down, double-check or ask for help?
- What did you copy, rewrite, summarize or interpret?
- What could go wrong if this step is done poorly?

## Judgment and Risk
- What parts require expert judgment?
- What signals make you escalate?
- What decisions are you not allowed to delegate?
- What evidence do reviewers or auditors expect?

## AI Reaction
- If AI produced [specific output], how would you verify it?
- What would make you trust or distrust it?
- What mistake would be unacceptable?
- What would you still want a human to own?

## Evidence Capture
- Quote:
- Workflow artifact:
- Opportunity:
- Assumption:
- Follow-up test:

9.3 AI Opportunity Card

# AI Opportunity Card

**Outcome:**
**Opportunity:**
**Role / segment:**
**Workflow moment:**
**Evidence:**
**Current workaround:**
**Business impact:**
**Customer / employee impact:**
**Risk impact:**
**AI leverage:** retrieve / summarize / classify / rank / draft / check / route / act with approval
**Non-AI alternative:**
**Top assumptions:**
**First test:**
**Decision after test:** scale discovery / revise / stop

9.4 AI OST Canvas

# AI Opportunity Solution Tree Canvas

## Outcome
- Direction:
- Target:
- Guardrails:

## Opportunity Space
| Opportunity | Evidence | Segment / role | Workflow moment | Opportunity type | Score |
|---|---|---|---|---|---:|

## Target Opportunity
- Selected opportunity:
- Why now:
- Why not other opportunities:

## Solution Space
| Solution | Type | Differentiator | Key risk | Reuse potential |
|---|---|---|---|---|

## Assumption Tests
| Solution | Assumption | Test | Pass signal | Fail signal | Decision impact |
|---|---|---|---|---|---|

## Learning Decision
- Continue:
- Change:
- Stop:
- Platformize:

9.5 Eval Rubric Template

# Eval Rubric

**Use case:**
**Task boundary:**
**Risk tier:**
**Reviewer role:**

| Dimension | 1 - Fail | 3 - Acceptable with issues | 5 - Strong |
|---|---|---|---|
| Grounding | Unsupported claims or missing sources | Mostly grounded but incomplete evidence | All key claims supported by approved evidence |
| Completeness | Misses required facts or steps | Covers main facts, minor gaps | Covers required facts, exceptions and next steps |
| Boundary | Gives prohibited advice or action | Minor wording risk | Stays within role and escalates appropriately |
| Usefulness | Not actionable | Partially useful | Clear, concise, workflow-ready |
| Auditability | Cannot trace source or reviewer action | Partial trace | Source, version, reviewer and action trace complete |

## Critical Failures
- Unsupported high-impact claim
- Wrong or fabricated citation
- Prohibited recommendation / decision
- Missing mandatory escalation
- Sensitive data leakage
- Policy version error

9.6 Pilot Protocol Template

# AI Pilot Protocol

## Pilot Scope
- Use case:
- Users / teams:
- Customer / case eligibility:
- Exclusions:
- Duration:

## Controls
- Human review:
- Approval points:
- Fallback:
- Kill switch:
- Incident owner:

## Metrics
| Metric | Type | Baseline | Target / threshold | Owner |
|---|---|---:|---:|---|

## Data and Telemetry
- Exposure event:
- User action:
- AI output:
- Human edit / override:
- Feedback:
- Cost:
- Latency:

## Decision Rule
- Scale if:
- Iterate if:
- Pivot if:
- Stop if:
- Platformize if:

10. Review Checklist

10.1 Discovery Readiness

CheckPass criteria
Outcome is clear有 baseline、target、time horizon 和 guardrails,不是“上线 AI 功能”。
Evidence exists至少有访谈、workflow observation、case audit、日志或 data profiling 中的两类证据。
Opportunity is not a solution该 opportunity 至少有 3 种可能 solution,其中包括非 AI 或低 AI 方案。
Role and workflow are specific明确谁、何时、在什么系统或流程节点遇到困难。
Current workaround is known了解用户今天如何绕开问题,以及该 workaround 的成本。

10.2 AI Fit Review

CheckPass criteria
AI leverage is explicit说明 AI 是 retrieve、summarize、classify、rank、draft、check、route 还是 act with approval。
Non-AI option considered比较流程、规则、模板、培训、系统集成等方案。
Data readiness assessedsource owner、permission、freshness、coverage、label、lineage 清楚。
Evalability confirmed关键输出能用 rubric、golden set、critical failure 和 online metric 评估。
Unit economics plausible有初步 cost per task、人工节省、返工减少或风险成本模型。

10.3 Risk and Governance Review

CheckPass criteria
Risk tier assigned按客户影响、决策影响、监管触点、不可逆性和自动化程度分层。
Decision boundary documented明确 AI 不做什么,尤其是信贷、财富建议、AML SAR、投诉、资金动作。
Human oversight designed人的角色、复核点、审批点、抽样、纠错和责任明确。
NIST AI RMF lens appliedGovern / Map / Measure / Manage 都有对应证据或计划。
Audit evidence defined可追踪 input、source、prompt/config、model、output、human action、approval、incident。

10.4 Eval / Pilot Review

CheckPass criteria
Eval set is representative覆盖 common、edge、missing-data、policy conflict、adversarial、high-risk cases。
Critical failures are zero-tolerance高风险失败类设为 release blocker。
Pilot has comparison有 baseline、control、shadow、holdout 或明确对照方法。
Monitoring is actionable指标异常能触发 pause、rollback、escalation 或 fix loop。
Learning decision is explicitscale、iterate、pivot、stop、platformize 的条件事先写清。

11. Anti-Patterns

Anti-pattern为什么危险更好的做法
AI-first ideation从模型能力出发,容易做出炫技但低价值产品从 outcome 和 workflow opportunity 出发
Stakeholder request = opportunity业务方常以 solution 表达问题用 story evidence 还原底层机会
Chatbot as default UI很多工作流需要 embedded copilot、checklist、reviewer 或 workflow automation根据 workflow moment 选择交互形态
PoC without eval只证明能 demo,不证明能上线每个 PoC 都有 assumption、eval 和 learning decision
Accuracy as single metric平均准确率掩盖高风险失败使用 rubric、critical failures、guardrails、slice metrics
Human-in-the-loop theater写了人审,但人没有时间、能力或界面发现错误设计 reviewer workload、evidence trace、override telemetry
Platform too early第一个 use case 就建大平台,抽象不稳至少用 2-3 个 use case 证明重复能力
Over-automation in regulated decisionsAI 越过信贷、AML、财富、投诉等责任边界先做 read / summarize / draft / recommend with approval
Ignoring knowledge governance把文档丢进向量库,忽略版本、权限、owner建 source inventory、metadata、freshness、retrieval eval
Pilot as adoption theater让友好用户试用,没有对照和风险门禁定义 exposure、baseline、decision rule 和 stop rule
Cost blindness只看节省人力,不看推理、检索、审计、人工复核成本计算 cost per successful task 和规模化成本
No stop rule失败项目继续换模型、换 prompt、换说法事先定义 stop / pivot / platformize 条件

12. 30 天训练计划

目标:30 天内产出一个金融零售 AI use case 的完整 discovery portfolio。每天 60-90 分钟,重点训练高级判断,而不是基础需求技巧。

Day训练主题任务产出
1选择 use case从 AML、客服、信贷、财富顾问、AI 平台中选 1 个Use case one-pager
2Outcome framing写 3 个 outcome,剔除 feature / output 指标Outcome statement + guardrails
3Workflow mapping画 AS-IS workflow,标记等待、返工、判断和风险点Workflow map
4Evidence inventory收集可用访谈、日志、case audit、政策、数据源Evidence inventory
5Story interview design设计 8-10 个 story-based questionsInterview guide
6Simulated interview 1用一个真实或模拟案例回答访谈问题Story notes
7Opportunity extraction从故事中提取 8-12 个 opportunityOpportunity cards
8Opportunity taxonomy将机会按 knowledge、evidence、decision、control、platform 分类Opportunity taxonomy table
9Opportunity scoring用 10 维 scorecard 评分Opportunity scorecard
10OST draft画第一个 OST:outcome、opportunities、target opportunityOST v1
11Solution alternatives为 target opportunity 生成 3-5 个 solution,包括非 AI 方案Solution comparison
12Assumption mapping每个 solution 写 5-8 条假设Assumption map v1
13Riskiest assumption用 risk x uncertainty x evidence cost 排序Test priority list
14Prototype design选择 paper、Wizard of Oz、prompt、replay 或 shadow 原型Prototype plan
15Eval boundary定义 AI 任务边界和禁止行为Decision boundary map
16Failure taxonomy写 common failures 和 critical failuresFailure taxonomy
17Rubric design写 1/3/5 分 rubric 和 reviewer roleEval rubric
18Golden set design设计 30-80 条 case 的分层抽样Golden set plan
19Red-team cases写 15 条 adversarial / policy conflict casesRed-team set
20Pilot scope定义 pilot 用户、队列、排除项、durationPilot protocol v1
21Metrics tree设计 outcome、quality、risk、adoption、cost metricsMetric tree
22Monitoring plan定义 telemetry、override、incident、feedback loopMonitoring plan
23NIST AI RMF mapping将 use case 映射到 Govern / Map / Measure / ManageRisk control map
24Financial control review写客户影响、监管触点、HITL、audit evidenceControl checklist
25Learning decision rules写 scale / iterate / pivot / stop / platformize 条件Decision rules
26OST revision根据假设和 eval 结果重构 OSTOST v2
27Executive memo写 1 页 discovery decision memoExecutive memo
28Portfolio packaging整理 discovery brief、OST、assumption map、eval、pilotPortfolio pack
29Interview rehearsal用 5 个面试问题讲清决策过程Interview answers
30Retrospective写 10 条高级洞察和下一轮 discovery backlogLearning retrospective

13. 面试答案

Q1:AI 产品发现和传统需求收集有什么不同?

30 秒版

AI 产品发现不是把业务方想要的 AI 功能写成需求,而是持续证明某个工作流机会是否值得 AI 化。它要同时验证 desirability、business value、data readiness、model performance、risk controls、human oversight、unit economics 和 adoption。传统需求强调“要做什么”,AI discovery 更强调“为什么这个机会值得做、哪种 AI 形态合适、哪些假设最危险、用什么 eval 和 pilot 证明”。

2 分钟版

在金融零售场景,业务方经常以 solution 表达需求,比如“做一个 AML 助手”或“做一个客服 chatbot”。我会先把它还原为 outcome 和 workflow opportunity:哪个角色、哪个流程节点、什么痛点、影响什么指标。然后用 Opportunity Solution Tree 拆出 opportunity space、多个 solution options 和 assumption tests。AI 的特殊之处是输出概率化、上下文依赖强、风险边界复杂,所以需求不能只写 acceptance criteria,而要写 eval contract、critical failures、HITL、monitoring 和 learning decision。最终目标不是交付一个 AI 功能,而是做出 scale、iterate、pivot、stop 或 platformize 的证据化判断。

Q2:你会如何用 Opportunity Solution Tree 做 AI 产品?

30 秒版

我会把 outcome 放在树顶,例如降低 AML case preparation 时间且保持证据质量。下面是 opportunity space,如证据分散、red flag 难串联、narrative 返工。选择一个 target opportunity 后,比较至少 3 个 solution,包括 AI 和非 AI 方案。每个 solution 拆成假设,再用 prototype、eval、shadow 或 pilot 测试最高风险假设。

2 分钟版

OST 的价值是防止团队直接跳到“做 chatbot”或“接大模型”。AI OST 顶部必须是可观测 outcome,并带 guardrails。机会层要来自真实 workflow evidence,而不是会议想象。解决方案层要有多选项,比如 RAG、copilot、AI reviewer、rules automation 或流程改造。AI 场景还要在每个 solution 下面挂 assumption tests,例如检索是否能找到有效政策、模型是否会编造引用、人审是否能发现错误、成本是否可接受。每一轮 prototype / eval / pilot 后更新树,保留学习痕迹,最终形成投资决策证据。

Q3:如何判断一个 AI opportunity 是否值得做?

30 秒版

我会看 10 个维度:outcome relevance、workflow pain、evidence strength、AI fit、data readiness、evalability、risk controllability、adoption likelihood、unit economics 和 platform reuse。高价值但不可评估或风险不可控的机会不应该直接进入 build。

2 分钟版

AI opportunity 的判断不能只看“能不能自动化”。金融零售尤其要看它是否能改善高优先级 outcome,是否发生在高频或高风险流程节点,是否有证据支持,AI 是否比规则或流程改造更适合。然后看数据和上下文是否可用,输出好坏是否能评估,风险是否能通过人审、guardrail、audit 和 fallback 控制。最后看用户是否会在真实流程中采纳,以及成本收益是否成立。如果多个业务场景共享同一能力,还可能进入平台化机会。反过来,如果机会只是“业务想试 AI”,没有 outcome、eval 或 risk boundary,我会先停止或重写机会。

Q4:怎么做 AI assumption mapping?

30 秒版

我把假设分成 desirability、value、usability、adoption、data、retrieval、model performance、safety、human oversight、operations、cost 和 platform reuse。然后按 risk、uncertainty、evidence cost 排序,优先测试高风险高不确定的假设。

2 分钟版

例如信贷 memo copilot 的 solution 可能看起来很简单,但关键假设很多:申请材料能否正确抽取,政策引用是否准确,AI 是否会编造拒绝理由,underwriter 是否能有效复核,输出是否引入 fair lending 风险。每条假设都要写清为什么重要、当前证据、测试方法、通过信号、失败信号和决策影响。最高风险假设不一定用生产 pilot 测,可以先用历史 case replay、SME blind review、red-team cases 或 shadow run。这样做的好处是把“感觉可行”变成可学习、可停止的证据链。

Q5:prototype、eval 和 pilot 的区别是什么?

30 秒版

Prototype 测用户是否理解和愿意用,eval 测 AI 输出是否达到质量和风险门槛,pilot 测真实流程中是否创造可控业务价值。三者回答的问题不同,不能互相替代。

2 分钟版

比如客服 AI,clickable prototype 可以测试 agent 是否理解引用和升级提示;offline eval 可以用真实意图和政策冲突样本测试正确率、引用、投诉识别和 unsafe answer;pilot 才能看 first-contact resolution、AHT、QA defect、投诉、人工升级和成本。很多团队把 demo 当 eval,或把 pilot 当 discovery,这是危险的。成熟做法是先用 prototype 降低交互风险,再用 eval 降低质量和安全风险,再用受控 pilot 验证业务价值和运营可行性。

Q6:金融零售 AI discovery 最大的产品判断是什么?

30 秒版

最大判断是 AI 应该停在哪个 decision boundary。很多场景适合 read、summarize、draft、check、recommend with approval,但不适合直接 decide 或 act autonomously。

2 分钟版

在 AML,AI 可以整理证据和草拟 narrative,但 SAR 决策应由人负责。在信贷,AI 可以预填 memo、引用政策和提示缺失材料,但不能自动拒贷或编造 adverse action reason。在财富,AI 可以帮助顾问准备教育材料,但不能绕过适当性给个性化投资建议。在客服,AI 可以回答低风险问题,但投诉、欺诈、困难援助、费用争议要有升级和人工入口。这个边界决定了 solution pattern、UX、eval、审批、日志和上线门禁。

Q7:你如何把 NIST AI RMF 用在 discovery?

30 秒版

我不会把 NIST AI RMF 当合规清单,而是把 Govern / Map / Measure / Manage 转成 discovery 问题:谁负责、场景和影响是什么、如何测量风险、上线后如何管理。

2 分钟版

在 discovery 阶段,Govern 对应 owner、risk tier、decision rights 和 approval path;Map 对应用例背景、角色、数据、客户影响和受监管边界;Measure 对应 eval、rubric、critical failures、model/retrieval quality 和 monitoring;Manage 对应 mitigation、HITL、fallback、incident、rollback 和 continuous improvement。这样 NIST AI RMF 不只是上线前审查,而是贯穿 opportunity selection、assumption testing、pilot 和 scale decision。

Q8:什么时候把多个 AI use case 平台化?

30 秒版

当 2-3 个高价值 use case 证明有重复能力,例如 model gateway、prompt registry、eval harness、RAG ingestion、audit log 和 cost attribution,并且平台化能缩短 pilot 周期、提高控制一致性时,才值得平台化。

2 分钟版

过早平台化是 AI 转型常见失败。第一个 use case 还没有跑通,就建大平台,通常会抽象错误、交付慢、业务绕开。我的做法是从 use case discovery 中抽取重复模式:哪些团队都需要模型接入、日志、权限、eval、RAG、prompt versioning、工具审批和成本归因。如果多个高价值 pilot 重复建设这些能力,并且风险团队也需要统一 evidence,那么可以做 thin platform slice。平台的 outcome 不是功能多,而是 time-to-first-pilot、release gate coverage、reuse rate、audit completeness 和 cost visibility。


14. Portfolio Deliverables

一个有说服力的高级 AI discovery 作品集,不是 PRD 文件堆砌,而是一组能证明决策质量的 artifacts。

Deliverable内容面试中证明什么
AI Discovery Briefoutcome、workflow scope、opportunity、evidence、solution alternatives、risk、learning plan你能把 AI idea 转成产品判断问题
Opportunity Solution Treeoutcome、opportunity space、target opportunity、solutions、assumption tests你不会跳到 solution,会管理 discovery 结构
Opportunity Scorecard10 维机会评分和取舍理由你能做 portfolio prioritization
Assumption Map假设类别、风险、不确定性、测试、通过/失败信号你能识别 AI use case 的真实不确定性
Prototype Pack原型、脚本、用户反馈、学习结论你能验证 human-AI workflow 和 trust UX
Eval Contracttask boundary、rubric、golden set、critical failures、threshold、reviewer你能把 AI 需求转成可测试承诺
Pilot Protocolscope、control、metrics、telemetry、risk gate、decision rule你能把 pilot 设计成学习系统
Risk Control MapNIST AI RMF mapping、decision boundary、HITL、audit、incident你理解金融零售 AI 风险和治理
Learning Decision Recordevidence、decision、rationale、next action、OST update你能做 scale / iterate / stop 判断
Executive Memo1 页向高管解释机会、证据、风险、投资建议你能把技术和 discovery 转成业务决策

14.1 推荐作品集结构

01 Executive Summary
02 Use Case Context and Outcome
03 Workflow Evidence
04 Opportunity Solution Tree
05 Opportunity Scorecard
06 Solution Alternatives
07 Assumption Map
08 Prototype Findings
09 Eval Contract and Results
10 Pilot Protocol
11 Risk / Governance Evidence
12 Learning Decision and Roadmap
13 Platform Reuse Opportunities

14.2 高级表达句式

场景表达
拒绝 solution-first“我不会从 chatbot 开始。我会先确认哪个 workflow opportunity 能驱动 outcome,再比较 AI 和非 AI 方案。”
解释 eval“在这个场景里 eval 不是测试活动,而是产品合同:哪些输出被允许,哪些失败是 release blocker。”
解释风险“我把风险边界前置到 discovery,而不是等模型 demo 完再让合规兜底。”
解释 pilot“Pilot 的目的不是让用户试用,而是用受控 exposure 学习 business value、risk、adoption 和 cost 是否同时成立。”
解释平台“平台化不是先建基础设施,而是在多个 use case 证明重复能力后,把 learning、control 和 speed 产品化。”

15. Final Decision Heuristics

15.1 When to Build

进入 build / pilot 的最低条件:

  • Outcome 清楚且值得投入。
  • Opportunity 来自真实 workflow evidence。
  • 至少比较过 3 个 solution options。
  • Riskiest assumptions 已有初步证据。
  • Eval contract 能定义好坏和 critical failures。
  • Risk tier、decision boundary、HITL、audit evidence 清楚。
  • Pilot 有 scope、metrics、guardrails 和 stop rule。

15.2 When to Stop

出现以下信号,应停止或重写 opportunity:

  • 业务 outcome 不清,只剩“用 AI”本身。
  • 机会无法从真实用户故事、case audit 或数据中证明。
  • 非 AI 方案明显更简单、更稳、更便宜。
  • 关键数据源没有 owner、权限或质量基础。
  • 高风险失败无法被 eval 或 human oversight 发现。
  • 用户不愿在真实工作流中使用,或使用会转移负担。
  • 单任务成本高于可解释价值,且没有规模化改善路径。

15.3 When to Platformize

满足以下条件时考虑平台化:

  • 至少 2-3 个 use case 需要相同横向能力。
  • 复用能力与风险控制强相关,如 eval、audit、model gateway、prompt registry。
  • 平台化可以缩短 time-to-pilot,而不是增加审批摩擦。
  • 有明确 owner、SLO、support model、cost attribution 和 adoption metric。
  • 平台能力可以支持未来 use case,而不是只服务当前项目。

16. Quick Reference

AI discovery quality test:

Can you explain:
1. What outcome are we trying to move?
2. What workflow opportunity did evidence reveal?
3. Why is this an AI opportunity rather than process / rules / training?
4. What are at least three solution options?
5. Which assumptions are riskiest?
6. What prototype / eval / pilot will test them?
7. What failures are unacceptable?
8. What decision will we make with the evidence?
9. What risk controls and audit evidence are required?
10. Is this a point solution, platform candidate, or stop decision?

如果不能清楚回答以上问题,团队还没有完成 AI continuous discovery。