AI 扩展计划 / Playbooks

AI Continuous Discovery / Opportunity Solution Tree Playbook

这些来源作为方法论和风险管理锚点。本文将其转成 AI 产品发现、机会树、假设测试、评估和金融零售 pilot 的工作语言。

1,062 行AI_CONTINUOUS_DISCOVERY_OPPORTUNITY_SOLUTION_TREE_PLAYBOOK.md

AI Continuous Discovery & Opportunity Solution Tree Playbook

定位：面向高级 AI PM / AI BA / Product Architect / AI Solutions Architect 的持续发现与机会树手册。目标不是重新讲“需求收集”，而是把 AI 产品从 stakeholder idea、模型能力、流程痛点和风险假设，转成可验证的 outcome、opportunity、solution、assumption、eval 和 pilot decision。适用对象：金融零售 AI 产品负责人、AI 转型负责人、企业 AI 平台 PM、风控/合规/运营场景 AI PM、已具备成熟 BA/产品经验但需要升级 AI 产品判断的人。核心问题：如何判断一个 AI use case 是否值得做、应该做成 copilot / RAG / agent / workflow automation / 平台能力，如何证明它在受监管业务中真的创造价值且风险可控。作品集定位：本文可直接转化为 AI Discovery Portfolio，包括 Opportunity Solution Tree、Assumption Map、Eval Contract、Pilot Protocol、Learning Decision Record、Financial Retail AI Case Pack 和 30 天训练资产。边界说明：本文不是基础 BA 教材、法律意见、合规意见、模型验证报告或监管解释。正式金融零售 AI 项目必须由 business owner、risk、model risk、legal、compliance、privacy、security、data owner、operations owner 和 architecture review 共同确认。

Source Anchors

这些来源作为方法论和风险管理锚点。本文将其转成 AI 产品发现、机会树、假设测试、评估和金融零售 pilot 的工作语言。

Anchor	Official / primary source	本 playbook 中的用法
Product Talk Opportunity Solution Tree	https://www.producttalk.org/opportunity-solution-tree/	用 outcome -> opportunity space -> solution space -> assumption tests 的结构组织 AI discovery；强调机会不是解决方案，解决方案需要拆成假设并测试。
Product Talk Continuous Discovery	https://www.producttalk.org/continuous-discovery/	用持续、每周、与客户/用户保持连接的 discovery cadence，替代一次性项目调研；强调 discovery 是决定做什么的过程，不是交付前的需求阶段。
NIST AI RMF	https://www.nist.gov/itl/ai-risk-management-framework	用 Govern / Map / Measure / Manage 将 AI opportunity 的风险、可测性、控制、上线门禁和持续监控纳入产品发现。
NIST AI RMF 1.0 publication	https://doi.org/10.6028/NIST.AI.100-1	用 AI lifecycle、trustworthy AI characteristics、risk measurement difficulty 和 human-AI interaction 风险校准金融零售 AI 发现活动。
NIST GenAI Profile	https://doi.org/10.6028/NIST.AI.600-1	用生成式 AI 特有风险，如 hallucination、data leakage、over-reliance、misuse、content provenance，补强 GenAI 产品发现和 eval 设计。

1. One-Sentence Positioning

一句话：

AI Continuous Discovery =
持续识别真实业务机会、用户工作流机会、AI 可行性假设和风险控制假设，
用 Opportunity Solution Tree 明确 outcome、opportunity、solution、assumption，
再通过 prototype、eval、shadow、pilot 和 production learning 决定 scale、iterate、pivot、stop 或 platformize。

更短的面试版：

AI 产品发现不是把业务方想要的 AI 功能写成需求，而是持续证明：哪个高价值工作流机会值得 AI 化，哪种 AI 形态最合适，关键假设是否被证据支持，风险是否能被 eval、控制和运营闭环管理。

1.1 高级 AI PM 的发现责任

普通交付视角	高级 AI discovery 视角
业务说要一个 chatbot	客户/员工在哪个 workflow moment 需要更好的判断、速度、解释或控制
需求写清楚即可开工	先拆 outcome、opportunity、solution options 和 riskiest assumptions
模型 demo 能跑就是进展	demo 只证明可演示，不证明可上线、可审计、可采纳、可规模化
验收看用户是否满意	验收看 business outcome、AI quality、risk guardrail、adoption、cost 和 control evidence
项目上线后结束	上线只是进入真实学习循环，仍需 drift、feedback、incident、knowledge freshness 和 model/config change loop

1.2 适用场景

场景	是否适用	原因
AML case summarization copilot	是	需要从 analyst workflow、证据质量、SAR 边界、人工复核和 eval 风险开始发现。
客服 AI 知识助手	是	需要识别知识检索、话术边界、投诉升级、人工接管和客户伤害风险。
信贷 memo drafting	是	需要明确 AI 只能草拟和查缺补漏，不替代信贷决策。
财富顾问 copilot	是	需要严格区分教育、产品信息、个性化建议、适当性和销售合规。
企业 AI 平台能力规划	是	需要从多个 use case 中发现可复用机会，而不是先建大平台。
已知规则、低风险、确定性自动化	可能不需要完整 OST	若规则明确、无 AI 不确定性、风险低，可用轻量 discovery 和普通流程改造。

2. 为什么 AI 产品发现不是需求收集

对已成熟的 BA / PM 而言，真正的升级点不是“多问用户需求”，而是把 AI 的不确定性前置管理。

2.1 需求收集默认会犯的 AI 错误

需求收集语言	隐含错误	AI discovery 语言
“业务要一个 AI 助手”	把 solution 当成 problem	哪个角色在什么流程节点，因为哪些信息、判断或动作成本高而无法达成 outcome
“回答要准确”	不可验收	哪类问题、哪些证据源、什么 rubric、什么 threshold、哪些 critical failure 为 0
“减少人工工作量”	没有定义价值路径	哪个工作步骤减少多少 cycle time、rework、escalation、defect 或 opportunity cost
“用最新大模型”	技术先行	任务需要 retrieval、rules、workflow、small model、LLM、agent 还是非 AI 改造
“人审就安全”	把监督当口号	人审在何处、审什么、如何发现错误、如何记录采纳/修改/拒绝、如何回流 eval
“先 PoC 看看”	没有学习目标	PoC 要测试哪条假设，成功/失败如何改变下一步投资决策

2.2 AI 产品发现的五个新增变量

变量	为什么传统需求不够	Discovery 产物
Probabilistic behavior	AI 输出非确定，边缘案例和长尾风险会在平均体验之外出现	Failure taxonomy、eval set、guardrail、risk-tiered release gate
Context quality	模型表现受知识源、检索、权限、版本、上下文窗口影响	Context map、source inventory、retrieval eval、freshness control
Human-AI interaction	用户可能过度信任、忽略、误用、绕过或复制错误输出	Adoption hypothesis、trust UX、override tracking、training loop
Regulatory / control boundary	金融零售场景有信贷、AML、投诉、隐私、销售合规、适当性边界	Decision boundary map、HITL design、audit evidence
Unit economics	AI 的成本不是一次性开发成本，推理、检索、监控、人工复核和供应商成本持续发生	Cost per successful task、capacity model、scale economics

2.3 从需求文档到发现系统

Stakeholder request
  -> outcome hypothesis
  -> workflow story evidence
  -> opportunity taxonomy
  -> opportunity solution tree
  -> solution alternatives
  -> assumption map
  -> prototype / eval / pilot learning plan
  -> scale / stop / platform decision

高级判断：

如果一个 AI idea 不能写成 outcome，就还不是产品机会。
如果一个 opportunity 只有一种解决方式，它多半是 solution disguised as opportunity。
如果一个 solution 没有 assumption tests，就只是交付赌注。
如果一个 pilot 没有 eval contract、guardrail 和 learning decision rule，就只是生产环境试用。
如果一个平台 backlog 没有多个 use case 的重复证据，就可能是过早平台化。

3. AI Continuous Discovery Operating Model

AI continuous discovery 不是一次 workshop，而是一个常设学习系统。

3.1 Discovery Cell

传统 product trio 在 AI 金融零售场景通常要扩展成 discovery cell。

角色	发现责任	关键输出
AI PM / Product Lead	设定 outcome、机会优先级、solution trade-off、scale/stop decision	OST、opportunity scorecard、decision memo
Domain expert / Operations lead	解释真实 workflow、异常、口径、人工判断和运营约束	Workflow story、edge case、pilot design
Data / ML lead	判断数据可用性、模型模式、eval、drift、可观测性	Data readiness、eval plan、model risk assumptions
Engineer / Architect	判断系统集成、权限、工具调用、延迟、回滚和平台复用	Architecture sketch、integration risk、platform reuse map
Risk / Compliance / Legal	确认受监管边界、禁止行为、证据、披露、人工监督	Risk tier、control requirement、approval path
Designer / Service designer	设计人机协作、信任、升级、可解释、工作流嵌入	Prototype、trust UX、HITL interaction

3.2 Cadence

节奏	活动	产物	退出标准
每周	2-4 个 story-based interviews / workflow observations / SME review	更新 opportunity nodes 和 evidence notes	至少新增或修正 1 个 opportunity / assumption
每两周	OST review + assumption mapping	目标 opportunity、solution alternatives、riskiest assumptions	决定下一轮 prototype / eval / research
每月	Pilot evidence review	eval result、adoption、guardrail、cost、incident、learning decision	scale / iterate / pivot / stop / platformize
每季度	AI opportunity portfolio review	use case heatmap、platform reuse thesis、funding decision	投资组合重新排序，停止低证据项目

3.3 Evidence Types

AI discovery 不能只看访谈，也不能只看日志。需要多证据合成。

Evidence	能证明什么	不能证明什么
Workflow observation	真实操作、切换系统、等待、复制粘贴、人工判断	大规模业务价值
Story interview	角色在具体过去场景中的目标、约束、困惑和 workaround	模型可行性
Case audit	典型错误、返工、缺失证据、政策冲突	用户是否会采纳 AI
Data profiling	数据可得性、字段质量、覆盖率、延迟、标签质量	业务是否值得做
Prototype test	用户是否理解、信任、愿意使用某种交互	生产质量和风险可控
Offline eval	模型/RAG/agent 在测试集上的能力和失败模式	真实流程中的行为改变
Shadow run	新系统在真实输入下的输出质量，不影响用户或客户	用户采纳和线上业务效果
Pilot / controlled exposure	真实流程价值、风险、成本和运营负载	长期 drift 和规模化稳定性

4. AI Opportunity Taxonomy

机会不是“做一个 AI 功能”。机会是某个 outcome 下，真实用户、业务流程或控制系统中尚未满足的需要、痛点或愿望。

4.1 AI Opportunity 的合格表达

For [role / customer segment],
when [workflow moment / decision context],
they struggle to [job / decision / control],
because [evidence-backed constraint],
which affects [business / customer / risk outcome].

示例：

弱表达	合格 opportunity
做 AML AI 助手	AML analyst 在准备 case narrative 时，需要跨 6 个系统找证据且很难确保 red flags 覆盖完整，导致 case preparation cycle time 高、返工多。
做客服 chatbot	客服在处理收费争议时，难以快速定位当前有效政策和客户账户事实，导致答复不一致、升级率高、投诉风险上升。
做信贷 AI	Underwriter 在草拟贷款 memo 时，需要整理多来源材料并引用政策例外，导致审批前返工和口径不一致。
做财富 AI 顾问	顾问在会前准备时难以把客户目标、持仓、风险等级和合规话术整合成可讨论材料，导致会面质量不稳定。
做企业 AI 平台	多个业务团队重复构建模型调用、RAG、eval、日志和成本管理，导致 pilot 周期长、上线门禁不一致、无法复用学习。

4.2 Opportunity Taxonomy

Opportunity type	问题本质	金融零售例子	常见 solution space
Knowledge access	用户找不到、找不准、找不到有效版本	KYC 政策、产品条款、客服 SOP、投资披露	RAG、semantic search、policy assistant、knowledge governance
Evidence synthesis	证据分散，人工整合慢且容易漏	AML case、投诉处理、信贷 memo、争议交易调查	Summarization、entity extraction、case graph、template drafting
Decision support	人需要更好排序、建议、解释或查缺补漏	SAR priority、fraud alert triage、补件建议、客户下一步行动	Scoring、rules + ML、recommendation、copilot
Workflow friction	流程跨系统、重复输入、手工复制	客服建单、KYC remediation、payment exception	Workflow automation、agent with approval、forms prefill
Control / compliance	需要稳定执行政策、升级、记录和审核	投诉识别、销售合规、adverse action reason、PII redaction	Policy engine、guardrails、audit log、review queue
Personalization / relevance	信息太泛，不能匹配客户情境	财富教育、信用卡权益、商户服务建议	Retrieval + eligibility rules、recommendation、next-best-action
Capacity / throughput	专家稀缺、队列堆积、SLA 压力大	AML backlog、客服旺季、贷款高峰	Copilot、triage、drafting、queue prioritization
Quality consistency	不同人输出质量差异大	客服话术、贷审 memo、合规 review	Standardized templates、AI reviewer、QA assistant
Learning / feedback	组织无法把错误转成改进	AI bad answers、case rework、model drift	Feedback taxonomy、eval update loop、incident learning
Platform leverage	多团队重复构建同一类 AI 能力	model gateway、eval harness、prompt registry、RAG ingestion	Shared platform capabilities、reference patterns

4.3 Opportunity Scoring

AI opportunity 优先级不只看价值，还要看风险可控性、可评估性和复用潜力。

Dimension	1 分	3 分	5 分
Outcome relevance	只改善局部便利	支持部门 KPI	直接支持高优先级业务、风险或客户 outcome
Workflow pain intensity	偶发不便	高频但可忍受	高频、高成本、高返工或高风险
Evidence strength	只有 stakeholder opinion	有访谈或个案	有访谈、日志、case audit、baseline 数据
AI fit	规则/流程改造更合适	AI 可作为辅助	AI 在理解、生成、排序、检索或模式识别上有明显优势
Data / context readiness	source owner 不清	可接入但需治理	权威来源、权限、版本、标签、日志基本清楚
Evalability	难定义好坏	可定义人工 rubric	可建立 golden set、critical failure、online outcome
Risk controllability	难以控制客户/合规影响	可用人审和限制场景	风险边界、HITL、guardrail、audit、fallback 清楚
Adoption likelihood	用户不信任或流程入口弱	pilot 用户愿意试	嵌入真实 workflow，有激励和管理支持
Unit economics	成本可能超过收益	成本收益需验证	成本与价值路径清晰，可规模化
Platform reuse	单点特殊	相关 use case 可复用	多团队共享能力明显

决策建议：

Score	建议
40-50	进入受控 prototype + eval + pilot，准备 portfolio evidence。
30-39	进入 discovery backlog，先测试最高风险假设。
20-29	先补 workflow evidence、data readiness、risk boundary 或非 AI 方案。
低于 20	停止或重写 opportunity；不要进入 AI build。

5. OST for AI Products

Product Talk 的 Opportunity Solution Tree 用 outcome、opportunity、solution、assumption tests 可视化 discovery。AI 场景要额外加入 risk、data、eval、HITL 和 platform reuse 维度。

5.1 AI OST 基本结构

Outcome
  -> Opportunity space
      -> workflow opportunity
      -> knowledge / data opportunity
      -> decision quality opportunity
      -> control / trust opportunity
      -> platform reuse opportunity
  -> Target opportunity
      -> Solution option A
          -> Assumptions
          -> Tests
      -> Solution option B
          -> Assumptions
          -> Tests
      -> Non-AI / process option
          -> Assumptions
          -> Tests
  -> Learning decision
      -> scale / iterate / pivot / stop / platformize

5.2 Outcome at the Top

AI OST 顶部不能写“上线 AI 助手”。应该写可观测 outcome。

不合格 outcome	合格 outcome
上线 AML Copilot	将 AML case preparation median cycle time 降低 25%，同时 critical evidence omission 为 0，SAR 决策仍由人工负责。
部署客服 GenAI	将收费争议类客服 first-contact resolution 提升 10%，错误政策回答率不高于现行流程，投诉升级不增加。
做信贷 AI	将中小企业贷款 memo 返工率降低 20%，policy citation defect 为 0，高风险例外全部进入人工审批。
做财富 AI 顾问	将顾问会前准备时间降低 30%，不产生未经适当性评估的个性化推荐，客户会议质量评分提升。
建 AI 平台	让 3 个高价值 AI pilot 复用 model gateway、prompt registry、eval harness 和 audit log，使 time-to-first-pilot 降低 30%。

5.3 Opportunity Space 分层

AI OST 的机会空间建议按 workflow moments，而不是按组织部门或技术模块分。

Layer	问题	例子
L1 Workflow moment	哪个流程节点最影响 outcome	Case intake、evidence gathering、drafting、review、escalation
L2 Human struggle	人在该节点的真实困难	找不到资料、判断不一致、担心越界、重复输入
L3 AI leverage	AI 可能改善的能力	summarize、retrieve、classify、rank、draft、check、route
L4 Control need	风险和边界	不自动决策、引用证据、敏感信息遮蔽、人工批准
L5 Reuse potential	是否可沉淀平台	retrieval、eval、audit、tool gateway、prompt registry

5.4 Solution Space 不只放 AI 功能

每个 target opportunity 至少比较 3 类 solution，其中至少包含一个非 AI 或低 AI 方案。

Solution type	适合场景	例子
Process redesign	痛点来自职责、审批、队列或政策不清	重排 AML case queue，统一 evidence checklist
Rules / deterministic automation	逻辑稳定、可解释、边界明确	信贷材料 completeness rules，客服政策版本校验
RAG / semantic search	知识查找和引用是主痛点	KYC policy assistant，客服 SOP search
Copilot drafting	人需要草稿、摘要、话术或 memo	AML narrative draft，credit memo draft
AI reviewer	人已经有输出，但需要检查缺陷	Policy citation checker，complaint risk detector
Agent with approval	需要跨系统动作但风险需人控	创建 case、生成补件请求、更新低风险字段
Platform capability	多个 use case 共享横向能力	Eval harness、prompt registry、model gateway

5.5 AI OST 示例：AML

Outcome:
  AML case preparation median cycle time -25%;
  critical evidence omission = 0;
  SAR decision remains human-owned.

Opportunities:
  O1 Analyst must search transactions, KYC, alerts and prior cases across systems.
  O2 Analyst struggles to connect entity relationships and red flags quickly.
  O3 Narrative drafting quality varies by analyst experience.
  O4 Reviewers spend time finding missing evidence rather than judging risk.
  O5 Audit team needs evidence lineage and rationale trace.

Target opportunity:
  O2 Analyst struggles to connect entity relationships and red flags quickly.

Solutions:
  S1 Entity graph + red-flag summarizer.
  S2 Checklist-based evidence assistant.
  S3 Senior analyst review template and training.

Assumption tests:
  A1 Red flags can be detected from available transaction / KYC / case data.
  A2 Analysts trust AI only when every claim links to evidence.
  A3 Reviewer defect rate improves without increasing false comfort.
  A4 Tool can avoid suggesting SAR decision and stay in evidence support boundary.

6. Assumption Mapping

Assumption mapping 是 AI discovery 的核心。AI solution 的风险通常不是“能不能写代码”，而是业务、模型、数据、控制和 adoption 假设是否成立。

6.1 AI Assumption Categories

Category	典型假设	常用测试
Desirability	目标角色真的愿意在该流程节点使用 AI	Story interview、prototype test、workflow observation
Value	解决该机会会显著影响 outcome	Baseline analysis、time study、case audit、business case
Usability	用户能理解输出、置信度、引用和下一步	Usability test、think-aloud、A/B prototype
Adoption	用户会把 AI 嵌入真实工作，而不是试一次就不用	Pilot telemetry、repeat usage、override reason
Data availability	所需数据存在、可接入、质量足够	Data profiling、source owner review、coverage analysis
Context / retrieval	AI 能找到正确证据并拒绝不可靠来源	Retrieval eval、citation audit、freshness test
Model performance	模型在关键任务上达到最低质量	Golden set、SME review、LLM judge calibration
Safety / compliance	AI 不会越过禁止边界	Red-team cases、policy test、risk review
Human oversight	人能发现并纠正 AI 错误	Reviewer simulation、override audit、HITL workload test
Operational fit	队列、SLA、权限、异常处理能承受	Pilot dry run、SOP rehearsal、fallback drill
Cost / latency	单任务成本和响应时间可接受	Load test、cost model、latency budget
Platform reuse	横向能力确实被多个 use case 需要	Use case inventory、architecture review、reuse score

6.2 Risk x Uncertainty x Evidence Cost

优先测试的不是最容易测的假设，而是高风险、高不确定、低到中等测试成本的假设。

Risk	Uncertainty	Evidence cost	Test priority
高	高	低	立即测试，决定是否继续
高	高	高	设计最小证据版本，必要时先做 shadow 或 expert review
高	低	低	验证是否仍成立，避免过度自信
中	高	低	放入下一轮 discovery
低	高	高	暂缓，不阻塞当前决策

6.3 Assumption Map Template

## Assumption Map

**Outcome:** [可观测业务/客户/风险结果]
**Target opportunity:** [证据支持的机会]
**Solution option:** [待验证的方案]
**Risk tier:** [Low / Medium / High / Critical]

| Assumption | Category | Why it matters | Risk | Uncertainty | Evidence now | Test | Pass signal | Fail signal | Decision impact |
|---|---|---|---|---|---|---|---|---|---|
| Analysts will trust generated AML red flags only when every claim links to transaction evidence. | Adoption / Trust | Without trust, usage will stay superficial. | High | Medium | 4 analyst interviews, 2 case audits | Prototype with citation trace on 8 cases | 6/8 analysts can explain and use evidence trace | Analysts ignore output or cannot verify claims | Redesign UX or stop summarizer path |

6.4 金融零售常见 Riskiest Assumptions

Use case	Riskiest assumption	最小测试
AML copilot	AI 能提升证据整理速度，但不会让 analyst 过度依赖或暗示 SAR 决策	20 个历史 case replay + analyst blind review + SAR decision boundary test
客服 AI	AI 能回答政策问题且在投诉、费用、欺诈、困难援助场景正确升级	100 条真实意图 eval + 20 条 adversarial complaint cases
信贷 memo	AI 草稿能减少返工，但不会编造理由、遗漏政策例外或影响最终信贷责任	历史申请材料 replay + underwriter review + adverse-action boundary test
财富顾问	AI 能提升会前准备质量，但不越界生成个性化投资建议	Suitability scenario eval + compliance review + advisor prototype
AI 平台	多个业务团队真的需要同一 eval / gateway / audit 能力，而不是各自特殊	5 个 use case architecture review + duplicated work cost analysis

7. Prototype / Eval / Pilot Learning Loop

AI discovery 的学习循环不能停在原型。原型回答“人是否理解和愿意用”，eval 回答“系统是否达到质量和风险门槛”，pilot 回答“真实流程是否产生可控价值”。

7.1 Learning Loop

Opportunity evidence
  -> solution alternatives
  -> assumption map
  -> prototype test
  -> offline eval
  -> shadow / replay
  -> controlled pilot
  -> learning decision
  -> OST update

7.2 Prototype Types for AI

Prototype	用途	金融零售例子	注意事项
Paper / clickable prototype	测试工作流、信任、信息架构	AML evidence panel、客服引用卡片	不要让用户误以为模型能力已验证
Wizard of Oz	测试用户价值和交互，背后人工生成输出	财富顾问会前 brief	明确内部测试伦理和数据保护
Prompt-only prototype	快速探索输出格式和 rubric	信贷 memo draft	不能直接代表生产能力
Concierge prototype	专家手工完成 AI 将来可能辅助的工作	AML red-flag summary	用于验证价值，不是规模化方案
Static replay	用历史案例测试多种 solution output	客服历史聊天、信贷申请	注意历史数据权限和抽样偏差
Shadow mode	在真实输入下运行但不影响决策	Fraud alert triage challenger	不能证明 adoption，只证明输出表现
Limited pilot	小范围真实使用	10 名 analyst / 2 个客服队列	必须有 rollback、monitoring 和 manual fallback

7.3 Eval Contract

Eval contract 是 AI 产品需求的验收形式。

## Eval Contract

**Use case:** AML Case Evidence Copilot
**Workflow boundary:** Evidence gathering and narrative draft only; no SAR decision.
**Risk tier:** High
**Primary quality metric:** Evidence completeness score >= 4/5 on SME rubric
**Critical failure classes:** unsupported claim, missing mandatory red flag, wrong citation, SAR recommendation, PII leakage
**Critical threshold:** 0 critical failures in release set
**Golden set:** 80 historical cases, stratified by typology, complexity, customer segment and alert type
**Reviewer:** AML SME + model risk reviewer
**Release decision:** pass / limited pilot / fail / exception
**Monitoring:** override reason, reviewer defect, citation issue, hallucination report, cycle time, incident

7.4 Pilot Protocol

Pilot element	必须定义的问题
Scope	哪些用户、队列、产品、地区、客户类型、case 类型进入 pilot
Control / comparison	与历史 baseline、control group、shadow challenger 或 stepped rollout 如何比较
Risk gate	哪些错误立即 pause / rollback / escalate
Human role	人在何处复核、批准、修改、拒绝、标记错误
Telemetry	记录 exposure、usage、edit、override、latency、cost、feedback、incident
Outcome	业务 outcome、用户 outcome、质量 outcome、风险 outcome、成本 outcome
Duration	覆盖足够 case volume 和业务周期，不被单周波动误导
Decision	scale、iterate、pivot、stop、platformize 的明确规则

7.5 Learning Decision Record

## Learning Decision Record

**Date:** 2026-06-29
**Use case:** Customer Service Fee Dispute AI Assistant
**Decision:** Limited scale to two more queues

**Evidence reviewed:**
- 1200 pilot conversations, 84% eligible exposure
- First-contact resolution +8.7% versus baseline
- Wrong policy answer 0.4%, below 0.5% guardrail
- Complaint misclassification 0 critical failures in sampled audit
- Cost per successful resolved contact $0.18

**What we learned:**
- Retrieval works well for fee policy when source has effective date metadata.
- AI still struggles with hardship language and should escalate earlier.
- Agents trust cited answers but ignore confidence badges; citations matter more.

**Decision rationale:**
- Business value is positive and risk within appetite for fee dispute queue.
- Hardship and complaint branches remain excluded from scale until new eval passes.

**Next action:**
- Expand to two fee-related queues.
- Add hardship detection cases to eval.
- Update opportunity tree: split "fee policy confusion" and "financial hardship escalation".

8. Financial Retail Case Pack

以下案例按 discovery 资产组织，不是完整 PRD。重点是高级判断：何时 AI 值得做，哪里必须限制，如何验证，何时停止。

8.1 AML Investigation Copilot

Item	Discovery design
Outcome	AML case preparation median cycle time -25%，critical evidence omission = 0，SAR decision remains human-owned。
Target users	AML analyst、QA reviewer、financial crime operations lead。
Opportunity space	跨系统找证据慢；实体关系难串联；red flag 覆盖不稳定；narrative 返工；审计证据链不清。
Solution options	RAG + transaction evidence summary；entity graph + typology hints；AI reviewer for missing evidence；non-AI evidence checklist redesign。
Riskiest assumptions	AI 能从可用数据中准确引用证据；analyst 能发现 AI 错误；AI 不暗示 SAR 决策；输出不泄露不必要敏感信息。
Prototype	历史 case replay，生成 evidence panel 和 narrative draft，由 analyst blind review。
Eval	typology coverage、citation accuracy、unsupported claim、mandatory evidence completeness、SAR recommendation prohibition。
Pilot	只进入 evidence gathering 和 draft 阶段；analyst 必须 edit / approve；QA 抽样复核；kill switch。
Scale signal	cycle time 下降、QA defect 不上升、critical failure 为 0、analyst repeat usage 上升。
Stop signal	出现 unsupported high-risk claim、SAR decision suggestion、analyst 过度复制且不核验、audit 无法追溯。

OST snippet:

Outcome: Reduce AML case preparation cycle time while preserving evidence quality.
Opportunity: Analyst struggles to connect red flags across transaction and KYC evidence.
Solutions: entity graph summary / evidence checklist / senior analyst review template.
Assumptions: evidence can be grounded; analyst trusts citations; SAR boundary is enforced.
Tests: 20 case replay, red-team SAR prompts, SME blind scoring.

8.2 Customer Service AI for Regulated Servicing

Item	Discovery design
Outcome	First-contact resolution +10%，wrong policy answers 不高于现行流程，complaint / hardship / fraud intents 不被错误关闭。
Target users	Contact center agents、digital support customers、supervisors、QA team。
Opportunity space	政策版本难找；账户事实和政策混用；复杂意图没有及时升级；客服话术不一致；客户重复陈述。
Solution options	Agent-facing policy copilot；customer-facing constrained assistant；intent classifier + escalation；conversation summarizer；SOP redesign。
Riskiest assumptions	RAG 能按产品、地区、客户状态返回有效政策；AI 能识别投诉和困难援助；客户不会把 AI 回答误认为不可申诉决定。
Prototype	Agent desktop prototype，展示 answer + citation + escalation reason；用 30 条真实对话做模拟。
Eval	policy correctness、citation support、regulated-intent recall、unsafe advice、handoff quality、tone。
Pilot	先做 agent-facing，不做自动客户承诺；选择低到中风险队列；所有客户外发内容由 agent 发送。
Scale signal	FCR 上升、AHT 合理下降、QA defect 不上升、升级准确率提升、agent adoption 稳定。
Stop signal	投诉识别漏报、错误费用/权利承诺、人工入口被阻断、低置信输出被直接发送。

8.3 Credit Underwriting / Loan Memo Copilot

Item	Discovery design
Outcome	Loan memo rework -20%，policy citation defect = 0，高风险例外全部进入人工审批，AI 不生成正式信贷决定。
Target users	Underwriter、relationship manager、credit risk reviewer、fair lending / model risk。
Opportunity space	材料分散；政策条款难引用；例外理由写法不一致；缺失材料发现晚；memo 格式和质量不稳定。
Solution options	Document extraction + memo prefill；policy citation assistant；missing-data checker；exception reason taxonomy；non-AI checklist enforcement。
Riskiest assumptions	AI 能区分事实、政策、推断；不会编造 adverse action reason；不会引入 prohibited basis 或 proxy bias；human reviewer 能有效纠偏。
Prototype	使用已脱敏历史申请材料生成 memo sections，由 underwriter 和 risk reviewer 双评。
Eval	factual consistency、policy citation accuracy、missing document detection、prohibited language、decision boundary violation。
Pilot	仅内部草稿；不可自动拒贷、批贷或生成正式通知；所有输出保留修改记录。
Scale signal	memo cycle time 下降、返工下降、policy defect 为 0、reviewer trust 上升。
Stop signal	错误或不准确的拒绝理由、遗漏关键风险、隐含歧视性语言、未授权自动决策。

8.4 Wealth Advisor Copilot

Item	Discovery design
Outcome	Advisor pre-meeting preparation time -30%，client meeting quality score 提升，不生成未经适当性评估的个性化投资建议。
Target users	Wealth advisor、investment product specialist、supervisor、compliance reviewer。
Opportunity space	会前资料分散；客户目标、风险等级、持仓、产品资料难整合；合规话术和披露要求复杂；顾问经验差异大。
Solution options	Pre-meeting client brief；education content assistant；portfolio discussion checklist；compliance review helper；non-AI template library。
Riskiest assumptions	AI 能清楚区分教育信息、一般产品信息、个性化建议和交易引导；顾问不会复制未审查建议；知识源有有效版本和披露。
Prototype	生成 client brief 和 discussion topics，不生成“买/卖/持有”建议；合规 reviewer 评估。
Eval	suitability boundary、disclosure completeness、unsupported product claim、tone、source freshness、advisor edit behavior。
Pilot	只限 advisor-facing；禁止客户直接使用；所有客户材料需人工确认和合规抽样。
Scale signal	顾问准备时间下降、客户会面质量提升、合规 defect 不上升、advisor repeat use 高。
Stop signal	个性化投资建议越界、暗示收益保证、披露缺失、过期产品资料被引用。

8.5 Enterprise AI Platform Discovery

Item	Discovery design
Outcome	3 个高价值 pilot 复用 core AI platform capabilities，使 time-to-first-pilot -30%，每个 release 有 eval report 和 audit trace。
Target users	AI app teams、business PM、data scientists、risk reviewers、platform operations。
Opportunity space	各团队重复接模型；prompt 不可追溯；RAG ingestion 重复；eval 缺失；成本不可归因；审计证据散落。
Solution options	Model gateway；prompt/config registry；eval harness；RAG ingestion service；audit log；reference app templates。
Riskiest assumptions	多个 use case 的平台需求足够相似；平台不会拖慢业务 pilot；治理能力能嵌入开发流程；成本归因可自动化。
Prototype	选择 AML、客服、信贷 3 个 use case，映射共用 capability，做 thin platform slice。
Eval	平台不直接评估业务效果，而是评估 reuse、time-to-pilot、release gate coverage、trace completeness、developer adoption。
Pilot	让 2-3 个应用通过同一 model gateway + eval runner + audit schema 上线有限 pilot。
Scale signal	新 use case 接入时间下降，eval 报告标准化，platform support ticket 不爆炸，重复组件减少。
Stop signal	平台抽象无法覆盖真实 use case、团队绕过平台、治理变成手工审批瓶颈、成本高于复用收益。

9. Templates

这些模板可直接用于作品集或项目材料。每个模板都要求填写真实证据，不接受空泛结论。

9.1 AI Discovery Brief

# AI Discovery Brief

## 1. Outcome
- Business / customer / risk outcome:
- Baseline:
- Target:
- Time horizon:
- Guardrail:

## 2. Workflow Scope
- Role:
- Workflow moment:
- Current pain:
- Current workaround:
- Existing system / data:

## 3. Opportunity Statement
- For:
- When:
- They struggle to:
- Because:
- Which affects:
- Evidence:

## 4. Solution Alternatives
| Option | Type | Why it may work | Why it may fail | First test |
|---|---|---|---|---|

## 5. Risk and Controls
| Risk | Severity | Control | Eval / monitoring |
|---|---|---|---|

## 6. Learning Plan
- Prototype:
- Eval:
- Shadow / pilot:
- Decision rule:

9.2 Story-Based AI Interview Guide

# Story Interview Guide

## Opening
- Tell me about the last time you handled [specific workflow / case type].
- What triggered the work?
- What were you trying to accomplish?

## Workflow Detail
- What systems, documents or people did you use?
- Where did you slow down, double-check or ask for help?
- What did you copy, rewrite, summarize or interpret?
- What could go wrong if this step is done poorly?

## Judgment and Risk
- What parts require expert judgment?
- What signals make you escalate?
- What decisions are you not allowed to delegate?
- What evidence do reviewers or auditors expect?

## AI Reaction
- If AI produced [specific output], how would you verify it?
- What would make you trust or distrust it?
- What mistake would be unacceptable?
- What would you still want a human to own?

## Evidence Capture
- Quote:
- Workflow artifact:
- Opportunity:
- Assumption:
- Follow-up test:

9.3 AI Opportunity Card

# AI Opportunity Card

**Outcome:**
**Opportunity:**
**Role / segment:**
**Workflow moment:**
**Evidence:**
**Current workaround:**
**Business impact:**
**Customer / employee impact:**
**Risk impact:**
**AI leverage:** retrieve / summarize / classify / rank / draft / check / route / act with approval
**Non-AI alternative:**
**Top assumptions:**
**First test:**
**Decision after test:** scale discovery / revise / stop

9.4 AI OST Canvas

# AI Opportunity Solution Tree Canvas

## Outcome
- Direction:
- Target:
- Guardrails:

## Opportunity Space
| Opportunity | Evidence | Segment / role | Workflow moment | Opportunity type | Score |
|---|---|---|---|---|---:|

## Target Opportunity
- Selected opportunity:
- Why now:
- Why not other opportunities:

## Solution Space
| Solution | Type | Differentiator | Key risk | Reuse potential |
|---|---|---|---|---|

## Assumption Tests
| Solution | Assumption | Test | Pass signal | Fail signal | Decision impact |
|---|---|---|---|---|---|

## Learning Decision
- Continue:
- Change:
- Stop:
- Platformize:

9.5 Eval Rubric Template

# Eval Rubric

**Use case:**
**Task boundary:**
**Risk tier:**
**Reviewer role:**

| Dimension | 1 - Fail | 3 - Acceptable with issues | 5 - Strong |
|---|---|---|---|
| Grounding | Unsupported claims or missing sources | Mostly grounded but incomplete evidence | All key claims supported by approved evidence |
| Completeness | Misses required facts or steps | Covers main facts, minor gaps | Covers required facts, exceptions and next steps |
| Boundary | Gives prohibited advice or action | Minor wording risk | Stays within role and escalates appropriately |
| Usefulness | Not actionable | Partially useful | Clear, concise, workflow-ready |
| Auditability | Cannot trace source or reviewer action | Partial trace | Source, version, reviewer and action trace complete |

## Critical Failures
- Unsupported high-impact claim
- Wrong or fabricated citation
- Prohibited recommendation / decision
- Missing mandatory escalation
- Sensitive data leakage
- Policy version error

9.6 Pilot Protocol Template

# AI Pilot Protocol

## Pilot Scope
- Use case:
- Users / teams:
- Customer / case eligibility:
- Exclusions:
- Duration:

## Controls
- Human review:
- Approval points:
- Fallback:
- Kill switch:
- Incident owner:

## Metrics
| Metric | Type | Baseline | Target / threshold | Owner |
|---|---|---:|---:|---|

## Data and Telemetry
- Exposure event:
- User action:
- AI output:
- Human edit / override:
- Feedback:
- Cost:
- Latency:

## Decision Rule
- Scale if:
- Iterate if:
- Pivot if:
- Stop if:
- Platformize if:

10. Review Checklist

10.1 Discovery Readiness

Check	Pass criteria
Outcome is clear	有 baseline、target、time horizon 和 guardrails，不是“上线 AI 功能”。
Evidence exists	至少有访谈、workflow observation、case audit、日志或 data profiling 中的两类证据。
Opportunity is not a solution	该 opportunity 至少有 3 种可能 solution，其中包括非 AI 或低 AI 方案。
Role and workflow are specific	明确谁、何时、在什么系统或流程节点遇到困难。
Current workaround is known	了解用户今天如何绕开问题，以及该 workaround 的成本。

10.2 AI Fit Review

Check	Pass criteria
AI leverage is explicit	说明 AI 是 retrieve、summarize、classify、rank、draft、check、route 还是 act with approval。
Non-AI option considered	比较流程、规则、模板、培训、系统集成等方案。
Data readiness assessed	source owner、permission、freshness、coverage、label、lineage 清楚。
Evalability confirmed	关键输出能用 rubric、golden set、critical failure 和 online metric 评估。
Unit economics plausible	有初步 cost per task、人工节省、返工减少或风险成本模型。

10.3 Risk and Governance Review

Check	Pass criteria
Risk tier assigned	按客户影响、决策影响、监管触点、不可逆性和自动化程度分层。
Decision boundary documented	明确 AI 不做什么，尤其是信贷、财富建议、AML SAR、投诉、资金动作。
Human oversight designed	人的角色、复核点、审批点、抽样、纠错和责任明确。
NIST AI RMF lens applied	Govern / Map / Measure / Manage 都有对应证据或计划。
Audit evidence defined	可追踪 input、source、prompt/config、model、output、human action、approval、incident。

10.4 Eval / Pilot Review

Check	Pass criteria
Eval set is representative	覆盖 common、edge、missing-data、policy conflict、adversarial、high-risk cases。
Critical failures are zero-tolerance	高风险失败类设为 release blocker。
Pilot has comparison	有 baseline、control、shadow、holdout 或明确对照方法。
Monitoring is actionable	指标异常能触发 pause、rollback、escalation 或 fix loop。
Learning decision is explicit	scale、iterate、pivot、stop、platformize 的条件事先写清。

11. Anti-Patterns

Anti-pattern	为什么危险	更好的做法
AI-first ideation	从模型能力出发，容易做出炫技但低价值产品	从 outcome 和 workflow opportunity 出发
Stakeholder request = opportunity	业务方常以 solution 表达问题	用 story evidence 还原底层机会
Chatbot as default UI	很多工作流需要 embedded copilot、checklist、reviewer 或 workflow automation	根据 workflow moment 选择交互形态
PoC without eval	只证明能 demo，不证明能上线	每个 PoC 都有 assumption、eval 和 learning decision
Accuracy as single metric	平均准确率掩盖高风险失败	使用 rubric、critical failures、guardrails、slice metrics
Human-in-the-loop theater	写了人审，但人没有时间、能力或界面发现错误	设计 reviewer workload、evidence trace、override telemetry
Platform too early	第一个 use case 就建大平台，抽象不稳	至少用 2-3 个 use case 证明重复能力
Over-automation in regulated decisions	AI 越过信贷、AML、财富、投诉等责任边界	先做 read / summarize / draft / recommend with approval
Ignoring knowledge governance	把文档丢进向量库，忽略版本、权限、owner	建 source inventory、metadata、freshness、retrieval eval
Pilot as adoption theater	让友好用户试用，没有对照和风险门禁	定义 exposure、baseline、decision rule 和 stop rule
Cost blindness	只看节省人力，不看推理、检索、审计、人工复核成本	计算 cost per successful task 和规模化成本
No stop rule	失败项目继续换模型、换 prompt、换说法	事先定义 stop / pivot / platformize 条件

12. 30 天训练计划

目标：30 天内产出一个金融零售 AI use case 的完整 discovery portfolio。每天 60-90 分钟，重点训练高级判断，而不是基础需求技巧。

Day	训练主题	任务	产出
1	选择 use case	从 AML、客服、信贷、财富顾问、AI 平台中选 1 个	Use case one-pager
2	Outcome framing	写 3 个 outcome，剔除 feature / output 指标	Outcome statement + guardrails
3	Workflow mapping	画 AS-IS workflow，标记等待、返工、判断和风险点	Workflow map
4	Evidence inventory	收集可用访谈、日志、case audit、政策、数据源	Evidence inventory
5	Story interview design	设计 8-10 个 story-based questions	Interview guide
6	Simulated interview 1	用一个真实或模拟案例回答访谈问题	Story notes
7	Opportunity extraction	从故事中提取 8-12 个 opportunity	Opportunity cards
8	Opportunity taxonomy	将机会按 knowledge、evidence、decision、control、platform 分类	Opportunity taxonomy table
9	Opportunity scoring	用 10 维 scorecard 评分	Opportunity scorecard
10	OST draft	画第一个 OST：outcome、opportunities、target opportunity	OST v1
11	Solution alternatives	为 target opportunity 生成 3-5 个 solution，包括非 AI 方案	Solution comparison
12	Assumption mapping	每个 solution 写 5-8 条假设	Assumption map v1
13	Riskiest assumption	用 risk x uncertainty x evidence cost 排序	Test priority list
14	Prototype design	选择 paper、Wizard of Oz、prompt、replay 或 shadow 原型	Prototype plan
15	Eval boundary	定义 AI 任务边界和禁止行为	Decision boundary map
16	Failure taxonomy	写 common failures 和 critical failures	Failure taxonomy
17	Rubric design	写 1/3/5 分 rubric 和 reviewer role	Eval rubric
18	Golden set design	设计 30-80 条 case 的分层抽样	Golden set plan
19	Red-team cases	写 15 条 adversarial / policy conflict cases	Red-team set
20	Pilot scope	定义 pilot 用户、队列、排除项、duration	Pilot protocol v1
21	Metrics tree	设计 outcome、quality、risk、adoption、cost metrics	Metric tree
22	Monitoring plan	定义 telemetry、override、incident、feedback loop	Monitoring plan
23	NIST AI RMF mapping	将 use case 映射到 Govern / Map / Measure / Manage	Risk control map
24	Financial control review	写客户影响、监管触点、HITL、audit evidence	Control checklist
25	Learning decision rules	写 scale / iterate / pivot / stop / platformize 条件	Decision rules
26	OST revision	根据假设和 eval 结果重构 OST	OST v2
27	Executive memo	写 1 页 discovery decision memo	Executive memo
28	Portfolio packaging	整理 discovery brief、OST、assumption map、eval、pilot	Portfolio pack
29	Interview rehearsal	用 5 个面试问题讲清决策过程	Interview answers
30	Retrospective	写 10 条高级洞察和下一轮 discovery backlog	Learning retrospective

13. 面试答案

Q1：AI 产品发现和传统需求收集有什么不同？

30 秒版

AI 产品发现不是把业务方想要的 AI 功能写成需求，而是持续证明某个工作流机会是否值得 AI 化。它要同时验证 desirability、business value、data readiness、model performance、risk controls、human oversight、unit economics 和 adoption。传统需求强调“要做什么”，AI discovery 更强调“为什么这个机会值得做、哪种 AI 形态合适、哪些假设最危险、用什么 eval 和 pilot 证明”。

2 分钟版

在金融零售场景，业务方经常以 solution 表达需求，比如“做一个 AML 助手”或“做一个客服 chatbot”。我会先把它还原为 outcome 和 workflow opportunity：哪个角色、哪个流程节点、什么痛点、影响什么指标。然后用 Opportunity Solution Tree 拆出 opportunity space、多个 solution options 和 assumption tests。AI 的特殊之处是输出概率化、上下文依赖强、风险边界复杂，所以需求不能只写 acceptance criteria，而要写 eval contract、critical failures、HITL、monitoring 和 learning decision。最终目标不是交付一个 AI 功能，而是做出 scale、iterate、pivot、stop 或 platformize 的证据化判断。

Q2：你会如何用 Opportunity Solution Tree 做 AI 产品？

30 秒版

我会把 outcome 放在树顶，例如降低 AML case preparation 时间且保持证据质量。下面是 opportunity space，如证据分散、red flag 难串联、narrative 返工。选择一个 target opportunity 后，比较至少 3 个 solution，包括 AI 和非 AI 方案。每个 solution 拆成假设，再用 prototype、eval、shadow 或 pilot 测试最高风险假设。

2 分钟版

OST 的价值是防止团队直接跳到“做 chatbot”或“接大模型”。AI OST 顶部必须是可观测 outcome，并带 guardrails。机会层要来自真实 workflow evidence，而不是会议想象。解决方案层要有多选项，比如 RAG、copilot、AI reviewer、rules automation 或流程改造。AI 场景还要在每个 solution 下面挂 assumption tests，例如检索是否能找到有效政策、模型是否会编造引用、人审是否能发现错误、成本是否可接受。每一轮 prototype / eval / pilot 后更新树，保留学习痕迹，最终形成投资决策证据。

Q3：如何判断一个 AI opportunity 是否值得做？

30 秒版

我会看 10 个维度：outcome relevance、workflow pain、evidence strength、AI fit、data readiness、evalability、risk controllability、adoption likelihood、unit economics 和 platform reuse。高价值但不可评估或风险不可控的机会不应该直接进入 build。

2 分钟版

AI opportunity 的判断不能只看“能不能自动化”。金融零售尤其要看它是否能改善高优先级 outcome，是否发生在高频或高风险流程节点，是否有证据支持，AI 是否比规则或流程改造更适合。然后看数据和上下文是否可用，输出好坏是否能评估，风险是否能通过人审、guardrail、audit 和 fallback 控制。最后看用户是否会在真实流程中采纳，以及成本收益是否成立。如果多个业务场景共享同一能力，还可能进入平台化机会。反过来，如果机会只是“业务想试 AI”，没有 outcome、eval 或 risk boundary，我会先停止或重写机会。

Q4：怎么做 AI assumption mapping？

30 秒版

我把假设分成 desirability、value、usability、adoption、data、retrieval、model performance、safety、human oversight、operations、cost 和 platform reuse。然后按 risk、uncertainty、evidence cost 排序，优先测试高风险高不确定的假设。

2 分钟版

例如信贷 memo copilot 的 solution 可能看起来很简单，但关键假设很多：申请材料能否正确抽取，政策引用是否准确，AI 是否会编造拒绝理由，underwriter 是否能有效复核，输出是否引入 fair lending 风险。每条假设都要写清为什么重要、当前证据、测试方法、通过信号、失败信号和决策影响。最高风险假设不一定用生产 pilot 测，可以先用历史 case replay、SME blind review、red-team cases 或 shadow run。这样做的好处是把“感觉可行”变成可学习、可停止的证据链。

Q5：prototype、eval 和 pilot 的区别是什么？

30 秒版

Prototype 测用户是否理解和愿意用，eval 测 AI 输出是否达到质量和风险门槛，pilot 测真实流程中是否创造可控业务价值。三者回答的问题不同，不能互相替代。

2 分钟版

比如客服 AI，clickable prototype 可以测试 agent 是否理解引用和升级提示；offline eval 可以用真实意图和政策冲突样本测试正确率、引用、投诉识别和 unsafe answer；pilot 才能看 first-contact resolution、AHT、QA defect、投诉、人工升级和成本。很多团队把 demo 当 eval，或把 pilot 当 discovery，这是危险的。成熟做法是先用 prototype 降低交互风险，再用 eval 降低质量和安全风险，再用受控 pilot 验证业务价值和运营可行性。

Q6：金融零售 AI discovery 最大的产品判断是什么？

30 秒版

最大判断是 AI 应该停在哪个 decision boundary。很多场景适合 read、summarize、draft、check、recommend with approval，但不适合直接 decide 或 act autonomously。

2 分钟版

在 AML，AI 可以整理证据和草拟 narrative，但 SAR 决策应由人负责。在信贷，AI 可以预填 memo、引用政策和提示缺失材料，但不能自动拒贷或编造 adverse action reason。在财富，AI 可以帮助顾问准备教育材料，但不能绕过适当性给个性化投资建议。在客服，AI 可以回答低风险问题，但投诉、欺诈、困难援助、费用争议要有升级和人工入口。这个边界决定了 solution pattern、UX、eval、审批、日志和上线门禁。

Q7：你如何把 NIST AI RMF 用在 discovery？

30 秒版

我不会把 NIST AI RMF 当合规清单，而是把 Govern / Map / Measure / Manage 转成 discovery 问题：谁负责、场景和影响是什么、如何测量风险、上线后如何管理。

2 分钟版

在 discovery 阶段，Govern 对应 owner、risk tier、decision rights 和 approval path；Map 对应用例背景、角色、数据、客户影响和受监管边界；Measure 对应 eval、rubric、critical failures、model/retrieval quality 和 monitoring；Manage 对应 mitigation、HITL、fallback、incident、rollback 和 continuous improvement。这样 NIST AI RMF 不只是上线前审查，而是贯穿 opportunity selection、assumption testing、pilot 和 scale decision。

Q8：什么时候把多个 AI use case 平台化？

30 秒版

当 2-3 个高价值 use case 证明有重复能力，例如 model gateway、prompt registry、eval harness、RAG ingestion、audit log 和 cost attribution，并且平台化能缩短 pilot 周期、提高控制一致性时，才值得平台化。

2 分钟版

过早平台化是 AI 转型常见失败。第一个 use case 还没有跑通，就建大平台，通常会抽象错误、交付慢、业务绕开。我的做法是从 use case discovery 中抽取重复模式：哪些团队都需要模型接入、日志、权限、eval、RAG、prompt versioning、工具审批和成本归因。如果多个高价值 pilot 重复建设这些能力，并且风险团队也需要统一 evidence，那么可以做 thin platform slice。平台的 outcome 不是功能多，而是 time-to-first-pilot、release gate coverage、reuse rate、audit completeness 和 cost visibility。

14. Portfolio Deliverables

一个有说服力的高级 AI discovery 作品集，不是 PRD 文件堆砌，而是一组能证明决策质量的 artifacts。

Deliverable	内容	面试中证明什么
AI Discovery Brief	outcome、workflow scope、opportunity、evidence、solution alternatives、risk、learning plan	你能把 AI idea 转成产品判断问题
Opportunity Solution Tree	outcome、opportunity space、target opportunity、solutions、assumption tests	你不会跳到 solution，会管理 discovery 结构
Opportunity Scorecard	10 维机会评分和取舍理由	你能做 portfolio prioritization
Assumption Map	假设类别、风险、不确定性、测试、通过/失败信号	你能识别 AI use case 的真实不确定性
Prototype Pack	原型、脚本、用户反馈、学习结论	你能验证 human-AI workflow 和 trust UX
Eval Contract	task boundary、rubric、golden set、critical failures、threshold、reviewer	你能把 AI 需求转成可测试承诺
Pilot Protocol	scope、control、metrics、telemetry、risk gate、decision rule	你能把 pilot 设计成学习系统
Risk Control Map	NIST AI RMF mapping、decision boundary、HITL、audit、incident	你理解金融零售 AI 风险和治理
Learning Decision Record	evidence、decision、rationale、next action、OST update	你能做 scale / iterate / stop 判断
Executive Memo	1 页向高管解释机会、证据、风险、投资建议	你能把技术和 discovery 转成业务决策

14.1 推荐作品集结构

01 Executive Summary
02 Use Case Context and Outcome
03 Workflow Evidence
04 Opportunity Solution Tree
05 Opportunity Scorecard
06 Solution Alternatives
07 Assumption Map
08 Prototype Findings
09 Eval Contract and Results
10 Pilot Protocol
11 Risk / Governance Evidence
12 Learning Decision and Roadmap
13 Platform Reuse Opportunities

14.2 高级表达句式

场景	表达
拒绝 solution-first	“我不会从 chatbot 开始。我会先确认哪个 workflow opportunity 能驱动 outcome，再比较 AI 和非 AI 方案。”
解释 eval	“在这个场景里 eval 不是测试活动，而是产品合同：哪些输出被允许，哪些失败是 release blocker。”
解释风险	“我把风险边界前置到 discovery，而不是等模型 demo 完再让合规兜底。”
解释 pilot	“Pilot 的目的不是让用户试用，而是用受控 exposure 学习 business value、risk、adoption 和 cost 是否同时成立。”
解释平台	“平台化不是先建基础设施，而是在多个 use case 证明重复能力后，把 learning、control 和 speed 产品化。”

15. Final Decision Heuristics

15.1 When to Build

进入 build / pilot 的最低条件：

Outcome 清楚且值得投入。
Opportunity 来自真实 workflow evidence。
至少比较过 3 个 solution options。
Riskiest assumptions 已有初步证据。
Eval contract 能定义好坏和 critical failures。
Risk tier、decision boundary、HITL、audit evidence 清楚。
Pilot 有 scope、metrics、guardrails 和 stop rule。

15.2 When to Stop

出现以下信号，应停止或重写 opportunity：

业务 outcome 不清，只剩“用 AI”本身。
机会无法从真实用户故事、case audit 或数据中证明。
非 AI 方案明显更简单、更稳、更便宜。
关键数据源没有 owner、权限或质量基础。
高风险失败无法被 eval 或 human oversight 发现。
用户不愿在真实工作流中使用，或使用会转移负担。
单任务成本高于可解释价值，且没有规模化改善路径。

15.3 When to Platformize

满足以下条件时考虑平台化：

至少 2-3 个 use case 需要相同横向能力。
复用能力与风险控制强相关，如 eval、audit、model gateway、prompt registry。
平台化可以缩短 time-to-pilot，而不是增加审批摩擦。
有明确 owner、SLO、support model、cost attribution 和 adoption metric。
平台能力可以支持未来 use case，而不是只服务当前项目。

16. Quick Reference

AI discovery quality test:

Can you explain:
1. What outcome are we trying to move?
2. What workflow opportunity did evidence reveal?
3. Why is this an AI opportunity rather than process / rules / training?
4. What are at least three solution options?
5. Which assumptions are riskiest?
6. What prototype / eval / pilot will test them?
7. What failures are unacceptable?
8. What decision will we make with the evidence?
9. What risk controls and audit evidence are required?
10. Is this a point solution, platform candidate, or stop decision?

如果不能清楚回答以上问题，团队还没有完成 AI continuous discovery。