AI 扩展计划 / Playbooks

AI Bayesian Optimization / Experiment Design Playbook

这些来源用于校准 Bayesian optimization、surrogate modeling、acquisition functions、multi-objective / constrained BO、AutoML / HPO 工具链和 AI 风险治理语言。正式项目必须按访问日期复核工具版本、实验策略、监管要求和机构内部政策。

714 行AI_BAYESIAN_OPTIMIZATION_EXPERIMENT_DESIGN_PLAYBOOK.md

AI Bayesian Optimization & Experiment Design Playbook

适用对象: AI Product Architect、AI Platform PM、Experimentation Lead、Decision Science Lead、Retail Banking / Retail Operations AI 转型负责人、Model Risk / Governance Partner。 核心问题: 当每次试验都昂贵、缓慢、有风险或需要人工审核时，如何用 Bayesian optimization 和 sequential experiment design 在有限 experiment budget 内更快找到高价值、低风险、可治理的 AI / 产品 / 架构参数组合。 一句话定位: 这是一份把 Bayesian optimization、Gaussian Process surrogate、acquisition functions、多目标与约束优化、AI tuning、金融零售实验治理和产品平台架构连接起来的高级 playbook。 覆盖主题: Bayesian optimization、Gaussian Process surrogate、acquisition functions(EI/UCB/PI)、multi-objective optimization、constrained BO、sequential experiment design、prompt/model/RAG tuning、pricing and offer parameter tuning、capacity/cost optimization、AutoML/HPO、BoTorch、Optuna、experiment budget、regret、safe experimentation、human review。 边界说明: 本文不是统计学入门、AutoML 教程、供应商选型报告、法律意见或模型验证报告；正式落地必须结合业务 owner、risk、legal、compliance、privacy、security、data、architecture review、operations owner 和 model risk governance。

Source Anchors

Anchor	Official / primary source	本文用法
Snoek, Larochelle, Adams: Practical Bayesian Optimization of Machine Learning Algorithms	https://arxiv.org/abs/1206.2944	用作 Snoek 2012 practical BO、Gaussian Process surrogate、自动超参数调优、实验成本感知和并行实验设计的经典锚点。
BoTorch Introduction	https://botorch.org/docs/introduction	用作 BoTorch、Bayesian optimization primitives、probabilistic models、acquisition functions、PyTorch / GPyTorch 生产研究框架的术语锚点。
BoTorch Multi-Objective BO Tutorial	https://botorch.org/docs/tutorials/multi_objective_bo/	用作 multi-objective optimization、Pareto frontier、qEHVI / qNEHVI / qParEGO 和 batch BO 的工程表达参考。
BoTorch Constrained Multi-Objective BO Tutorial	https://botorch.org/docs/tutorials/constrained_multi_objective_bo/	用作 constrained BO、约束建模、可行区域、约束感知 acquisition 和风险门禁表达。
Optuna Documentation	https://optuna.readthedocs.io/en/stable/	用作 Optuna study / trial、define-by-run search space、sampler、pruner、AutoML / HPO 平台化执行的术语锚点。
Optuna Efficient Optimization Algorithms	https://optuna.readthedocs.io/en/stable/tutorial/10_key_features/003_efficient_optimization_algorithms.html	用作 TPE、Gaussian process-based sampler、pruning、early stopping、实验预算节约和 trial governance 的工程参考。
Optuna Multi-Objective Optimization	https://optuna.readthedocs.io/en/stable/tutorial/20_recipes/002_multi_objective.html	用作多目标方向、Pareto front、约束多目标采样和可视化解释参考。
NIST AI RMF	https://www.nist.gov/itl/ai-risk-management-framework	用 Govern / Map / Measure / Manage 组织 AI optimization experiment 的风险识别、度量、人工复核、证据和治理。

1. 一句话定位

Bayesian optimization 是面向昂贵黑盒目标函数的 sequential experiment design 方法:

Use existing evidence
-> learn a probabilistic surrogate
-> choose the next most informative / valuable experiment
-> observe outcome under budget and risk constraints
-> update belief
-> repeat until decision quality is sufficient

中文表达:

不是把参数网格扫完，而是在每一次试验之后更新对目标函数的信念，用 acquisition function 决定下一次最值得尝试的点。

高级 AI 产品语境里，目标函数往往不是单一模型分数，而是:

prompt / model / RAG 配置在质量、成本、延迟、合规风险和人工接管率之间的 tradeoff。
定价、优惠券、信用额度、营销触达频率在利润、转化、留存、投诉和公平性之间的 tradeoff。
capacity / cost optimization 中模型规模、缓存、并发、降级策略、SLA 和云成本之间的 tradeoff。
AutoML / HPO 中模型结构、训练参数、特征选择和推理成本之间的 tradeoff。

Bayesian optimization 的产品价值不在“数学更高级”，而在:

在 experiment budget 有限、每次线上暴露有客户风险、每次人工评审都昂贵的场景下，用更少试验获得更可信的改进方向。

2. 为什么重要

金融零售 AI 系统常见的调参方式有三类低成熟形态:

低成熟形态	表面做法	真实问题
Expert guessing	由资深专家凭经验改 prompt、阈值、模型或优惠力度	难以复现，无法证明没有遗漏更优组合
Grid / random search	大量组合离线或小流量试验	浪费预算，高风险组合也可能被试验
Single-metric optimization	只追求 accuracy、conversion、AUC 或 CTR	成本、延迟、公平性、投诉、人工负荷、合规风险被挤到系统外

Bayesian optimization 更适合以下特征:

条件	金融零售 AI 例子	为什么 BO 更合适
评估昂贵	一个 RAG 配置要跑人工质检、红队集、线上 pilot	需要用少量 trial 获得最大信息量
目标黑盒	prompt、reranker、model、tool policy 组合后的业务结果	难以写解析梯度，只能通过观察结果学习
结果有噪声	线上转化、客服满意度、投诉率、欺诈损失有随机波动	surrogate 可以显式建模不确定性
参数混合	连续阈值、离散模型、分类策略、条件搜索空间共存	Optuna / Ax / BoTorch 可封装复杂 search space
风险有边界	不允许投诉率、误拒率、延迟、成本超过上限	constrained BO 把安全约束纳入选择逻辑
多目标共存	质量更高但成本更高，转化更高但投诉也可能上升	multi-objective optimization 输出 Pareto frontier 而非假装只有一个答案

成熟表达:

Bayesian optimization turns tuning into a governed learning system:
belief, budget, constraint, evidence, review, and decision.

3. Bayesian Optimization 架构

3.1 参考架构

flowchart TB
  A[Business / AI tuning question] --> B[Experiment protocol<br/>objective, constraints, budget, review rule]
  B --> C[Search space registry<br/>prompt, model, RAG, pricing, capacity, HPO params]
  C --> D[Initial design<br/>Sobol, Latin hypercube, expert seed, champion baseline]
  D --> E[Evaluation runner<br/>offline eval, replay, shadow, online pilot, human review]
  E --> F[Observation store<br/>X, outcomes, constraints, cost, lineage, reviewer evidence]
  F --> G[Surrogate model<br/>Gaussian Process, TPE, RF, ensemble, multi-output model]
  G --> H[Acquisition function<br/>EI, UCB, PI, NEHVI, constrained acquisition]
  H --> I[Candidate generator<br/>single, batch, parallel, safe candidate set]
  I --> J[Risk and policy gate<br/>eligibility, guardrail, privacy, compliance]
  J --> E
  F --> K[Decision cockpit<br/>regret, Pareto frontier, budget burn, safe stop, scale recommendation]
  K --> L[Human review<br/>approve, cap exposure, rollback, select champion]

3.2 平台组件

组件	责任	高级产品问题	关键证据
Experiment Registry	记录 experiment id、hypothesis、owner、risk tier、budget、objective、constraints	这个优化实验要回答什么决策，试验边界在哪里	Experiment card、approval trail、risk tier
Search Space Registry	管变量、范围、类型、条件依赖、禁止组合	哪些参数能调，哪些组合不允许出现	Search space contract、policy rule
Evaluation Runner	调度离线 eval、replay、shadow、online pilot、人工复核	每个 candidate 如何被一致评估	Eval run log、dataset version、review sample
Observation Store	保存每次 trial 的输入、输出、成本、失败、约束、版本	后续 surrogate 是否能重建真实证据	Immutable trial record、lineage
Surrogate Service	用 GP / TPE / RF / ensemble 学习目标函数和不确定性	当前系统对未知区域的信心如何	Posterior, uncertainty, calibration
Acquisition Optimizer	根据 EI / UCB / PI / NEHVI / constrained rule 生成下一批候选	下一次试验为何值得花预算	Acquisition score、candidate rationale
Safety Gate	检查硬约束、软约束、风险阈值、暴露上限	这个 candidate 能否进入真实客户或员工流程	Guardrail result、exception record
Human Review Workbench	支持 risk、compliance、operations、domain expert 复核	哪些 trial 必须人工看，复核结论如何反馈	Reviewer notes、override reason
Decision Cockpit	展示 Pareto frontier、regret、budget burn、winning region、风险走势	何时停止、扩展、回滚或继续探索	Decision memo、champion selection
Governance Binder	汇总协议、数据、模型、参数、结果、审批、异常	审计和模型风险团队能否复盘当时判断	Evidence package、sign-off

3.3 数据契约

每个 trial 至少包含:

字段	说明
`experiment_id`	优化实验唯一标识
`trial_id`	单次候选配置标识
`x_config`	参数组合，例如 prompt 版本、top_k、temperature、模型、价格折扣、阈值
`objective_values`	一个或多个业务目标，例如质量、转化、成本、延迟、利润、风险损失
`constraint_values`	guardrail 指标，例如投诉率、误拒率、PII 暴露、人工升级率、SLA 违约
`evaluation_context`	离线集、时间窗、segment、channel、traffic split、review protocol
`cost`	token、GPU、人工质检、客户暴露、机会成本、日历时间
`lineage`	model、prompt、retrieval index、feature、policy、code、data version
`review_status`	auto-pass、human-reviewed、capped、rejected、rolled-back
`decision`	continue、expand、freeze、select champion、retire candidate

4. Surrogate / Acquisition 核心机制

4.1 Surrogate: 为什么常用 Gaussian Process surrogate

Bayesian optimization 的 surrogate 是对未知目标函数 f(x) 的概率替代模型。Gaussian Process surrogate 的核心价值是同时给出:

predicted mean: 这个点看起来有多好
predictive uncertainty: 这个点我们有多不确定

对高级 AI 产品架构而言，uncertainty 不是装饰字段，而是决策资产:

不确定性来源	金融零售 AI 例子	架构处理
观测噪声	客服评分、线上转化、欺诈损失波动	噪声模型、重复评估、置信区间、分层分析
数据稀疏	高净值客户、少数语种、特殊渠道样本少	分 segment surrogate、层级模型、人工复核加权
搜索空间未知	新模型、新 prompt 模式、新 retrieval policy	提高探索权重，设置安全暴露上限
时间漂移	节假日、利率变化、政策变化、活动期	时间窗特征、滚动重训、漂移监控
约束不稳定	合规命中、投诉、人工升级随渠道变化	独立 constraint surrogate、risk-adjusted acquisition

GP 适合低到中等维度、连续或可编码参数、评估成本高的场景。高维、强条件、离散组合很多时，可以采用 TPE、random forest、ensemble surrogate，或把 search space 分层拆解。

4.2 Acquisition Functions: EI / UCB / PI

Acquisition function 把 surrogate 的均值和不确定性转成“下一次试验该选哪里”的策略。

Acquisition	直觉	适合场景	风险
Expected Improvement, EI	选择期望改进最大的点，兼顾好点和不确定区域	默认强基线，目标是以较少 trial 持续改进 champion	噪声高时可能高估局部改进
Upper Confidence Bound, UCB	`mean + beta * uncertainty`，用 `beta` 控制探索程度	新领域、新模型、新渠道，需要主动探索未知区域	探索权重过高会浪费预算或触发风险
Probability of Improvement, PI	选择超过当前 best 的概率最高的点	目标明确、只想提升过线概率	容易偏向短期小幅改进，探索不足

产品翻译:

EI asks: where is the expected business upside largest?
UCB asks: where might we be underestimating a valuable region?
PI asks: where are we most likely to beat the current champion?

4.3 Acquisition 选择手册

决策场景	推荐 acquisition 策略	设计理由
Prompt / RAG 离线质量调优	EI 或 batch EI	每次 eval 成本可控，目标是快速提升质量
新模型族探索	UCB 或 entropy-aware exploration	不确定性高，不能过早锁定单一模型
线上安全 pilot	Constrained EI / expected feasible improvement	必须同时满足投诉、延迟、成本、人工升级等约束
多目标成本质量权衡	qNEHVI / qEHVI / qParEGO	输出 Pareto frontier，避免把成本和质量硬凑成一个分数
大规模 HPO	Optuna TPE / GPSampler + pruner	需要处理条件搜索空间、并行 trial 和 early stopping
预算接近耗尽	EI with exploitation bias 或 champion refinement	剩余预算优先验证最可能上线的区域

4.4 Regret: 高级 PM 必须会讲的指标

Regret 衡量优化策略因为没有选择最优点而损失的价值。

概念	产品解释	适用视角
Simple regret	当前 best candidate 与真实最优之间的差距	选最终方案时关注
Cumulative regret	优化过程中所有非最优 trial 造成的累计损失	线上试验或客户暴露场景关注
Risk-adjusted regret	把投诉、误拒、延迟、人工负荷、合规风险纳入损失	金融零售 AI 默认视角
Opportunity-cost regret	慢优化导致错过活动窗口、容量窗口或市场机会	定价、营销、节假日运营关注

一句话:

在金融零售，最小化 regret 不只是更快找到高分配置，还要减少客户暴露、人工审核、云成本和合规风险上的学习成本。

5. Sequential Experiment Design

5.1 闭环流程

1. Define decision
2. Define objective and constraints
3. Define search space
4. Allocate experiment budget
5. Run initial design
6. Fit surrogate
7. Optimize acquisition
8. Gate candidate through safety policy
9. Evaluate candidate
10. Update posterior and evidence
11. Decide continue / stop / scale / rollback

这套 sequential experiment design 与传统 A/B test 的差异:

维度	固定 A/B test	Bayesian optimization
问题	A 是否优于 B	在参数空间中哪里最优或最接近可上线 Pareto 区域
实验节奏	先定样本量，结束后分析	每轮试验后更新信念并选择下一轮
预算	主要是样本量	trial 数、客户暴露、token、GPU、人工复核、日历时间
风险	通过 guardrail 和 ramp 控制	通过 constrained acquisition、safe candidate set 和 human review 控制
输出	Winner / no winner	Champion、Pareto frontier、可行区域、风险边界、学习曲线

5.2 Initial Design

初始设计决定 surrogate 是否有可学习的基础。

方法	适用场景	说明
Champion baseline	必须包含现有生产配置	后续 regret、improvement、risk comparison 都以 champion 为锚点
Expert seeds	领域专家给出 3 到 5 个可信候选	利用经验减少冷启动浪费
Sobol / Latin hypercube	连续参数空间较大	比简单网格更均匀覆盖
Safe boundary points	在安全范围边缘放少量点	学习约束边界，但要限制暴露
Historical trials	复用过去 prompt / model / pricing / campaign 结果	必须校验 metric lineage 和环境差异

5.3 Experiment Budget

Experiment budget 不只是 trial 数:

预算类型	例子	管控方式
Trial budget	最多 40 个候选配置	分阶段释放，10 个 trial 一次 review
Customer exposure budget	最多影响 2% 客户或 10,000 次会话	traffic cap、segment cap、kill switch
Cost budget	token、GPU、云推理、人工质检	cost per candidate、budget burn dashboard
Time budget	活动前 14 天完成选择	sequential batch、parallel candidate、early stop
Human review budget	质检员每天只能复核 200 个样本	active sampling、risk-based review allocation
Risk budget	投诉、误拒、错误建议不能超过阈值	constrained BO、hard guardrail、rollback rule

高级规则:

Budget is a product constraint, not an after-the-fact reporting field.

5.4 Stop / Continue / Scale 规则

信号	决策
Posterior best 稳定，credible improvement 足够，guardrail 合格	进入 release review
Pareto frontier 仍在快速扩展，且预算充足	继续探索
新 trial 的 expected improvement 接近零	停止或转向局部验证
Constraint violation probability 升高	降低探索权重、收紧候选范围或冻结线上暴露
关键 segment 风险恶化	切片回滚，保留低风险 segment 继续
Human review 发现不可接受 failure mode	立即停止该候选族并记录 failure class

6. Multi-Objective Optimization

金融零售 AI 很少只有一个目标。更常见的是:

maximize business value
maximize customer outcome
maximize model quality
minimize cost
minimize latency
minimize compliance / conduct risk
minimize operational burden

6.1 Pareto Frontier 语言

Pareto frontier 的产品意义:

一个方案如果在不牺牲另一个目标的情况下无法继续改进某个目标，它就是 Pareto-efficient candidate。

示例:

Candidate	Answer quality	Cost	Latency	Complaint risk	解释
A	高	高	中	低	适合高价值复杂咨询
B	中高	低	低	低	适合大规模标准客服
C	最高	最高	高	中	可能只适合人工辅助，不适合全自动
D	中	最低	最低	中	可作为降级方案

成熟团队不会说“C 分数最高所以全量上线”，而是选择:

high-value segment: A
mass channel: B
fallback mode: D
human-assisted premium workflow: C with review

6.2 多目标建模方式

方法	适用场景	注意点
Weighted score	目标少、权重稳定、治理已确认	权重必须可审计，不能用权重掩盖风险
Lexicographic priority	安全和合规优先级绝对高于收益	先满足硬门槛，再优化业务收益
Pareto frontier	需要展示多种可行 tradeoff	适合 executive review 和 portfolio 决策
Hypervolume improvement	需要度量 Pareto frontier 扩展	BoTorch qEHVI / qNEHVI 常见
Constraint transformation	把部分目标改成约束	例如 latency < 800ms、complaint risk 不高于 champion

6.3 金融零售多目标案例

场景	Objectives	Constraints
RAG 客服答案优化	提升 answer correctness、resolution rate、CSAT	PII 泄漏为零容忍，引用来源必须可追溯，平均延迟低于 SLA
信用额度策略	提升 activation、revenue、customer lifetime value	坏账率、公平性、投诉率、监管阈值
优惠券参数	提升增量毛利、复购、篮子规模	预算、渠道频率、毛利下限、客户疲劳
Fraud queue	提升拦截价值、审核效率	误拒率、VIP 摩擦、人工队列容量
LLM serving	提升质量和可用性	token cost、p95 latency、fallback rate、region capacity

7. Constrained BO 与 Safe Experimentation

7.1 Constrained BO

Constrained BO 把“候选点是否安全可行”作为模型的一部分，而不是试验结束后的补救动作。

maximize objective f(x)
subject to constraints g1(x) <= threshold1, g2(x) <= threshold2, ...

在 AI 产品中:

约束类型	例子	处理方式
硬约束	禁止输出受监管建议、禁止泄漏 PII、禁止未经授权调用工具	候选生成前过滤，违反即拒绝
风险约束	投诉率、误拒率、人工升级率、模型幻觉率	constraint surrogate + violation probability
运营约束	人工审核容量、contact center 队列、GPU 容量	capacity-aware acquisition
成本约束	token cost、云账单、review 成本	cost-aware BO
公平性约束	不同客群误差、通过率、推荐暴露差异	segment-level constraint
合规约束	KYC、信用、营销同意、记录保留	policy gate + evidence binder

7.2 Safe Experimentation 分层

层级	客户暴露	适用场景	门禁
Offline eval	0	prompt、RAG、model、ranking 初筛	Golden set、red-team set、slice eval
Replay	0	用历史请求重放新配置	数据许可、时间有效性、outcome mapping
Shadow	0	新模型旁路运行但不影响业务	差异分析、延迟、错误类型
Human-in-the-loop pilot	低	AI 给建议，人类确认后执行	human review、override、sample audit
Canary	低	低风险 segment 小流量	hard guardrail、kill switch
Controlled rollout	中	已通过 review 的 candidate	traffic ramp、sequential monitoring
Full scale	高	证据充分且可运维	release sign-off、post-launch monitoring

7.3 Human Review

Human review 不是形式审批，而是 BO 系统的安全传感器。

Review 类型	作用	进入优化闭环的方式
Expert label review	判断答案正确性、政策一致性、金融建议风险	作为 objective 或 constraint observation
Risk review	判断客户伤害、conduct risk、fair lending、投诉风险	作为 hard stop 或 violation probability
Operations review	判断人工队列、SLA、培训和执行复杂度	作为 capacity constraint
Compliance review	判断营销同意、披露、记录留存、监管解释	作为 policy gate
Architecture review	判断可用性、回滚、版本、观测性、成本	作为 release readiness constraint

高级原则:

Human review should be sampled, risk-weighted, auditable, and fed back into the surrogate or constraint model.

8. 产品 / 平台决策场景

8.1 Prompt / Model / RAG Tuning

可调参数	Objective	Constraints
system prompt、instruction style、few-shot examples	correctness、helpfulness、resolution rate	regulated advice boundary、toxicity、PII、citation
model choice、temperature、max tokens、tool policy	quality、cost、latency	p95 latency、cost per resolution、fallback
retrieval top_k、chunk size、reranker、query rewrite	groundedness、answer completeness	stale source、missing citation、retrieval cost
guardrail threshold、escalation threshold	safe automation rate	false escalation、missed escalation

推荐设计:

Offline BO for prompt / RAG candidates
-> human review for high-risk samples
-> shadow comparison
-> constrained online pilot
-> segment-specific champion selection

8.2 Pricing and Offer Parameter Tuning

金融零售的 pricing and offer parameter tuning 不应被简化为“哪个折扣转化率最高”。

参数	目标	约束
折扣金额、返现比例、积分倍率	增量毛利、转化、复购	预算、毛利下限、客户公平性
触达频率、渠道、时机	uplift、留存、客户体验	marketing consent、fatigue、退订率
信用额度、费率、还款提醒策略	activation、risk-adjusted revenue	信用风险、公平性、监管边界
分群阈值、eligibility rule	ROI、客户价值	protected class proxy risk、投诉、模型解释

BO 的用法:

用历史 campaign 和 offline uplift model 作为初始观测。
用 constrained BO 排除不满足毛利、预算、公平性和合规约束的 offer。
用 multi-objective optimization 同时看 conversion、margin、retention、complaint、unsubscribe。
对高风险 segment 使用 human review 和更小 exposure cap。

8.3 Capacity / Cost Optimization

场景	参数	Objectives	Constraints
LLM serving	model size、batching、cache TTL、fallback model	quality、availability、cost	p95 latency、SLO、data residency
Contact center Copilot	automation threshold、escalation rule、summarization length	AHT reduction、quality	queue capacity、agent trust、compliance
Fraud review	score threshold、review allocation、case batching	loss prevented、review productivity	false decline、VIP friction、reviewer capacity
RAG infra	embedding model、index refresh、reranker depth	answer quality、freshness	infra cost、latency、source authority

核心架构动作:

Cost and capacity are first-class objective / constraint values in the BO observation store.

8.4 AutoML / HPO

AutoML / HPO 是 Bayesian optimization 的经典落地场景，但企业级落地要超出 notebook:

层级	设计要点
Study design	objective、direction、search space、trial budget、pruner、seed、data split
Trial execution	reproducible container、feature version、model version、resource quota
Early stopping	Optuna pruner、learning curve、intermediate metrics
Governance	model card、lineage、fairness slice、approval status
Promotion	challenger to champion、offline to shadow、shadow to online

工具取舍:

工具	更适合	产品架构提醒
Optuna	快速 HPO、复杂 define-by-run search space、sampler / pruner、轻量平台	很适合工程团队快速建立 study / trial 纪律
BoTorch	研究型 BO、多目标、约束、batch、custom surrogate / acquisition	适合需要深度定制算法和不确定性建模的 AI 平台团队
Ax + BoTorch	产品化 adaptive experimentation、元数据管理、较高层接口	适合把 BO 能力交给更多业务实验团队

9. 治理与 Operating Model

9.1 NIST AI RMF 映射

NIST AI RMF 功能	BO 实验治理动作
Govern	定义 owner、risk tier、approval path、human review、model risk evidence、exception authority
Map	描述 use case、客户影响、业务流程、受影响 segment、harm scenario、参数边界
Measure	度量 objective、constraint、regret、uncertainty、guardrail、drift、review quality
Manage	采取 candidate rejection、traffic cap、rollback、champion selection、policy update、monitoring

9.2 决策权责

角色	责任
AI Product Architect	定义问题边界、架构能力、平台契约和 release decision path
Experiment Owner	维护 experiment card、budget、objective、candidate review
Data Scientist / ML Engineer	选择 surrogate、acquisition、sampler、pruner、uncertainty calibration
Risk / Compliance	定义硬约束、review rule、禁止组合、证据要求
Operations Owner	定义人工容量、SLA、fallback、培训和执行可行性
Architecture Review	检查 lineage、observability、rollout、rollback、security、cost
Human Reviewer	提供高风险样本评审和 failure taxonomy

9.3 Release Gate

Gate	通过条件
Protocol Gate	objective、constraints、budget、search space、review rule 已确认
Data Gate	evaluation data、lineage、privacy、sampling 和 metric contract 已确认
Safety Gate	hard constraints、guardrails、policy rules、rollback route 可运行
Learning Gate	surrogate calibration、trial quality、regret trend、Pareto frontier 可解释
Human Review Gate	高风险样本评审完成，重大 failure class 已处置
Scale Gate	candidate 对目标有可信增益，约束合格，operations 可承接

10. 模板

10.1 BO Experiment Card

字段	内容
Decision	要决定的上线、扩流、参数选择或资源分配问题
Champion	当前生产或人工流程基线
Search Space	参数、类型、范围、条件依赖、禁止组合
Objectives	主目标和多目标方向，例如 maximize quality、minimize cost
Constraints	硬约束、风险约束、容量约束、合规约束
Experiment Budget	trial、客户暴露、人工复核、成本、时间、风险预算
Initial Design	champion、expert seeds、Sobol / Latin hypercube、历史观测
Surrogate	GP、TPE、RF、ensemble、多输出模型选择理由
Acquisition	EI、UCB、PI、qNEHVI、constrained EI、cost-aware policy
Human Review	样本策略、review rubric、升级规则、证据留存
Stop Rule	停止、继续、扩流、回滚、选择 champion 的条件
Evidence	数据版本、模型版本、prompt / policy 版本、trial record、decision memo

10.2 Search Space Contract

Parameter	Type	Range / Options	Condition	Risk note
`model_family`	categorical	small, medium, frontier	none	frontier 模型需要更高成本门禁
`temperature`	continuous	0.0 to 0.7	only generative answer	高值需更多 hallucination review
`retrieval_top_k`	integer	3 to 20	RAG enabled	高值增加延迟和 token cost
`reranker_enabled`	boolean	true / false	RAG enabled	影响成本和 groundedness
`escalation_threshold`	continuous	0.3 to 0.9	customer-facing flow	过高可能漏升人工
`offer_discount_pct`	continuous	0 to 20	marketing use case	受预算和毛利约束

10.3 Acquisition Policy Memo

Experiment:
Champion:
Current best feasible candidate:
Remaining budget:
Observed regret trend:
Primary acquisition:
Exploration setting:
Constraint handling:
Batch size:
Human review trigger:
Traffic cap:
Reason this next batch is worth running:
Reason this next batch is safe enough to run:

10.4 Human Review Rubric

Dimension	Review question	Outcome encoding
Factuality	答案是否与权威来源一致	pass / minor issue / fail
Policy compliance	是否越过监管、营销、信用、投资或隐私边界	pass / escalate / reject
Customer harm	是否可能误导、歧视、造成财务伤害或服务摩擦	low / medium / high
Operational usability	员工能否理解、执行、覆盖例外	usable / needs escalation / unusable
Evidence quality	是否引用来源、记录版本、可复盘	sufficient / weak / missing

10.5 Decision Memo

Decision:
Selected candidate:
Rejected candidates:
Evidence summary:
Objective improvement:
Constraint status:
Regret and uncertainty:
Segment findings:
Human review findings:
Cost and capacity impact:
Risk acceptance:
Rollback plan:
Post-release monitoring:
Sign-off:

11. 30 天训练计划

Day	主题	产出
1	读 Snoek 2012 practical BO，提炼 BO 与 grid / random search 的差异	1 页概念卡
2	梳理 GP surrogate 的 mean、uncertainty、kernel、noise	GP 产品解释图
3	对比 EI / UCB / PI 的探索-利用逻辑	Acquisition 选择表
4	用一个小型 HPO 例子理解 trial、study、objective	Optuna study 设计笔记
5	设计一个 prompt tuning search space	Prompt search space contract
6	设计 RAG top_k、chunk、reranker、model 的多目标指标	RAG objective / constraint matrix
7	周复盘: BO 如何改变 AI PM 的实验语言	面试 2 分钟回答
8	学习 constrained BO，区分 hard constraint 与 learned constraint	Safe candidate gate
9	设计客服 RAG 的 human review rubric	Review rubric
10	学习 multi-objective optimization 和 Pareto frontier	Pareto frontier 案例表
11	用定价 / offer 场景设计多目标 BO	Pricing experiment card
12	建立 experiment budget 模型	Budget burn dashboard sketch
13	学习 Optuna sampler / pruner，理解 early stopping	HPO governance checklist
14	周复盘: 写一份 BO experiment protocol	Protocol memo
15	学习 BoTorch 架构和 acquisition primitives	BoTorch capability map
16	设计 batch / parallel BO 的执行策略	Batch trial policy
17	把 capacity / cost optimization 纳入 objective / constraint	Cost-aware BO memo
18	设计 safe experimentation 分层: offline、replay、shadow、pilot、canary	Release path diagram
19	设计 regret 指标: simple、cumulative、risk-adjusted	Regret metric card
20	周复盘: 给 executive 解释为什么不做全量网格搜索	Executive memo
21	用 NIST AI RMF 映射 BO governance	Govern / Map / Measure / Manage table
22	设计 BO observation store schema	Trial record schema
23	设计 human review 如何反馈到 constraint model	Review feedback loop
24	写 prompt / model / RAG tuning 的 end-to-end 架构	Architecture note
25	写 pricing and offer parameter tuning 的风控版方案	Offer tuning review memo
26	写 AutoML / HPO 平台化方案	HPO platform card
27	准备 5 个高级面试回答	Interview answer set
28	复盘失败案例: 过度优化单一指标导致风险上升	Failure mode memo
29	组合成作品集案例: 金融零售 AI BO 实验平台	Portfolio case
30	完成模拟面试: 架构、产品、治理、风险四个视角	Final narrative

12. 面试答案

12.1 什么是 Bayesian optimization，为什么适合 AI 产品调优？

30 秒回答:

Bayesian optimization 是一种面向昂贵黑盒函数的 sequential experiment design。它用 surrogate model 学习目标函数和不确定性，再用 acquisition function 决定下一次最值得试验的参数组合。对 AI 产品而言，它适合 prompt、model、RAG、HPO、定价和容量配置，因为这些试验往往成本高、有噪声、多目标且有安全约束。

2 分钟回答:

Bayesian optimization 的关键不是“自动调参”，而是把每次实验当成信息资产。系统先用 champion、历史 trial、专家 seed 和少量初始设计建立 surrogate，例如 Gaussian Process surrogate。然后通过 EI、UCB、PI 或多目标 / 约束 acquisition 选择下一批 candidate。每次试验完成后，质量、成本、延迟、风险、人工复核结果都会写入 observation store，再更新 posterior。

在金融零售 AI 中，我不会只优化一个 accuracy 或 conversion 指标，而会把投诉率、误拒率、人工升级率、合规风险、token cost、p95 latency 和 capacity 一起建模。高风险 candidate 需要 safe experimentation，从 offline eval、replay、shadow、human-in-the-loop pilot 到 canary 分层推进。最终输出不是一个神秘最优参数，而是可审计的 champion、Pareto frontier、约束状态、regret 趋势和 release decision memo。

12.2 Gaussian Process surrogate 的产品价值是什么？

30 秒回答:

GP surrogate 的价值是同时给出预测均值和不确定性。均值告诉我们哪个配置看起来更好，不确定性告诉我们哪里还值得探索。对受监管 AI 产品来说，不确定性直接影响试验预算、风险暴露和 human review 策略。

高级补充:

如果一个 RAG 配置在普通样本上表现好，但在少数语种、投诉类问题、信用产品问题上样本很少，GP 的 uncertainty 可以提醒团队不要过早全量上线。我们可以对高不确定且高风险区域增加人工复核，或用 constrained acquisition 限制线上暴露。这样 BO 不只是追求高分，而是在风险可控下学习。

12.3 EI、UCB、PI 怎么选？

30 秒回答:

EI 关注期望改进，适合持续提升 champion；UCB 显式奖励不确定性，适合探索新模型或新策略；PI 关注超过当前 best 的概率，适合目标明确、风险较低的局部优化。金融零售线上实验通常还要叠加 constrained acquisition 和 safe gate。

场景化回答:

prompt / RAG 离线调优可以从 EI 开始；新模型族探索可以提高 UCB 的探索权重；预算接近耗尽时可以偏向 exploitation；线上客户暴露场景要使用 constrained EI 或 expected feasible improvement，并且通过 human review 和 traffic cap 控制风险。

12.4 如何把 BO 用在 prompt / model / RAG tuning？

回答:

我会先把 search space 产品化: model family、temperature、max tokens、system prompt、few-shot set、retrieval top_k、chunk size、reranker、query rewrite、citation policy、escalation threshold。然后定义多目标: correctness、groundedness、resolution rate、cost、latency、human escalation、complaint risk。硬约束包括 PII、受监管建议边界、引用来源、禁止工具调用。

执行上先做 offline eval 和 replay，用 BO 选择候选；高风险样本进入 human review；通过 shadow 比较延迟、引用和错误类型；再用 constrained online pilot 做小流量验证。最终按 segment 选择 champion，而不是强行全渠道一个配置。

12.5 如何用 BO 做 pricing and offer parameter tuning？

回答:

我会避免把目标定义成“最高转化率”。金融零售 offer 需要优化 risk-adjusted margin、incremental lift、retention、customer value，同时约束预算、毛利、营销同意、退订、投诉、公平性和监管边界。BO 可以用历史 campaign 和 uplift model 做初始观测，再通过 constrained multi-objective optimization 找 Pareto frontier。

关键治理点是 exposure cap 和 human review。对高风险客群、信用类 offer、可能影响公平性的 eligibility rule，需要更严格的 policy gate。最终决策不是“哪个折扣最大”，而是哪组参数在预算、风险和客户体验边界内给出最好的增量收益。

12.6 BoTorch 和 Optuna 怎么选？

回答:

Optuna 更适合快速 HPO 和工程化 trial 管理，它的 study / trial、define-by-run search space、sampler、pruner 对多数 AutoML / HPO 场景非常实用。BoTorch 更适合需要深度定制 surrogate、acquisition、多目标、约束和 batch BO 的 AI 平台团队。如果只是让业务团队低摩擦做 adaptive experimentation，可以考虑在上层平台封装 Ax / Optuna，在底层高级场景使用 BoTorch。

我的架构建议是分层: 业务用户看到 experiment card、budget、constraints、decision cockpit；平台层负责任务调度、observation store、lineage、review；算法层可以按场景切换 Optuna、BoTorch 或自定义 surrogate。

12.7 什么是 safe experimentation？

回答:

Safe experimentation 是在不确定性仍然存在时控制客户、员工、成本和合规风险的实验体系。对 BO 来说，它包括 constrained BO、safe candidate filtering、offline / replay / shadow / pilot / canary 分层、traffic cap、human review、kill switch、rollback 和 evidence binder。

我会把安全设计放在 acquisition 前后两层: 前面通过 search space 和 policy 排除禁止组合，后面通过 constraint surrogate 和 risk gate 决定候选是否可运行。上线前还要有人工复核和 release review，确保优化系统没有把单一业务指标推到风险边界之外。

13. 作品集 Capstone: 金融零售 BO 实验平台

一个可展示的高级作品集可以这样组织:

资产	内容
Capability Map	BO experiment registry、search space registry、surrogate service、acquisition optimizer、safety gate、human review workbench、decision cockpit
Reference Architecture	prompt / model / RAG / offer / HPO / capacity tuning 的统一闭环
Experiment Card	选择一个客服 RAG 或 offer tuning 场景，写完整 objective、constraints、budget、stop rule
Governance Pack	NIST AI RMF 映射、human review rubric、release gate、evidence binder
Decision Memo	给出 Pareto frontier、regret、constraint status、candidate selection 和 rollout plan
Interview Narrative	用“更少试验、更低风险、更强证据、更好决策”讲清产品架构价值

最终表达:

I do not treat AI tuning as ad hoc parameter tweaking.
I design it as a governed sequential learning system with budget, constraints, evidence, human review, and release accountability.