返回 Papers
AI 扩展计划 / Playbooks

AI Bayesian Optimization / Experiment Design Playbook

这些来源用于校准 Bayesian optimization、surrogate modeling、acquisition functions、multi-objective / constrained BO、AutoML / HPO 工具链和 AI 风险治理语言。正式项目必须按访问日期复核工具版本、实验策略、监管要求和机构内部政策。

714AI_BAYESIAN_OPTIMIZATION_EXPERIMENT_DESIGN_PLAYBOOK.md

AI Bayesian Optimization & Experiment Design Playbook

适用对象: AI Product Architect、AI Platform PM、Experimentation Lead、Decision Science Lead、Retail Banking / Retail Operations AI 转型负责人、Model Risk / Governance Partner。 核心问题: 当每次试验都昂贵、缓慢、有风险或需要人工审核时,如何用 Bayesian optimization 和 sequential experiment design 在有限 experiment budget 内更快找到高价值、低风险、可治理的 AI / 产品 / 架构参数组合。 一句话定位: 这是一份把 Bayesian optimization、Gaussian Process surrogate、acquisition functions、多目标与约束优化、AI tuning、金融零售实验治理和产品平台架构连接起来的高级 playbook。 覆盖主题: Bayesian optimization、Gaussian Process surrogate、acquisition functions(EI/UCB/PI)、multi-objective optimization、constrained BO、sequential experiment design、prompt/model/RAG tuning、pricing and offer parameter tuning、capacity/cost optimization、AutoML/HPO、BoTorch、Optuna、experiment budget、regret、safe experimentation、human review。 边界说明: 本文不是统计学入门、AutoML 教程、供应商选型报告、法律意见或模型验证报告;正式落地必须结合业务 owner、risk、legal、compliance、privacy、security、data、architecture review、operations owner 和 model risk governance。


Source Anchors

这些来源用于校准 Bayesian optimization、surrogate modeling、acquisition functions、multi-objective / constrained BO、AutoML / HPO 工具链和 AI 风险治理语言。正式项目必须按访问日期复核工具版本、实验策略、监管要求和机构内部政策。

AnchorOfficial / primary source本文用法
Snoek, Larochelle, Adams: Practical Bayesian Optimization of Machine Learning Algorithmshttps://arxiv.org/abs/1206.2944用作 Snoek 2012 practical BO、Gaussian Process surrogate、自动超参数调优、实验成本感知和并行实验设计的经典锚点。
BoTorch Introductionhttps://botorch.org/docs/introduction用作 BoTorch、Bayesian optimization primitives、probabilistic models、acquisition functions、PyTorch / GPyTorch 生产研究框架的术语锚点。
BoTorch Multi-Objective BO Tutorialhttps://botorch.org/docs/tutorials/multi_objective_bo/用作 multi-objective optimization、Pareto frontier、qEHVI / qNEHVI / qParEGO 和 batch BO 的工程表达参考。
BoTorch Constrained Multi-Objective BO Tutorialhttps://botorch.org/docs/tutorials/constrained_multi_objective_bo/用作 constrained BO、约束建模、可行区域、约束感知 acquisition 和风险门禁表达。
Optuna Documentationhttps://optuna.readthedocs.io/en/stable/用作 Optuna study / trial、define-by-run search space、sampler、pruner、AutoML / HPO 平台化执行的术语锚点。
Optuna Efficient Optimization Algorithmshttps://optuna.readthedocs.io/en/stable/tutorial/10_key_features/003_efficient_optimization_algorithms.html用作 TPE、Gaussian process-based sampler、pruning、early stopping、实验预算节约和 trial governance 的工程参考。
Optuna Multi-Objective Optimizationhttps://optuna.readthedocs.io/en/stable/tutorial/20_recipes/002_multi_objective.html用作多目标方向、Pareto front、约束多目标采样和可视化解释参考。
NIST AI RMFhttps://www.nist.gov/itl/ai-risk-management-framework用 Govern / Map / Measure / Manage 组织 AI optimization experiment 的风险识别、度量、人工复核、证据和治理。

1. 一句话定位

Bayesian optimization 是面向昂贵黑盒目标函数的 sequential experiment design 方法:

Use existing evidence
-> learn a probabilistic surrogate
-> choose the next most informative / valuable experiment
-> observe outcome under budget and risk constraints
-> update belief
-> repeat until decision quality is sufficient

中文表达:

不是把参数网格扫完,而是在每一次试验之后更新对目标函数的信念,用 acquisition function 决定下一次最值得尝试的点。

高级 AI 产品语境里,目标函数往往不是单一模型分数,而是:

  • prompt / model / RAG 配置在质量、成本、延迟、合规风险和人工接管率之间的 tradeoff。
  • 定价、优惠券、信用额度、营销触达频率在利润、转化、留存、投诉和公平性之间的 tradeoff。
  • capacity / cost optimization 中模型规模、缓存、并发、降级策略、SLA 和云成本之间的 tradeoff。
  • AutoML / HPO 中模型结构、训练参数、特征选择和推理成本之间的 tradeoff。

Bayesian optimization 的产品价值不在“数学更高级”,而在:

在 experiment budget 有限、每次线上暴露有客户风险、每次人工评审都昂贵的场景下,用更少试验获得更可信的改进方向。


2. 为什么重要

金融零售 AI 系统常见的调参方式有三类低成熟形态:

低成熟形态表面做法真实问题
Expert guessing由资深专家凭经验改 prompt、阈值、模型或优惠力度难以复现,无法证明没有遗漏更优组合
Grid / random search大量组合离线或小流量试验浪费预算,高风险组合也可能被试验
Single-metric optimization只追求 accuracy、conversion、AUC 或 CTR成本、延迟、公平性、投诉、人工负荷、合规风险被挤到系统外

Bayesian optimization 更适合以下特征:

条件金融零售 AI 例子为什么 BO 更合适
评估昂贵一个 RAG 配置要跑人工质检、红队集、线上 pilot需要用少量 trial 获得最大信息量
目标黑盒prompt、reranker、model、tool policy 组合后的业务结果难以写解析梯度,只能通过观察结果学习
结果有噪声线上转化、客服满意度、投诉率、欺诈损失有随机波动surrogate 可以显式建模不确定性
参数混合连续阈值、离散模型、分类策略、条件搜索空间共存Optuna / Ax / BoTorch 可封装复杂 search space
风险有边界不允许投诉率、误拒率、延迟、成本超过上限constrained BO 把安全约束纳入选择逻辑
多目标共存质量更高但成本更高,转化更高但投诉也可能上升multi-objective optimization 输出 Pareto frontier 而非假装只有一个答案

成熟表达:

Bayesian optimization turns tuning into a governed learning system:
belief, budget, constraint, evidence, review, and decision.

3. Bayesian Optimization 架构

3.1 参考架构

flowchart TB
  A[Business / AI tuning question] --> B[Experiment protocol<br/>objective, constraints, budget, review rule]
  B --> C[Search space registry<br/>prompt, model, RAG, pricing, capacity, HPO params]
  C --> D[Initial design<br/>Sobol, Latin hypercube, expert seed, champion baseline]
  D --> E[Evaluation runner<br/>offline eval, replay, shadow, online pilot, human review]
  E --> F[Observation store<br/>X, outcomes, constraints, cost, lineage, reviewer evidence]
  F --> G[Surrogate model<br/>Gaussian Process, TPE, RF, ensemble, multi-output model]
  G --> H[Acquisition function<br/>EI, UCB, PI, NEHVI, constrained acquisition]
  H --> I[Candidate generator<br/>single, batch, parallel, safe candidate set]
  I --> J[Risk and policy gate<br/>eligibility, guardrail, privacy, compliance]
  J --> E
  F --> K[Decision cockpit<br/>regret, Pareto frontier, budget burn, safe stop, scale recommendation]
  K --> L[Human review<br/>approve, cap exposure, rollback, select champion]

3.2 平台组件

组件责任高级产品问题关键证据
Experiment Registry记录 experiment id、hypothesis、owner、risk tier、budget、objective、constraints这个优化实验要回答什么决策,试验边界在哪里Experiment card、approval trail、risk tier
Search Space Registry管变量、范围、类型、条件依赖、禁止组合哪些参数能调,哪些组合不允许出现Search space contract、policy rule
Evaluation Runner调度离线 eval、replay、shadow、online pilot、人工复核每个 candidate 如何被一致评估Eval run log、dataset version、review sample
Observation Store保存每次 trial 的输入、输出、成本、失败、约束、版本后续 surrogate 是否能重建真实证据Immutable trial record、lineage
Surrogate Service用 GP / TPE / RF / ensemble 学习目标函数和不确定性当前系统对未知区域的信心如何Posterior, uncertainty, calibration
Acquisition Optimizer根据 EI / UCB / PI / NEHVI / constrained rule 生成下一批候选下一次试验为何值得花预算Acquisition score、candidate rationale
Safety Gate检查硬约束、软约束、风险阈值、暴露上限这个 candidate 能否进入真实客户或员工流程Guardrail result、exception record
Human Review Workbench支持 risk、compliance、operations、domain expert 复核哪些 trial 必须人工看,复核结论如何反馈Reviewer notes、override reason
Decision Cockpit展示 Pareto frontier、regret、budget burn、winning region、风险走势何时停止、扩展、回滚或继续探索Decision memo、champion selection
Governance Binder汇总协议、数据、模型、参数、结果、审批、异常审计和模型风险团队能否复盘当时判断Evidence package、sign-off

3.3 数据契约

每个 trial 至少包含:

字段说明
experiment_id优化实验唯一标识
trial_id单次候选配置标识
x_config参数组合,例如 prompt 版本、top_k、temperature、模型、价格折扣、阈值
objective_values一个或多个业务目标,例如质量、转化、成本、延迟、利润、风险损失
constraint_valuesguardrail 指标,例如投诉率、误拒率、PII 暴露、人工升级率、SLA 违约
evaluation_context离线集、时间窗、segment、channel、traffic split、review protocol
costtoken、GPU、人工质检、客户暴露、机会成本、日历时间
lineagemodel、prompt、retrieval index、feature、policy、code、data version
review_statusauto-pass、human-reviewed、capped、rejected、rolled-back
decisioncontinue、expand、freeze、select champion、retire candidate

4. Surrogate / Acquisition 核心机制

4.1 Surrogate: 为什么常用 Gaussian Process surrogate

Bayesian optimization 的 surrogate 是对未知目标函数 f(x) 的概率替代模型。Gaussian Process surrogate 的核心价值是同时给出:

predicted mean: 这个点看起来有多好
predictive uncertainty: 这个点我们有多不确定

对高级 AI 产品架构而言,uncertainty 不是装饰字段,而是决策资产:

不确定性来源金融零售 AI 例子架构处理
观测噪声客服评分、线上转化、欺诈损失波动噪声模型、重复评估、置信区间、分层分析
数据稀疏高净值客户、少数语种、特殊渠道样本少分 segment surrogate、层级模型、人工复核加权
搜索空间未知新模型、新 prompt 模式、新 retrieval policy提高探索权重,设置安全暴露上限
时间漂移节假日、利率变化、政策变化、活动期时间窗特征、滚动重训、漂移监控
约束不稳定合规命中、投诉、人工升级随渠道变化独立 constraint surrogate、risk-adjusted acquisition

GP 适合低到中等维度、连续或可编码参数、评估成本高的场景。高维、强条件、离散组合很多时,可以采用 TPE、random forest、ensemble surrogate,或把 search space 分层拆解。

4.2 Acquisition Functions: EI / UCB / PI

Acquisition function 把 surrogate 的均值和不确定性转成“下一次试验该选哪里”的策略。

Acquisition直觉适合场景风险
Expected Improvement, EI选择期望改进最大的点,兼顾好点和不确定区域默认强基线,目标是以较少 trial 持续改进 champion噪声高时可能高估局部改进
Upper Confidence Bound, UCBmean + beta * uncertainty,用 beta 控制探索程度新领域、新模型、新渠道,需要主动探索未知区域探索权重过高会浪费预算或触发风险
Probability of Improvement, PI选择超过当前 best 的概率最高的点目标明确、只想提升过线概率容易偏向短期小幅改进,探索不足

产品翻译:

EI asks: where is the expected business upside largest?
UCB asks: where might we be underestimating a valuable region?
PI asks: where are we most likely to beat the current champion?

4.3 Acquisition 选择手册

决策场景推荐 acquisition 策略设计理由
Prompt / RAG 离线质量调优EI 或 batch EI每次 eval 成本可控,目标是快速提升质量
新模型族探索UCB 或 entropy-aware exploration不确定性高,不能过早锁定单一模型
线上安全 pilotConstrained EI / expected feasible improvement必须同时满足投诉、延迟、成本、人工升级等约束
多目标成本质量权衡qNEHVI / qEHVI / qParEGO输出 Pareto frontier,避免把成本和质量硬凑成一个分数
大规模 HPOOptuna TPE / GPSampler + pruner需要处理条件搜索空间、并行 trial 和 early stopping
预算接近耗尽EI with exploitation bias 或 champion refinement剩余预算优先验证最可能上线的区域

4.4 Regret: 高级 PM 必须会讲的指标

Regret 衡量优化策略因为没有选择最优点而损失的价值。

概念产品解释适用视角
Simple regret当前 best candidate 与真实最优之间的差距选最终方案时关注
Cumulative regret优化过程中所有非最优 trial 造成的累计损失线上试验或客户暴露场景关注
Risk-adjusted regret把投诉、误拒、延迟、人工负荷、合规风险纳入损失金融零售 AI 默认视角
Opportunity-cost regret慢优化导致错过活动窗口、容量窗口或市场机会定价、营销、节假日运营关注

一句话:

在金融零售,最小化 regret 不只是更快找到高分配置,还要减少客户暴露、人工审核、云成本和合规风险上的学习成本。


5. Sequential Experiment Design

5.1 闭环流程

1. Define decision
2. Define objective and constraints
3. Define search space
4. Allocate experiment budget
5. Run initial design
6. Fit surrogate
7. Optimize acquisition
8. Gate candidate through safety policy
9. Evaluate candidate
10. Update posterior and evidence
11. Decide continue / stop / scale / rollback

这套 sequential experiment design 与传统 A/B test 的差异:

维度固定 A/B testBayesian optimization
问题A 是否优于 B在参数空间中哪里最优或最接近可上线 Pareto 区域
实验节奏先定样本量,结束后分析每轮试验后更新信念并选择下一轮
预算主要是样本量trial 数、客户暴露、token、GPU、人工复核、日历时间
风险通过 guardrail 和 ramp 控制通过 constrained acquisition、safe candidate set 和 human review 控制
输出Winner / no winnerChampion、Pareto frontier、可行区域、风险边界、学习曲线

5.2 Initial Design

初始设计决定 surrogate 是否有可学习的基础。

方法适用场景说明
Champion baseline必须包含现有生产配置后续 regret、improvement、risk comparison 都以 champion 为锚点
Expert seeds领域专家给出 3 到 5 个可信候选利用经验减少冷启动浪费
Sobol / Latin hypercube连续参数空间较大比简单网格更均匀覆盖
Safe boundary points在安全范围边缘放少量点学习约束边界,但要限制暴露
Historical trials复用过去 prompt / model / pricing / campaign 结果必须校验 metric lineage 和环境差异

5.3 Experiment Budget

Experiment budget 不只是 trial 数:

预算类型例子管控方式
Trial budget最多 40 个候选配置分阶段释放,10 个 trial 一次 review
Customer exposure budget最多影响 2% 客户或 10,000 次会话traffic cap、segment cap、kill switch
Cost budgettoken、GPU、云推理、人工质检cost per candidate、budget burn dashboard
Time budget活动前 14 天完成选择sequential batch、parallel candidate、early stop
Human review budget质检员每天只能复核 200 个样本active sampling、risk-based review allocation
Risk budget投诉、误拒、错误建议不能超过阈值constrained BO、hard guardrail、rollback rule

高级规则:

Budget is a product constraint, not an after-the-fact reporting field.

5.4 Stop / Continue / Scale 规则

信号决策
Posterior best 稳定,credible improvement 足够,guardrail 合格进入 release review
Pareto frontier 仍在快速扩展,且预算充足继续探索
新 trial 的 expected improvement 接近零停止或转向局部验证
Constraint violation probability 升高降低探索权重、收紧候选范围或冻结线上暴露
关键 segment 风险恶化切片回滚,保留低风险 segment 继续
Human review 发现不可接受 failure mode立即停止该候选族并记录 failure class

6. Multi-Objective Optimization

金融零售 AI 很少只有一个目标。更常见的是:

maximize business value
maximize customer outcome
maximize model quality
minimize cost
minimize latency
minimize compliance / conduct risk
minimize operational burden

6.1 Pareto Frontier 语言

Pareto frontier 的产品意义:

一个方案如果在不牺牲另一个目标的情况下无法继续改进某个目标,它就是 Pareto-efficient candidate。

示例:

CandidateAnswer qualityCostLatencyComplaint risk解释
A适合高价值复杂咨询
B中高适合大规模标准客服
C最高最高可能只适合人工辅助,不适合全自动
D最低最低可作为降级方案

成熟团队不会说“C 分数最高所以全量上线”,而是选择:

high-value segment: A
mass channel: B
fallback mode: D
human-assisted premium workflow: C with review

6.2 多目标建模方式

方法适用场景注意点
Weighted score目标少、权重稳定、治理已确认权重必须可审计,不能用权重掩盖风险
Lexicographic priority安全和合规优先级绝对高于收益先满足硬门槛,再优化业务收益
Pareto frontier需要展示多种可行 tradeoff适合 executive review 和 portfolio 决策
Hypervolume improvement需要度量 Pareto frontier 扩展BoTorch qEHVI / qNEHVI 常见
Constraint transformation把部分目标改成约束例如 latency < 800ms、complaint risk 不高于 champion

6.3 金融零售多目标案例

场景ObjectivesConstraints
RAG 客服答案优化提升 answer correctness、resolution rate、CSATPII 泄漏为零容忍,引用来源必须可追溯,平均延迟低于 SLA
信用额度策略提升 activation、revenue、customer lifetime value坏账率、公平性、投诉率、监管阈值
优惠券参数提升增量毛利、复购、篮子规模预算、渠道频率、毛利下限、客户疲劳
Fraud queue提升拦截价值、审核效率误拒率、VIP 摩擦、人工队列容量
LLM serving提升质量和可用性token cost、p95 latency、fallback rate、region capacity

7. Constrained BO 与 Safe Experimentation

7.1 Constrained BO

Constrained BO 把“候选点是否安全可行”作为模型的一部分,而不是试验结束后的补救动作。

maximize objective f(x)
subject to constraints g1(x) <= threshold1, g2(x) <= threshold2, ...

在 AI 产品中:

约束类型例子处理方式
硬约束禁止输出受监管建议、禁止泄漏 PII、禁止未经授权调用工具候选生成前过滤,违反即拒绝
风险约束投诉率、误拒率、人工升级率、模型幻觉率constraint surrogate + violation probability
运营约束人工审核容量、contact center 队列、GPU 容量capacity-aware acquisition
成本约束token cost、云账单、review 成本cost-aware BO
公平性约束不同客群误差、通过率、推荐暴露差异segment-level constraint
合规约束KYC、信用、营销同意、记录保留policy gate + evidence binder

7.2 Safe Experimentation 分层

层级客户暴露适用场景门禁
Offline eval0prompt、RAG、model、ranking 初筛Golden set、red-team set、slice eval
Replay0用历史请求重放新配置数据许可、时间有效性、outcome mapping
Shadow0新模型旁路运行但不影响业务差异分析、延迟、错误类型
Human-in-the-loop pilotAI 给建议,人类确认后执行human review、override、sample audit
Canary低风险 segment 小流量hard guardrail、kill switch
Controlled rollout已通过 review 的 candidatetraffic ramp、sequential monitoring
Full scale证据充分且可运维release sign-off、post-launch monitoring

7.3 Human Review

Human review 不是形式审批,而是 BO 系统的安全传感器。

Review 类型作用进入优化闭环的方式
Expert label review判断答案正确性、政策一致性、金融建议风险作为 objective 或 constraint observation
Risk review判断客户伤害、conduct risk、fair lending、投诉风险作为 hard stop 或 violation probability
Operations review判断人工队列、SLA、培训和执行复杂度作为 capacity constraint
Compliance review判断营销同意、披露、记录留存、监管解释作为 policy gate
Architecture review判断可用性、回滚、版本、观测性、成本作为 release readiness constraint

高级原则:

Human review should be sampled, risk-weighted, auditable, and fed back into the surrogate or constraint model.

8. 产品 / 平台决策场景

8.1 Prompt / Model / RAG Tuning

可调参数ObjectiveConstraints
system prompt、instruction style、few-shot examplescorrectness、helpfulness、resolution rateregulated advice boundary、toxicity、PII、citation
model choice、temperature、max tokens、tool policyquality、cost、latencyp95 latency、cost per resolution、fallback
retrieval top_k、chunk size、reranker、query rewritegroundedness、answer completenessstale source、missing citation、retrieval cost
guardrail threshold、escalation thresholdsafe automation ratefalse escalation、missed escalation

推荐设计:

Offline BO for prompt / RAG candidates
-> human review for high-risk samples
-> shadow comparison
-> constrained online pilot
-> segment-specific champion selection

8.2 Pricing and Offer Parameter Tuning

金融零售的 pricing and offer parameter tuning 不应被简化为“哪个折扣转化率最高”。

参数目标约束
折扣金额、返现比例、积分倍率增量毛利、转化、复购预算、毛利下限、客户公平性
触达频率、渠道、时机uplift、留存、客户体验marketing consent、fatigue、退订率
信用额度、费率、还款提醒策略activation、risk-adjusted revenue信用风险、公平性、监管边界
分群阈值、eligibility ruleROI、客户价值protected class proxy risk、投诉、模型解释

BO 的用法:

  • 用历史 campaign 和 offline uplift model 作为初始观测。
  • 用 constrained BO 排除不满足毛利、预算、公平性和合规约束的 offer。
  • 用 multi-objective optimization 同时看 conversion、margin、retention、complaint、unsubscribe。
  • 对高风险 segment 使用 human review 和更小 exposure cap。

8.3 Capacity / Cost Optimization

场景参数ObjectivesConstraints
LLM servingmodel size、batching、cache TTL、fallback modelquality、availability、costp95 latency、SLO、data residency
Contact center Copilotautomation threshold、escalation rule、summarization lengthAHT reduction、qualityqueue capacity、agent trust、compliance
Fraud reviewscore threshold、review allocation、case batchingloss prevented、review productivityfalse decline、VIP friction、reviewer capacity
RAG infraembedding model、index refresh、reranker depthanswer quality、freshnessinfra cost、latency、source authority

核心架构动作:

Cost and capacity are first-class objective / constraint values in the BO observation store.

8.4 AutoML / HPO

AutoML / HPO 是 Bayesian optimization 的经典落地场景,但企业级落地要超出 notebook:

层级设计要点
Study designobjective、direction、search space、trial budget、pruner、seed、data split
Trial executionreproducible container、feature version、model version、resource quota
Early stoppingOptuna pruner、learning curve、intermediate metrics
Governancemodel card、lineage、fairness slice、approval status
Promotionchallenger to champion、offline to shadow、shadow to online

工具取舍:

工具更适合产品架构提醒
Optuna快速 HPO、复杂 define-by-run search space、sampler / pruner、轻量平台很适合工程团队快速建立 study / trial 纪律
BoTorch研究型 BO、多目标、约束、batch、custom surrogate / acquisition适合需要深度定制算法和不确定性建模的 AI 平台团队
Ax + BoTorch产品化 adaptive experimentation、元数据管理、较高层接口适合把 BO 能力交给更多业务实验团队

9. 治理与 Operating Model

9.1 NIST AI RMF 映射

NIST AI RMF 功能BO 实验治理动作
Govern定义 owner、risk tier、approval path、human review、model risk evidence、exception authority
Map描述 use case、客户影响、业务流程、受影响 segment、harm scenario、参数边界
Measure度量 objective、constraint、regret、uncertainty、guardrail、drift、review quality
Manage采取 candidate rejection、traffic cap、rollback、champion selection、policy update、monitoring

9.2 决策权责

角色责任
AI Product Architect定义问题边界、架构能力、平台契约和 release decision path
Experiment Owner维护 experiment card、budget、objective、candidate review
Data Scientist / ML Engineer选择 surrogate、acquisition、sampler、pruner、uncertainty calibration
Risk / Compliance定义硬约束、review rule、禁止组合、证据要求
Operations Owner定义人工容量、SLA、fallback、培训和执行可行性
Architecture Review检查 lineage、observability、rollout、rollback、security、cost
Human Reviewer提供高风险样本评审和 failure taxonomy

9.3 Release Gate

Gate通过条件
Protocol Gateobjective、constraints、budget、search space、review rule 已确认
Data Gateevaluation data、lineage、privacy、sampling 和 metric contract 已确认
Safety Gatehard constraints、guardrails、policy rules、rollback route 可运行
Learning Gatesurrogate calibration、trial quality、regret trend、Pareto frontier 可解释
Human Review Gate高风险样本评审完成,重大 failure class 已处置
Scale Gatecandidate 对目标有可信增益,约束合格,operations 可承接

10. 模板

10.1 BO Experiment Card

字段内容
Decision要决定的上线、扩流、参数选择或资源分配问题
Champion当前生产或人工流程基线
Search Space参数、类型、范围、条件依赖、禁止组合
Objectives主目标和多目标方向,例如 maximize quality、minimize cost
Constraints硬约束、风险约束、容量约束、合规约束
Experiment Budgettrial、客户暴露、人工复核、成本、时间、风险预算
Initial Designchampion、expert seeds、Sobol / Latin hypercube、历史观测
SurrogateGP、TPE、RF、ensemble、多输出模型选择理由
AcquisitionEI、UCB、PI、qNEHVI、constrained EI、cost-aware policy
Human Review样本策略、review rubric、升级规则、证据留存
Stop Rule停止、继续、扩流、回滚、选择 champion 的条件
Evidence数据版本、模型版本、prompt / policy 版本、trial record、decision memo

10.2 Search Space Contract

ParameterTypeRange / OptionsConditionRisk note
model_familycategoricalsmall, medium, frontiernonefrontier 模型需要更高成本门禁
temperaturecontinuous0.0 to 0.7only generative answer高值需更多 hallucination review
retrieval_top_kinteger3 to 20RAG enabled高值增加延迟和 token cost
reranker_enabledbooleantrue / falseRAG enabled影响成本和 groundedness
escalation_thresholdcontinuous0.3 to 0.9customer-facing flow过高可能漏升人工
offer_discount_pctcontinuous0 to 20marketing use case受预算和毛利约束

10.3 Acquisition Policy Memo

Experiment:
Champion:
Current best feasible candidate:
Remaining budget:
Observed regret trend:
Primary acquisition:
Exploration setting:
Constraint handling:
Batch size:
Human review trigger:
Traffic cap:
Reason this next batch is worth running:
Reason this next batch is safe enough to run:

10.4 Human Review Rubric

DimensionReview questionOutcome encoding
Factuality答案是否与权威来源一致pass / minor issue / fail
Policy compliance是否越过监管、营销、信用、投资或隐私边界pass / escalate / reject
Customer harm是否可能误导、歧视、造成财务伤害或服务摩擦low / medium / high
Operational usability员工能否理解、执行、覆盖例外usable / needs escalation / unusable
Evidence quality是否引用来源、记录版本、可复盘sufficient / weak / missing

10.5 Decision Memo

Decision:
Selected candidate:
Rejected candidates:
Evidence summary:
Objective improvement:
Constraint status:
Regret and uncertainty:
Segment findings:
Human review findings:
Cost and capacity impact:
Risk acceptance:
Rollback plan:
Post-release monitoring:
Sign-off:

11. 30 天训练计划

Day主题产出
1读 Snoek 2012 practical BO,提炼 BO 与 grid / random search 的差异1 页概念卡
2梳理 GP surrogate 的 mean、uncertainty、kernel、noiseGP 产品解释图
3对比 EI / UCB / PI 的探索-利用逻辑Acquisition 选择表
4用一个小型 HPO 例子理解 trial、study、objectiveOptuna study 设计笔记
5设计一个 prompt tuning search spacePrompt search space contract
6设计 RAG top_k、chunk、reranker、model 的多目标指标RAG objective / constraint matrix
7周复盘: BO 如何改变 AI PM 的实验语言面试 2 分钟回答
8学习 constrained BO,区分 hard constraint 与 learned constraintSafe candidate gate
9设计客服 RAG 的 human review rubricReview rubric
10学习 multi-objective optimization 和 Pareto frontierPareto frontier 案例表
11用定价 / offer 场景设计多目标 BOPricing experiment card
12建立 experiment budget 模型Budget burn dashboard sketch
13学习 Optuna sampler / pruner,理解 early stoppingHPO governance checklist
14周复盘: 写一份 BO experiment protocolProtocol memo
15学习 BoTorch 架构和 acquisition primitivesBoTorch capability map
16设计 batch / parallel BO 的执行策略Batch trial policy
17把 capacity / cost optimization 纳入 objective / constraintCost-aware BO memo
18设计 safe experimentation 分层: offline、replay、shadow、pilot、canaryRelease path diagram
19设计 regret 指标: simple、cumulative、risk-adjustedRegret metric card
20周复盘: 给 executive 解释为什么不做全量网格搜索Executive memo
21用 NIST AI RMF 映射 BO governanceGovern / Map / Measure / Manage table
22设计 BO observation store schemaTrial record schema
23设计 human review 如何反馈到 constraint modelReview feedback loop
24写 prompt / model / RAG tuning 的 end-to-end 架构Architecture note
25写 pricing and offer parameter tuning 的风控版方案Offer tuning review memo
26写 AutoML / HPO 平台化方案HPO platform card
27准备 5 个高级面试回答Interview answer set
28复盘失败案例: 过度优化单一指标导致风险上升Failure mode memo
29组合成作品集案例: 金融零售 AI BO 实验平台Portfolio case
30完成模拟面试: 架构、产品、治理、风险四个视角Final narrative

12. 面试答案

12.1 什么是 Bayesian optimization,为什么适合 AI 产品调优?

30 秒回答:

Bayesian optimization 是一种面向昂贵黑盒函数的 sequential experiment design。它用 surrogate model 学习目标函数和不确定性,再用 acquisition function 决定下一次最值得试验的参数组合。对 AI 产品而言,它适合 prompt、model、RAG、HPO、定价和容量配置,因为这些试验往往成本高、有噪声、多目标且有安全约束。

2 分钟回答:

Bayesian optimization 的关键不是“自动调参”,而是把每次实验当成信息资产。系统先用 champion、历史 trial、专家 seed 和少量初始设计建立 surrogate,例如 Gaussian Process surrogate。然后通过 EI、UCB、PI 或多目标 / 约束 acquisition 选择下一批 candidate。每次试验完成后,质量、成本、延迟、风险、人工复核结果都会写入 observation store,再更新 posterior。

在金融零售 AI 中,我不会只优化一个 accuracy 或 conversion 指标,而会把投诉率、误拒率、人工升级率、合规风险、token cost、p95 latency 和 capacity 一起建模。高风险 candidate 需要 safe experimentation,从 offline eval、replay、shadow、human-in-the-loop pilot 到 canary 分层推进。最终输出不是一个神秘最优参数,而是可审计的 champion、Pareto frontier、约束状态、regret 趋势和 release decision memo。

12.2 Gaussian Process surrogate 的产品价值是什么?

30 秒回答:

GP surrogate 的价值是同时给出预测均值和不确定性。均值告诉我们哪个配置看起来更好,不确定性告诉我们哪里还值得探索。对受监管 AI 产品来说,不确定性直接影响试验预算、风险暴露和 human review 策略。

高级补充:

如果一个 RAG 配置在普通样本上表现好,但在少数语种、投诉类问题、信用产品问题上样本很少,GP 的 uncertainty 可以提醒团队不要过早全量上线。我们可以对高不确定且高风险区域增加人工复核,或用 constrained acquisition 限制线上暴露。这样 BO 不只是追求高分,而是在风险可控下学习。

12.3 EI、UCB、PI 怎么选?

30 秒回答:

EI 关注期望改进,适合持续提升 champion;UCB 显式奖励不确定性,适合探索新模型或新策略;PI 关注超过当前 best 的概率,适合目标明确、风险较低的局部优化。金融零售线上实验通常还要叠加 constrained acquisition 和 safe gate。

场景化回答:

prompt / RAG 离线调优可以从 EI 开始;新模型族探索可以提高 UCB 的探索权重;预算接近耗尽时可以偏向 exploitation;线上客户暴露场景要使用 constrained EI 或 expected feasible improvement,并且通过 human review 和 traffic cap 控制风险。

12.4 如何把 BO 用在 prompt / model / RAG tuning?

回答:

我会先把 search space 产品化: model family、temperature、max tokens、system prompt、few-shot set、retrieval top_k、chunk size、reranker、query rewrite、citation policy、escalation threshold。然后定义多目标: correctness、groundedness、resolution rate、cost、latency、human escalation、complaint risk。硬约束包括 PII、受监管建议边界、引用来源、禁止工具调用。

执行上先做 offline eval 和 replay,用 BO 选择候选;高风险样本进入 human review;通过 shadow 比较延迟、引用和错误类型;再用 constrained online pilot 做小流量验证。最终按 segment 选择 champion,而不是强行全渠道一个配置。

12.5 如何用 BO 做 pricing and offer parameter tuning?

回答:

我会避免把目标定义成“最高转化率”。金融零售 offer 需要优化 risk-adjusted margin、incremental lift、retention、customer value,同时约束预算、毛利、营销同意、退订、投诉、公平性和监管边界。BO 可以用历史 campaign 和 uplift model 做初始观测,再通过 constrained multi-objective optimization 找 Pareto frontier。

关键治理点是 exposure cap 和 human review。对高风险客群、信用类 offer、可能影响公平性的 eligibility rule,需要更严格的 policy gate。最终决策不是“哪个折扣最大”,而是哪组参数在预算、风险和客户体验边界内给出最好的增量收益。

12.6 BoTorch 和 Optuna 怎么选?

回答:

Optuna 更适合快速 HPO 和工程化 trial 管理,它的 study / trial、define-by-run search space、sampler、pruner 对多数 AutoML / HPO 场景非常实用。BoTorch 更适合需要深度定制 surrogate、acquisition、多目标、约束和 batch BO 的 AI 平台团队。如果只是让业务团队低摩擦做 adaptive experimentation,可以考虑在上层平台封装 Ax / Optuna,在底层高级场景使用 BoTorch。

我的架构建议是分层: 业务用户看到 experiment card、budget、constraints、decision cockpit;平台层负责任务调度、observation store、lineage、review;算法层可以按场景切换 Optuna、BoTorch 或自定义 surrogate。

12.7 什么是 safe experimentation?

回答:

Safe experimentation 是在不确定性仍然存在时控制客户、员工、成本和合规风险的实验体系。对 BO 来说,它包括 constrained BO、safe candidate filtering、offline / replay / shadow / pilot / canary 分层、traffic cap、human review、kill switch、rollback 和 evidence binder。

我会把安全设计放在 acquisition 前后两层: 前面通过 search space 和 policy 排除禁止组合,后面通过 constraint surrogate 和 risk gate 决定候选是否可运行。上线前还要有人工复核和 release review,确保优化系统没有把单一业务指标推到风险边界之外。


13. 作品集 Capstone: 金融零售 BO 实验平台

一个可展示的高级作品集可以这样组织:

资产内容
Capability MapBO experiment registry、search space registry、surrogate service、acquisition optimizer、safety gate、human review workbench、decision cockpit
Reference Architectureprompt / model / RAG / offer / HPO / capacity tuning 的统一闭环
Experiment Card选择一个客服 RAG 或 offer tuning 场景,写完整 objective、constraints、budget、stop rule
Governance PackNIST AI RMF 映射、human review rubric、release gate、evidence binder
Decision Memo给出 Pareto frontier、regret、constraint status、candidate selection 和 rollout plan
Interview Narrative用“更少试验、更低风险、更强证据、更好决策”讲清产品架构价值

最终表达:

I do not treat AI tuning as ad hoc parameter tweaking.
I design it as a governed sequential learning system with budget, constraints, evidence, human review, and release accountability.