AI Bayesian Optimization / Experiment Design Playbook
这些来源用于校准 Bayesian optimization、surrogate modeling、acquisition functions、multi-objective / constrained BO、AutoML / HPO 工具链和 AI 风险治理语言。正式项目必须按访问日期复核工具版本、实验策略、监管要求和机构内部政策。
AI Bayesian Optimization & Experiment Design Playbook
适用对象: AI Product Architect、AI Platform PM、Experimentation Lead、Decision Science Lead、Retail Banking / Retail Operations AI 转型负责人、Model Risk / Governance Partner。 核心问题: 当每次试验都昂贵、缓慢、有风险或需要人工审核时,如何用 Bayesian optimization 和 sequential experiment design 在有限 experiment budget 内更快找到高价值、低风险、可治理的 AI / 产品 / 架构参数组合。 一句话定位: 这是一份把 Bayesian optimization、Gaussian Process surrogate、acquisition functions、多目标与约束优化、AI tuning、金融零售实验治理和产品平台架构连接起来的高级 playbook。 覆盖主题: Bayesian optimization、Gaussian Process surrogate、acquisition functions(EI/UCB/PI)、multi-objective optimization、constrained BO、sequential experiment design、prompt/model/RAG tuning、pricing and offer parameter tuning、capacity/cost optimization、AutoML/HPO、BoTorch、Optuna、experiment budget、regret、safe experimentation、human review。 边界说明: 本文不是统计学入门、AutoML 教程、供应商选型报告、法律意见或模型验证报告;正式落地必须结合业务 owner、risk、legal、compliance、privacy、security、data、architecture review、operations owner 和 model risk governance。
Source Anchors
这些来源用于校准 Bayesian optimization、surrogate modeling、acquisition functions、multi-objective / constrained BO、AutoML / HPO 工具链和 AI 风险治理语言。正式项目必须按访问日期复核工具版本、实验策略、监管要求和机构内部政策。
| Anchor | Official / primary source | 本文用法 |
|---|---|---|
| Snoek, Larochelle, Adams: Practical Bayesian Optimization of Machine Learning Algorithms | https://arxiv.org/abs/1206.2944 | 用作 Snoek 2012 practical BO、Gaussian Process surrogate、自动超参数调优、实验成本感知和并行实验设计的经典锚点。 |
| BoTorch Introduction | https://botorch.org/docs/introduction | 用作 BoTorch、Bayesian optimization primitives、probabilistic models、acquisition functions、PyTorch / GPyTorch 生产研究框架的术语锚点。 |
| BoTorch Multi-Objective BO Tutorial | https://botorch.org/docs/tutorials/multi_objective_bo/ | 用作 multi-objective optimization、Pareto frontier、qEHVI / qNEHVI / qParEGO 和 batch BO 的工程表达参考。 |
| BoTorch Constrained Multi-Objective BO Tutorial | https://botorch.org/docs/tutorials/constrained_multi_objective_bo/ | 用作 constrained BO、约束建模、可行区域、约束感知 acquisition 和风险门禁表达。 |
| Optuna Documentation | https://optuna.readthedocs.io/en/stable/ | 用作 Optuna study / trial、define-by-run search space、sampler、pruner、AutoML / HPO 平台化执行的术语锚点。 |
| Optuna Efficient Optimization Algorithms | https://optuna.readthedocs.io/en/stable/tutorial/10_key_features/003_efficient_optimization_algorithms.html | 用作 TPE、Gaussian process-based sampler、pruning、early stopping、实验预算节约和 trial governance 的工程参考。 |
| Optuna Multi-Objective Optimization | https://optuna.readthedocs.io/en/stable/tutorial/20_recipes/002_multi_objective.html | 用作多目标方向、Pareto front、约束多目标采样和可视化解释参考。 |
| NIST AI RMF | https://www.nist.gov/itl/ai-risk-management-framework | 用 Govern / Map / Measure / Manage 组织 AI optimization experiment 的风险识别、度量、人工复核、证据和治理。 |
1. 一句话定位
Bayesian optimization 是面向昂贵黑盒目标函数的 sequential experiment design 方法:
Use existing evidence
-> learn a probabilistic surrogate
-> choose the next most informative / valuable experiment
-> observe outcome under budget and risk constraints
-> update belief
-> repeat until decision quality is sufficient
中文表达:
不是把参数网格扫完,而是在每一次试验之后更新对目标函数的信念,用 acquisition function 决定下一次最值得尝试的点。
高级 AI 产品语境里,目标函数往往不是单一模型分数,而是:
- prompt / model / RAG 配置在质量、成本、延迟、合规风险和人工接管率之间的 tradeoff。
- 定价、优惠券、信用额度、营销触达频率在利润、转化、留存、投诉和公平性之间的 tradeoff。
- capacity / cost optimization 中模型规模、缓存、并发、降级策略、SLA 和云成本之间的 tradeoff。
- AutoML / HPO 中模型结构、训练参数、特征选择和推理成本之间的 tradeoff。
Bayesian optimization 的产品价值不在“数学更高级”,而在:
在 experiment budget 有限、每次线上暴露有客户风险、每次人工评审都昂贵的场景下,用更少试验获得更可信的改进方向。
2. 为什么重要
金融零售 AI 系统常见的调参方式有三类低成熟形态:
| 低成熟形态 | 表面做法 | 真实问题 |
|---|---|---|
| Expert guessing | 由资深专家凭经验改 prompt、阈值、模型或优惠力度 | 难以复现,无法证明没有遗漏更优组合 |
| Grid / random search | 大量组合离线或小流量试验 | 浪费预算,高风险组合也可能被试验 |
| Single-metric optimization | 只追求 accuracy、conversion、AUC 或 CTR | 成本、延迟、公平性、投诉、人工负荷、合规风险被挤到系统外 |
Bayesian optimization 更适合以下特征:
| 条件 | 金融零售 AI 例子 | 为什么 BO 更合适 |
|---|---|---|
| 评估昂贵 | 一个 RAG 配置要跑人工质检、红队集、线上 pilot | 需要用少量 trial 获得最大信息量 |
| 目标黑盒 | prompt、reranker、model、tool policy 组合后的业务结果 | 难以写解析梯度,只能通过观察结果学习 |
| 结果有噪声 | 线上转化、客服满意度、投诉率、欺诈损失有随机波动 | surrogate 可以显式建模不确定性 |
| 参数混合 | 连续阈值、离散模型、分类策略、条件搜索空间共存 | Optuna / Ax / BoTorch 可封装复杂 search space |
| 风险有边界 | 不允许投诉率、误拒率、延迟、成本超过上限 | constrained BO 把安全约束纳入选择逻辑 |
| 多目标共存 | 质量更高但成本更高,转化更高但投诉也可能上升 | multi-objective optimization 输出 Pareto frontier 而非假装只有一个答案 |
成熟表达:
Bayesian optimization turns tuning into a governed learning system:
belief, budget, constraint, evidence, review, and decision.
3. Bayesian Optimization 架构
3.1 参考架构
flowchart TB
A[Business / AI tuning question] --> B[Experiment protocol<br/>objective, constraints, budget, review rule]
B --> C[Search space registry<br/>prompt, model, RAG, pricing, capacity, HPO params]
C --> D[Initial design<br/>Sobol, Latin hypercube, expert seed, champion baseline]
D --> E[Evaluation runner<br/>offline eval, replay, shadow, online pilot, human review]
E --> F[Observation store<br/>X, outcomes, constraints, cost, lineage, reviewer evidence]
F --> G[Surrogate model<br/>Gaussian Process, TPE, RF, ensemble, multi-output model]
G --> H[Acquisition function<br/>EI, UCB, PI, NEHVI, constrained acquisition]
H --> I[Candidate generator<br/>single, batch, parallel, safe candidate set]
I --> J[Risk and policy gate<br/>eligibility, guardrail, privacy, compliance]
J --> E
F --> K[Decision cockpit<br/>regret, Pareto frontier, budget burn, safe stop, scale recommendation]
K --> L[Human review<br/>approve, cap exposure, rollback, select champion]
3.2 平台组件
| 组件 | 责任 | 高级产品问题 | 关键证据 |
|---|---|---|---|
| Experiment Registry | 记录 experiment id、hypothesis、owner、risk tier、budget、objective、constraints | 这个优化实验要回答什么决策,试验边界在哪里 | Experiment card、approval trail、risk tier |
| Search Space Registry | 管变量、范围、类型、条件依赖、禁止组合 | 哪些参数能调,哪些组合不允许出现 | Search space contract、policy rule |
| Evaluation Runner | 调度离线 eval、replay、shadow、online pilot、人工复核 | 每个 candidate 如何被一致评估 | Eval run log、dataset version、review sample |
| Observation Store | 保存每次 trial 的输入、输出、成本、失败、约束、版本 | 后续 surrogate 是否能重建真实证据 | Immutable trial record、lineage |
| Surrogate Service | 用 GP / TPE / RF / ensemble 学习目标函数和不确定性 | 当前系统对未知区域的信心如何 | Posterior, uncertainty, calibration |
| Acquisition Optimizer | 根据 EI / UCB / PI / NEHVI / constrained rule 生成下一批候选 | 下一次试验为何值得花预算 | Acquisition score、candidate rationale |
| Safety Gate | 检查硬约束、软约束、风险阈值、暴露上限 | 这个 candidate 能否进入真实客户或员工流程 | Guardrail result、exception record |
| Human Review Workbench | 支持 risk、compliance、operations、domain expert 复核 | 哪些 trial 必须人工看,复核结论如何反馈 | Reviewer notes、override reason |
| Decision Cockpit | 展示 Pareto frontier、regret、budget burn、winning region、风险走势 | 何时停止、扩展、回滚或继续探索 | Decision memo、champion selection |
| Governance Binder | 汇总协议、数据、模型、参数、结果、审批、异常 | 审计和模型风险团队能否复盘当时判断 | Evidence package、sign-off |
3.3 数据契约
每个 trial 至少包含:
| 字段 | 说明 |
|---|---|
experiment_id | 优化实验唯一标识 |
trial_id | 单次候选配置标识 |
x_config | 参数组合,例如 prompt 版本、top_k、temperature、模型、价格折扣、阈值 |
objective_values | 一个或多个业务目标,例如质量、转化、成本、延迟、利润、风险损失 |
constraint_values | guardrail 指标,例如投诉率、误拒率、PII 暴露、人工升级率、SLA 违约 |
evaluation_context | 离线集、时间窗、segment、channel、traffic split、review protocol |
cost | token、GPU、人工质检、客户暴露、机会成本、日历时间 |
lineage | model、prompt、retrieval index、feature、policy、code、data version |
review_status | auto-pass、human-reviewed、capped、rejected、rolled-back |
decision | continue、expand、freeze、select champion、retire candidate |
4. Surrogate / Acquisition 核心机制
4.1 Surrogate: 为什么常用 Gaussian Process surrogate
Bayesian optimization 的 surrogate 是对未知目标函数 f(x) 的概率替代模型。Gaussian Process surrogate 的核心价值是同时给出:
predicted mean: 这个点看起来有多好
predictive uncertainty: 这个点我们有多不确定
对高级 AI 产品架构而言,uncertainty 不是装饰字段,而是决策资产:
| 不确定性来源 | 金融零售 AI 例子 | 架构处理 |
|---|---|---|
| 观测噪声 | 客服评分、线上转化、欺诈损失波动 | 噪声模型、重复评估、置信区间、分层分析 |
| 数据稀疏 | 高净值客户、少数语种、特殊渠道样本少 | 分 segment surrogate、层级模型、人工复核加权 |
| 搜索空间未知 | 新模型、新 prompt 模式、新 retrieval policy | 提高探索权重,设置安全暴露上限 |
| 时间漂移 | 节假日、利率变化、政策变化、活动期 | 时间窗特征、滚动重训、漂移监控 |
| 约束不稳定 | 合规命中、投诉、人工升级随渠道变化 | 独立 constraint surrogate、risk-adjusted acquisition |
GP 适合低到中等维度、连续或可编码参数、评估成本高的场景。高维、强条件、离散组合很多时,可以采用 TPE、random forest、ensemble surrogate,或把 search space 分层拆解。
4.2 Acquisition Functions: EI / UCB / PI
Acquisition function 把 surrogate 的均值和不确定性转成“下一次试验该选哪里”的策略。
| Acquisition | 直觉 | 适合场景 | 风险 |
|---|---|---|---|
| Expected Improvement, EI | 选择期望改进最大的点,兼顾好点和不确定区域 | 默认强基线,目标是以较少 trial 持续改进 champion | 噪声高时可能高估局部改进 |
| Upper Confidence Bound, UCB | mean + beta * uncertainty,用 beta 控制探索程度 | 新领域、新模型、新渠道,需要主动探索未知区域 | 探索权重过高会浪费预算或触发风险 |
| Probability of Improvement, PI | 选择超过当前 best 的概率最高的点 | 目标明确、只想提升过线概率 | 容易偏向短期小幅改进,探索不足 |
产品翻译:
EI asks: where is the expected business upside largest?
UCB asks: where might we be underestimating a valuable region?
PI asks: where are we most likely to beat the current champion?
4.3 Acquisition 选择手册
| 决策场景 | 推荐 acquisition 策略 | 设计理由 |
|---|---|---|
| Prompt / RAG 离线质量调优 | EI 或 batch EI | 每次 eval 成本可控,目标是快速提升质量 |
| 新模型族探索 | UCB 或 entropy-aware exploration | 不确定性高,不能过早锁定单一模型 |
| 线上安全 pilot | Constrained EI / expected feasible improvement | 必须同时满足投诉、延迟、成本、人工升级等约束 |
| 多目标成本质量权衡 | qNEHVI / qEHVI / qParEGO | 输出 Pareto frontier,避免把成本和质量硬凑成一个分数 |
| 大规模 HPO | Optuna TPE / GPSampler + pruner | 需要处理条件搜索空间、并行 trial 和 early stopping |
| 预算接近耗尽 | EI with exploitation bias 或 champion refinement | 剩余预算优先验证最可能上线的区域 |
4.4 Regret: 高级 PM 必须会讲的指标
Regret 衡量优化策略因为没有选择最优点而损失的价值。
| 概念 | 产品解释 | 适用视角 |
|---|---|---|
| Simple regret | 当前 best candidate 与真实最优之间的差距 | 选最终方案时关注 |
| Cumulative regret | 优化过程中所有非最优 trial 造成的累计损失 | 线上试验或客户暴露场景关注 |
| Risk-adjusted regret | 把投诉、误拒、延迟、人工负荷、合规风险纳入损失 | 金融零售 AI 默认视角 |
| Opportunity-cost regret | 慢优化导致错过活动窗口、容量窗口或市场机会 | 定价、营销、节假日运营关注 |
一句话:
在金融零售,最小化 regret 不只是更快找到高分配置,还要减少客户暴露、人工审核、云成本和合规风险上的学习成本。
5. Sequential Experiment Design
5.1 闭环流程
1. Define decision
2. Define objective and constraints
3. Define search space
4. Allocate experiment budget
5. Run initial design
6. Fit surrogate
7. Optimize acquisition
8. Gate candidate through safety policy
9. Evaluate candidate
10. Update posterior and evidence
11. Decide continue / stop / scale / rollback
这套 sequential experiment design 与传统 A/B test 的差异:
| 维度 | 固定 A/B test | Bayesian optimization |
|---|---|---|
| 问题 | A 是否优于 B | 在参数空间中哪里最优或最接近可上线 Pareto 区域 |
| 实验节奏 | 先定样本量,结束后分析 | 每轮试验后更新信念并选择下一轮 |
| 预算 | 主要是样本量 | trial 数、客户暴露、token、GPU、人工复核、日历时间 |
| 风险 | 通过 guardrail 和 ramp 控制 | 通过 constrained acquisition、safe candidate set 和 human review 控制 |
| 输出 | Winner / no winner | Champion、Pareto frontier、可行区域、风险边界、学习曲线 |
5.2 Initial Design
初始设计决定 surrogate 是否有可学习的基础。
| 方法 | 适用场景 | 说明 |
|---|---|---|
| Champion baseline | 必须包含现有生产配置 | 后续 regret、improvement、risk comparison 都以 champion 为锚点 |
| Expert seeds | 领域专家给出 3 到 5 个可信候选 | 利用经验减少冷启动浪费 |
| Sobol / Latin hypercube | 连续参数空间较大 | 比简单网格更均匀覆盖 |
| Safe boundary points | 在安全范围边缘放少量点 | 学习约束边界,但要限制暴露 |
| Historical trials | 复用过去 prompt / model / pricing / campaign 结果 | 必须校验 metric lineage 和环境差异 |
5.3 Experiment Budget
Experiment budget 不只是 trial 数:
| 预算类型 | 例子 | 管控方式 |
|---|---|---|
| Trial budget | 最多 40 个候选配置 | 分阶段释放,10 个 trial 一次 review |
| Customer exposure budget | 最多影响 2% 客户或 10,000 次会话 | traffic cap、segment cap、kill switch |
| Cost budget | token、GPU、云推理、人工质检 | cost per candidate、budget burn dashboard |
| Time budget | 活动前 14 天完成选择 | sequential batch、parallel candidate、early stop |
| Human review budget | 质检员每天只能复核 200 个样本 | active sampling、risk-based review allocation |
| Risk budget | 投诉、误拒、错误建议不能超过阈值 | constrained BO、hard guardrail、rollback rule |
高级规则:
Budget is a product constraint, not an after-the-fact reporting field.
5.4 Stop / Continue / Scale 规则
| 信号 | 决策 |
|---|---|
| Posterior best 稳定,credible improvement 足够,guardrail 合格 | 进入 release review |
| Pareto frontier 仍在快速扩展,且预算充足 | 继续探索 |
| 新 trial 的 expected improvement 接近零 | 停止或转向局部验证 |
| Constraint violation probability 升高 | 降低探索权重、收紧候选范围或冻结线上暴露 |
| 关键 segment 风险恶化 | 切片回滚,保留低风险 segment 继续 |
| Human review 发现不可接受 failure mode | 立即停止该候选族并记录 failure class |
6. Multi-Objective Optimization
金融零售 AI 很少只有一个目标。更常见的是:
maximize business value
maximize customer outcome
maximize model quality
minimize cost
minimize latency
minimize compliance / conduct risk
minimize operational burden
6.1 Pareto Frontier 语言
Pareto frontier 的产品意义:
一个方案如果在不牺牲另一个目标的情况下无法继续改进某个目标,它就是 Pareto-efficient candidate。
示例:
| Candidate | Answer quality | Cost | Latency | Complaint risk | 解释 |
|---|---|---|---|---|---|
| A | 高 | 高 | 中 | 低 | 适合高价值复杂咨询 |
| B | 中高 | 低 | 低 | 低 | 适合大规模标准客服 |
| C | 最高 | 最高 | 高 | 中 | 可能只适合人工辅助,不适合全自动 |
| D | 中 | 最低 | 最低 | 中 | 可作为降级方案 |
成熟团队不会说“C 分数最高所以全量上线”,而是选择:
high-value segment: A
mass channel: B
fallback mode: D
human-assisted premium workflow: C with review
6.2 多目标建模方式
| 方法 | 适用场景 | 注意点 |
|---|---|---|
| Weighted score | 目标少、权重稳定、治理已确认 | 权重必须可审计,不能用权重掩盖风险 |
| Lexicographic priority | 安全和合规优先级绝对高于收益 | 先满足硬门槛,再优化业务收益 |
| Pareto frontier | 需要展示多种可行 tradeoff | 适合 executive review 和 portfolio 决策 |
| Hypervolume improvement | 需要度量 Pareto frontier 扩展 | BoTorch qEHVI / qNEHVI 常见 |
| Constraint transformation | 把部分目标改成约束 | 例如 latency < 800ms、complaint risk 不高于 champion |
6.3 金融零售多目标案例
| 场景 | Objectives | Constraints |
|---|---|---|
| RAG 客服答案优化 | 提升 answer correctness、resolution rate、CSAT | PII 泄漏为零容忍,引用来源必须可追溯,平均延迟低于 SLA |
| 信用额度策略 | 提升 activation、revenue、customer lifetime value | 坏账率、公平性、投诉率、监管阈值 |
| 优惠券参数 | 提升增量毛利、复购、篮子规模 | 预算、渠道频率、毛利下限、客户疲劳 |
| Fraud queue | 提升拦截价值、审核效率 | 误拒率、VIP 摩擦、人工队列容量 |
| LLM serving | 提升质量和可用性 | token cost、p95 latency、fallback rate、region capacity |
7. Constrained BO 与 Safe Experimentation
7.1 Constrained BO
Constrained BO 把“候选点是否安全可行”作为模型的一部分,而不是试验结束后的补救动作。
maximize objective f(x)
subject to constraints g1(x) <= threshold1, g2(x) <= threshold2, ...
在 AI 产品中:
| 约束类型 | 例子 | 处理方式 |
|---|---|---|
| 硬约束 | 禁止输出受监管建议、禁止泄漏 PII、禁止未经授权调用工具 | 候选生成前过滤,违反即拒绝 |
| 风险约束 | 投诉率、误拒率、人工升级率、模型幻觉率 | constraint surrogate + violation probability |
| 运营约束 | 人工审核容量、contact center 队列、GPU 容量 | capacity-aware acquisition |
| 成本约束 | token cost、云账单、review 成本 | cost-aware BO |
| 公平性约束 | 不同客群误差、通过率、推荐暴露差异 | segment-level constraint |
| 合规约束 | KYC、信用、营销同意、记录保留 | policy gate + evidence binder |
7.2 Safe Experimentation 分层
| 层级 | 客户暴露 | 适用场景 | 门禁 |
|---|---|---|---|
| Offline eval | 0 | prompt、RAG、model、ranking 初筛 | Golden set、red-team set、slice eval |
| Replay | 0 | 用历史请求重放新配置 | 数据许可、时间有效性、outcome mapping |
| Shadow | 0 | 新模型旁路运行但不影响业务 | 差异分析、延迟、错误类型 |
| Human-in-the-loop pilot | 低 | AI 给建议,人类确认后执行 | human review、override、sample audit |
| Canary | 低 | 低风险 segment 小流量 | hard guardrail、kill switch |
| Controlled rollout | 中 | 已通过 review 的 candidate | traffic ramp、sequential monitoring |
| Full scale | 高 | 证据充分且可运维 | release sign-off、post-launch monitoring |
7.3 Human Review
Human review 不是形式审批,而是 BO 系统的安全传感器。
| Review 类型 | 作用 | 进入优化闭环的方式 |
|---|---|---|
| Expert label review | 判断答案正确性、政策一致性、金融建议风险 | 作为 objective 或 constraint observation |
| Risk review | 判断客户伤害、conduct risk、fair lending、投诉风险 | 作为 hard stop 或 violation probability |
| Operations review | 判断人工队列、SLA、培训和执行复杂度 | 作为 capacity constraint |
| Compliance review | 判断营销同意、披露、记录留存、监管解释 | 作为 policy gate |
| Architecture review | 判断可用性、回滚、版本、观测性、成本 | 作为 release readiness constraint |
高级原则:
Human review should be sampled, risk-weighted, auditable, and fed back into the surrogate or constraint model.
8. 产品 / 平台决策场景
8.1 Prompt / Model / RAG Tuning
| 可调参数 | Objective | Constraints |
|---|---|---|
| system prompt、instruction style、few-shot examples | correctness、helpfulness、resolution rate | regulated advice boundary、toxicity、PII、citation |
| model choice、temperature、max tokens、tool policy | quality、cost、latency | p95 latency、cost per resolution、fallback |
| retrieval top_k、chunk size、reranker、query rewrite | groundedness、answer completeness | stale source、missing citation、retrieval cost |
| guardrail threshold、escalation threshold | safe automation rate | false escalation、missed escalation |
推荐设计:
Offline BO for prompt / RAG candidates
-> human review for high-risk samples
-> shadow comparison
-> constrained online pilot
-> segment-specific champion selection
8.2 Pricing and Offer Parameter Tuning
金融零售的 pricing and offer parameter tuning 不应被简化为“哪个折扣转化率最高”。
| 参数 | 目标 | 约束 |
|---|---|---|
| 折扣金额、返现比例、积分倍率 | 增量毛利、转化、复购 | 预算、毛利下限、客户公平性 |
| 触达频率、渠道、时机 | uplift、留存、客户体验 | marketing consent、fatigue、退订率 |
| 信用额度、费率、还款提醒策略 | activation、risk-adjusted revenue | 信用风险、公平性、监管边界 |
| 分群阈值、eligibility rule | ROI、客户价值 | protected class proxy risk、投诉、模型解释 |
BO 的用法:
- 用历史 campaign 和 offline uplift model 作为初始观测。
- 用 constrained BO 排除不满足毛利、预算、公平性和合规约束的 offer。
- 用 multi-objective optimization 同时看 conversion、margin、retention、complaint、unsubscribe。
- 对高风险 segment 使用 human review 和更小 exposure cap。
8.3 Capacity / Cost Optimization
| 场景 | 参数 | Objectives | Constraints |
|---|---|---|---|
| LLM serving | model size、batching、cache TTL、fallback model | quality、availability、cost | p95 latency、SLO、data residency |
| Contact center Copilot | automation threshold、escalation rule、summarization length | AHT reduction、quality | queue capacity、agent trust、compliance |
| Fraud review | score threshold、review allocation、case batching | loss prevented、review productivity | false decline、VIP friction、reviewer capacity |
| RAG infra | embedding model、index refresh、reranker depth | answer quality、freshness | infra cost、latency、source authority |
核心架构动作:
Cost and capacity are first-class objective / constraint values in the BO observation store.
8.4 AutoML / HPO
AutoML / HPO 是 Bayesian optimization 的经典落地场景,但企业级落地要超出 notebook:
| 层级 | 设计要点 |
|---|---|
| Study design | objective、direction、search space、trial budget、pruner、seed、data split |
| Trial execution | reproducible container、feature version、model version、resource quota |
| Early stopping | Optuna pruner、learning curve、intermediate metrics |
| Governance | model card、lineage、fairness slice、approval status |
| Promotion | challenger to champion、offline to shadow、shadow to online |
工具取舍:
| 工具 | 更适合 | 产品架构提醒 |
|---|---|---|
| Optuna | 快速 HPO、复杂 define-by-run search space、sampler / pruner、轻量平台 | 很适合工程团队快速建立 study / trial 纪律 |
| BoTorch | 研究型 BO、多目标、约束、batch、custom surrogate / acquisition | 适合需要深度定制算法和不确定性建模的 AI 平台团队 |
| Ax + BoTorch | 产品化 adaptive experimentation、元数据管理、较高层接口 | 适合把 BO 能力交给更多业务实验团队 |
9. 治理与 Operating Model
9.1 NIST AI RMF 映射
| NIST AI RMF 功能 | BO 实验治理动作 |
|---|---|
| Govern | 定义 owner、risk tier、approval path、human review、model risk evidence、exception authority |
| Map | 描述 use case、客户影响、业务流程、受影响 segment、harm scenario、参数边界 |
| Measure | 度量 objective、constraint、regret、uncertainty、guardrail、drift、review quality |
| Manage | 采取 candidate rejection、traffic cap、rollback、champion selection、policy update、monitoring |
9.2 决策权责
| 角色 | 责任 |
|---|---|
| AI Product Architect | 定义问题边界、架构能力、平台契约和 release decision path |
| Experiment Owner | 维护 experiment card、budget、objective、candidate review |
| Data Scientist / ML Engineer | 选择 surrogate、acquisition、sampler、pruner、uncertainty calibration |
| Risk / Compliance | 定义硬约束、review rule、禁止组合、证据要求 |
| Operations Owner | 定义人工容量、SLA、fallback、培训和执行可行性 |
| Architecture Review | 检查 lineage、observability、rollout、rollback、security、cost |
| Human Reviewer | 提供高风险样本评审和 failure taxonomy |
9.3 Release Gate
| Gate | 通过条件 |
|---|---|
| Protocol Gate | objective、constraints、budget、search space、review rule 已确认 |
| Data Gate | evaluation data、lineage、privacy、sampling 和 metric contract 已确认 |
| Safety Gate | hard constraints、guardrails、policy rules、rollback route 可运行 |
| Learning Gate | surrogate calibration、trial quality、regret trend、Pareto frontier 可解释 |
| Human Review Gate | 高风险样本评审完成,重大 failure class 已处置 |
| Scale Gate | candidate 对目标有可信增益,约束合格,operations 可承接 |
10. 模板
10.1 BO Experiment Card
| 字段 | 内容 |
|---|---|
| Decision | 要决定的上线、扩流、参数选择或资源分配问题 |
| Champion | 当前生产或人工流程基线 |
| Search Space | 参数、类型、范围、条件依赖、禁止组合 |
| Objectives | 主目标和多目标方向,例如 maximize quality、minimize cost |
| Constraints | 硬约束、风险约束、容量约束、合规约束 |
| Experiment Budget | trial、客户暴露、人工复核、成本、时间、风险预算 |
| Initial Design | champion、expert seeds、Sobol / Latin hypercube、历史观测 |
| Surrogate | GP、TPE、RF、ensemble、多输出模型选择理由 |
| Acquisition | EI、UCB、PI、qNEHVI、constrained EI、cost-aware policy |
| Human Review | 样本策略、review rubric、升级规则、证据留存 |
| Stop Rule | 停止、继续、扩流、回滚、选择 champion 的条件 |
| Evidence | 数据版本、模型版本、prompt / policy 版本、trial record、decision memo |
10.2 Search Space Contract
| Parameter | Type | Range / Options | Condition | Risk note |
|---|---|---|---|---|
model_family | categorical | small, medium, frontier | none | frontier 模型需要更高成本门禁 |
temperature | continuous | 0.0 to 0.7 | only generative answer | 高值需更多 hallucination review |
retrieval_top_k | integer | 3 to 20 | RAG enabled | 高值增加延迟和 token cost |
reranker_enabled | boolean | true / false | RAG enabled | 影响成本和 groundedness |
escalation_threshold | continuous | 0.3 to 0.9 | customer-facing flow | 过高可能漏升人工 |
offer_discount_pct | continuous | 0 to 20 | marketing use case | 受预算和毛利约束 |
10.3 Acquisition Policy Memo
Experiment:
Champion:
Current best feasible candidate:
Remaining budget:
Observed regret trend:
Primary acquisition:
Exploration setting:
Constraint handling:
Batch size:
Human review trigger:
Traffic cap:
Reason this next batch is worth running:
Reason this next batch is safe enough to run:
10.4 Human Review Rubric
| Dimension | Review question | Outcome encoding |
|---|---|---|
| Factuality | 答案是否与权威来源一致 | pass / minor issue / fail |
| Policy compliance | 是否越过监管、营销、信用、投资或隐私边界 | pass / escalate / reject |
| Customer harm | 是否可能误导、歧视、造成财务伤害或服务摩擦 | low / medium / high |
| Operational usability | 员工能否理解、执行、覆盖例外 | usable / needs escalation / unusable |
| Evidence quality | 是否引用来源、记录版本、可复盘 | sufficient / weak / missing |
10.5 Decision Memo
Decision:
Selected candidate:
Rejected candidates:
Evidence summary:
Objective improvement:
Constraint status:
Regret and uncertainty:
Segment findings:
Human review findings:
Cost and capacity impact:
Risk acceptance:
Rollback plan:
Post-release monitoring:
Sign-off:
11. 30 天训练计划
| Day | 主题 | 产出 |
|---|---|---|
| 1 | 读 Snoek 2012 practical BO,提炼 BO 与 grid / random search 的差异 | 1 页概念卡 |
| 2 | 梳理 GP surrogate 的 mean、uncertainty、kernel、noise | GP 产品解释图 |
| 3 | 对比 EI / UCB / PI 的探索-利用逻辑 | Acquisition 选择表 |
| 4 | 用一个小型 HPO 例子理解 trial、study、objective | Optuna study 设计笔记 |
| 5 | 设计一个 prompt tuning search space | Prompt search space contract |
| 6 | 设计 RAG top_k、chunk、reranker、model 的多目标指标 | RAG objective / constraint matrix |
| 7 | 周复盘: BO 如何改变 AI PM 的实验语言 | 面试 2 分钟回答 |
| 8 | 学习 constrained BO,区分 hard constraint 与 learned constraint | Safe candidate gate |
| 9 | 设计客服 RAG 的 human review rubric | Review rubric |
| 10 | 学习 multi-objective optimization 和 Pareto frontier | Pareto frontier 案例表 |
| 11 | 用定价 / offer 场景设计多目标 BO | Pricing experiment card |
| 12 | 建立 experiment budget 模型 | Budget burn dashboard sketch |
| 13 | 学习 Optuna sampler / pruner,理解 early stopping | HPO governance checklist |
| 14 | 周复盘: 写一份 BO experiment protocol | Protocol memo |
| 15 | 学习 BoTorch 架构和 acquisition primitives | BoTorch capability map |
| 16 | 设计 batch / parallel BO 的执行策略 | Batch trial policy |
| 17 | 把 capacity / cost optimization 纳入 objective / constraint | Cost-aware BO memo |
| 18 | 设计 safe experimentation 分层: offline、replay、shadow、pilot、canary | Release path diagram |
| 19 | 设计 regret 指标: simple、cumulative、risk-adjusted | Regret metric card |
| 20 | 周复盘: 给 executive 解释为什么不做全量网格搜索 | Executive memo |
| 21 | 用 NIST AI RMF 映射 BO governance | Govern / Map / Measure / Manage table |
| 22 | 设计 BO observation store schema | Trial record schema |
| 23 | 设计 human review 如何反馈到 constraint model | Review feedback loop |
| 24 | 写 prompt / model / RAG tuning 的 end-to-end 架构 | Architecture note |
| 25 | 写 pricing and offer parameter tuning 的风控版方案 | Offer tuning review memo |
| 26 | 写 AutoML / HPO 平台化方案 | HPO platform card |
| 27 | 准备 5 个高级面试回答 | Interview answer set |
| 28 | 复盘失败案例: 过度优化单一指标导致风险上升 | Failure mode memo |
| 29 | 组合成作品集案例: 金融零售 AI BO 实验平台 | Portfolio case |
| 30 | 完成模拟面试: 架构、产品、治理、风险四个视角 | Final narrative |
12. 面试答案
12.1 什么是 Bayesian optimization,为什么适合 AI 产品调优?
30 秒回答:
Bayesian optimization 是一种面向昂贵黑盒函数的 sequential experiment design。它用 surrogate model 学习目标函数和不确定性,再用 acquisition function 决定下一次最值得试验的参数组合。对 AI 产品而言,它适合 prompt、model、RAG、HPO、定价和容量配置,因为这些试验往往成本高、有噪声、多目标且有安全约束。
2 分钟回答:
Bayesian optimization 的关键不是“自动调参”,而是把每次实验当成信息资产。系统先用 champion、历史 trial、专家 seed 和少量初始设计建立 surrogate,例如 Gaussian Process surrogate。然后通过 EI、UCB、PI 或多目标 / 约束 acquisition 选择下一批 candidate。每次试验完成后,质量、成本、延迟、风险、人工复核结果都会写入 observation store,再更新 posterior。
在金融零售 AI 中,我不会只优化一个 accuracy 或 conversion 指标,而会把投诉率、误拒率、人工升级率、合规风险、token cost、p95 latency 和 capacity 一起建模。高风险 candidate 需要 safe experimentation,从 offline eval、replay、shadow、human-in-the-loop pilot 到 canary 分层推进。最终输出不是一个神秘最优参数,而是可审计的 champion、Pareto frontier、约束状态、regret 趋势和 release decision memo。
12.2 Gaussian Process surrogate 的产品价值是什么?
30 秒回答:
GP surrogate 的价值是同时给出预测均值和不确定性。均值告诉我们哪个配置看起来更好,不确定性告诉我们哪里还值得探索。对受监管 AI 产品来说,不确定性直接影响试验预算、风险暴露和 human review 策略。
高级补充:
如果一个 RAG 配置在普通样本上表现好,但在少数语种、投诉类问题、信用产品问题上样本很少,GP 的 uncertainty 可以提醒团队不要过早全量上线。我们可以对高不确定且高风险区域增加人工复核,或用 constrained acquisition 限制线上暴露。这样 BO 不只是追求高分,而是在风险可控下学习。
12.3 EI、UCB、PI 怎么选?
30 秒回答:
EI 关注期望改进,适合持续提升 champion;UCB 显式奖励不确定性,适合探索新模型或新策略;PI 关注超过当前 best 的概率,适合目标明确、风险较低的局部优化。金融零售线上实验通常还要叠加 constrained acquisition 和 safe gate。
场景化回答:
prompt / RAG 离线调优可以从 EI 开始;新模型族探索可以提高 UCB 的探索权重;预算接近耗尽时可以偏向 exploitation;线上客户暴露场景要使用 constrained EI 或 expected feasible improvement,并且通过 human review 和 traffic cap 控制风险。
12.4 如何把 BO 用在 prompt / model / RAG tuning?
回答:
我会先把 search space 产品化: model family、temperature、max tokens、system prompt、few-shot set、retrieval top_k、chunk size、reranker、query rewrite、citation policy、escalation threshold。然后定义多目标: correctness、groundedness、resolution rate、cost、latency、human escalation、complaint risk。硬约束包括 PII、受监管建议边界、引用来源、禁止工具调用。
执行上先做 offline eval 和 replay,用 BO 选择候选;高风险样本进入 human review;通过 shadow 比较延迟、引用和错误类型;再用 constrained online pilot 做小流量验证。最终按 segment 选择 champion,而不是强行全渠道一个配置。
12.5 如何用 BO 做 pricing and offer parameter tuning?
回答:
我会避免把目标定义成“最高转化率”。金融零售 offer 需要优化 risk-adjusted margin、incremental lift、retention、customer value,同时约束预算、毛利、营销同意、退订、投诉、公平性和监管边界。BO 可以用历史 campaign 和 uplift model 做初始观测,再通过 constrained multi-objective optimization 找 Pareto frontier。
关键治理点是 exposure cap 和 human review。对高风险客群、信用类 offer、可能影响公平性的 eligibility rule,需要更严格的 policy gate。最终决策不是“哪个折扣最大”,而是哪组参数在预算、风险和客户体验边界内给出最好的增量收益。
12.6 BoTorch 和 Optuna 怎么选?
回答:
Optuna 更适合快速 HPO 和工程化 trial 管理,它的 study / trial、define-by-run search space、sampler、pruner 对多数 AutoML / HPO 场景非常实用。BoTorch 更适合需要深度定制 surrogate、acquisition、多目标、约束和 batch BO 的 AI 平台团队。如果只是让业务团队低摩擦做 adaptive experimentation,可以考虑在上层平台封装 Ax / Optuna,在底层高级场景使用 BoTorch。
我的架构建议是分层: 业务用户看到 experiment card、budget、constraints、decision cockpit;平台层负责任务调度、observation store、lineage、review;算法层可以按场景切换 Optuna、BoTorch 或自定义 surrogate。
12.7 什么是 safe experimentation?
回答:
Safe experimentation 是在不确定性仍然存在时控制客户、员工、成本和合规风险的实验体系。对 BO 来说,它包括 constrained BO、safe candidate filtering、offline / replay / shadow / pilot / canary 分层、traffic cap、human review、kill switch、rollback 和 evidence binder。
我会把安全设计放在 acquisition 前后两层: 前面通过 search space 和 policy 排除禁止组合,后面通过 constraint surrogate 和 risk gate 决定候选是否可运行。上线前还要有人工复核和 release review,确保优化系统没有把单一业务指标推到风险边界之外。
13. 作品集 Capstone: 金融零售 BO 实验平台
一个可展示的高级作品集可以这样组织:
| 资产 | 内容 |
|---|---|
| Capability Map | BO experiment registry、search space registry、surrogate service、acquisition optimizer、safety gate、human review workbench、decision cockpit |
| Reference Architecture | prompt / model / RAG / offer / HPO / capacity tuning 的统一闭环 |
| Experiment Card | 选择一个客服 RAG 或 offer tuning 场景,写完整 objective、constraints、budget、stop rule |
| Governance Pack | NIST AI RMF 映射、human review rubric、release gate、evidence binder |
| Decision Memo | 给出 Pareto frontier、regret、constraint status、candidate selection 和 rollout plan |
| Interview Narrative | 用“更少试验、更低风险、更强证据、更好决策”讲清产品架构价值 |
最终表达:
I do not treat AI tuning as ad hoc parameter tweaking.
I design it as a governed sequential learning system with budget, constraints, evidence, human review, and release accountability.