AI Forecasting / Demand Planning Product Architecture Playbook
以下资料用于校准术语、模型边界与治理框架。本文不是论文复述,而是面向金融零售、零售、电商、客服与容量规划的产品架构转译。
AI Forecasting、Demand Planning 与产品架构 Playbook
面向已具备 CBAP 级需求工程、金融零售业务理解与架构协作经验的读者。本 playbook 不讲 BA 入门方法,而是聚焦如何把 AI 预测能力设计成可审计、可运营、可落地的产品与架构资产。
Source Anchors
以下资料用于校准术语、模型边界与治理框架。本文不是论文复述,而是面向金融零售、零售、电商、客服与容量规划的产品架构转译。
| Anchor | 用途 |
|---|---|
| DeepAR: Probabilistic Forecasting with Autoregressive Recurrent Networks | 多序列概率预测、分布输出、相关时间序列共享学习的经典神经预测基线 |
| Temporal Fusion Transformers for Interpretable Multi-horizon Time Series Forecasting | 多步预测、静态/历史/未来已知协变量、变量重要性与可解释性设计 |
| TimesFM: A decoder-only foundation model for time-series forecasting | time-series foundation models、zero-shot/少样本预测、跨领域泛化能力边界 |
| Nixtla NeuralForecast | DeepAR、TFT、N-BEATS、NHITS 等神经预测模型的工程化训练、回测与批量预测工具链 |
| NIST AI Risk Management Framework 1.0 | forecast governance 的风险治理语言:Govern、Map、Measure、Manage |
| Forecasting: Principles and Practice | backtesting、hierarchical forecasting、prediction intervals 与业务预测的基础方法论参考 |
一句话定位
Forecasting 产品架构的核心不是“把未来数值预测得更准”,而是构建一个可治理的 forecast-to-decision loop:把不确定性、约束、成本、服务水平、人工覆盖与审计证据连接起来,让预测稳定转化为库存、资金、客服、人力、产能和风险动作。
为什么重要
金融零售与零售业务中的预测不是孤立分析任务。一次预测会触发资金调拨、库存补货、营销节奏、呼叫中心排班、云资源扩容、门店现金配送、欺诈监控阈值、授信额度管理和管理层预警。如果架构只交付点预测,业务会在真正决策时自行补齐风险偏好、置信边界和例外处理,结果通常是:模型看似准确,运营仍然失控。
高级 AI 产品与架构视角下,forecasting 的价值体现在五个层面:
- 决策前移:从月末复盘转向周内滚动、日内调度和事件前模拟。
- 不确定性显性化:用 probabilistic forecasting 和 prediction intervals 表达风险,而非只给一个 P50 数字。
- 层级一致性:通过 hierarchical forecasting 让 SKU、门店、区域、渠道、品类、国家级预测可加总、可解释、可问责。
- 运营可闭环:预测结果进入 demand planning、capacity forecasting、资金计划、客服排班和异常处置流程,而不是停留在 dashboard。
- 治理可审计:将数据版本、特征可用时间、backtesting、leakage 检查、人工覆盖与审批记录纳入 forecast governance。
Forecast-to-Decision 架构
Time-series forecasting product architecture 应从“业务动作”倒推,而不是从模型倒推。架构分为九层:
flowchart LR
A[Decision Context<br/>库存/资金/客服/容量/风险] --> B[Forecast Contract<br/>粒度/周期/范围/延迟/服务水平]
B --> C[Data Products<br/>交易/库存/事件/日历/价格/排班/宏观]
C --> D[Feature Layer<br/>calendar holiday event features<br/>价格 促销 天气 工资日 账单日]
D --> E[Model Portfolio<br/>Baseline Prophet DeepAR TFT TimesFM NeuralForecast]
E --> F[Probabilistic Forecast Service<br/>P10 P50 P90 quantiles prediction intervals]
F --> G[Decision Engine<br/>补货 现金调拨 人力排班 预算 容量]
G --> H[Workflow Layer<br/>审批 覆盖 例外 协同计划]
H --> I[Monitoring and Governance<br/>backtesting leakage drift audit]
I --> B
1. Decision Context
每个预测产品必须先定义“预测会改变什么动作”。典型决策包括:
| 场景 | 决策动作 | 预测对象 | 决策成本 |
|---|---|---|---|
| Retail demand | 补货、调拨、促销节奏 | SKU-store-channel demand | 缺货、积压、毛利损失、清仓折扣 |
| Financial liquidity/cashflow forecasting | 资金头寸、现金调拨、融资安排 | cash inflow/outflow、账户余额、ATM/门店现金需求 | 流动性压力、闲置资金、调拨成本、监管风险 |
| Queue/contact volume forecasting | 坐席排班、外包容量、IVR 分流 | contact volume、channel mix、skill group volume | SLA 违约、等待时间、过度排班 |
| Capacity forecasting | 云资源、仓配、人力、支付通道限额 | transaction load、warehouse picks、delivery slots、API TPS | 服务中断、资源浪费、体验下降 |
| Demand planning | S&OP、采购、预算、营销协同 | product/channel/region demand | 计划冲突、预算错配、供应链震荡 |
2. Forecast Contract
Forecast Contract 是产品与数据科学团队之间的“预测合约”。它比“需求说明”更硬,因为它决定了数据、模型、指标、SLA 和治理边界。
| 字段 | 高级定义 |
|---|---|
| Business owner | 对预测驱动动作负责的人,而不是 dashboard 浏览者 |
| Forecast grain | 时间粒度、业务实体粒度、层级路径,例如 day x SKU x store x channel |
| Horizon | 预测未来多久,例如 1 天、14 天、13 周、12 个月 |
| Cadence | 何时训练、何时预测、何时冻结计划 |
| Latency | 数据进入预测链路允许的最大延迟 |
| Known future inputs | 未来可提前知道的特征,例如节假日、工资日、促销日历、计划价格、营销活动 |
| Unknown future drivers | 无法提前知道但可做情景模拟的变量,例如竞品冲击、天气极端事件、市场恐慌 |
| Output type | point forecast、quantiles、prediction intervals、scenario forecasts |
| Decision SLA | 预测必须在何时前到达下游工作流 |
| Human override rule | 谁可以覆盖、覆盖理由如何结构化、覆盖后如何回测 |
| Audit evidence | 数据快照、特征版本、模型版本、审批记录、指标快照 |
3. Data Product Layer
预测不是直接读取源系统表,而应读取面向预测的数据产品。金融零售环境尤其需要数据血缘、权限、可追溯与跨系统一致性。
关键数据域包括:
| 数据域 | 示例 | 架构要求 |
|---|---|---|
| 交易事实 | 销售订单、支付流水、提现、转账、退款、客服工单 | 事件时间与入仓时间分离,保留修正记录 |
| 库存与供应 | 在手库存、在途库存、采购订单、供应商交期 | 区分可售库存、冻结库存、安全库存 |
| 价格与促销 | 原价、折扣、券、积分、满减、会员权益 | 生效时间、适用范围、叠加规则可结构化 |
| 日历与事件 | calendar/holiday/event features、工资日、账单日、开学季、黑五、春节 | 未来已知,必须具备冻结版本 |
| 客服运营 | contact volume、AHT、渠道、技能组、排班、放弃率 | 量与处理时长分开建模 |
| 财务资金 | 账户余额、清算周期、资金到账、付款批次、现金调拨 | 对账状态、资金可用性、监管口径明确 |
| 容量资源 | API TPS、CPU、队列长度、仓库产能、配送窗口 | 实时指标与计划指标分层 |
模型与方案选择
模型选择应由业务粒度、预测周期、数据规模、外生变量、解释要求与治理成本共同决定。高级团队通常使用 model portfolio,而不是押注单一模型。
方案选择矩阵
| 方案 | 适用场景 | 优势 | 架构注意点 |
|---|---|---|---|
| Naive / Seasonal Naive | 建立底线、低频长尾序列 | 透明、稳定、成本低 | 所有高级模型必须稳定超过 baseline |
| ETS / ARIMA | 单序列、规律性强、数据较干净 | 统计解释清晰 | 对多实体扩展能力弱 |
| Prophet | 有明显节假日、趋势、季节性且需要快速交付 | calendar/holiday/event features 使用友好 | 对复杂层级、多变量交互和极端稀疏序列需谨慎 |
| Gradient Boosting | 特征工程强、实体多、结构化业务变量丰富 | 可解释、易控、适合 tabular 特征 | 需要严格 as-of 特征生成,避免 leakage |
| DeepAR | 大量相关时间序列、需要 probabilistic forecasting | 共享学习、分布输出、适合冷启动相近序列 | 需要足够序列数量和稳定训练管线 |
| Temporal Fusion Transformer | 多步预测、静态协变量、历史协变量、未来已知协变量丰富 | 可处理多源变量,具备解释组件 | 模型复杂,治理与性能监控要求高 |
| TimesFM / foundation models | 快速 zero-shot、少样本预测、原型验证、长尾序列补强 | 低建模启动成本,跨领域迁移潜力高 | 必须和本地回测、业务校准、数据合规结合 |
| NeuralForecast | 工程化神经预测平台,支持多模型比较 | 训练、预测、回测流程统一 | 需要配套 MLOps、特征版本与模型注册 |
| Hybrid / Ensemble | 高价值决策、不同模型擅长不同粒度 | 稳健性更高 | 决策层必须解释组合逻辑和覆盖策略 |
DeepAR 的产品架构定位
DeepAR 适合“许多相关序列共享模式”的场景,例如:
- 门店 SKU 日销量。
- ATM 或分行现金需求。
- 客服技能组每日 contact volume。
- 支付交易量和渠道负载。
- 账户余额或现金流类别的分组预测。
产品上应把 DeepAR 定位为概率预测引擎,而不是只输出均值的回归模型。它的核心价值是让 planning team 看到 P10/P50/P90,并据此选择不同服务水平。
Temporal Fusion Transformer 的产品架构定位
Temporal Fusion Transformer 适合多变量、多步预测,尤其适合同时使用:
- 静态特征:门店类型、区域、SKU 类别、客户等级、技能组。
- 历史观测特征:销量、价格、库存、等待时间、交易量、余额。
- 未来已知特征:节假日、促销计划、账单日、营销排期、计划价格、排班。
TFT 的价值不只是精度,也包括变量重要性、时间段关注权重和对业务解释的支持。面向金融零售落地时,TFT 应配合模型卡、特征审查和回测证据,否则复杂度会压过收益。
TimesFM 与 foundation models 的定位
TimesFM/foundation models 更适合作为以下能力:
- 原型阶段的快速 benchmark。
- 长尾序列、短历史序列的候选基线。
- 新市场、新门店、新品类上线早期的冷启动辅助。
- 与本地模型形成 ensemble,提升异常周期的稳健性。
它们不应被包装为“免治理预测”。所有 foundation model 输出仍必须通过本地 backtesting、prediction intervals 校准、业务例外审查和数据合规评估。
NeuralForecast 的工程化定位
Nixtla NeuralForecast 的价值在于把神经预测模型纳入统一训练、预测和评估流程,适合构建企业级实验矩阵:
- 同一批序列上对比 DeepAR、TFT、N-BEATS、NHITS 等模型。
- 同一套 rolling-origin backtesting 对比不同 horizon。
- 输出统一格式供预测服务、dashboard 和决策引擎消费。
- 将模型实验结果进入 model registry 和 forecast governance。
数据、特征与层级预测
预测粒度设计
粒度不是越细越好。粒度选择要匹配决策动作、数据密度和治理能力。
| 粒度 | 适合动作 | 风险 |
|---|---|---|
| SKU-store-day | 补货、调拨、门店排班 | 稀疏、噪声大、促销和缺货影响强 |
| SKU-region-week | 采购、预算、供应商协同 | 聚合后掩盖门店差异 |
| Category-channel-week | demand planning、营销预算 | 对单品执行指导不足 |
| Account-segment-day | cashflow forecasting、流动性监控 | 客户行为异质性强 |
| Skill-channel-interval | queue/contact volume forecasting | 受系统故障、活动和政策变化冲击明显 |
Calendar、Holiday 与 Event Features
高级预测架构要把 calendar/holiday/event features 当作正式数据产品管理,而不是在 notebook 中临时拼接。
| 特征类型 | 示例 | 治理要求 |
|---|---|---|
| Calendar | 星期、月初月末、季度末、财年末 | 规则可复现 |
| Holiday | 春节、感恩节、黑五、圣诞、当地银行假日 | 国家/地区/门店适用范围明确 |
| Retail event | 促销、上新、清仓、会员日、直播活动 | 计划版本与实际执行版本分离 |
| Financial event | 发薪日、账单日、还款日、清算窗口、监管报送日 | 对资金流影响口径稳定 |
| Service event | 系统升级、政策变更、费率调整、客服话术变更 | 事件强度与影响范围结构化 |
| External event | 天气、交通、竞品活动、宏观指标 | 数据授权与延迟记录明确 |
关键原则:预测时点不可使用未来才知道的信息。促销计划可以作为未来已知特征,实际销售后才确认的促销执行效果不能在训练样本中以未来口径回填到预测时点。
Hierarchical Forecasting
金融零售和零售预测天然是层级问题。高级架构应同时处理业务层级与时间层级。
业务层级示例:
Company
Region
Store
Channel
Category
SKU
财务现金流层级示例:
Enterprise Liquidity
Currency
Legal Entity
Bank Account
Cashflow Type
Product Segment
客服容量层级示例:
Customer Operations
Market
Channel
Skill Group
Queue
Interval
三种常见策略:
| 策略 | 做法 | 适用场景 |
|---|---|---|
| Bottom-up | 最底层预测后向上汇总 | 底层数据密度高、执行动作在底层 |
| Top-down | 顶层预测后按比例分解 | 底层噪声大、管理目标在高层 |
| Reconciliation | 各层独立预测后做一致性调整 | 大中型组织、多层级问责、需要计划一致性 |
层级预测的产品价值是减少“总部 forecast 和门店 forecast 对不上”的计划摩擦。架构上需要保留每层原始预测、调整后预测、调整方法和影响量,供财务、供应链、运营共同审阅。
概率预测与 Prediction Intervals
Point forecast 只能回答“最可能是多少”。金融零售决策更需要回答:
- 如果需求高于预期,缺货成本是多少?
- 如果现金流低于预期,需要准备多少流动性缓冲?
- 如果 contact volume 达到 P90,SLA 是否还能守住?
- 如果交易量落在 P95,支付通道和风控队列是否有容量?
输出格式
推荐输出至少包含:
| 输出 | 含义 | 决策用法 |
|---|---|---|
| P10 | 低需求或低流入情景 | 评估闲置资源、低负载风险 |
| P50 | 中位预测 | 预算、常规计划、管理层口径 |
| P90 | 高需求或高压力情景 | 安全库存、备用资金、排班上限、扩容触发 |
| Prediction interval | 给定覆盖率下的预测区间 | 风险边界、审计解释、异常预警 |
| Scenario forecast | 特定假设下预测 | 促销、利率变化、市场冲击、系统事件模拟 |
评估指标
概率预测要避免只看 MAPE。更完整的评估组合包括:
| 指标 | 适合问题 |
|---|---|
| MAE / RMSE | 点预测误差,适合基础比较 |
| WAPE | 零售和客服量级预测常用,便于业务解释 |
| MASE | 跨序列比较,避免规模差异 |
| Pinball loss | 分位数预测质量 |
| Coverage | prediction intervals 是否达到承诺覆盖率 |
| Calibration | P90 是否真的约有 90% 实际值落在其下方 |
| Service-level impact | 预测进入决策后是否改善缺货、SLA、资金缓冲 |
| Cost-weighted error | 将高估与低估的业务成本差异纳入评价 |
高级产品负责人要坚持“预测指标”和“决策指标”双轨评估。模型误差下降但库存周转变差,说明 forecast-to-decision loop 没有真正优化。
Backtesting 与 Leakage 治理
Backtesting 设计
时间序列不能随机切分。推荐 rolling-origin backtesting:
Train: Jan-Mar Predict: Apr week 1
Train: Jan-Apr Predict: May week 1
Train: Jan-May Predict: Jun week 1
每个 backtest fold 都应模拟真实预测时点:
- 只使用预测时点已经可用的数据。
- 未来已知特征必须来自冻结计划版本。
- 库存、价格、促销、财务到账等修正数据要按 as-of 时间重建。
- 指标按 horizon 分层展示,例如 D+1、D+7、W+4、M+3。
- 对新品、长尾、缺货、异常活动、高价值实体分别切片。
Leakage 类型与治理
| Leakage 类型 | 例子 | 防控方式 |
|---|---|---|
| Target leakage | 使用实际销量后的补货结果预测销量 | 特征生成基于 as-of timestamp |
| Future feature leakage | 使用实际促销效果、实际天气、实际排班缺勤 | 预测时点只能使用已知或可预测版本 |
| Aggregation leakage | 月度总销量在月中预测时已被完整聚合进特征 | 聚合窗口必须截断到预测时点 |
| Reconciliation leakage | 用包含未来实际的上层口径校正下层预测 | 层级校准只使用预测时点可见数据 |
| Human override leakage | 计划人员看过实际后回填覆盖理由 | 覆盖记录锁定时间和用户 |
| Data correction leakage | 历史回补数据直接覆盖训练样本,无法复原原始可见状态 | 保留事件时间、入仓时间和修正版本 |
回测报告最低结构
| 模块 | 内容 |
|---|---|
| Forecast contract | 粒度、horizon、cadence、SLA |
| Dataset snapshot | 训练窗口、验证窗口、数据版本、实体覆盖 |
| Feature availability | 每类特征在预测时点的可用性证明 |
| Model comparison | baseline、Prophet、DeepAR、TFT、TimesFM 或 NeuralForecast 组合 |
| Metric slices | 总体、层级、长尾、高价值、活动期、异常期 |
| Interval quality | coverage、pinball loss、calibration |
| Decision simulation | 缺货、资金缓冲、SLA、容量成本的模拟影响 |
| Governance decision | 上线、灰度、限制使用或继续研究的理由 |
产品决策与运营闭环
Forecast-to-decision loop 的成熟度决定预测系统是否真正进入组织肌肉。
闭环步骤
- Define decision:明确预测影响的动作和成本函数。
- Generate forecast:输出点预测、分位数、prediction intervals 与情景版本。
- Optimize decision:将预测输入补货、现金调拨、排班、容量扩容或预算分配模型。
- Human review:业务负责人按规则覆盖,并记录原因与影响。
- Execute:进入 ERP、WMS、资金系统、排班系统、客服平台或云资源编排。
- Observe actuals:收集实际销量、现金流、contact volume、SLA、库存、资金占用。
- Evaluate decision:同时评估 forecast accuracy 与 business impact。
- Learn:把覆盖理由、异常事件和决策结果反馈到数据产品、特征和治理规则。
产品界面应展示什么
预测界面不应只是折线图。高级界面应包含:
| 模块 | 展示内容 |
|---|---|
| Forecast overview | P50、P10/P90、上一版预测、实际值、主要变化 |
| Driver explanation | 主要 calendar/holiday/event features、价格、促销、历史趋势、异常事件 |
| Hierarchy navigation | 从集团到区域、门店、SKU 或从市场到技能组的 drill-down |
| Decision recommendation | 建议补货量、现金缓冲、排班人数、容量阈值 |
| Confidence and risk | 区间宽度、覆盖率、模型稳定性、数据质量 |
| Override panel | 覆盖数值、结构化原因、审批人、影响估计 |
| Backtest card | 最近窗口表现、与 baseline 差异、关键切片 |
| Audit trail | 数据版本、模型版本、发布时间、审批记录 |
人工覆盖不是失败
在金融零售落地中,人工覆盖是治理设计的一部分。关键不是禁止覆盖,而是让覆盖可学习:
- 覆盖理由结构化,例如“已知大客户流失”“门店装修”“监管窗口”“促销临时加码”。
- 覆盖影响量化,例如对补货金额、现金缓冲、SLA 或容量成本的影响。
- 覆盖后评估,例如覆盖是否比模型更接近实际,长期是否存在系统性偏差。
- 覆盖权限分层,例如高金额现金调拨、高风险库存决策需要双人审批。
风险治理与审计
Forecast governance 要把 NIST AI RMF 的治理语言落到可执行控件上。
| NIST AI RMF 维度 | Forecasting 落地方式 |
|---|---|
| Govern | 预测用例登记、owner、审批门槛、模型卡、数据责任人、例外流程 |
| Map | 业务影响、用户影响、监管影响、失败模式、上下游依赖 |
| Measure | backtesting、drift、coverage、leakage scan、数据质量、业务影响评估 |
| Manage | 上线闸门、灰度策略、回滚、人工覆盖、事件复盘、周期性审查 |
模型卡要覆盖的高级问题
| 问题 | 审计关注 |
|---|---|
| 预测驱动什么决策 | 模型是否进入高影响业务流程 |
| 哪些人群、门店或区域受影响 | 是否存在服务水平或资源分配不公平 |
| 特征是否合规 | 是否使用敏感属性、受限数据或不可解释代理变量 |
| 预测区间如何校准 | 区间是否被业务误读为确定承诺 |
| 人工覆盖如何审计 | 覆盖是否被用于规避控制或掩盖模型偏差 |
| 模型何时降级 | 数据延迟、漂移、异常事件、覆盖率失效时的降级路径 |
关键控制点
- Use-case tiering:现金流、授信、监管报送、客户服务水平等高影响用例必须进入增强审查。
- Data lineage:每次预测都能追溯数据快照、特征版本、模型版本和运行参数。
- Leakage scan:每次训练前检查未来特征、修正数据和聚合窗口。
- Interval calibration:预测区间失准时触发重新校准或限制使用。
- Human override review:高频覆盖、高金额覆盖、方向性偏差覆盖进入治理会议。
- Model fallback:高级模型失败时切回 baseline 或上一稳定版本。
- Decision audit:审计关注的不只是预测值,也包括预测如何改变业务动作。
金融零售、零售、电商、客服与容量规划场景
场景 1:Financial Liquidity / Cashflow Forecasting
目标:预测资金流入、流出、账户余额、现金需求和流动性压力,用于 treasury、门店现金、ATM 补钞、支付清算和监管缓冲。
架构要点:
| 维度 | 设计 |
|---|---|
| Forecast grain | currency x legal entity x bank account x cashflow type x day |
| Horizon | 日内、D+1、D+7、13 周滚动 |
| Features | 工资日、账单日、还款日、节假日、清算周期、贷款发放、营销活动、宏观利率 |
| Model candidates | Seasonal baseline、gradient boosting、DeepAR、TFT、TimesFM benchmark |
| Output | P10/P50/P90 cash balance、stress scenario、liquidity buffer |
| Decision engine | 资金调拨、短融安排、现金配送、支付限额预案 |
| Governance | 高影响用例,要求审计日志、人工审批、模型降级方案 |
产品洞察:现金流预测的低估成本通常高于高估成本,因此目标不是最小化平均误差,而是控制低分位风险和 liquidity buffer 的资本效率。
场景 2:Retail Demand Forecasting
目标:预测门店、渠道、品类、SKU 的需求,用于补货、采购、调拨、促销和库存健康。
架构要点:
| 维度 | 设计 |
|---|---|
| Forecast grain | SKU x store x channel x day 与 category x region x week 双层 |
| Features | 价格、折扣、会员日、节假日、天气、库存可得性、竞品事件、上新/清仓 |
| Hierarchy | SKU-store 到区域品类,再到集团 demand planning |
| Probabilistic output | P50 用于常规补货,P90 用于高服务水平 SKU |
| Decision metrics | 缺货率、库存周转、毛利、清仓率、服务水平 |
| Leakage control | 缺货日销量低估真实需求,需标记 stockout censoring |
产品洞察:零售需求预测要同时预测“需求”和“可观测销售”。缺货时销售数据被库存上限截断,直接训练会把缺货误学成低需求。
场景 3:E-commerce Demand Planning
目标:预测流量、订单、转化、退款、履约压力和营销活动效果,用于预算、仓配和前台体验保障。
架构要点:
| 维度 | 设计 |
|---|---|
| Forecast objects | visits、orders、GMV、refunds、returns、warehouse picks |
| Features | 活动日历、投放计划、站内曝光、优惠券、价格、推荐位、节假日 |
| Model strategy | TFT 处理未来已知活动,foundation model 做快速 benchmark,ensemble 提升活动期稳健性 |
| Decision loop | 营销预算、仓库班次、配送窗口、客服预案 |
| Governance | 活动预测需要版本冻结,避免活动后数据回填污染训练 |
产品洞察:电商活动期的预测误差通常来自“计划版本变化”,不是模型本身。产品架构必须保存每次活动计划版本,才能解释预测偏差。
场景 4:Queue / Contact Volume Forecasting
目标:预测客服 contact volume、渠道分布、技能组量和到达模式,用于排班、外包、机器人分流和 SLA 管理。
架构要点:
| 维度 | 设计 |
|---|---|
| Forecast grain | market x channel x skill group x interval |
| Features | 账单日、还款日、系统变更、产品上线、费率调整、营销活动、节假日 |
| Outputs | interval-level P50/P90 contact volume、channel mix、peak load |
| Decision engine | 排班、外包容量、IVR 路由、机器人知识库预热 |
| Metrics | SLA、平均等待时间、放弃率、occupancy、overstaffing cost |
| Advanced design | 将 contact volume 与 AHT 分开预测,再进入 workforce management |
产品洞察:客服预测不是只预测一天总量。真正影响 SLA 的是 15 分钟或 30 分钟 interval 到达量、技能组匹配和平均处理时长。
场景 5:Capacity Forecasting
目标:预测系统、仓配、支付通道、人力、机器人、风控队列和云资源的容量压力。
架构要点:
| 容量对象 | Forecast target | Decision |
|---|---|---|
| Cloud / API | TPS、CPU、queue depth、latency | 扩容、限流、缓存预热 |
| Payment rails | transaction count、amount、failure rate | 通道路由、额度申请、备用通道 |
| Warehouse | picks、packs、returns、dock appointments | 班次、人力、库区分配 |
| Fraud operations | alert volume、review queue、case complexity | 审核人力、规则阈值、自动化比例 |
| Contact center | calls、chat、email、bot fallback | 排班、机器人分流、外包调用 |
产品洞察:capacity forecasting 的失败通常不是预测均值错,而是峰值区间低估。P90/P95 预测和 stress scenario 比 P50 更接近运营价值。
模板
模板 1:Forecast Product One-Pager
| 字段 | 内容 |
|---|---|
| Product name | 预测产品名称 |
| Decision owner | 对业务动作负责的角色 |
| Forecast target | 被预测指标和业务定义 |
| Grain and horizon | 粒度、预测周期、发布时间 |
| Decision action | 预测触发的补货、资金、排班、容量或风险动作 |
| Cost of under-forecast | 低估成本 |
| Cost of over-forecast | 高估成本 |
| Required outputs | P50、P10/P90、prediction intervals、scenario forecasts |
| Baseline | 当前人工、规则或统计基线 |
| Go-live gate | 上线所需的 backtesting、coverage、业务模拟标准 |
| Audit evidence | 数据、特征、模型、审批与覆盖记录 |
模板 2:Feature Availability Matrix
| Feature | Known at forecast time | Source system | Update cadence | Leakage risk | Governance control |
|---|---|---|---|---|---|
| Holiday calendar | Yes | Master calendar | Annual with exceptions | Low | Versioned calendar |
| Promotion plan | Yes, if frozen | Promotion planning | Daily during planning | Medium | Freeze version by forecast run |
| Actual promotion uplift | No | Sales analytics | After event | High | Exclude from forecast-time features |
| Weather forecast | Partially | Weather provider | Hourly or daily | Medium | Store provider timestamp |
| Actual weather | No for future | Weather provider | After event | High | Use only historical windows |
| Inventory on hand | Yes with latency | ERP/WMS | Near real time | Medium | As-of snapshot |
| Stockout flag | Known after interval | POS/WMS | Daily | Medium | Use lagged or historical only |
模板 3:Model Selection Decision Record
| Section | Decision |
|---|---|
| Business decision | 预测将驱动的业务动作 |
| Candidate models | Baseline、Prophet、DeepAR、TFT、TimesFM、NeuralForecast models |
| Selection criteria | Accuracy、coverage、latency、explainability、cost、governance |
| Backtest design | Rolling-origin windows、horizon、entity slices |
| Winner | 选择的主模型或 ensemble |
| Rejected options | 被排除方案及理由 |
| Risk controls | Leakage scan、fallback、human override、audit trail |
| Review cadence | 模型表现和治理复审周期 |
模板 4:Backtesting and Leakage Review
| Review item | Evidence |
|---|---|
| Train/test windows are time ordered | Window table and run ID |
| No random split is used | Experiment config |
| All features have as-of timestamp | Feature store metadata |
| Future known features are versioned | Calendar and event version |
| Historical corrections are traceable | Data lineage and correction log |
| Baseline comparison exists | Baseline metrics by horizon |
| Prediction intervals are calibrated | Coverage and pinball loss |
| Decision simulation completed | Cost, SLA, service level, liquidity impact |
模板 5:Forecast Governance Review
| Dimension | Review question |
|---|---|
| Accountability | 谁对预测驱动的动作负责 |
| Materiality | 预测失败会造成多大财务、客户或监管影响 |
| Data rights | 数据使用是否符合权限、隐私和监管要求 |
| Explainability | 业务是否理解主要驱动因素与区间含义 |
| Override | 覆盖是否有权限、理由、审批和回测 |
| Drift | 数据、误差、区间覆盖率是否稳定 |
| Incident response | 模型失效时是否有降级和沟通机制 |
30 天高级训练计划
第 1 周:Forecast-to-Decision 基础架构
| 天 | 训练主题 | 高级产出 |
|---|---|---|
| Day 1 | 选择一个金融零售预测场景 | Forecast Product One-Pager |
| Day 2 | 定义 forecast grain、horizon、cadence | Forecast Contract |
| Day 3 | 画出现有数据链路与系统边界 | Data Product Map |
| Day 4 | 设计 calendar/holiday/event features | Feature Availability Matrix |
| Day 5 | 设计 baseline 与业务当前规则比较 | Baseline Evaluation Plan |
| Day 6 | 定义决策成本函数 | Under/Over Forecast Cost Model |
| Day 7 | 复盘架构缺口 | Forecast-to-Decision Architecture Diagram |
第 2 周:模型组合与概率预测
| 天 | 训练主题 | 高级产出 |
|---|---|---|
| Day 8 | Prophet 与统计基线适配性分析 | Baseline and Prophet Decision Record |
| Day 9 | DeepAR 适配多序列概率预测 | DeepAR Fit Assessment |
| Day 10 | TFT 的协变量与解释设计 | TFT Feature and Explainability Plan |
| Day 11 | TimesFM/foundation models 的 benchmark 设计 | Foundation Model Evaluation Brief |
| Day 12 | NeuralForecast 实验矩阵设计 | Model Portfolio Experiment Matrix |
| Day 13 | Quantile 与 prediction intervals 设计 | Probabilistic Output Spec |
| Day 14 | 指标体系与业务模拟 | Accuracy and Decision Metrics Map |
第 3 周:层级、回测与治理
| 天 | 训练主题 | 高级产出 |
|---|---|---|
| Day 15 | 设计 hierarchical forecasting 层级 | Hierarchy and Reconciliation Plan |
| Day 16 | Rolling-origin backtesting | Backtest Window Design |
| Day 17 | Leakage 风险扫描 | Leakage Control Checklist |
| Day 18 | 模型卡与用例分级 | Forecast Model Card |
| Day 19 | NIST AI RMF 映射 | Forecast Governance Control Map |
| Day 20 | 人工覆盖流程 | Override and Approval Policy |
| Day 21 | 灰度上线与降级路径 | Release and Fallback Plan |
第 4 周:金融零售落地案例
| 天 | 训练主题 | 高级产出 |
|---|---|---|
| Day 22 | Financial liquidity/cashflow forecasting | Treasury Forecast Architecture |
| Day 23 | Retail demand forecasting | SKU-store Demand Planning Design |
| Day 24 | Queue/contact volume forecasting | Workforce Forecast and Staffing Design |
| Day 25 | Capacity forecasting | Capacity Risk and Scaling Design |
| Day 26 | 电商活动预测 | Campaign Demand Planning Design |
| Day 27 | 决策引擎设计 | Forecast-to-Decision Optimization Brief |
| Day 28 | 审计与监控 dashboard | Governance Dashboard Spec |
| Day 29 | 高管沟通材料 | Executive Forecast Risk Memo |
| Day 30 | 面试与作品集整合 | Portfolio Case Storyline |
面试答案
1. 如何设计一个 time-series forecasting product architecture?
30 秒回答:我会从业务动作倒推,而不是从模型倒推。先定义预测影响的库存、资金、排班或容量决策,再定义 Forecast Contract、数据产品、特征可用性、模型组合、概率输出、人工覆盖、回测和治理闭环。
2 分钟回答:一个成熟的 forecasting 产品架构包含九层:Decision Context、Forecast Contract、Data Product、Feature Layer、Model Portfolio、Probabilistic Forecast Service、Decision Engine、Workflow Layer、Monitoring and Governance。模型层可以包含 baseline、Prophet、DeepAR、TFT、TimesFM 或 NeuralForecast 组合,但模型只是中间层。真正的产品价值来自 forecast-to-decision loop,例如预测进入补货、现金调拨、客服排班或容量扩容,并通过实际结果反哺回测和治理。
追问处理:如果面试官问“如何证明价值”,我会同时看 forecast accuracy 和 decision impact,例如缺货率、库存周转、SLA、资金缓冲成本、资源利用率,而不是只看 MAPE。
2. DeepAR、TFT、TimesFM 怎么选?
30 秒回答:DeepAR 适合大量相关序列的概率预测;TFT 适合多变量、多步预测和未来已知协变量丰富的业务;TimesFM/foundation models 适合快速 benchmark、冷启动和少样本场景,但必须经过本地回测和治理校准。
2 分钟回答:如果我有很多门店 SKU、客服队列或现金流类别序列,并希望输出分布,我会优先评估 DeepAR。如果业务有丰富的静态特征、历史特征和未来已知特征,例如促销日历、价格计划、节假日、账单日,我会评估 TFT,因为它对 multi-horizon forecasting 和解释更友好。TimesFM 这类 foundation model 可以降低启动成本,尤其适合新市场或长尾序列,但它不是免训练、免审计的替代品。最终选择要基于 rolling-origin backtesting、prediction interval calibration、业务切片和上线治理成本。
追问处理:如果面试官问“是否一定用深度模型”,我的回答是不会。所有复杂模型都要先打赢 seasonal naive 或当前业务规则,否则没有上线理由。
3. 为什么 demand planning 需要 probabilistic forecasting?
30 秒回答:因为计划决策面对的是不确定性和非对称成本。低估需求会缺货或 SLA 失败,高估需求会库存积压或资源浪费,所以 P50 只是一个口径,P90/P95 才能支持服务水平和风险缓冲。
2 分钟回答:在 demand planning 中,点预测会把风险隐藏起来。零售补货要决定安全库存,客服排班要决定峰值人力,资金预测要决定 liquidity buffer,容量规划要决定扩容阈值。每个决策都对应不同风险偏好。因此我会输出 P10/P50/P90、prediction intervals 和 scenario forecasts,并用 coverage、pinball loss、calibration 和业务成本模拟来评估,而不是只报告平均误差。
追问处理:如果面试官问“业务不懂概率怎么办”,我会用决策语言翻译:P90 不是“更准确预测”,而是“为了 90% 服务水平需要准备多少资源”。
4. 如何治理 leakage?
30 秒回答:核心原则是模拟真实预测时点。训练、验证和特征生成都必须按 as-of timestamp 重建,未来才知道的数据不能进入预测时点。
2 分钟回答:我会从六类 leakage 入手:target leakage、future feature leakage、aggregation leakage、reconciliation leakage、human override leakage 和 data correction leakage。治理方式包括事件时间与入仓时间分离、特征可用性矩阵、冻结活动日历版本、rolling-origin backtesting、数据修正版本保留、人工覆盖锁定时间,以及上线前 leakage scan。尤其在金融零售中,实际到账、实际促销效果、实际缺勤、实际天气等数据很容易在历史训练集中被误用。
追问处理:如果面试官问“怎么发现 leakage”,我会看异常高的回测表现、活动期表现不合理、线上线下误差断裂、特征重要性异常,以及未来可用性审计失败。
5. 如何设计 financial liquidity/cashflow forecasting?
30 秒回答:我会按 currency、legal entity、bank account、cashflow type 和日期建模,输出 P10/P50/P90 资金流和余额,用于资金调拨、融资安排、现金配送和监管缓冲。
2 分钟回答:现金流预测的关键不是销量式准确率,而是低估风险控制和资本效率平衡。架构上需要整合账户余额、支付清算、贷款发放、还款、提现、工资日、账单日、节假日、监管窗口和宏观变量。模型上可以从 seasonal baseline 和 gradient boosting 开始,再评估 DeepAR、TFT 或 TimesFM benchmark。输出必须是概率区间和 stress scenario,进入 treasury workflow,并保留审批、覆盖和审计记录。
追问处理:如果面试官问“如何处理监管风险”,我会将该用例列为高影响 AI 用例,要求模型卡、数据血缘、人工审批、回滚机制和周期性治理审查。
6. Hierarchical forecasting 的价值是什么?
30 秒回答:它解决组织计划的一致性问题,让门店、区域、品类、渠道和集团级预测能够对齐,减少“各层数字都对但合起来不对”的管理摩擦。
2 分钟回答:零售和金融零售天然有层级结构。比如 SKU-store-day 是执行层,category-region-week 是采购和预算层,company-month 是管理层。可以采用 bottom-up、top-down 或 reconciliation。高级架构不会只保留最终数字,而会保留各层原始预测、调整后预测、调整方法和影响量。这样供应链、财务和运营可以围绕同一套数字协同。
追问处理:如果面试官问“何时不用最底层预测”,我会说当底层序列太稀疏、噪声太高或执行动作不在底层时,直接 bottom-up 可能放大误差。
7. Queue/contact volume forecasting 和普通销量预测有什么不同?
30 秒回答:客服预测更关注 interval-level 到达量、渠道和技能组组合,以及它们对 SLA、等待时间和排班的影响,而不是只预测一天总量。
2 分钟回答:queue/contact volume forecasting 需要按 market、channel、skill group、interval 建模,并把 contact volume 和 AHT 分开预测。特征包括账单日、还款日、系统变更、产品上线、政策调整、营销活动和节假日。输出应进入 workforce management,用 P50 做常规排班,用 P90 管理峰值和外包容量。评估指标除了 WAPE,还要看 SLA、平均等待时间、放弃率、occupancy 和 overstaffing cost。
追问处理:如果面试官问“机器人会不会改变预测”,我会将 bot containment、bot fallback、话题结构变化作为特征和反馈信号,而不是把机器人当成外部黑箱。
8. Forecast governance 如何落地?
30 秒回答:我会用 NIST AI RMF 的 Govern、Map、Measure、Manage 做治理骨架,把预测用例登记、风险分级、数据血缘、backtesting、leakage scan、人工覆盖和模型降级变成可执行控件。
2 分钟回答:forecast governance 的重点是控制预测如何影响业务动作。Govern 定义 owner、审批和模型卡;Map 明确业务影响和失败模式;Measure 做 backtesting、drift、coverage 和 leakage scan;Manage 定义上线闸门、灰度、回滚、覆盖审查和事件复盘。金融零售场景中,高影响预测如现金流、客户服务水平、授信和监管相关用例必须比普通运营预测接受更强审查。
追问处理:如果面试官问“治理会不会拖慢创新”,我会回答:治理不是把模型挡在门外,而是让模型可以进入高价值决策。没有审计和降级能力的模型,只能停留在分析看板。