返回 Papers
AI 扩展计划 / Playbooks

AI Forecasting / Demand Planning Product Architecture Playbook

以下资料用于校准术语、模型边界与治理框架。本文不是论文复述,而是面向金融零售、零售、电商、客服与容量规划的产品架构转译。

657AI_FORECASTING_DEMAND_PLANNING_PRODUCT_ARCHITECTURE_PLAYBOOK.md

AI Forecasting、Demand Planning 与产品架构 Playbook

面向已具备 CBAP 级需求工程、金融零售业务理解与架构协作经验的读者。本 playbook 不讲 BA 入门方法,而是聚焦如何把 AI 预测能力设计成可审计、可运营、可落地的产品与架构资产。

Source Anchors

以下资料用于校准术语、模型边界与治理框架。本文不是论文复述,而是面向金融零售、零售、电商、客服与容量规划的产品架构转译。

Anchor用途
DeepAR: Probabilistic Forecasting with Autoregressive Recurrent Networks多序列概率预测、分布输出、相关时间序列共享学习的经典神经预测基线
Temporal Fusion Transformers for Interpretable Multi-horizon Time Series Forecasting多步预测、静态/历史/未来已知协变量、变量重要性与可解释性设计
TimesFM: A decoder-only foundation model for time-series forecastingtime-series foundation models、zero-shot/少样本预测、跨领域泛化能力边界
Nixtla NeuralForecastDeepAR、TFT、N-BEATS、NHITS 等神经预测模型的工程化训练、回测与批量预测工具链
NIST AI Risk Management Framework 1.0forecast governance 的风险治理语言:Govern、Map、Measure、Manage
Forecasting: Principles and Practicebacktesting、hierarchical forecasting、prediction intervals 与业务预测的基础方法论参考

一句话定位

Forecasting 产品架构的核心不是“把未来数值预测得更准”,而是构建一个可治理的 forecast-to-decision loop:把不确定性、约束、成本、服务水平、人工覆盖与审计证据连接起来,让预测稳定转化为库存、资金、客服、人力、产能和风险动作。

为什么重要

金融零售与零售业务中的预测不是孤立分析任务。一次预测会触发资金调拨、库存补货、营销节奏、呼叫中心排班、云资源扩容、门店现金配送、欺诈监控阈值、授信额度管理和管理层预警。如果架构只交付点预测,业务会在真正决策时自行补齐风险偏好、置信边界和例外处理,结果通常是:模型看似准确,运营仍然失控。

高级 AI 产品与架构视角下,forecasting 的价值体现在五个层面:

  1. 决策前移:从月末复盘转向周内滚动、日内调度和事件前模拟。
  2. 不确定性显性化:用 probabilistic forecasting 和 prediction intervals 表达风险,而非只给一个 P50 数字。
  3. 层级一致性:通过 hierarchical forecasting 让 SKU、门店、区域、渠道、品类、国家级预测可加总、可解释、可问责。
  4. 运营可闭环:预测结果进入 demand planning、capacity forecasting、资金计划、客服排班和异常处置流程,而不是停留在 dashboard。
  5. 治理可审计:将数据版本、特征可用时间、backtesting、leakage 检查、人工覆盖与审批记录纳入 forecast governance。

Forecast-to-Decision 架构

Time-series forecasting product architecture 应从“业务动作”倒推,而不是从模型倒推。架构分为九层:

flowchart LR
    A[Decision Context<br/>库存/资金/客服/容量/风险] --> B[Forecast Contract<br/>粒度/周期/范围/延迟/服务水平]
    B --> C[Data Products<br/>交易/库存/事件/日历/价格/排班/宏观]
    C --> D[Feature Layer<br/>calendar holiday event features<br/>价格 促销 天气 工资日 账单日]
    D --> E[Model Portfolio<br/>Baseline Prophet DeepAR TFT TimesFM NeuralForecast]
    E --> F[Probabilistic Forecast Service<br/>P10 P50 P90 quantiles prediction intervals]
    F --> G[Decision Engine<br/>补货 现金调拨 人力排班 预算 容量]
    G --> H[Workflow Layer<br/>审批 覆盖 例外 协同计划]
    H --> I[Monitoring and Governance<br/>backtesting leakage drift audit]
    I --> B

1. Decision Context

每个预测产品必须先定义“预测会改变什么动作”。典型决策包括:

场景决策动作预测对象决策成本
Retail demand补货、调拨、促销节奏SKU-store-channel demand缺货、积压、毛利损失、清仓折扣
Financial liquidity/cashflow forecasting资金头寸、现金调拨、融资安排cash inflow/outflow、账户余额、ATM/门店现金需求流动性压力、闲置资金、调拨成本、监管风险
Queue/contact volume forecasting坐席排班、外包容量、IVR 分流contact volume、channel mix、skill group volumeSLA 违约、等待时间、过度排班
Capacity forecasting云资源、仓配、人力、支付通道限额transaction load、warehouse picks、delivery slots、API TPS服务中断、资源浪费、体验下降
Demand planningS&OP、采购、预算、营销协同product/channel/region demand计划冲突、预算错配、供应链震荡

2. Forecast Contract

Forecast Contract 是产品与数据科学团队之间的“预测合约”。它比“需求说明”更硬,因为它决定了数据、模型、指标、SLA 和治理边界。

字段高级定义
Business owner对预测驱动动作负责的人,而不是 dashboard 浏览者
Forecast grain时间粒度、业务实体粒度、层级路径,例如 day x SKU x store x channel
Horizon预测未来多久,例如 1 天、14 天、13 周、12 个月
Cadence何时训练、何时预测、何时冻结计划
Latency数据进入预测链路允许的最大延迟
Known future inputs未来可提前知道的特征,例如节假日、工资日、促销日历、计划价格、营销活动
Unknown future drivers无法提前知道但可做情景模拟的变量,例如竞品冲击、天气极端事件、市场恐慌
Output typepoint forecast、quantiles、prediction intervals、scenario forecasts
Decision SLA预测必须在何时前到达下游工作流
Human override rule谁可以覆盖、覆盖理由如何结构化、覆盖后如何回测
Audit evidence数据快照、特征版本、模型版本、审批记录、指标快照

3. Data Product Layer

预测不是直接读取源系统表,而应读取面向预测的数据产品。金融零售环境尤其需要数据血缘、权限、可追溯与跨系统一致性。

关键数据域包括:

数据域示例架构要求
交易事实销售订单、支付流水、提现、转账、退款、客服工单事件时间与入仓时间分离,保留修正记录
库存与供应在手库存、在途库存、采购订单、供应商交期区分可售库存、冻结库存、安全库存
价格与促销原价、折扣、券、积分、满减、会员权益生效时间、适用范围、叠加规则可结构化
日历与事件calendar/holiday/event features、工资日、账单日、开学季、黑五、春节未来已知,必须具备冻结版本
客服运营contact volume、AHT、渠道、技能组、排班、放弃率量与处理时长分开建模
财务资金账户余额、清算周期、资金到账、付款批次、现金调拨对账状态、资金可用性、监管口径明确
容量资源API TPS、CPU、队列长度、仓库产能、配送窗口实时指标与计划指标分层

模型与方案选择

模型选择应由业务粒度、预测周期、数据规模、外生变量、解释要求与治理成本共同决定。高级团队通常使用 model portfolio,而不是押注单一模型。

方案选择矩阵

方案适用场景优势架构注意点
Naive / Seasonal Naive建立底线、低频长尾序列透明、稳定、成本低所有高级模型必须稳定超过 baseline
ETS / ARIMA单序列、规律性强、数据较干净统计解释清晰对多实体扩展能力弱
Prophet有明显节假日、趋势、季节性且需要快速交付calendar/holiday/event features 使用友好对复杂层级、多变量交互和极端稀疏序列需谨慎
Gradient Boosting特征工程强、实体多、结构化业务变量丰富可解释、易控、适合 tabular 特征需要严格 as-of 特征生成,避免 leakage
DeepAR大量相关时间序列、需要 probabilistic forecasting共享学习、分布输出、适合冷启动相近序列需要足够序列数量和稳定训练管线
Temporal Fusion Transformer多步预测、静态协变量、历史协变量、未来已知协变量丰富可处理多源变量,具备解释组件模型复杂,治理与性能监控要求高
TimesFM / foundation models快速 zero-shot、少样本预测、原型验证、长尾序列补强低建模启动成本,跨领域迁移潜力高必须和本地回测、业务校准、数据合规结合
NeuralForecast工程化神经预测平台,支持多模型比较训练、预测、回测流程统一需要配套 MLOps、特征版本与模型注册
Hybrid / Ensemble高价值决策、不同模型擅长不同粒度稳健性更高决策层必须解释组合逻辑和覆盖策略

DeepAR 的产品架构定位

DeepAR 适合“许多相关序列共享模式”的场景,例如:

  • 门店 SKU 日销量。
  • ATM 或分行现金需求。
  • 客服技能组每日 contact volume。
  • 支付交易量和渠道负载。
  • 账户余额或现金流类别的分组预测。

产品上应把 DeepAR 定位为概率预测引擎,而不是只输出均值的回归模型。它的核心价值是让 planning team 看到 P10/P50/P90,并据此选择不同服务水平。

Temporal Fusion Transformer 的产品架构定位

Temporal Fusion Transformer 适合多变量、多步预测,尤其适合同时使用:

  • 静态特征:门店类型、区域、SKU 类别、客户等级、技能组。
  • 历史观测特征:销量、价格、库存、等待时间、交易量、余额。
  • 未来已知特征:节假日、促销计划、账单日、营销排期、计划价格、排班。

TFT 的价值不只是精度,也包括变量重要性、时间段关注权重和对业务解释的支持。面向金融零售落地时,TFT 应配合模型卡、特征审查和回测证据,否则复杂度会压过收益。

TimesFM 与 foundation models 的定位

TimesFM/foundation models 更适合作为以下能力:

  • 原型阶段的快速 benchmark。
  • 长尾序列、短历史序列的候选基线。
  • 新市场、新门店、新品类上线早期的冷启动辅助。
  • 与本地模型形成 ensemble,提升异常周期的稳健性。

它们不应被包装为“免治理预测”。所有 foundation model 输出仍必须通过本地 backtesting、prediction intervals 校准、业务例外审查和数据合规评估。

NeuralForecast 的工程化定位

Nixtla NeuralForecast 的价值在于把神经预测模型纳入统一训练、预测和评估流程,适合构建企业级实验矩阵:

  • 同一批序列上对比 DeepAR、TFT、N-BEATS、NHITS 等模型。
  • 同一套 rolling-origin backtesting 对比不同 horizon。
  • 输出统一格式供预测服务、dashboard 和决策引擎消费。
  • 将模型实验结果进入 model registry 和 forecast governance。

数据、特征与层级预测

预测粒度设计

粒度不是越细越好。粒度选择要匹配决策动作、数据密度和治理能力。

粒度适合动作风险
SKU-store-day补货、调拨、门店排班稀疏、噪声大、促销和缺货影响强
SKU-region-week采购、预算、供应商协同聚合后掩盖门店差异
Category-channel-weekdemand planning、营销预算对单品执行指导不足
Account-segment-daycashflow forecasting、流动性监控客户行为异质性强
Skill-channel-intervalqueue/contact volume forecasting受系统故障、活动和政策变化冲击明显

Calendar、Holiday 与 Event Features

高级预测架构要把 calendar/holiday/event features 当作正式数据产品管理,而不是在 notebook 中临时拼接。

特征类型示例治理要求
Calendar星期、月初月末、季度末、财年末规则可复现
Holiday春节、感恩节、黑五、圣诞、当地银行假日国家/地区/门店适用范围明确
Retail event促销、上新、清仓、会员日、直播活动计划版本与实际执行版本分离
Financial event发薪日、账单日、还款日、清算窗口、监管报送日对资金流影响口径稳定
Service event系统升级、政策变更、费率调整、客服话术变更事件强度与影响范围结构化
External event天气、交通、竞品活动、宏观指标数据授权与延迟记录明确

关键原则:预测时点不可使用未来才知道的信息。促销计划可以作为未来已知特征,实际销售后才确认的促销执行效果不能在训练样本中以未来口径回填到预测时点。

Hierarchical Forecasting

金融零售和零售预测天然是层级问题。高级架构应同时处理业务层级与时间层级。

业务层级示例:

Company
  Region
    Store
      Channel
        Category
          SKU

财务现金流层级示例:

Enterprise Liquidity
  Currency
    Legal Entity
      Bank Account
        Cashflow Type
          Product Segment

客服容量层级示例:

Customer Operations
  Market
    Channel
      Skill Group
        Queue
          Interval

三种常见策略:

策略做法适用场景
Bottom-up最底层预测后向上汇总底层数据密度高、执行动作在底层
Top-down顶层预测后按比例分解底层噪声大、管理目标在高层
Reconciliation各层独立预测后做一致性调整大中型组织、多层级问责、需要计划一致性

层级预测的产品价值是减少“总部 forecast 和门店 forecast 对不上”的计划摩擦。架构上需要保留每层原始预测、调整后预测、调整方法和影响量,供财务、供应链、运营共同审阅。

概率预测与 Prediction Intervals

Point forecast 只能回答“最可能是多少”。金融零售决策更需要回答:

  • 如果需求高于预期,缺货成本是多少?
  • 如果现金流低于预期,需要准备多少流动性缓冲?
  • 如果 contact volume 达到 P90,SLA 是否还能守住?
  • 如果交易量落在 P95,支付通道和风控队列是否有容量?

输出格式

推荐输出至少包含:

输出含义决策用法
P10低需求或低流入情景评估闲置资源、低负载风险
P50中位预测预算、常规计划、管理层口径
P90高需求或高压力情景安全库存、备用资金、排班上限、扩容触发
Prediction interval给定覆盖率下的预测区间风险边界、审计解释、异常预警
Scenario forecast特定假设下预测促销、利率变化、市场冲击、系统事件模拟

评估指标

概率预测要避免只看 MAPE。更完整的评估组合包括:

指标适合问题
MAE / RMSE点预测误差,适合基础比较
WAPE零售和客服量级预测常用,便于业务解释
MASE跨序列比较,避免规模差异
Pinball loss分位数预测质量
Coverageprediction intervals 是否达到承诺覆盖率
CalibrationP90 是否真的约有 90% 实际值落在其下方
Service-level impact预测进入决策后是否改善缺货、SLA、资金缓冲
Cost-weighted error将高估与低估的业务成本差异纳入评价

高级产品负责人要坚持“预测指标”和“决策指标”双轨评估。模型误差下降但库存周转变差,说明 forecast-to-decision loop 没有真正优化。

Backtesting 与 Leakage 治理

Backtesting 设计

时间序列不能随机切分。推荐 rolling-origin backtesting:

Train: Jan-Mar  Predict: Apr week 1
Train: Jan-Apr  Predict: May week 1
Train: Jan-May  Predict: Jun week 1

每个 backtest fold 都应模拟真实预测时点:

  • 只使用预测时点已经可用的数据。
  • 未来已知特征必须来自冻结计划版本。
  • 库存、价格、促销、财务到账等修正数据要按 as-of 时间重建。
  • 指标按 horizon 分层展示,例如 D+1、D+7、W+4、M+3。
  • 对新品、长尾、缺货、异常活动、高价值实体分别切片。

Leakage 类型与治理

Leakage 类型例子防控方式
Target leakage使用实际销量后的补货结果预测销量特征生成基于 as-of timestamp
Future feature leakage使用实际促销效果、实际天气、实际排班缺勤预测时点只能使用已知或可预测版本
Aggregation leakage月度总销量在月中预测时已被完整聚合进特征聚合窗口必须截断到预测时点
Reconciliation leakage用包含未来实际的上层口径校正下层预测层级校准只使用预测时点可见数据
Human override leakage计划人员看过实际后回填覆盖理由覆盖记录锁定时间和用户
Data correction leakage历史回补数据直接覆盖训练样本,无法复原原始可见状态保留事件时间、入仓时间和修正版本

回测报告最低结构

模块内容
Forecast contract粒度、horizon、cadence、SLA
Dataset snapshot训练窗口、验证窗口、数据版本、实体覆盖
Feature availability每类特征在预测时点的可用性证明
Model comparisonbaseline、Prophet、DeepAR、TFT、TimesFM 或 NeuralForecast 组合
Metric slices总体、层级、长尾、高价值、活动期、异常期
Interval qualitycoverage、pinball loss、calibration
Decision simulation缺货、资金缓冲、SLA、容量成本的模拟影响
Governance decision上线、灰度、限制使用或继续研究的理由

产品决策与运营闭环

Forecast-to-decision loop 的成熟度决定预测系统是否真正进入组织肌肉。

闭环步骤

  1. Define decision:明确预测影响的动作和成本函数。
  2. Generate forecast:输出点预测、分位数、prediction intervals 与情景版本。
  3. Optimize decision:将预测输入补货、现金调拨、排班、容量扩容或预算分配模型。
  4. Human review:业务负责人按规则覆盖,并记录原因与影响。
  5. Execute:进入 ERP、WMS、资金系统、排班系统、客服平台或云资源编排。
  6. Observe actuals:收集实际销量、现金流、contact volume、SLA、库存、资金占用。
  7. Evaluate decision:同时评估 forecast accuracy 与 business impact。
  8. Learn:把覆盖理由、异常事件和决策结果反馈到数据产品、特征和治理规则。

产品界面应展示什么

预测界面不应只是折线图。高级界面应包含:

模块展示内容
Forecast overviewP50、P10/P90、上一版预测、实际值、主要变化
Driver explanation主要 calendar/holiday/event features、价格、促销、历史趋势、异常事件
Hierarchy navigation从集团到区域、门店、SKU 或从市场到技能组的 drill-down
Decision recommendation建议补货量、现金缓冲、排班人数、容量阈值
Confidence and risk区间宽度、覆盖率、模型稳定性、数据质量
Override panel覆盖数值、结构化原因、审批人、影响估计
Backtest card最近窗口表现、与 baseline 差异、关键切片
Audit trail数据版本、模型版本、发布时间、审批记录

人工覆盖不是失败

在金融零售落地中,人工覆盖是治理设计的一部分。关键不是禁止覆盖,而是让覆盖可学习:

  • 覆盖理由结构化,例如“已知大客户流失”“门店装修”“监管窗口”“促销临时加码”。
  • 覆盖影响量化,例如对补货金额、现金缓冲、SLA 或容量成本的影响。
  • 覆盖后评估,例如覆盖是否比模型更接近实际,长期是否存在系统性偏差。
  • 覆盖权限分层,例如高金额现金调拨、高风险库存决策需要双人审批。

风险治理与审计

Forecast governance 要把 NIST AI RMF 的治理语言落到可执行控件上。

NIST AI RMF 维度Forecasting 落地方式
Govern预测用例登记、owner、审批门槛、模型卡、数据责任人、例外流程
Map业务影响、用户影响、监管影响、失败模式、上下游依赖
Measurebacktesting、drift、coverage、leakage scan、数据质量、业务影响评估
Manage上线闸门、灰度策略、回滚、人工覆盖、事件复盘、周期性审查

模型卡要覆盖的高级问题

问题审计关注
预测驱动什么决策模型是否进入高影响业务流程
哪些人群、门店或区域受影响是否存在服务水平或资源分配不公平
特征是否合规是否使用敏感属性、受限数据或不可解释代理变量
预测区间如何校准区间是否被业务误读为确定承诺
人工覆盖如何审计覆盖是否被用于规避控制或掩盖模型偏差
模型何时降级数据延迟、漂移、异常事件、覆盖率失效时的降级路径

关键控制点

  1. Use-case tiering:现金流、授信、监管报送、客户服务水平等高影响用例必须进入增强审查。
  2. Data lineage:每次预测都能追溯数据快照、特征版本、模型版本和运行参数。
  3. Leakage scan:每次训练前检查未来特征、修正数据和聚合窗口。
  4. Interval calibration:预测区间失准时触发重新校准或限制使用。
  5. Human override review:高频覆盖、高金额覆盖、方向性偏差覆盖进入治理会议。
  6. Model fallback:高级模型失败时切回 baseline 或上一稳定版本。
  7. Decision audit:审计关注的不只是预测值,也包括预测如何改变业务动作。

金融零售、零售、电商、客服与容量规划场景

场景 1:Financial Liquidity / Cashflow Forecasting

目标:预测资金流入、流出、账户余额、现金需求和流动性压力,用于 treasury、门店现金、ATM 补钞、支付清算和监管缓冲。

架构要点:

维度设计
Forecast graincurrency x legal entity x bank account x cashflow type x day
Horizon日内、D+1、D+7、13 周滚动
Features工资日、账单日、还款日、节假日、清算周期、贷款发放、营销活动、宏观利率
Model candidatesSeasonal baseline、gradient boosting、DeepAR、TFT、TimesFM benchmark
OutputP10/P50/P90 cash balance、stress scenario、liquidity buffer
Decision engine资金调拨、短融安排、现金配送、支付限额预案
Governance高影响用例,要求审计日志、人工审批、模型降级方案

产品洞察:现金流预测的低估成本通常高于高估成本,因此目标不是最小化平均误差,而是控制低分位风险和 liquidity buffer 的资本效率。

场景 2:Retail Demand Forecasting

目标:预测门店、渠道、品类、SKU 的需求,用于补货、采购、调拨、促销和库存健康。

架构要点:

维度设计
Forecast grainSKU x store x channel x daycategory x region x week 双层
Features价格、折扣、会员日、节假日、天气、库存可得性、竞品事件、上新/清仓
HierarchySKU-store 到区域品类,再到集团 demand planning
Probabilistic outputP50 用于常规补货,P90 用于高服务水平 SKU
Decision metrics缺货率、库存周转、毛利、清仓率、服务水平
Leakage control缺货日销量低估真实需求,需标记 stockout censoring

产品洞察:零售需求预测要同时预测“需求”和“可观测销售”。缺货时销售数据被库存上限截断,直接训练会把缺货误学成低需求。

场景 3:E-commerce Demand Planning

目标:预测流量、订单、转化、退款、履约压力和营销活动效果,用于预算、仓配和前台体验保障。

架构要点:

维度设计
Forecast objectsvisits、orders、GMV、refunds、returns、warehouse picks
Features活动日历、投放计划、站内曝光、优惠券、价格、推荐位、节假日
Model strategyTFT 处理未来已知活动,foundation model 做快速 benchmark,ensemble 提升活动期稳健性
Decision loop营销预算、仓库班次、配送窗口、客服预案
Governance活动预测需要版本冻结,避免活动后数据回填污染训练

产品洞察:电商活动期的预测误差通常来自“计划版本变化”,不是模型本身。产品架构必须保存每次活动计划版本,才能解释预测偏差。

场景 4:Queue / Contact Volume Forecasting

目标:预测客服 contact volume、渠道分布、技能组量和到达模式,用于排班、外包、机器人分流和 SLA 管理。

架构要点:

维度设计
Forecast grainmarket x channel x skill group x interval
Features账单日、还款日、系统变更、产品上线、费率调整、营销活动、节假日
Outputsinterval-level P50/P90 contact volume、channel mix、peak load
Decision engine排班、外包容量、IVR 路由、机器人知识库预热
MetricsSLA、平均等待时间、放弃率、occupancy、overstaffing cost
Advanced design将 contact volume 与 AHT 分开预测,再进入 workforce management

产品洞察:客服预测不是只预测一天总量。真正影响 SLA 的是 15 分钟或 30 分钟 interval 到达量、技能组匹配和平均处理时长。

场景 5:Capacity Forecasting

目标:预测系统、仓配、支付通道、人力、机器人、风控队列和云资源的容量压力。

架构要点:

容量对象Forecast targetDecision
Cloud / APITPS、CPU、queue depth、latency扩容、限流、缓存预热
Payment railstransaction count、amount、failure rate通道路由、额度申请、备用通道
Warehousepicks、packs、returns、dock appointments班次、人力、库区分配
Fraud operationsalert volume、review queue、case complexity审核人力、规则阈值、自动化比例
Contact centercalls、chat、email、bot fallback排班、机器人分流、外包调用

产品洞察:capacity forecasting 的失败通常不是预测均值错,而是峰值区间低估。P90/P95 预测和 stress scenario 比 P50 更接近运营价值。

模板

模板 1:Forecast Product One-Pager

字段内容
Product name预测产品名称
Decision owner对业务动作负责的角色
Forecast target被预测指标和业务定义
Grain and horizon粒度、预测周期、发布时间
Decision action预测触发的补货、资金、排班、容量或风险动作
Cost of under-forecast低估成本
Cost of over-forecast高估成本
Required outputsP50、P10/P90、prediction intervals、scenario forecasts
Baseline当前人工、规则或统计基线
Go-live gate上线所需的 backtesting、coverage、业务模拟标准
Audit evidence数据、特征、模型、审批与覆盖记录

模板 2:Feature Availability Matrix

FeatureKnown at forecast timeSource systemUpdate cadenceLeakage riskGovernance control
Holiday calendarYesMaster calendarAnnual with exceptionsLowVersioned calendar
Promotion planYes, if frozenPromotion planningDaily during planningMediumFreeze version by forecast run
Actual promotion upliftNoSales analyticsAfter eventHighExclude from forecast-time features
Weather forecastPartiallyWeather providerHourly or dailyMediumStore provider timestamp
Actual weatherNo for futureWeather providerAfter eventHighUse only historical windows
Inventory on handYes with latencyERP/WMSNear real timeMediumAs-of snapshot
Stockout flagKnown after intervalPOS/WMSDailyMediumUse lagged or historical only

模板 3:Model Selection Decision Record

SectionDecision
Business decision预测将驱动的业务动作
Candidate modelsBaseline、Prophet、DeepAR、TFT、TimesFM、NeuralForecast models
Selection criteriaAccuracy、coverage、latency、explainability、cost、governance
Backtest designRolling-origin windows、horizon、entity slices
Winner选择的主模型或 ensemble
Rejected options被排除方案及理由
Risk controlsLeakage scan、fallback、human override、audit trail
Review cadence模型表现和治理复审周期

模板 4:Backtesting and Leakage Review

Review itemEvidence
Train/test windows are time orderedWindow table and run ID
No random split is usedExperiment config
All features have as-of timestampFeature store metadata
Future known features are versionedCalendar and event version
Historical corrections are traceableData lineage and correction log
Baseline comparison existsBaseline metrics by horizon
Prediction intervals are calibratedCoverage and pinball loss
Decision simulation completedCost, SLA, service level, liquidity impact

模板 5:Forecast Governance Review

DimensionReview question
Accountability谁对预测驱动的动作负责
Materiality预测失败会造成多大财务、客户或监管影响
Data rights数据使用是否符合权限、隐私和监管要求
Explainability业务是否理解主要驱动因素与区间含义
Override覆盖是否有权限、理由、审批和回测
Drift数据、误差、区间覆盖率是否稳定
Incident response模型失效时是否有降级和沟通机制

30 天高级训练计划

第 1 周:Forecast-to-Decision 基础架构

训练主题高级产出
Day 1选择一个金融零售预测场景Forecast Product One-Pager
Day 2定义 forecast grain、horizon、cadenceForecast Contract
Day 3画出现有数据链路与系统边界Data Product Map
Day 4设计 calendar/holiday/event featuresFeature Availability Matrix
Day 5设计 baseline 与业务当前规则比较Baseline Evaluation Plan
Day 6定义决策成本函数Under/Over Forecast Cost Model
Day 7复盘架构缺口Forecast-to-Decision Architecture Diagram

第 2 周:模型组合与概率预测

训练主题高级产出
Day 8Prophet 与统计基线适配性分析Baseline and Prophet Decision Record
Day 9DeepAR 适配多序列概率预测DeepAR Fit Assessment
Day 10TFT 的协变量与解释设计TFT Feature and Explainability Plan
Day 11TimesFM/foundation models 的 benchmark 设计Foundation Model Evaluation Brief
Day 12NeuralForecast 实验矩阵设计Model Portfolio Experiment Matrix
Day 13Quantile 与 prediction intervals 设计Probabilistic Output Spec
Day 14指标体系与业务模拟Accuracy and Decision Metrics Map

第 3 周:层级、回测与治理

训练主题高级产出
Day 15设计 hierarchical forecasting 层级Hierarchy and Reconciliation Plan
Day 16Rolling-origin backtestingBacktest Window Design
Day 17Leakage 风险扫描Leakage Control Checklist
Day 18模型卡与用例分级Forecast Model Card
Day 19NIST AI RMF 映射Forecast Governance Control Map
Day 20人工覆盖流程Override and Approval Policy
Day 21灰度上线与降级路径Release and Fallback Plan

第 4 周:金融零售落地案例

训练主题高级产出
Day 22Financial liquidity/cashflow forecastingTreasury Forecast Architecture
Day 23Retail demand forecastingSKU-store Demand Planning Design
Day 24Queue/contact volume forecastingWorkforce Forecast and Staffing Design
Day 25Capacity forecastingCapacity Risk and Scaling Design
Day 26电商活动预测Campaign Demand Planning Design
Day 27决策引擎设计Forecast-to-Decision Optimization Brief
Day 28审计与监控 dashboardGovernance Dashboard Spec
Day 29高管沟通材料Executive Forecast Risk Memo
Day 30面试与作品集整合Portfolio Case Storyline

面试答案

1. 如何设计一个 time-series forecasting product architecture?

30 秒回答:我会从业务动作倒推,而不是从模型倒推。先定义预测影响的库存、资金、排班或容量决策,再定义 Forecast Contract、数据产品、特征可用性、模型组合、概率输出、人工覆盖、回测和治理闭环。

2 分钟回答:一个成熟的 forecasting 产品架构包含九层:Decision Context、Forecast Contract、Data Product、Feature Layer、Model Portfolio、Probabilistic Forecast Service、Decision Engine、Workflow Layer、Monitoring and Governance。模型层可以包含 baseline、Prophet、DeepAR、TFT、TimesFM 或 NeuralForecast 组合,但模型只是中间层。真正的产品价值来自 forecast-to-decision loop,例如预测进入补货、现金调拨、客服排班或容量扩容,并通过实际结果反哺回测和治理。

追问处理:如果面试官问“如何证明价值”,我会同时看 forecast accuracy 和 decision impact,例如缺货率、库存周转、SLA、资金缓冲成本、资源利用率,而不是只看 MAPE。

2. DeepAR、TFT、TimesFM 怎么选?

30 秒回答:DeepAR 适合大量相关序列的概率预测;TFT 适合多变量、多步预测和未来已知协变量丰富的业务;TimesFM/foundation models 适合快速 benchmark、冷启动和少样本场景,但必须经过本地回测和治理校准。

2 分钟回答:如果我有很多门店 SKU、客服队列或现金流类别序列,并希望输出分布,我会优先评估 DeepAR。如果业务有丰富的静态特征、历史特征和未来已知特征,例如促销日历、价格计划、节假日、账单日,我会评估 TFT,因为它对 multi-horizon forecasting 和解释更友好。TimesFM 这类 foundation model 可以降低启动成本,尤其适合新市场或长尾序列,但它不是免训练、免审计的替代品。最终选择要基于 rolling-origin backtesting、prediction interval calibration、业务切片和上线治理成本。

追问处理:如果面试官问“是否一定用深度模型”,我的回答是不会。所有复杂模型都要先打赢 seasonal naive 或当前业务规则,否则没有上线理由。

3. 为什么 demand planning 需要 probabilistic forecasting?

30 秒回答:因为计划决策面对的是不确定性和非对称成本。低估需求会缺货或 SLA 失败,高估需求会库存积压或资源浪费,所以 P50 只是一个口径,P90/P95 才能支持服务水平和风险缓冲。

2 分钟回答:在 demand planning 中,点预测会把风险隐藏起来。零售补货要决定安全库存,客服排班要决定峰值人力,资金预测要决定 liquidity buffer,容量规划要决定扩容阈值。每个决策都对应不同风险偏好。因此我会输出 P10/P50/P90、prediction intervals 和 scenario forecasts,并用 coverage、pinball loss、calibration 和业务成本模拟来评估,而不是只报告平均误差。

追问处理:如果面试官问“业务不懂概率怎么办”,我会用决策语言翻译:P90 不是“更准确预测”,而是“为了 90% 服务水平需要准备多少资源”。

4. 如何治理 leakage?

30 秒回答:核心原则是模拟真实预测时点。训练、验证和特征生成都必须按 as-of timestamp 重建,未来才知道的数据不能进入预测时点。

2 分钟回答:我会从六类 leakage 入手:target leakage、future feature leakage、aggregation leakage、reconciliation leakage、human override leakage 和 data correction leakage。治理方式包括事件时间与入仓时间分离、特征可用性矩阵、冻结活动日历版本、rolling-origin backtesting、数据修正版本保留、人工覆盖锁定时间,以及上线前 leakage scan。尤其在金融零售中,实际到账、实际促销效果、实际缺勤、实际天气等数据很容易在历史训练集中被误用。

追问处理:如果面试官问“怎么发现 leakage”,我会看异常高的回测表现、活动期表现不合理、线上线下误差断裂、特征重要性异常,以及未来可用性审计失败。

5. 如何设计 financial liquidity/cashflow forecasting?

30 秒回答:我会按 currency、legal entity、bank account、cashflow type 和日期建模,输出 P10/P50/P90 资金流和余额,用于资金调拨、融资安排、现金配送和监管缓冲。

2 分钟回答:现金流预测的关键不是销量式准确率,而是低估风险控制和资本效率平衡。架构上需要整合账户余额、支付清算、贷款发放、还款、提现、工资日、账单日、节假日、监管窗口和宏观变量。模型上可以从 seasonal baseline 和 gradient boosting 开始,再评估 DeepAR、TFT 或 TimesFM benchmark。输出必须是概率区间和 stress scenario,进入 treasury workflow,并保留审批、覆盖和审计记录。

追问处理:如果面试官问“如何处理监管风险”,我会将该用例列为高影响 AI 用例,要求模型卡、数据血缘、人工审批、回滚机制和周期性治理审查。

6. Hierarchical forecasting 的价值是什么?

30 秒回答:它解决组织计划的一致性问题,让门店、区域、品类、渠道和集团级预测能够对齐,减少“各层数字都对但合起来不对”的管理摩擦。

2 分钟回答:零售和金融零售天然有层级结构。比如 SKU-store-day 是执行层,category-region-week 是采购和预算层,company-month 是管理层。可以采用 bottom-up、top-down 或 reconciliation。高级架构不会只保留最终数字,而会保留各层原始预测、调整后预测、调整方法和影响量。这样供应链、财务和运营可以围绕同一套数字协同。

追问处理:如果面试官问“何时不用最底层预测”,我会说当底层序列太稀疏、噪声太高或执行动作不在底层时,直接 bottom-up 可能放大误差。

7. Queue/contact volume forecasting 和普通销量预测有什么不同?

30 秒回答:客服预测更关注 interval-level 到达量、渠道和技能组组合,以及它们对 SLA、等待时间和排班的影响,而不是只预测一天总量。

2 分钟回答:queue/contact volume forecasting 需要按 market、channel、skill group、interval 建模,并把 contact volume 和 AHT 分开预测。特征包括账单日、还款日、系统变更、产品上线、政策调整、营销活动和节假日。输出应进入 workforce management,用 P50 做常规排班,用 P90 管理峰值和外包容量。评估指标除了 WAPE,还要看 SLA、平均等待时间、放弃率、occupancy 和 overstaffing cost。

追问处理:如果面试官问“机器人会不会改变预测”,我会将 bot containment、bot fallback、话题结构变化作为特征和反馈信号,而不是把机器人当成外部黑箱。

8. Forecast governance 如何落地?

30 秒回答:我会用 NIST AI RMF 的 Govern、Map、Measure、Manage 做治理骨架,把预测用例登记、风险分级、数据血缘、backtesting、leakage scan、人工覆盖和模型降级变成可执行控件。

2 分钟回答:forecast governance 的重点是控制预测如何影响业务动作。Govern 定义 owner、审批和模型卡;Map 明确业务影响和失败模式;Measure 做 backtesting、drift、coverage 和 leakage scan;Manage 定义上线闸门、灰度、回滚、覆盖审查和事件复盘。金融零售场景中,高影响预测如现金流、客户服务水平、授信和监管相关用例必须比普通运营预测接受更强审查。

追问处理:如果面试官问“治理会不会拖慢创新”,我会回答:治理不是把模型挡在门外,而是让模型可以进入高价值决策。没有审计和降级能力的模型,只能停留在分析看板。