AI 扩展计划 / Playbooks

AI Forecasting / Demand Planning Product Architecture Playbook

以下资料用于校准术语、模型边界与治理框架。本文不是论文复述，而是面向金融零售、零售、电商、客服与容量规划的产品架构转译。

657 行AI_FORECASTING_DEMAND_PLANNING_PRODUCT_ARCHITECTURE_PLAYBOOK.md

AI Forecasting、Demand Planning 与产品架构 Playbook

面向已具备 CBAP 级需求工程、金融零售业务理解与架构协作经验的读者。本 playbook 不讲 BA 入门方法，而是聚焦如何把 AI 预测能力设计成可审计、可运营、可落地的产品与架构资产。

Source Anchors

以下资料用于校准术语、模型边界与治理框架。本文不是论文复述，而是面向金融零售、零售、电商、客服与容量规划的产品架构转译。

Anchor	用途
DeepAR: Probabilistic Forecasting with Autoregressive Recurrent Networks	多序列概率预测、分布输出、相关时间序列共享学习的经典神经预测基线
Temporal Fusion Transformers for Interpretable Multi-horizon Time Series Forecasting	多步预测、静态/历史/未来已知协变量、变量重要性与可解释性设计
TimesFM: A decoder-only foundation model for time-series forecasting	time-series foundation models、zero-shot/少样本预测、跨领域泛化能力边界
Nixtla NeuralForecast	DeepAR、TFT、N-BEATS、NHITS 等神经预测模型的工程化训练、回测与批量预测工具链
NIST AI Risk Management Framework 1.0	forecast governance 的风险治理语言：Govern、Map、Measure、Manage
Forecasting: Principles and Practice	backtesting、hierarchical forecasting、prediction intervals 与业务预测的基础方法论参考

一句话定位

Forecasting 产品架构的核心不是“把未来数值预测得更准”，而是构建一个可治理的 forecast-to-decision loop：把不确定性、约束、成本、服务水平、人工覆盖与审计证据连接起来，让预测稳定转化为库存、资金、客服、人力、产能和风险动作。

为什么重要

金融零售与零售业务中的预测不是孤立分析任务。一次预测会触发资金调拨、库存补货、营销节奏、呼叫中心排班、云资源扩容、门店现金配送、欺诈监控阈值、授信额度管理和管理层预警。如果架构只交付点预测，业务会在真正决策时自行补齐风险偏好、置信边界和例外处理，结果通常是：模型看似准确，运营仍然失控。

高级 AI 产品与架构视角下，forecasting 的价值体现在五个层面：

决策前移：从月末复盘转向周内滚动、日内调度和事件前模拟。
不确定性显性化：用 probabilistic forecasting 和 prediction intervals 表达风险，而非只给一个 P50 数字。
层级一致性：通过 hierarchical forecasting 让 SKU、门店、区域、渠道、品类、国家级预测可加总、可解释、可问责。
运营可闭环：预测结果进入 demand planning、capacity forecasting、资金计划、客服排班和异常处置流程，而不是停留在 dashboard。
治理可审计：将数据版本、特征可用时间、backtesting、leakage 检查、人工覆盖与审批记录纳入 forecast governance。

Forecast-to-Decision 架构

Time-series forecasting product architecture 应从“业务动作”倒推，而不是从模型倒推。架构分为九层：

flowchart LR
    A[Decision Context<br/>库存/资金/客服/容量/风险] --> B[Forecast Contract<br/>粒度/周期/范围/延迟/服务水平]
    B --> C[Data Products<br/>交易/库存/事件/日历/价格/排班/宏观]
    C --> D[Feature Layer<br/>calendar holiday event features<br/>价格 促销 天气 工资日 账单日]
    D --> E[Model Portfolio<br/>Baseline Prophet DeepAR TFT TimesFM NeuralForecast]
    E --> F[Probabilistic Forecast Service<br/>P10 P50 P90 quantiles prediction intervals]
    F --> G[Decision Engine<br/>补货 现金调拨 人力排班 预算 容量]
    G --> H[Workflow Layer<br/>审批 覆盖 例外 协同计划]
    H --> I[Monitoring and Governance<br/>backtesting leakage drift audit]
    I --> B

1. Decision Context

每个预测产品必须先定义“预测会改变什么动作”。典型决策包括：

场景	决策动作	预测对象	决策成本
Retail demand	补货、调拨、促销节奏	SKU-store-channel demand	缺货、积压、毛利损失、清仓折扣
Financial liquidity/cashflow forecasting	资金头寸、现金调拨、融资安排	cash inflow/outflow、账户余额、ATM/门店现金需求	流动性压力、闲置资金、调拨成本、监管风险
Queue/contact volume forecasting	坐席排班、外包容量、IVR 分流	contact volume、channel mix、skill group volume	SLA 违约、等待时间、过度排班
Capacity forecasting	云资源、仓配、人力、支付通道限额	transaction load、warehouse picks、delivery slots、API TPS	服务中断、资源浪费、体验下降
Demand planning	S&OP、采购、预算、营销协同	product/channel/region demand	计划冲突、预算错配、供应链震荡

2. Forecast Contract

Forecast Contract 是产品与数据科学团队之间的“预测合约”。它比“需求说明”更硬，因为它决定了数据、模型、指标、SLA 和治理边界。

字段	高级定义
Business owner	对预测驱动动作负责的人，而不是 dashboard 浏览者
Forecast grain	时间粒度、业务实体粒度、层级路径，例如 `day x SKU x store x channel`
Horizon	预测未来多久，例如 1 天、14 天、13 周、12 个月
Cadence	何时训练、何时预测、何时冻结计划
Latency	数据进入预测链路允许的最大延迟
Known future inputs	未来可提前知道的特征，例如节假日、工资日、促销日历、计划价格、营销活动
Unknown future drivers	无法提前知道但可做情景模拟的变量，例如竞品冲击、天气极端事件、市场恐慌
Output type	point forecast、quantiles、prediction intervals、scenario forecasts
Decision SLA	预测必须在何时前到达下游工作流
Human override rule	谁可以覆盖、覆盖理由如何结构化、覆盖后如何回测
Audit evidence	数据快照、特征版本、模型版本、审批记录、指标快照

3. Data Product Layer

预测不是直接读取源系统表，而应读取面向预测的数据产品。金融零售环境尤其需要数据血缘、权限、可追溯与跨系统一致性。

关键数据域包括：

数据域	示例	架构要求
交易事实	销售订单、支付流水、提现、转账、退款、客服工单	事件时间与入仓时间分离，保留修正记录
库存与供应	在手库存、在途库存、采购订单、供应商交期	区分可售库存、冻结库存、安全库存
价格与促销	原价、折扣、券、积分、满减、会员权益	生效时间、适用范围、叠加规则可结构化
日历与事件	calendar/holiday/event features、工资日、账单日、开学季、黑五、春节	未来已知，必须具备冻结版本
客服运营	contact volume、AHT、渠道、技能组、排班、放弃率	量与处理时长分开建模
财务资金	账户余额、清算周期、资金到账、付款批次、现金调拨	对账状态、资金可用性、监管口径明确
容量资源	API TPS、CPU、队列长度、仓库产能、配送窗口	实时指标与计划指标分层

模型与方案选择

模型选择应由业务粒度、预测周期、数据规模、外生变量、解释要求与治理成本共同决定。高级团队通常使用 model portfolio，而不是押注单一模型。

方案选择矩阵

方案	适用场景	优势	架构注意点
Naive / Seasonal Naive	建立底线、低频长尾序列	透明、稳定、成本低	所有高级模型必须稳定超过 baseline
ETS / ARIMA	单序列、规律性强、数据较干净	统计解释清晰	对多实体扩展能力弱
Prophet	有明显节假日、趋势、季节性且需要快速交付	calendar/holiday/event features 使用友好	对复杂层级、多变量交互和极端稀疏序列需谨慎
Gradient Boosting	特征工程强、实体多、结构化业务变量丰富	可解释、易控、适合 tabular 特征	需要严格 as-of 特征生成，避免 leakage
DeepAR	大量相关时间序列、需要 probabilistic forecasting	共享学习、分布输出、适合冷启动相近序列	需要足够序列数量和稳定训练管线
Temporal Fusion Transformer	多步预测、静态协变量、历史协变量、未来已知协变量丰富	可处理多源变量，具备解释组件	模型复杂，治理与性能监控要求高
TimesFM / foundation models	快速 zero-shot、少样本预测、原型验证、长尾序列补强	低建模启动成本，跨领域迁移潜力高	必须和本地回测、业务校准、数据合规结合
NeuralForecast	工程化神经预测平台，支持多模型比较	训练、预测、回测流程统一	需要配套 MLOps、特征版本与模型注册
Hybrid / Ensemble	高价值决策、不同模型擅长不同粒度	稳健性更高	决策层必须解释组合逻辑和覆盖策略

DeepAR 的产品架构定位

DeepAR 适合“许多相关序列共享模式”的场景，例如：

门店 SKU 日销量。
ATM 或分行现金需求。
客服技能组每日 contact volume。
支付交易量和渠道负载。
账户余额或现金流类别的分组预测。

产品上应把 DeepAR 定位为概率预测引擎，而不是只输出均值的回归模型。它的核心价值是让 planning team 看到 P10/P50/P90，并据此选择不同服务水平。

Temporal Fusion Transformer 的产品架构定位

Temporal Fusion Transformer 适合多变量、多步预测，尤其适合同时使用：

静态特征：门店类型、区域、SKU 类别、客户等级、技能组。
历史观测特征：销量、价格、库存、等待时间、交易量、余额。
未来已知特征：节假日、促销计划、账单日、营销排期、计划价格、排班。

TFT 的价值不只是精度，也包括变量重要性、时间段关注权重和对业务解释的支持。面向金融零售落地时，TFT 应配合模型卡、特征审查和回测证据，否则复杂度会压过收益。

TimesFM 与 foundation models 的定位

TimesFM/foundation models 更适合作为以下能力：

原型阶段的快速 benchmark。
长尾序列、短历史序列的候选基线。
新市场、新门店、新品类上线早期的冷启动辅助。
与本地模型形成 ensemble，提升异常周期的稳健性。

它们不应被包装为“免治理预测”。所有 foundation model 输出仍必须通过本地 backtesting、prediction intervals 校准、业务例外审查和数据合规评估。

NeuralForecast 的工程化定位

Nixtla NeuralForecast 的价值在于把神经预测模型纳入统一训练、预测和评估流程，适合构建企业级实验矩阵：

同一批序列上对比 DeepAR、TFT、N-BEATS、NHITS 等模型。
同一套 rolling-origin backtesting 对比不同 horizon。
输出统一格式供预测服务、dashboard 和决策引擎消费。
将模型实验结果进入 model registry 和 forecast governance。

数据、特征与层级预测

预测粒度设计

粒度不是越细越好。粒度选择要匹配决策动作、数据密度和治理能力。

粒度	适合动作	风险
SKU-store-day	补货、调拨、门店排班	稀疏、噪声大、促销和缺货影响强
SKU-region-week	采购、预算、供应商协同	聚合后掩盖门店差异
Category-channel-week	demand planning、营销预算	对单品执行指导不足
Account-segment-day	cashflow forecasting、流动性监控	客户行为异质性强
Skill-channel-interval	queue/contact volume forecasting	受系统故障、活动和政策变化冲击明显

Calendar、Holiday 与 Event Features

高级预测架构要把 calendar/holiday/event features 当作正式数据产品管理，而不是在 notebook 中临时拼接。

特征类型	示例	治理要求
Calendar	星期、月初月末、季度末、财年末	规则可复现
Holiday	春节、感恩节、黑五、圣诞、当地银行假日	国家/地区/门店适用范围明确
Retail event	促销、上新、清仓、会员日、直播活动	计划版本与实际执行版本分离
Financial event	发薪日、账单日、还款日、清算窗口、监管报送日	对资金流影响口径稳定
Service event	系统升级、政策变更、费率调整、客服话术变更	事件强度与影响范围结构化
External event	天气、交通、竞品活动、宏观指标	数据授权与延迟记录明确

关键原则：预测时点不可使用未来才知道的信息。促销计划可以作为未来已知特征，实际销售后才确认的促销执行效果不能在训练样本中以未来口径回填到预测时点。

Hierarchical Forecasting

金融零售和零售预测天然是层级问题。高级架构应同时处理业务层级与时间层级。

业务层级示例：

Company
  Region
    Store
      Channel
        Category
          SKU

财务现金流层级示例：

Enterprise Liquidity
  Currency
    Legal Entity
      Bank Account
        Cashflow Type
          Product Segment

客服容量层级示例：

Customer Operations
  Market
    Channel
      Skill Group
        Queue
          Interval

三种常见策略：

策略	做法	适用场景
Bottom-up	最底层预测后向上汇总	底层数据密度高、执行动作在底层
Top-down	顶层预测后按比例分解	底层噪声大、管理目标在高层
Reconciliation	各层独立预测后做一致性调整	大中型组织、多层级问责、需要计划一致性

层级预测的产品价值是减少“总部 forecast 和门店 forecast 对不上”的计划摩擦。架构上需要保留每层原始预测、调整后预测、调整方法和影响量，供财务、供应链、运营共同审阅。

概率预测与 Prediction Intervals

Point forecast 只能回答“最可能是多少”。金融零售决策更需要回答：

如果需求高于预期，缺货成本是多少？
如果现金流低于预期，需要准备多少流动性缓冲？
如果 contact volume 达到 P90，SLA 是否还能守住？
如果交易量落在 P95，支付通道和风控队列是否有容量？

输出格式

推荐输出至少包含：

输出	含义	决策用法
P10	低需求或低流入情景	评估闲置资源、低负载风险
P50	中位预测	预算、常规计划、管理层口径
P90	高需求或高压力情景	安全库存、备用资金、排班上限、扩容触发
Prediction interval	给定覆盖率下的预测区间	风险边界、审计解释、异常预警
Scenario forecast	特定假设下预测	促销、利率变化、市场冲击、系统事件模拟

评估指标

概率预测要避免只看 MAPE。更完整的评估组合包括：

指标	适合问题
MAE / RMSE	点预测误差，适合基础比较
WAPE	零售和客服量级预测常用，便于业务解释
MASE	跨序列比较，避免规模差异
Pinball loss	分位数预测质量
Coverage	prediction intervals 是否达到承诺覆盖率
Calibration	P90 是否真的约有 90% 实际值落在其下方
Service-level impact	预测进入决策后是否改善缺货、SLA、资金缓冲
Cost-weighted error	将高估与低估的业务成本差异纳入评价

高级产品负责人要坚持“预测指标”和“决策指标”双轨评估。模型误差下降但库存周转变差，说明 forecast-to-decision loop 没有真正优化。

Backtesting 与 Leakage 治理

Backtesting 设计

时间序列不能随机切分。推荐 rolling-origin backtesting：

Train: Jan-Mar  Predict: Apr week 1
Train: Jan-Apr  Predict: May week 1
Train: Jan-May  Predict: Jun week 1

每个 backtest fold 都应模拟真实预测时点：

只使用预测时点已经可用的数据。
未来已知特征必须来自冻结计划版本。
库存、价格、促销、财务到账等修正数据要按 as-of 时间重建。
指标按 horizon 分层展示，例如 D+1、D+7、W+4、M+3。
对新品、长尾、缺货、异常活动、高价值实体分别切片。

Leakage 类型与治理

Leakage 类型	例子	防控方式
Target leakage	使用实际销量后的补货结果预测销量	特征生成基于 as-of timestamp
Future feature leakage	使用实际促销效果、实际天气、实际排班缺勤	预测时点只能使用已知或可预测版本
Aggregation leakage	月度总销量在月中预测时已被完整聚合进特征	聚合窗口必须截断到预测时点
Reconciliation leakage	用包含未来实际的上层口径校正下层预测	层级校准只使用预测时点可见数据
Human override leakage	计划人员看过实际后回填覆盖理由	覆盖记录锁定时间和用户
Data correction leakage	历史回补数据直接覆盖训练样本，无法复原原始可见状态	保留事件时间、入仓时间和修正版本

回测报告最低结构

模块	内容
Forecast contract	粒度、horizon、cadence、SLA
Dataset snapshot	训练窗口、验证窗口、数据版本、实体覆盖
Feature availability	每类特征在预测时点的可用性证明
Model comparison	baseline、Prophet、DeepAR、TFT、TimesFM 或 NeuralForecast 组合
Metric slices	总体、层级、长尾、高价值、活动期、异常期
Interval quality	coverage、pinball loss、calibration
Decision simulation	缺货、资金缓冲、SLA、容量成本的模拟影响
Governance decision	上线、灰度、限制使用或继续研究的理由

产品决策与运营闭环

Forecast-to-decision loop 的成熟度决定预测系统是否真正进入组织肌肉。

闭环步骤

Define decision：明确预测影响的动作和成本函数。
Generate forecast：输出点预测、分位数、prediction intervals 与情景版本。
Optimize decision：将预测输入补货、现金调拨、排班、容量扩容或预算分配模型。
Human review：业务负责人按规则覆盖，并记录原因与影响。
Execute：进入 ERP、WMS、资金系统、排班系统、客服平台或云资源编排。
Observe actuals：收集实际销量、现金流、contact volume、SLA、库存、资金占用。
Evaluate decision：同时评估 forecast accuracy 与 business impact。
Learn：把覆盖理由、异常事件和决策结果反馈到数据产品、特征和治理规则。

产品界面应展示什么

预测界面不应只是折线图。高级界面应包含：

模块	展示内容
Forecast overview	P50、P10/P90、上一版预测、实际值、主要变化
Driver explanation	主要 calendar/holiday/event features、价格、促销、历史趋势、异常事件
Hierarchy navigation	从集团到区域、门店、SKU 或从市场到技能组的 drill-down
Decision recommendation	建议补货量、现金缓冲、排班人数、容量阈值
Confidence and risk	区间宽度、覆盖率、模型稳定性、数据质量
Override panel	覆盖数值、结构化原因、审批人、影响估计
Backtest card	最近窗口表现、与 baseline 差异、关键切片
Audit trail	数据版本、模型版本、发布时间、审批记录

人工覆盖不是失败

在金融零售落地中，人工覆盖是治理设计的一部分。关键不是禁止覆盖，而是让覆盖可学习：

覆盖理由结构化，例如“已知大客户流失”“门店装修”“监管窗口”“促销临时加码”。
覆盖影响量化，例如对补货金额、现金缓冲、SLA 或容量成本的影响。
覆盖后评估，例如覆盖是否比模型更接近实际，长期是否存在系统性偏差。
覆盖权限分层，例如高金额现金调拨、高风险库存决策需要双人审批。

风险治理与审计

Forecast governance 要把 NIST AI RMF 的治理语言落到可执行控件上。

NIST AI RMF 维度	Forecasting 落地方式
Govern	预测用例登记、owner、审批门槛、模型卡、数据责任人、例外流程
Map	业务影响、用户影响、监管影响、失败模式、上下游依赖
Measure	backtesting、drift、coverage、leakage scan、数据质量、业务影响评估
Manage	上线闸门、灰度策略、回滚、人工覆盖、事件复盘、周期性审查

模型卡要覆盖的高级问题

问题	审计关注
预测驱动什么决策	模型是否进入高影响业务流程
哪些人群、门店或区域受影响	是否存在服务水平或资源分配不公平
特征是否合规	是否使用敏感属性、受限数据或不可解释代理变量
预测区间如何校准	区间是否被业务误读为确定承诺
人工覆盖如何审计	覆盖是否被用于规避控制或掩盖模型偏差
模型何时降级	数据延迟、漂移、异常事件、覆盖率失效时的降级路径

关键控制点

Use-case tiering：现金流、授信、监管报送、客户服务水平等高影响用例必须进入增强审查。
Data lineage：每次预测都能追溯数据快照、特征版本、模型版本和运行参数。
Leakage scan：每次训练前检查未来特征、修正数据和聚合窗口。
Interval calibration：预测区间失准时触发重新校准或限制使用。
Human override review：高频覆盖、高金额覆盖、方向性偏差覆盖进入治理会议。
Model fallback：高级模型失败时切回 baseline 或上一稳定版本。
Decision audit：审计关注的不只是预测值，也包括预测如何改变业务动作。

金融零售、零售、电商、客服与容量规划场景

场景 1：Financial Liquidity / Cashflow Forecasting

目标：预测资金流入、流出、账户余额、现金需求和流动性压力，用于 treasury、门店现金、ATM 补钞、支付清算和监管缓冲。

架构要点：

维度	设计
Forecast grain	`currency x legal entity x bank account x cashflow type x day`
Horizon	日内、D+1、D+7、13 周滚动
Features	工资日、账单日、还款日、节假日、清算周期、贷款发放、营销活动、宏观利率
Model candidates	Seasonal baseline、gradient boosting、DeepAR、TFT、TimesFM benchmark
Output	P10/P50/P90 cash balance、stress scenario、liquidity buffer
Decision engine	资金调拨、短融安排、现金配送、支付限额预案
Governance	高影响用例，要求审计日志、人工审批、模型降级方案

产品洞察：现金流预测的低估成本通常高于高估成本，因此目标不是最小化平均误差，而是控制低分位风险和 liquidity buffer 的资本效率。

场景 2：Retail Demand Forecasting

目标：预测门店、渠道、品类、SKU 的需求，用于补货、采购、调拨、促销和库存健康。

架构要点：

维度	设计
Forecast grain	`SKU x store x channel x day` 与 `category x region x week` 双层
Features	价格、折扣、会员日、节假日、天气、库存可得性、竞品事件、上新/清仓
Hierarchy	SKU-store 到区域品类，再到集团 demand planning
Probabilistic output	P50 用于常规补货，P90 用于高服务水平 SKU
Decision metrics	缺货率、库存周转、毛利、清仓率、服务水平
Leakage control	缺货日销量低估真实需求，需标记 stockout censoring

产品洞察：零售需求预测要同时预测“需求”和“可观测销售”。缺货时销售数据被库存上限截断，直接训练会把缺货误学成低需求。

场景 3：E-commerce Demand Planning

目标：预测流量、订单、转化、退款、履约压力和营销活动效果，用于预算、仓配和前台体验保障。

架构要点：

维度	设计
Forecast objects	visits、orders、GMV、refunds、returns、warehouse picks
Features	活动日历、投放计划、站内曝光、优惠券、价格、推荐位、节假日
Model strategy	TFT 处理未来已知活动，foundation model 做快速 benchmark，ensemble 提升活动期稳健性
Decision loop	营销预算、仓库班次、配送窗口、客服预案
Governance	活动预测需要版本冻结，避免活动后数据回填污染训练

产品洞察：电商活动期的预测误差通常来自“计划版本变化”，不是模型本身。产品架构必须保存每次活动计划版本，才能解释预测偏差。

场景 4：Queue / Contact Volume Forecasting

目标：预测客服 contact volume、渠道分布、技能组量和到达模式，用于排班、外包、机器人分流和 SLA 管理。

架构要点：

维度	设计
Forecast grain	`market x channel x skill group x interval`
Features	账单日、还款日、系统变更、产品上线、费率调整、营销活动、节假日
Outputs	interval-level P50/P90 contact volume、channel mix、peak load
Decision engine	排班、外包容量、IVR 路由、机器人知识库预热
Metrics	SLA、平均等待时间、放弃率、occupancy、overstaffing cost
Advanced design	将 contact volume 与 AHT 分开预测，再进入 workforce management

产品洞察：客服预测不是只预测一天总量。真正影响 SLA 的是 15 分钟或 30 分钟 interval 到达量、技能组匹配和平均处理时长。

场景 5：Capacity Forecasting

目标：预测系统、仓配、支付通道、人力、机器人、风控队列和云资源的容量压力。

架构要点：

容量对象	Forecast target	Decision
Cloud / API	TPS、CPU、queue depth、latency	扩容、限流、缓存预热
Payment rails	transaction count、amount、failure rate	通道路由、额度申请、备用通道
Warehouse	picks、packs、returns、dock appointments	班次、人力、库区分配
Fraud operations	alert volume、review queue、case complexity	审核人力、规则阈值、自动化比例
Contact center	calls、chat、email、bot fallback	排班、机器人分流、外包调用

产品洞察：capacity forecasting 的失败通常不是预测均值错，而是峰值区间低估。P90/P95 预测和 stress scenario 比 P50 更接近运营价值。

模板

字段	内容
Product name	预测产品名称
Decision owner	对业务动作负责的角色
Forecast target	被预测指标和业务定义
Grain and horizon	粒度、预测周期、发布时间
Decision action	预测触发的补货、资金、排班、容量或风险动作
Cost of under-forecast	低估成本
Cost of over-forecast	高估成本
Required outputs	P50、P10/P90、prediction intervals、scenario forecasts
Baseline	当前人工、规则或统计基线
Go-live gate	上线所需的 backtesting、coverage、业务模拟标准
Audit evidence	数据、特征、模型、审批与覆盖记录

模板 2：Feature Availability Matrix

Feature	Known at forecast time	Source system	Update cadence	Leakage risk	Governance control
Holiday calendar	Yes	Master calendar	Annual with exceptions	Low	Versioned calendar
Promotion plan	Yes, if frozen	Promotion planning	Daily during planning	Medium	Freeze version by forecast run
Actual promotion uplift	No	Sales analytics	After event	High	Exclude from forecast-time features
Weather forecast	Partially	Weather provider	Hourly or daily	Medium	Store provider timestamp
Actual weather	No for future	Weather provider	After event	High	Use only historical windows
Inventory on hand	Yes with latency	ERP/WMS	Near real time	Medium	As-of snapshot
Stockout flag	Known after interval	POS/WMS	Daily	Medium	Use lagged or historical only

模板 3：Model Selection Decision Record

Section	Decision
Business decision	预测将驱动的业务动作
Candidate models	Baseline、Prophet、DeepAR、TFT、TimesFM、NeuralForecast models
Selection criteria	Accuracy、coverage、latency、explainability、cost、governance
Backtest design	Rolling-origin windows、horizon、entity slices
Winner	选择的主模型或 ensemble
Rejected options	被排除方案及理由
Risk controls	Leakage scan、fallback、human override、audit trail
Review cadence	模型表现和治理复审周期

模板 4：Backtesting and Leakage Review

Review item	Evidence
Train/test windows are time ordered	Window table and run ID
No random split is used	Experiment config
All features have as-of timestamp	Feature store metadata
Future known features are versioned	Calendar and event version
Historical corrections are traceable	Data lineage and correction log
Baseline comparison exists	Baseline metrics by horizon
Prediction intervals are calibrated	Coverage and pinball loss
Decision simulation completed	Cost, SLA, service level, liquidity impact

模板 5：Forecast Governance Review

Dimension	Review question
Accountability	谁对预测驱动的动作负责
Materiality	预测失败会造成多大财务、客户或监管影响
Data rights	数据使用是否符合权限、隐私和监管要求
Explainability	业务是否理解主要驱动因素与区间含义
Override	覆盖是否有权限、理由、审批和回测
Drift	数据、误差、区间覆盖率是否稳定
Incident response	模型失效时是否有降级和沟通机制

30 天高级训练计划

第 1 周：Forecast-to-Decision 基础架构

天	训练主题	高级产出
Day 1	选择一个金融零售预测场景	Forecast Product One-Pager
Day 2	定义 forecast grain、horizon、cadence	Forecast Contract
Day 3	画出现有数据链路与系统边界	Data Product Map
Day 4	设计 calendar/holiday/event features	Feature Availability Matrix
Day 5	设计 baseline 与业务当前规则比较	Baseline Evaluation Plan
Day 6	定义决策成本函数	Under/Over Forecast Cost Model
Day 7	复盘架构缺口	Forecast-to-Decision Architecture Diagram

第 2 周：模型组合与概率预测

天	训练主题	高级产出
Day 8	Prophet 与统计基线适配性分析	Baseline and Prophet Decision Record
Day 9	DeepAR 适配多序列概率预测	DeepAR Fit Assessment
Day 10	TFT 的协变量与解释设计	TFT Feature and Explainability Plan
Day 11	TimesFM/foundation models 的 benchmark 设计	Foundation Model Evaluation Brief
Day 12	NeuralForecast 实验矩阵设计	Model Portfolio Experiment Matrix
Day 13	Quantile 与 prediction intervals 设计	Probabilistic Output Spec
Day 14	指标体系与业务模拟	Accuracy and Decision Metrics Map

第 3 周：层级、回测与治理

天	训练主题	高级产出
Day 15	设计 hierarchical forecasting 层级	Hierarchy and Reconciliation Plan
Day 16	Rolling-origin backtesting	Backtest Window Design
Day 17	Leakage 风险扫描	Leakage Control Checklist
Day 18	模型卡与用例分级	Forecast Model Card
Day 19	NIST AI RMF 映射	Forecast Governance Control Map
Day 20	人工覆盖流程	Override and Approval Policy
Day 21	灰度上线与降级路径	Release and Fallback Plan

第 4 周：金融零售落地案例

天	训练主题	高级产出
Day 22	Financial liquidity/cashflow forecasting	Treasury Forecast Architecture
Day 23	Retail demand forecasting	SKU-store Demand Planning Design
Day 24	Queue/contact volume forecasting	Workforce Forecast and Staffing Design
Day 25	Capacity forecasting	Capacity Risk and Scaling Design
Day 26	电商活动预测	Campaign Demand Planning Design
Day 27	决策引擎设计	Forecast-to-Decision Optimization Brief
Day 28	审计与监控 dashboard	Governance Dashboard Spec
Day 29	高管沟通材料	Executive Forecast Risk Memo
Day 30	面试与作品集整合	Portfolio Case Storyline

面试答案

1. 如何设计一个 time-series forecasting product architecture？

30 秒回答：我会从业务动作倒推，而不是从模型倒推。先定义预测影响的库存、资金、排班或容量决策，再定义 Forecast Contract、数据产品、特征可用性、模型组合、概率输出、人工覆盖、回测和治理闭环。

2 分钟回答：一个成熟的 forecasting 产品架构包含九层：Decision Context、Forecast Contract、Data Product、Feature Layer、Model Portfolio、Probabilistic Forecast Service、Decision Engine、Workflow Layer、Monitoring and Governance。模型层可以包含 baseline、Prophet、DeepAR、TFT、TimesFM 或 NeuralForecast 组合，但模型只是中间层。真正的产品价值来自 forecast-to-decision loop，例如预测进入补货、现金调拨、客服排班或容量扩容，并通过实际结果反哺回测和治理。

追问处理：如果面试官问“如何证明价值”，我会同时看 forecast accuracy 和 decision impact，例如缺货率、库存周转、SLA、资金缓冲成本、资源利用率，而不是只看 MAPE。

2. DeepAR、TFT、TimesFM 怎么选？

30 秒回答：DeepAR 适合大量相关序列的概率预测；TFT 适合多变量、多步预测和未来已知协变量丰富的业务；TimesFM/foundation models 适合快速 benchmark、冷启动和少样本场景，但必须经过本地回测和治理校准。

2 分钟回答：如果我有很多门店 SKU、客服队列或现金流类别序列，并希望输出分布，我会优先评估 DeepAR。如果业务有丰富的静态特征、历史特征和未来已知特征，例如促销日历、价格计划、节假日、账单日，我会评估 TFT，因为它对 multi-horizon forecasting 和解释更友好。TimesFM 这类 foundation model 可以降低启动成本，尤其适合新市场或长尾序列，但它不是免训练、免审计的替代品。最终选择要基于 rolling-origin backtesting、prediction interval calibration、业务切片和上线治理成本。

追问处理：如果面试官问“是否一定用深度模型”，我的回答是不会。所有复杂模型都要先打赢 seasonal naive 或当前业务规则，否则没有上线理由。

3. 为什么 demand planning 需要 probabilistic forecasting？

30 秒回答：因为计划决策面对的是不确定性和非对称成本。低估需求会缺货或 SLA 失败，高估需求会库存积压或资源浪费，所以 P50 只是一个口径，P90/P95 才能支持服务水平和风险缓冲。

2 分钟回答：在 demand planning 中，点预测会把风险隐藏起来。零售补货要决定安全库存，客服排班要决定峰值人力，资金预测要决定 liquidity buffer，容量规划要决定扩容阈值。每个决策都对应不同风险偏好。因此我会输出 P10/P50/P90、prediction intervals 和 scenario forecasts，并用 coverage、pinball loss、calibration 和业务成本模拟来评估，而不是只报告平均误差。

追问处理：如果面试官问“业务不懂概率怎么办”，我会用决策语言翻译：P90 不是“更准确预测”，而是“为了 90% 服务水平需要准备多少资源”。

4. 如何治理 leakage？

30 秒回答：核心原则是模拟真实预测时点。训练、验证和特征生成都必须按 as-of timestamp 重建，未来才知道的数据不能进入预测时点。

2 分钟回答：我会从六类 leakage 入手：target leakage、future feature leakage、aggregation leakage、reconciliation leakage、human override leakage 和 data correction leakage。治理方式包括事件时间与入仓时间分离、特征可用性矩阵、冻结活动日历版本、rolling-origin backtesting、数据修正版本保留、人工覆盖锁定时间，以及上线前 leakage scan。尤其在金融零售中，实际到账、实际促销效果、实际缺勤、实际天气等数据很容易在历史训练集中被误用。

追问处理：如果面试官问“怎么发现 leakage”，我会看异常高的回测表现、活动期表现不合理、线上线下误差断裂、特征重要性异常，以及未来可用性审计失败。

5. 如何设计 financial liquidity/cashflow forecasting？

30 秒回答：我会按 currency、legal entity、bank account、cashflow type 和日期建模，输出 P10/P50/P90 资金流和余额，用于资金调拨、融资安排、现金配送和监管缓冲。

2 分钟回答：现金流预测的关键不是销量式准确率，而是低估风险控制和资本效率平衡。架构上需要整合账户余额、支付清算、贷款发放、还款、提现、工资日、账单日、节假日、监管窗口和宏观变量。模型上可以从 seasonal baseline 和 gradient boosting 开始，再评估 DeepAR、TFT 或 TimesFM benchmark。输出必须是概率区间和 stress scenario，进入 treasury workflow，并保留审批、覆盖和审计记录。

追问处理：如果面试官问“如何处理监管风险”，我会将该用例列为高影响 AI 用例，要求模型卡、数据血缘、人工审批、回滚机制和周期性治理审查。

6. Hierarchical forecasting 的价值是什么？

30 秒回答：它解决组织计划的一致性问题，让门店、区域、品类、渠道和集团级预测能够对齐，减少“各层数字都对但合起来不对”的管理摩擦。

2 分钟回答：零售和金融零售天然有层级结构。比如 SKU-store-day 是执行层，category-region-week 是采购和预算层，company-month 是管理层。可以采用 bottom-up、top-down 或 reconciliation。高级架构不会只保留最终数字，而会保留各层原始预测、调整后预测、调整方法和影响量。这样供应链、财务和运营可以围绕同一套数字协同。

追问处理：如果面试官问“何时不用最底层预测”，我会说当底层序列太稀疏、噪声太高或执行动作不在底层时，直接 bottom-up 可能放大误差。

7. Queue/contact volume forecasting 和普通销量预测有什么不同？

30 秒回答：客服预测更关注 interval-level 到达量、渠道和技能组组合，以及它们对 SLA、等待时间和排班的影响，而不是只预测一天总量。

2 分钟回答：queue/contact volume forecasting 需要按 market、channel、skill group、interval 建模，并把 contact volume 和 AHT 分开预测。特征包括账单日、还款日、系统变更、产品上线、政策调整、营销活动和节假日。输出应进入 workforce management，用 P50 做常规排班，用 P90 管理峰值和外包容量。评估指标除了 WAPE，还要看 SLA、平均等待时间、放弃率、occupancy 和 overstaffing cost。

追问处理：如果面试官问“机器人会不会改变预测”，我会将 bot containment、bot fallback、话题结构变化作为特征和反馈信号，而不是把机器人当成外部黑箱。

8. Forecast governance 如何落地？

30 秒回答：我会用 NIST AI RMF 的 Govern、Map、Measure、Manage 做治理骨架，把预测用例登记、风险分级、数据血缘、backtesting、leakage scan、人工覆盖和模型降级变成可执行控件。

2 分钟回答：forecast governance 的重点是控制预测如何影响业务动作。Govern 定义 owner、审批和模型卡；Map 明确业务影响和失败模式；Measure 做 backtesting、drift、coverage 和 leakage scan；Manage 定义上线闸门、灰度、回滚、覆盖审查和事件复盘。金融零售场景中，高影响预测如现金流、客户服务水平、授信和监管相关用例必须比普通运营预测接受更强审查。

追问处理：如果面试官问“治理会不会拖慢创新”，我会回答：治理不是把模型挡在门外，而是让模型可以进入高价值决策。没有审计和降级能力的模型，只能停留在分析看板。

AI Forecasting / Demand Planning Product Architecture Playbook

AI Forecasting、Demand Planning 与产品架构 Playbook

Source Anchors

一句话定位

为什么重要

Forecast-to-Decision 架构

1. Decision Context

2. Forecast Contract

3. Data Product Layer

模型与方案选择

方案选择矩阵

DeepAR 的产品架构定位

Temporal Fusion Transformer 的产品架构定位

TimesFM 与 foundation models 的定位

NeuralForecast 的工程化定位

数据、特征与层级预测

预测粒度设计

Calendar、Holiday 与 Event Features

Hierarchical Forecasting

概率预测与 Prediction Intervals

输出格式

评估指标

Backtesting 与 Leakage 治理

Backtesting 设计

Leakage 类型与治理

回测报告最低结构

产品决策与运营闭环

闭环步骤

产品界面应展示什么

人工覆盖不是失败

风险治理与审计

模型卡要覆盖的高级问题

关键控制点

金融零售、零售、电商、客服与容量规划场景

场景 1：Financial Liquidity / Cashflow Forecasting

场景 2：Retail Demand Forecasting

场景 3：E-commerce Demand Planning

场景 4：Queue / Contact Volume Forecasting

场景 5：Capacity Forecasting

模板

模板 1：Forecast Product One-Pager

模板 2：Feature Availability Matrix

模板 3：Model Selection Decision Record

模板 4：Backtesting and Leakage Review

模板 5：Forecast Governance Review

30 天高级训练计划

第 1 周：Forecast-to-Decision 基础架构

第 2 周：模型组合与概率预测

第 3 周：层级、回测与治理

第 4 周：金融零售落地案例

面试答案

1. 如何设计一个 time-series forecasting product architecture？

2. DeepAR、TFT、TimesFM 怎么选？

3. 为什么 demand planning 需要 probabilistic forecasting？

4. 如何治理 leakage？

5. 如何设计 financial liquidity/cashflow forecasting？

6. Hierarchical forecasting 的价值是什么？

7. Queue/contact volume forecasting 和普通销量预测有什么不同？

8. Forecast governance 如何落地？