AI Day 36
Day 36: 零售AI(1) - 推荐系统与个性化
Day 36: 零售AI(1) - 推荐系统与个性化
AI Engineering 90-Day Sprint | Day 36 / 90 Date: 2026-05-07 Theme: 推荐系统与个性化 — 从协同过滤到LLM推荐 Domain: Retail AI / Recommendation Systems / Personalization
Progress Tracker
Phase 1-3 (Day 1-35) ✅ | Day 36 ← current | Day 37-90 upcoming
核心概念:推荐系统是零售AI的"印钞机"
Revenue Impact = Traffic × Conversion Rate × AOV × Repeat Rate
↑
推荐系统直接影响
Amazon: 35% 收入来自推荐系统 (~$210B)
Netflix: 推荐算法每年节省 $1B(减少用户流失)
抖音电商: 推荐驱动的GMV占比 > 60%
拼多多: 千人千面推荐提升转化率 20%+
→ 每提升 1% 转化率 = 对大型零售商意味着数亿美元收入
| Metric | Before Rec | After Rec | Impact |
|---|---|---|---|
| Conversion Rate | 2.0% | 3.5% | +75% |
| Average Order Value | $45 | $62 | +38% |
| Items per Order | 1.8 | 2.6 | +44% |
| 30-Day Retention | 22% | 41% | +86% |
Three core problems across 20 years of evolution:
- Interest prediction — 用户可能喜欢什么?
- Personalized ranking — 如何给不同用户展示不同内容?
- Real-time serving — 如何在毫秒级完成推荐?
一、推荐系统演进:协同过滤→深度学习→大模型增强
1.1 第一代:协同过滤 (2000s)
核心思想:"和你相似的人喜欢的东西,你也可能喜欢"
# Item-Based CF — Amazon最早的杀手级推荐:"买了A的人也买了B"
def item_based_cf(user_id, k=10):
user_items = get_user_history(user_id)
similar_items = []
for item in user_items:
similar_items.extend(find_similar_items(item, metric="cosine"))
return deduplicate_and_rank(similar_items)[:k]
| 优势 | 劣势 |
|---|---|
| 简单直观,易于实现 | 冷启动问题严重 |
| 能发现惊喜推荐 | 数据稀疏性(评分矩阵极度稀疏) |
| 可解释性好 | 头部效应(热门物品被过度推荐) |
1.2 第二代:矩阵分解与FM (2010s)
Netflix Prize (2006-2009) 推动了矩阵分解的黄金时代
R[user][item] ≈ U[user] · V[item]^T (k维隐因子, 通常50-200)
FM (Factorization Machines) 的革命:
传统LR: y = w0 + Σ wi·xi
FM: y = w0 + Σ wi·xi + Σ Σ <vi, vj>·xi·xj
→ 自动学习特征交叉,成为工业界标配 (2012-2018)
1.3 第三代:深度学习推荐 (2016-2022)
Wide & Deep (Google, 2016) → 记忆性 + 泛化性
DeepFM (Huawei, 2017) → FM + DNN 端到端
DIN (Alibaba, 2018) → Attention建模动态兴趣(关键突破)
DIEN (Alibaba, 2019) → GRU建模兴趣演化
SIM (Alibaba, 2020) → 超长行为序列建模(10000+历史)
DIN的关键创新:不同候选物品"激活"用户历史中不同的行为,Attention weight随候选动态变化。
1.4 第四代:大模型增强推荐 (2023-2026)
传统: ID-based features → Embedding → Score
LLM: Text descriptions → Semantic Understanding → Score
2023: LLM as Feature Extractor (提取文本特征)
2024: LLM as Scorer (直接打分/排序)
2025: LLM as Recommender (端到端推荐)
2026: Multimodal LLM Rec (多模态融合推荐)
| 维度 | 协同过滤 | 矩阵分解 | 深度学习 | LLM增强 |
|---|---|---|---|---|
| 冷启动 | 差 | 差 | 一般 | 好 |
| 可解释性 | 好 | 差 | 差 | 好 |
| 实时性 | 好 | 一般 | 好 | 差(需优化) |
| 工程复杂度 | 低 | 中 | 高 | 极高 |
二、经典架构:召回→粗排→精排→重排
用户请求 → 全量商品库 (~10M)
│
▼ Stage 1: 召回 (< 50ms)
多路召回: 协同/向量(DSSM+ANN)/热度/规则 → ~1000 items
│
▼ Stage 2: 粗排 (< 20ms)
轻量双塔模型 → ~200 items
│
▼ Stage 3: 精排 (< 100ms)
复杂模型 DIN/DCN + 交叉特征 → ~50 items with scores
│
▼ Stage 4: 重排 (< 10ms)
多样性/新鲜度/商业规则/去重 → Final ~20 items → 展示
多路召回详解
┌────────────────────────────────────────────────┐
│ 召回层 (Recall) │
│ │
│ 协同过滤(~200) 向量/DSSM(~300) 热度趋势(~100)│
│ 兴趣标签(~200) 实时Session(~200) 规则/新品(~100)│
│ │
│ → 合并 & 去重 → ~1000 candidate items │
└────────────────────────────────────────────────┘
向量召回核心流程:
离线: 双塔模型(DSSM)分别编码User/Item为128维向量
离线: 全量Item向量建ANN索引 (FAISS IVF-PQ / Milvus HNSW)
在线: 用User向量做近邻检索 → Top-300 → <10ms
为什么要多路召回?
- 单路召回有偏差(向量召回偏语义相似,CF偏行为共现)
- 多路互补,提升召回覆盖率(Recall Coverage)
- 不同路的候选可能完全不重叠 → 增加多样性
实时特征系统
推荐系统的"血液循环"——没有好的特征系统,再好的模型也无用。
用户行为(点击/加购/购买) → Kafka → Flink实时聚合 → Feature Store → 推荐服务
│
├── 最近30min点击品类分布
├── 实时CTR/CVR统计
├── Session内行为序列
└── 价格敏感度变化
特征分类 (Features Taxonomy):
User Static: 性别/年龄/城市/注册时间
User Stats: 30天购买次数/平均客单价/偏好品类
User Realtime: 当前Session点击序列/最近搜索词
Item Static: 品类/品牌/价格/上架时间
Item Stats: 7天CTR/CVR/销量/评分
Item Realtime: 当前库存/实时销量/价格变动
Cross: 用户×品类历史CTR / 时间/设备/场景上下文
用户画像系统
基础画像: Demographics / Device / Registration
兴趣画像: 长期(90天品类分布) / 短期(7天偏好) / 实时(Session信号)
消费画像: 价格敏感度 / 决策周期 / 品牌偏好 / 促销敏感度
生命周期: 新客→活跃→沉睡→流失 / LTV预测 / 流失风险
三、LLM增强推荐:五大突破
3.1 语义理解:从ID到语义
传统: Item = ID_12345 → 无意义向量
LLM: Item = "春季新款纯棉透气男士衬衫" → 理解 [季节/材质/功能/风格]
→ Amazon用LLM提取review语义,淘宝用通义千问理解商品标题
3.2 冷启动增强:世界知识
新品: "含玻尿酸的保湿面霜" → LLM知道这适合干性皮肤 → 立即精准推送
新用户: 仅有注册信息 → LLM推断画像 → 即时个性化
跨品类: 买了婴儿奶粉 → LLM推断有婴儿 → 推荐辅食/纸尿裤(因果推理)
3.3 解释生成:有说服力的推荐理由
传统: "因为你买过跑步鞋"
LLM: "这双碳板跑鞋采用和你之前喜欢的Nike Vaporfly相同的缓震技术,
价格只有一半,非常适合你的半马进阶训练。"
→ 推荐解释可提升CTR 15-25%,减少退货率
3.4 对话式推荐:从"猜"到"问"
User: "想买跑步鞋" → AI: "公路还是越野?预算?" → User: "公路,500内"
→ AI: "每周跑量?" → User: "30km,准备半马"
→ AI精准推荐3双鞋 + 个性化理由
3.5 多模态融合
LLM结合多种信号做联合推荐 (2025-2026 头部平台标配):
商品图片 → Vision Encoder → 视觉特征(颜色/风格/材质)
商品视频 → Video Encoder → 动态展示特征
商品文本 → Text Encoder → 语义特征
用户行为 → Behavior Model → 偏好特征
↓ ↓ ↓ ↓
└────── Multimodal Fusion ──────┘
│
推荐得分 + 解释
应用: 用户搜"好看的连衣裙"
→ 不仅匹配文字描述,还能理解图片中的风格和审美
→ 推荐视觉风格相似但品类不同的商品(跨品类视觉推荐)
四、个性化引擎:千人千面三大场景
4.1 个性化定价策略
⚠️ 注意合规:同商品同时刻不同原价=大数据杀熟(违规)
合规策略: 基于分群的差异化优惠
高价值活跃客 → 无额外优惠(维持利润)
高价值沉睡客 → 专属回归大额券(唤醒复购)
价格敏感新客 → 阶梯满减券(提升客单价)
高流失风险客 → 个性化挽留优惠(延长LTV)
关键模型: 价格弹性预测 / WTP预测 / Uplift Model(区分给了才买vs不给也买)
4.2 个性化首页
用户打开App → Layout Engine决定模块顺序和内容
- 模块级: Contextual Bandit选择展示哪些模块
- 物品级: 每个模块内推荐模型排序
- 多目标: 同时优化 CTR + CVR + GMV + 多样性
运动爱好者先看运动专区,高端用户看不同视觉风格
4.3 个性化推送
三要素: WHAT(个性化选品) × WHEN(个性化时间) × HOW(个性化文案)
触发: 降价提醒/购物车催付/补货预测/偏好品类促销
频控: 日上限3条 / 同品类间隔4h / 连续3条未点击→降频
LLM文案 (2025+):
传统: "您关注的商品降价了!"
LLM: "您上周看的Nike跑鞋降到历史最低¥459,比上次便宜¥80,仅剩12双"
五、2025-2026行业案例
Amazon — 推荐先驱持续进化
Evolution Timeline:
2003: Item-Based CF — "Customers who bought this also bought"
2013: 深度学习引入 — 提升推荐多样性
2019: Amazon Personalize (AWS) — 推荐系统即服务
2024: Rufus AI — LLM驱动的对话式购物助手
2025: Multimodal Rec — 图片+文本+行为融合推荐
2026: Agentic Shopping — AI Agent代理购物(自动比价/下单/退换)
Key Data:
- 推荐驱动收入占比: ~35% (~$210B)
- 年A/B实验数: 10,000+
- 首页个性化: 100% 千人千面
- 推荐场景: 详情页/购物车/结算页/邮件/App推送全覆盖
抖音电商 — 兴趣电商推荐革命
核心创新: 从"人找货"到"货找人"
传统电商: 用户有需求 → 搜索 → 浏览 → 购买 (主动消费)
抖音电商: 用户刷视频 → 被内容种草 → 冲动购买 (被动发现)
推荐架构:
1. 内容推荐 × 商品推荐 双模型联合优化
2. 实时兴趣捕捉: 停留时长精确到秒, 15分钟内调整策略
3. 多目标优化: 短期GMV + 中期复购率 + 长期留存LTV
技术栈:
- DIEN + Transformer 混合架构
- 支持 10,000+ 历史行为序列建模
- 多模态: 视频帧 + 音频 + 文字 + 商品属性
数据规模:
- 日活 > 8亿, 电商GMV > 3万亿元
- 兴趣标签 > 100万个细粒度
- 模型迭代: 每周数十次更新
Shopify AI — 中小商家AI民主化
Problem: 中小商家没有数据团队,无法自建推荐系统
Solution: Shopify Magic + Sidekick AI
Shopify Magic (2024-2026):
├── AI Product Descriptions: LLM自动生成商品描述
├── AI Recommendations: 即插即用推荐组件
├── AI Segmentation: 自动用户分群
├── AI Campaigns: 个性化营销邮件生成
└── AI Search: 语义搜索增强
Sidekick (商家AI Copilot):
"帮我分析上周哪些产品卖得最好"
"帮我为母亲节创建促销活动"
"哪些用户最可能这周复购?"
Cost Comparison:
传统: 数据团队 + ML工程师 → $10K+/月
Shopify: 全部包含在 $79/月套餐中
→ 推荐系统民主化: 每个小店都能"千人千面"
拼多多 — 下沉市场差异化
核心差异: 不推"你喜欢的",推"你能接受的最高价格的"
三大策略:
1. 价格导向推荐
- 排序核心因子: 价格竞争力 > 个性化匹配度
- 同类商品展示最低价 + "百亿补贴"品牌货引流 → 推白牌平替
2. 社交裂变推荐
- "你的好友买了这个" → 社交信任推荐
- 拼团推荐: 凑人数享低价, 砍价推荐: 社交传播驱动
3. 场景化推荐
- 农产品直发: 基于地理位置推荐本地农产品
- C2M反向定制: 用户需求数据驱动工厂生产
2025-2026进化: LLM增强商品理解 + 多模态推荐 + 对话式购物
成果: MAU > 9亿, 推荐转化率比行业高30%+
六、关键技术挑战
多目标优化
Score = w1×pCTR + w2×pCVR + w3×Price + w4×Diversity + w5×Freshness
冲突: 高价商品→GMV高但CVR低 / 热门→CTR高但多样性差
方案: Multi-Task Learning + 动态权重(大促提GMV权重,平时提体验)
Exploration vs Exploitation
Exploitation(推已知喜欢的) → 短期好 → 信息茧房
Exploration(推没接触过的) → 短期差 → 发现新兴趣
方案: Thompson Sampling / Contextual Bandit / 多样性重排(MMR/DPP)
2026趋势: LLM辅助探索(推理用户"潜在兴趣") + 用户可控探索
今日思考
思考题 1: 信息茧房与多样性平衡
推荐越精准,内容越同质化。如何平衡个性化精准度和多样性?
→ 衡量指标(品类覆盖度/惊喜度) + 重排多样性约束 + 用户控制
→ 短期CTR下降 vs 长期留存提升的商业权衡
思考题 2: LLM推荐的延迟问题
LLM推理~500ms,推荐要求<200ms总延迟。如何兼得?
→ 离线LLM提取语义特征 + 蒸馏轻量模型 + 分层使用(仅重排/解释用LLM) + 缓存
思考题 3: 线上线下跨域推荐
用户线上浏览运动鞋(未购买)→ 走进门店。如何无缝个性化?
→ ID打通 + 行为融合 + 进店信号触发 + 导购App显示线上偏好 + 隐私合规
面试题
Q: 设计一个电商推荐系统(日活1000万,商品100万)
1. 四阶段架构: 召回(多路→1000) → 粗排(双塔→200) → 精排(DIN/DCN→50) → 重排(→20)
2. 特征系统: 离线Hive + 近线Flink + 在线Redis
3. 向量检索: FAISS/Milvus, ANN索引 <10ms
4. 模型服务: TF Serving / Triton GPU推理
5. LLM增强: 离线提取语义特征 + 对话式推荐 + 推荐解释生成
6. 监控: 实时CTR/CVR大盘 + 特征漂移检测 + 每周模型更新
Q: 如何解决冷启动?
用户冷启动: 注册信息画像 + 前5次点击快速学习 + LLM世界知识推理
物品冷启动: LLM语义编码 + 相似商品迁移 + 流量保底扶持
系统冷启动: 规则推荐(热门/编辑精选) → 1周数据后切换算法
学习资源
| Paper/Resource | Key Contribution |
|---|---|
| Amazon Item-CF (2003) | 工业级协同过滤奠基 |
| Wide & Deep (Google 2016) | 记忆+泛化 |
| DIN (Alibaba 2018) | Attention兴趣建模 |
| LLM-Rec Survey (2024) | LLM推荐综述 |
| DeepCTR | CTR模型集合 |
| RecBole | 推荐系统统一框架 |
| Eugene Yan: System Design for Recommendations | 工程架构参考 |
明日预告
Day 37: 零售AI(2) - 搜索系统与意图理解
- 电商搜索 vs Web搜索 / Query理解 / 语义搜索
- LLM增强搜索 / 搜索与推荐融合 / 案例分析
Key Takeaway: 推荐系统从协同过滤到深度学习再到LLM增强,2025-2026的核心趋势是 LLM赋予推荐系统"理解力"——理解商品语义、用户意图、生成个性化解释。 架构师须掌握四阶段架构(召回→粗排→精排→重排)和实时特征系统两大核心工程能力。