返回架构笔记
Arch Day 132

Arch Day 132: 灾难恢复与多区域架构 — Cell-Based Architecture

灾难恢复(DR)不是"出事后的应急预案",而是架构设计时就必须内建的能力。Cell-Based Architecture是AWS Well-Architected推荐的高可用模式——通过故障隔离单元限制爆炸半径。

2026-08-09
第五阶段 - 云架构深度
DR多区域AuroraGlobalCellBased混沌工程高可用

日期: 2026-08-09 (Day 132) 阶段: 第五阶段 - 云架构深度 标签: #DR #多区域 #AuroraGlobal #CellBased #混沌工程 #高可用


核心概念

一句话定义

灾难恢复(DR)不是"出事后的应急预案",而是架构设计时就必须内建的能力。Cell-Based Architecture是AWS Well-Architected推荐的高可用模式——通过故障隔离单元限制爆炸半径。


知识点详解

1. RTO/RPO分级

TierRTORPO典型应用DR策略
Tier 115min近零核心交易/支付Active-Active
Tier 24h2hERP/CRMWarm Standby
Tier 38-24h4h内部工具Pilot Light

2. AWS多区域数据同步

Aurora Global Database:存储层复制,RPO 1秒,RTO <1分钟 DynamoDB Global Tables:多主复制,跨洲延迟**<1秒**,2025新增跨账户复制

3. Route53 vs Global Accelerator

维度Route53Global Accelerator
故障转移速度分钟级(DNS缓存)<30秒
工作原理DNS响应优化静态anycast IP
适用多数Web应用金融等极快故障转移

最佳实践:两者组合使用。

4. Cell-Based Architecture

AWS Well-Architected官方推荐:

  • 每个Cell是系统的独立副本,不感知其他Cell
  • 故障被限制在Cell内部(包括代码部署失败)
  • 更高MTBF,更低MTTR
  • 适用于支付、交易等关键系统
┌─────────────────────────────────────┐
│           Router Layer              │
│  (Route53 / Global Accelerator)     │
├──────────┬──────────┬───────────────┤
│  Cell A  │  Cell B  │  Cell C       │
│  ┌────┐  │  ┌────┐  │  ┌────┐      │
│  │App │  │  │App │  │  │App │      │
│  │ DB │  │  │ DB │  │  │ DB │      │
│  └────┘  │  └────┘  │  └────┘      │
│  独立副本 │  独立副本 │  独立副本     │
└──────────┴──────────┴───────────────┘

5. 混沌工程

工具类型适用
AWS FISAWS原生纯AWS
Gremlin商业跨平台多云/混合云
LitmusChaosCNCF开源K8s CI/CD集成

2026趋势:混沌场景基于系统拓扑自动生成


面试题

问题:如何设计一个RPO<1秒的支付系统DR方案?

回答:Aurora Global Database(存储层复制) + DynamoDB Global Tables(状态数据) + Global Accelerator(<30秒故障转移) + Cell-Based Architecture(故障隔离) + 定期混沌演练验证。