Arch Day 139
Arch Day 139: 云架构案例分析 — Netflix、Stripe、Nubank
理论要落地,最好的方式是研究顶级公司的真实架构决策——他们为什么选这朵云、用什么模式、踩过什么坑。
2026-08-16
第五阶段 - 云架构深度案例分析NetflixStripeNubank云架构实战参考架构
日期: 2026-08-16 (Day 139) 阶段: 第五阶段 - 云架构深度 标签: #案例分析 #Netflix #Stripe #Nubank #云架构实战 #参考架构
核心概念
一句话定义
理论要落地,最好的方式是研究顶级公司的真实架构决策——他们为什么选这朵云、用什么模式、踩过什么坑。
知识点详解
1. Netflix — 云原生架构的教科书
规模: 2.6亿+付费用户,AWS上运行数千个微服务
核心架构决策:
- 全量AWS: 2016年完成从自建数据中心到AWS的全面迁移
- 微服务+Service Mesh: 自研Zuul(API Gateway)、Eureka(服务发现)、Hystrix(熔断)
- 混沌工程先驱: Chaos Monkey/Chaos Kong,生产环境随机杀实例/杀区域
- 数据管道: 自研Conductor(工作流编排),日处理PB级数据
- 安全: SPIFFE/mTLS做服务间零信任
PM视角: Netflix的架构开源项目(Netflix OSS)影响了整个行业,但2024年后部分被云原生替代(Eureka→K8s Service Discovery,Hystrix→Resilience4j)。
2. Stripe — 支付系统的云架构
规模: 数百万商户,年处理交易量万亿美元级
核心架构决策:
- AWS为主: 多区域部署,核心在us-east-1和eu-west-1
- Ruby单体→微服务渐进: 不是一次性重构,而是Strangler Fig模式
- 幂等性设计: 每个API调用都是幂等的,Idempotency Key是核心
- 数据库: 从MySQL逐步引入DynamoDB(元数据)和Redis(缓存)
- Temporal: 采用Temporal做关键业务工作流编排(支付状态机)
- 安全: PCI DSS Level 1,KMS加密所有敏感数据
PM视角: Stripe的API设计是行业标杆——RESTful、一致的命名、详尽的文档、webhook事件模型。
3. Nubank — 新兴市场的云原生银行
规模: 巴西最大数字银行,1亿+客户
核心架构决策:
- 全量云: 从Day 1就是云原生,无遗留系统包袱
- Clojure + Datomic: 函数式编程+不可变数据库,适合金融事务
- Kubernetes: 核心工作负载运行在K8s上
- 事件驱动: Kafka做事件骨架,事件溯源(Event Sourcing)模式
- 微服务: 数百个微服务,每个团队拥有自己的服务
PM视角: Nubank证明了"技术选型的勇气"——选择非主流技术(Clojure)但团队深度掌握,比选"安全"技术但半吊子更有效。
4. 共性总结
| 维度 | Netflix | Stripe | Nubank |
|---|---|---|---|
| 云策略 | AWS全量 | AWS为主 | 云原生 |
| 服务架构 | 微服务+Mesh | 单体→微服务 | 微服务+事件驱动 |
| 数据 | 多模型 | MySQL→混合 | Datomic+Kafka |
| 安全 | SPIFFE/mTLS | PCI DSS L1 | 金融合规 |
| 可靠性 | 混沌工程 | 幂等性设计 | K8s自愈 |
面试题
问题:如果你要从零构建一个数字银行,架构上最重要的3个决策是什么?
回答:1) 记账引擎设计: 双分录、幂等、可审计,这是金融系统的心脏;2) 多区域高可用: Aurora Global + Cell-Based Architecture,金融系统RTO<15分钟;3) 安全第一: 零信任(mTLS)、KMS加密、实时风控引擎。其他都可以迭代,这三个决策错了重构代价极大。