返回架构笔记
Arch Day 139

Arch Day 139: 云架构案例分析 — Netflix、Stripe、Nubank

理论要落地,最好的方式是研究顶级公司的真实架构决策——他们为什么选这朵云、用什么模式、踩过什么坑。

2026-08-16
第五阶段 - 云架构深度
案例分析NetflixStripeNubank云架构实战参考架构

日期: 2026-08-16 (Day 139) 阶段: 第五阶段 - 云架构深度 标签: #案例分析 #Netflix #Stripe #Nubank #云架构实战 #参考架构


核心概念

一句话定义

理论要落地,最好的方式是研究顶级公司的真实架构决策——他们为什么选这朵云、用什么模式、踩过什么坑。


知识点详解

1. Netflix — 云原生架构的教科书

规模: 2.6亿+付费用户,AWS上运行数千个微服务

核心架构决策:

  • 全量AWS: 2016年完成从自建数据中心到AWS的全面迁移
  • 微服务+Service Mesh: 自研Zuul(API Gateway)、Eureka(服务发现)、Hystrix(熔断)
  • 混沌工程先驱: Chaos Monkey/Chaos Kong,生产环境随机杀实例/杀区域
  • 数据管道: 自研Conductor(工作流编排),日处理PB级数据
  • 安全: SPIFFE/mTLS做服务间零信任

PM视角: Netflix的架构开源项目(Netflix OSS)影响了整个行业,但2024年后部分被云原生替代(Eureka→K8s Service Discovery,Hystrix→Resilience4j)。

2. Stripe — 支付系统的云架构

规模: 数百万商户,年处理交易量万亿美元级

核心架构决策:

  • AWS为主: 多区域部署,核心在us-east-1和eu-west-1
  • Ruby单体→微服务渐进: 不是一次性重构,而是Strangler Fig模式
  • 幂等性设计: 每个API调用都是幂等的,Idempotency Key是核心
  • 数据库: 从MySQL逐步引入DynamoDB(元数据)和Redis(缓存)
  • Temporal: 采用Temporal做关键业务工作流编排(支付状态机)
  • 安全: PCI DSS Level 1,KMS加密所有敏感数据

PM视角: Stripe的API设计是行业标杆——RESTful、一致的命名、详尽的文档、webhook事件模型。

3. Nubank — 新兴市场的云原生银行

规模: 巴西最大数字银行,1亿+客户

核心架构决策:

  • 全量云: 从Day 1就是云原生,无遗留系统包袱
  • Clojure + Datomic: 函数式编程+不可变数据库,适合金融事务
  • Kubernetes: 核心工作负载运行在K8s上
  • 事件驱动: Kafka做事件骨架,事件溯源(Event Sourcing)模式
  • 微服务: 数百个微服务,每个团队拥有自己的服务

PM视角: Nubank证明了"技术选型的勇气"——选择非主流技术(Clojure)但团队深度掌握,比选"安全"技术但半吊子更有效。

4. 共性总结

维度NetflixStripeNubank
云策略AWS全量AWS为主云原生
服务架构微服务+Mesh单体→微服务微服务+事件驱动
数据多模型MySQL→混合Datomic+Kafka
安全SPIFFE/mTLSPCI DSS L1金融合规
可靠性混沌工程幂等性设计K8s自愈

面试题

问题:如果你要从零构建一个数字银行,架构上最重要的3个决策是什么?

回答:1) 记账引擎设计: 双分录、幂等、可审计,这是金融系统的心脏;2) 多区域高可用: Aurora Global + Cell-Based Architecture,金融系统RTO<15分钟;3) 安全第一: 零信任(mTLS)、KMS加密、实时风控引擎。其他都可以迭代,这三个决策错了重构代价极大。