返回架构笔记
Arch Day 135

Arch Day 135: 数据管道架构 — EventBridge、流处理与编排

云上数据管道架构的核心决策是流处理vs批处理和编排vs协调——选错模式可能导致延迟从毫秒级退化到小时级。

2026-08-12
第五阶段 - 云架构深度
EventBridgeKinesisStepFunctionsTemporalAirflow数据管道

日期: 2026-08-12 (Day 135) 阶段: 第五阶段 - 云架构深度 标签: #EventBridge #Kinesis #StepFunctions #Temporal #Airflow #数据管道


核心概念

一句话定义

云上数据管道架构的核心决策是流处理vs批处理编排vs协调——选错模式可能导致延迟从毫秒级退化到小时级。


知识点详解

1. 流处理方案对比

维度KinesisMSK (Kafka)SQS
延迟~200ms~10ms~100ms
吞吐每Shard 1MB/s依配置无上限几乎无上限
消息保留24h-365天可配置(无限)4-14天
运维全托管需选broker全托管
适用AWS原生实时分析Kafka生态微服务解耦

2. EventBridge Pipes

点对点事件集成:filter → enrich → transform → target

Pipes vs Rules选择

  • Pipes:单Source→单Target,需enrichment
  • Rules:Fan-out到多Target

3. 工作流编排对比

维度Step FunctionsTemporalAirflow
范式Serverless状态机(JSON)代码即工作流DAG (Python)
扩展自动(Serverless)自动(Cloud)需管理Worker
适用AWS服务编排关键业务事务批处理ETL
用户AWS企业Netflix/Stripe30M+月下载

2025关键: Temporal Worker Auto-Tuning GA,Airflow 3.0 GA(史上最大版本)。

4. ETL/ELT平台

维度GlueDatabricksSnowflake
定位Serverless ETLLakehouseData Warehouse
流处理StreamingStructured StreamingSnowpipe Streaming
ML基础MLflow深度集成Snowpark ML

5. 实时分析

Redshift Streaming: Materialized View作为流数据着陆区,Kinesis数据秒级可查询 BigQuery Streaming: Storage Write API,半结构化数据处理优势


面试题

问题:Kinesis vs SQS,什么时候用什么?

回答:Kinesis是(Stream)——有序、可重放、多消费者、适合实时分析;SQS是队列(Queue)——点对点、消费后删除、适合微服务解耦和任务分发。如果需要多个下游消费同一事件流用Kinesis/MSK,如果是一次性处理任务用SQS。