Arch Day 135
Arch Day 135: 数据管道架构 — EventBridge、流处理与编排
云上数据管道架构的核心决策是流处理vs批处理和编排vs协调——选错模式可能导致延迟从毫秒级退化到小时级。
2026-08-12
第五阶段 - 云架构深度EventBridgeKinesisStepFunctionsTemporalAirflow数据管道
日期: 2026-08-12 (Day 135) 阶段: 第五阶段 - 云架构深度 标签: #EventBridge #Kinesis #StepFunctions #Temporal #Airflow #数据管道
核心概念
一句话定义
云上数据管道架构的核心决策是流处理vs批处理和编排vs协调——选错模式可能导致延迟从毫秒级退化到小时级。
知识点详解
1. 流处理方案对比
| 维度 | Kinesis | MSK (Kafka) | SQS |
|---|---|---|---|
| 延迟 | ~200ms | ~10ms | ~100ms |
| 吞吐 | 每Shard 1MB/s | 依配置无上限 | 几乎无上限 |
| 消息保留 | 24h-365天 | 可配置(无限) | 4-14天 |
| 运维 | 全托管 | 需选broker | 全托管 |
| 适用 | AWS原生实时分析 | Kafka生态 | 微服务解耦 |
2. EventBridge Pipes
点对点事件集成:filter → enrich → transform → target
Pipes vs Rules选择:
- Pipes:单Source→单Target,需enrichment
- Rules:Fan-out到多Target
3. 工作流编排对比
| 维度 | Step Functions | Temporal | Airflow |
|---|---|---|---|
| 范式 | Serverless状态机(JSON) | 代码即工作流 | DAG (Python) |
| 扩展 | 自动(Serverless) | 自动(Cloud) | 需管理Worker |
| 适用 | AWS服务编排 | 关键业务事务 | 批处理ETL |
| 用户 | AWS企业 | Netflix/Stripe | 30M+月下载 |
2025关键: Temporal Worker Auto-Tuning GA,Airflow 3.0 GA(史上最大版本)。
4. ETL/ELT平台
| 维度 | Glue | Databricks | Snowflake |
|---|---|---|---|
| 定位 | Serverless ETL | Lakehouse | Data Warehouse |
| 流处理 | Streaming | Structured Streaming | Snowpipe Streaming |
| ML | 基础 | MLflow深度集成 | Snowpark ML |
5. 实时分析
Redshift Streaming: Materialized View作为流数据着陆区,Kinesis数据秒级可查询 BigQuery Streaming: Storage Write API,半结构化数据处理优势
面试题
问题:Kinesis vs SQS,什么时候用什么?
回答:Kinesis是流(Stream)——有序、可重放、多消费者、适合实时分析;SQS是队列(Queue)——点对点、消费后删除、适合微服务解耦和任务分发。如果需要多个下游消费同一事件流用Kinesis/MSK,如果是一次性处理任务用SQS。