返回架构笔记
Arch Day 136

Arch Day 136: AI/ML云基础设施 — GPU选型、推理优化与平台架构

AI/ML基础设施的核心决策不是"用哪个框架",而是在成本、延迟和吞吐之间找到最优平衡——GPU选型决定了80%的成本,推理优化决定了用户体验。

2026-08-13
第五阶段 - 云架构深度
AIMLSageMakerVertexAIGPU推理优化BedrockMLOps

日期: 2026-08-13 (Day 136) 阶段: 第五阶段 - 云架构深度 标签: #AIML #SageMaker #VertexAI #GPU #推理优化 #Bedrock #MLOps


核心概念

一句话定义

AI/ML基础设施的核心决策不是"用哪个框架",而是在成本、延迟和吞吐之间找到最优平衡——GPU选型决定了80%的成本,推理优化决定了用户体验。


知识点详解

1. 四大ML平台对比

维度SageMakerVertex AIAzure MLBedrock
定位全生命周期ML自动化MLOps+Gemini企业治理+微软生态托管FM服务
Agent能力Lambda编排Agent BuilderAgent FrameworkAgentCore
最佳场景深度定制GCP生态/自动化合规需求快速接入多FM

2. GPU实例选型

GPU实例显存带宽价格范围适用
A100 80GBp4d80GB2.0 TB/s$0.66-1.29/hr中小模型(commodity)
H100 SXMp580GB3.35 TB/s$1.49-3.90/hr大模型训练/推理主力
H200 SXMp5e/p5en141GB4.8 TB/s$2.50-10.60/hr推理性能提升45%
B2002026初192GB8.0 TB/sH200+20-30%下一代
Trainium2Trn2自定义自定义H100成本的25%大模型训练

关键洞察: 推理瓶颈是内存带宽而非算力——H200与H100算力相同,但4.8vs3.35 TB/s带宽差距使推理提升45%。

3. 推理优化引擎

引擎核心技术吞吐最佳场景
TensorRT-LLMCUDA Graph Fusion180-220 req/sNVIDIA深度用户
vLLMPagedAttention120-160 req/s通用/快速部署
SGLang灵活执行接近vLLM动态prompt pipeline

高并发下TensorRT-LLM吞吐比vLLM高30-50%。创业公司偏好vLLM,企业投资TensorRT-LLM。

4. ML平台架构模式

Application Layer → Agent Framework / RAG / Fine-tuning
Model Serving    → vLLM / TensorRT-LLM / SageMaker Endpoint
Model Registry   → Bedrock / Model Garden / HuggingFace Hub
Training         → SageMaker / Vertex / AzureML
Compute          → H100/H200/B200 / Trainium2 / TPU v5e
MLOps            → Experiment Tracking / Monitoring / CI/CD

面试题

问题:如何优化LLM推理成本?

回答:1) 模型层:小模型处理简单请求(cost-aware routing);2) Token优化:prompt压缩、响应长度控制;3) 引擎层:vLLM PagedAttention降低内存碎片;4) 硬件层:H200带宽优势做推理、Trainium2做训练;5) 运营层:Spot/Interruptible实例、GPU time slicing共享。