Arch Day 136
Arch Day 136: AI/ML云基础设施 — GPU选型、推理优化与平台架构
AI/ML基础设施的核心决策不是"用哪个框架",而是在成本、延迟和吞吐之间找到最优平衡——GPU选型决定了80%的成本,推理优化决定了用户体验。
2026-08-13
第五阶段 - 云架构深度AIMLSageMakerVertexAIGPU推理优化BedrockMLOps
日期: 2026-08-13 (Day 136) 阶段: 第五阶段 - 云架构深度 标签: #AIML #SageMaker #VertexAI #GPU #推理优化 #Bedrock #MLOps
核心概念
一句话定义
AI/ML基础设施的核心决策不是"用哪个框架",而是在成本、延迟和吞吐之间找到最优平衡——GPU选型决定了80%的成本,推理优化决定了用户体验。
知识点详解
1. 四大ML平台对比
| 维度 | SageMaker | Vertex AI | Azure ML | Bedrock |
|---|---|---|---|---|
| 定位 | 全生命周期ML | 自动化MLOps+Gemini | 企业治理+微软生态 | 托管FM服务 |
| Agent能力 | Lambda编排 | Agent Builder | Agent Framework | AgentCore |
| 最佳场景 | 深度定制 | GCP生态/自动化 | 合规需求 | 快速接入多FM |
2. GPU实例选型
| GPU | 实例 | 显存 | 带宽 | 价格范围 | 适用 |
|---|---|---|---|---|---|
| A100 80GB | p4d | 80GB | 2.0 TB/s | $0.66-1.29/hr | 中小模型(commodity) |
| H100 SXM | p5 | 80GB | 3.35 TB/s | $1.49-3.90/hr | 大模型训练/推理主力 |
| H200 SXM | p5e/p5en | 141GB | 4.8 TB/s | $2.50-10.60/hr | 推理性能提升45% |
| B200 | 2026初 | 192GB | 8.0 TB/s | H200+20-30% | 下一代 |
| Trainium2 | Trn2 | 自定义 | 自定义 | H100成本的25% | 大模型训练 |
关键洞察: 推理瓶颈是内存带宽而非算力——H200与H100算力相同,但4.8vs3.35 TB/s带宽差距使推理提升45%。
3. 推理优化引擎
| 引擎 | 核心技术 | 吞吐 | 最佳场景 |
|---|---|---|---|
| TensorRT-LLM | CUDA Graph Fusion | 180-220 req/s | NVIDIA深度用户 |
| vLLM | PagedAttention | 120-160 req/s | 通用/快速部署 |
| SGLang | 灵活执行 | 接近vLLM | 动态prompt pipeline |
高并发下TensorRT-LLM吞吐比vLLM高30-50%。创业公司偏好vLLM,企业投资TensorRT-LLM。
4. ML平台架构模式
Application Layer → Agent Framework / RAG / Fine-tuning
Model Serving → vLLM / TensorRT-LLM / SageMaker Endpoint
Model Registry → Bedrock / Model Garden / HuggingFace Hub
Training → SageMaker / Vertex / AzureML
Compute → H100/H200/B200 / Trainium2 / TPU v5e
MLOps → Experiment Tracking / Monitoring / CI/CD
面试题
问题:如何优化LLM推理成本?
回答:1) 模型层:小模型处理简单请求(cost-aware routing);2) Token优化:prompt压缩、响应长度控制;3) 引擎层:vLLM PagedAttention降低内存碎片;4) 硬件层:H200带宽优势做推理、Trainium2做训练;5) 运营层:Spot/Interruptible实例、GPU time slicing共享。