Arch Day 136

Arch Day 136: AI/ML云基础设施 — GPU选型、推理优化与平台架构

AI/ML基础设施的核心决策不是"用哪个框架"，而是在成本、延迟和吞吐之间找到最优平衡——GPU选型决定了80%的成本，推理优化决定了用户体验。

2026-08-13

第五阶段 - 云架构深度

AIMLSageMakerVertexAIGPU推理优化BedrockMLOps

日期: 2026-08-13 (Day 136) 阶段: 第五阶段 - 云架构深度标签: #AIML #SageMaker #VertexAI #GPU #推理优化 #Bedrock #MLOps

核心概念

一句话定义

AI/ML基础设施的核心决策不是"用哪个框架"，而是在成本、延迟和吞吐之间找到最优平衡——GPU选型决定了80%的成本，推理优化决定了用户体验。

知识点详解

1. 四大ML平台对比

维度	SageMaker	Vertex AI	Azure ML	Bedrock
定位	全生命周期ML	自动化MLOps+Gemini	企业治理+微软生态	托管FM服务
Agent能力	Lambda编排	Agent Builder	Agent Framework	AgentCore
最佳场景	深度定制	GCP生态/自动化	合规需求	快速接入多FM

2. GPU实例选型

GPU	实例	显存	带宽	价格范围	适用
A100 80GB	p4d	80GB	2.0 TB/s	$0.66-1.29/hr	中小模型(commodity)
H100 SXM	p5	80GB	3.35 TB/s	$1.49-3.90/hr	大模型训练/推理主力
H200 SXM	p5e/p5en	141GB	4.8 TB/s	$2.50-10.60/hr	推理性能提升45%
B200	2026初	192GB	8.0 TB/s	H200+20-30%	下一代
Trainium2	Trn2	自定义	自定义	H100成本的25%	大模型训练

关键洞察: 推理瓶颈是内存带宽而非算力——H200与H100算力相同，但4.8vs3.35 TB/s带宽差距使推理提升45%。

3. 推理优化引擎

引擎	核心技术	吞吐	最佳场景
TensorRT-LLM	CUDA Graph Fusion	180-220 req/s	NVIDIA深度用户
vLLM	PagedAttention	120-160 req/s	通用/快速部署
SGLang	灵活执行	接近vLLM	动态prompt pipeline

高并发下TensorRT-LLM吞吐比vLLM高30-50%。创业公司偏好vLLM，企业投资TensorRT-LLM。

4. ML平台架构模式

Application Layer → Agent Framework / RAG / Fine-tuning
Model Serving    → vLLM / TensorRT-LLM / SageMaker Endpoint
Model Registry   → Bedrock / Model Garden / HuggingFace Hub
Training         → SageMaker / Vertex / AzureML
Compute          → H100/H200/B200 / Trainium2 / TPU v5e
MLOps            → Experiment Tracking / Monitoring / CI/CD

面试题

问题：如何优化LLM推理成本？

回答：1) 模型层：小模型处理简单请求(cost-aware routing)；2) Token优化：prompt压缩、响应长度控制；3) 引擎层：vLLM PagedAttention降低内存碎片；4) 硬件层：H200带宽优势做推理、Trainium2做训练；5) 运营层：Spot/Interruptible实例、GPU time slicing共享。