Arch Day 129
Arch Day 129: 可观测性工程 — OpenTelemetry、eBPF与AI运维
可观测性不是"更多的监控",而是系统在面对未知故障模式时,仅通过外部输出(Traces/Metrics/Logs)就能回答任意问题的能力。2026年可观测性正从"人看Dashboard"转向"AI自主诊断"。
2026-08-06
第五阶段 - 云架构深度OpenTelemetryObservabilityeBPFDatadogGrafanaAI运维
日期: 2026-08-06 (Day 129) 阶段: 第五阶段 - 云架构深度 标签: #OpenTelemetry #Observability #eBPF #Datadog #Grafana #AI运维
核心概念
一句话定义
可观测性不是"更多的监控",而是系统在面对未知故障模式时,仅通过外部输出(Traces/Metrics/Logs)就能回答任意问题的能力。2026年可观测性正从"人看Dashboard"转向"AI自主诊断"。
知识点详解
1. OpenTelemetry成熟度(2026)
| Signal | 状态 | 里程碑 |
|---|---|---|
| Traces | Stable (GA) | 2021年最早稳定 |
| Metrics | Stable (GA) | 2023年后稳定 |
| Logs | Stable (GA) | KubeCon Europe 2025宣布GA |
| Profiles | Alpha | 2026.03进入Public Alpha |
三大核心信号全部GA,OTel已申请成为CNCF Graduated Project。
2. 平台对比
| 维度 | Datadog | New Relic | Grafana Cloud |
|---|---|---|---|
| 定价 | 多维度(最贵) | 按用户+GB | 按用量(最低) |
| 开源 | 闭源 | 闭源 | 开源内核 |
| AI | Bits AI (最强) | AI Alert分析 | AI辅助查询 |
| 适合 | 大团队/一站式 | 用户少/数据多 | 成本敏感 |
3. eBPF可观测性
| 工具 | 定位 |
|---|---|
| Cilium Hubble | 网络/服务可观测性 |
| Pixie | 零代码埋点K8s应用监控 |
| Tetragon | 内核级安全事件感知 |
| Grafana Beyla | eBPF自动检测HTTP/gRPC |
核心价值: 与传统sidecar相比,每节点监控开销降低高达90%。
4. AI驱动的可观测性
Dynatrace Davis AI: 融合Predictive/Causal/Generative AI,因果关系根因分析 Datadog Bits AI SRE: AI Agent自主调查告警,恢复速度提升90%
75%组织增加了可观测性预算,AI能力已成选择方案的#1标准。
面试题
问题:Metrics vs Traces vs Logs,什么时候用什么?
回答:Metrics做报警和趋势(CPU/内存/错误率),是最低成本的信号;Traces做请求链路追踪,定位跨服务延迟瓶颈;Logs做详细上下文,查看具体错误信息。实践中从Metrics触发告警 → Traces定位到哪个服务 → Logs查看具体错误。