返回架构笔记
Arch Day 129

Arch Day 129: 可观测性工程 — OpenTelemetry、eBPF与AI运维

可观测性不是"更多的监控",而是系统在面对未知故障模式时,仅通过外部输出(Traces/Metrics/Logs)就能回答任意问题的能力。2026年可观测性正从"人看Dashboard"转向"AI自主诊断"。

2026-08-06
第五阶段 - 云架构深度
OpenTelemetryObservabilityeBPFDatadogGrafanaAI运维

日期: 2026-08-06 (Day 129) 阶段: 第五阶段 - 云架构深度 标签: #OpenTelemetry #Observability #eBPF #Datadog #Grafana #AI运维


核心概念

一句话定义

可观测性不是"更多的监控",而是系统在面对未知故障模式时,仅通过外部输出(Traces/Metrics/Logs)就能回答任意问题的能力。2026年可观测性正从"人看Dashboard"转向"AI自主诊断"。


知识点详解

1. OpenTelemetry成熟度(2026)

Signal状态里程碑
TracesStable (GA)2021年最早稳定
MetricsStable (GA)2023年后稳定
LogsStable (GA)KubeCon Europe 2025宣布GA
ProfilesAlpha2026.03进入Public Alpha

三大核心信号全部GA,OTel已申请成为CNCF Graduated Project

2. 平台对比

维度DatadogNew RelicGrafana Cloud
定价多维度(最贵)按用户+GB按用量(最低)
开源闭源闭源开源内核
AIBits AI (最强)AI Alert分析AI辅助查询
适合大团队/一站式用户少/数据多成本敏感

3. eBPF可观测性

工具定位
Cilium Hubble网络/服务可观测性
Pixie零代码埋点K8s应用监控
Tetragon内核级安全事件感知
Grafana BeylaeBPF自动检测HTTP/gRPC

核心价值: 与传统sidecar相比,每节点监控开销降低高达90%

4. AI驱动的可观测性

Dynatrace Davis AI: 融合Predictive/Causal/Generative AI,因果关系根因分析 Datadog Bits AI SRE: AI Agent自主调查告警,恢复速度提升90%

75%组织增加了可观测性预算,AI能力已成选择方案的#1标准。


面试题

问题:Metrics vs Traces vs Logs,什么时候用什么?

回答:Metrics做报警和趋势(CPU/内存/错误率),是最低成本的信号;Traces做请求链路追踪,定位跨服务延迟瓶颈;Logs做详细上下文,查看具体错误信息。实践中从Metrics触发告警 → Traces定位到哪个服务 → Logs查看具体错误。