Arch Day 146
Arch Day 146: LLM评估与可观测性 — LLM-as-Judge与质量监控
LLM应用没有传统软件的"单元测试"——你无法用assert判断"回答是否正确"。LLM-as-Judge(用强模型评判弱模型)已成2026年主流评估方法,但需要系统化的指标体系和持续监控。
2026-08-23
第六阶段 - LLM与AI架构LLM评估LLMasJudgeRAGAS可观测性幻觉检测LangSmith
日期: 2026-08-23 (Day 146) 阶段: 第六阶段 - LLM与AI架构 标签: #LLM评估 #LLMasJudge #RAGAS #可观测性 #幻觉检测 #LangSmith
核心概念
一句话定义
LLM应用没有传统软件的"单元测试"——你无法用assert判断"回答是否正确"。LLM-as-Judge(用强模型评判弱模型)已成2026年主流评估方法,但需要系统化的指标体系和持续监控。
知识点详解
1. 评估工具对比
| 工具 | 类型 | 核心能力 | 适用 |
|---|---|---|---|
| RAGAS | 开源 | Faithfulness/Relevancy/Context | RAG评估标准 |
| DeepEval | 开源 | 14+指标, Pytest集成 | CI/CD自动化 |
| Arize Phoenix | 开源 | OpenTelemetry, 20x加速 | 厂商无关 |
| LangSmith | 商业 | Trace+自定义Evaluator | LangChain生态 |
| Langfuse | 开源 | Trace+评估+Prompt管理 | 轻量级 |
2. 核心评估指标
| 类别 | 指标 | 衡量 |
|---|---|---|
| 忠实度 | Faithfulness, Groundedness | 是否基于检索上下文 |
| 相关性 | Answer/Context Relevancy | 是否切题 |
| 检索质量 | Precision, Recall | 检索准确率和召回率 |
| 幻觉 | Hallucination Rate | 凭空编造比例 |
| 实用性 | Revision Distance | 需多少人工编辑——最接近真实体验 |
3. 生产级LLM可观测性
必须覆盖:
- Traces: 跨chain/tool/agent的完整调用链
- Prompt版本管理: 追踪prompt变更对质量的影响
- 成本/延迟分解: 每步的cost和latency
- 质量信号: 实时监控Faithfulness漂移
- Alert: 质量下降时自动告警
4. LLM-as-Judge注意事项
- 需要定期校准Judge模型,避免评估偏差
- Judge模型应比被评模型更强(GPT-4o/Claude Sonnet评判小模型)
- 建议同时保留人工评估样本作为基准
面试题
问题:如何度量RAG系统的质量?
回答:三层指标——1) 检索层:Context Precision(检索到的内容是否相关)和Recall(是否遗漏关键信息);2) 生成层:Faithfulness(是否忠实于检索内容)和Answer Relevancy(是否回答了问题);3) 业务层:Revision Distance(需要多少人工编辑)。用RAGAS做离线评估,Arize Phoenix做线上监控。