Arch Day 146

Arch Day 146: LLM评估与可观测性 — LLM-as-Judge与质量监控

LLM应用没有传统软件的"单元测试"——你无法用assert判断"回答是否正确"。LLM-as-Judge(用强模型评判弱模型)已成2026年主流评估方法，但需要系统化的指标体系和持续监控。

2026-08-23

第六阶段 - LLM与AI架构

LLM评估LLMasJudgeRAGAS可观测性幻觉检测LangSmith

日期: 2026-08-23 (Day 146) 阶段: 第六阶段 - LLM与AI架构标签: #LLM评估 #LLMasJudge #RAGAS #可观测性 #幻觉检测 #LangSmith

核心概念

一句话定义

LLM应用没有传统软件的"单元测试"——你无法用assert判断"回答是否正确"。LLM-as-Judge(用强模型评判弱模型)已成2026年主流评估方法，但需要系统化的指标体系和持续监控。

知识点详解

1. 评估工具对比

工具	类型	核心能力	适用
RAGAS	开源	Faithfulness/Relevancy/Context	RAG评估标准
DeepEval	开源	14+指标, Pytest集成	CI/CD自动化
Arize Phoenix	开源	OpenTelemetry, 20x加速	厂商无关
LangSmith	商业	Trace+自定义Evaluator	LangChain生态
Langfuse	开源	Trace+评估+Prompt管理	轻量级

2. 核心评估指标

类别	指标	衡量
忠实度	Faithfulness, Groundedness	是否基于检索上下文
相关性	Answer/Context Relevancy	是否切题
检索质量	Precision, Recall	检索准确率和召回率
幻觉	Hallucination Rate	凭空编造比例
实用性	Revision Distance	需多少人工编辑——最接近真实体验

3. 生产级LLM可观测性

必须覆盖：

Traces: 跨chain/tool/agent的完整调用链
Prompt版本管理: 追踪prompt变更对质量的影响
成本/延迟分解: 每步的cost和latency
质量信号: 实时监控Faithfulness漂移
Alert: 质量下降时自动告警

4. LLM-as-Judge注意事项

需要定期校准Judge模型，避免评估偏差
Judge模型应比被评模型更强(GPT-4o/Claude Sonnet评判小模型)
建议同时保留人工评估样本作为基准

面试题

问题：如何度量RAG系统的质量？

回答：三层指标——1) 检索层：Context Precision(检索到的内容是否相关)和Recall(是否遗漏关键信息)；2) 生成层：Faithfulness(是否忠实于检索内容)和Answer Relevancy(是否回答了问题)；3) 业务层：Revision Distance(需要多少人工编辑)。用RAGAS做离线评估，Arize Phoenix做线上监控。