返回架构笔记
Arch Day 146

Arch Day 146: LLM评估与可观测性 — LLM-as-Judge与质量监控

LLM应用没有传统软件的"单元测试"——你无法用assert判断"回答是否正确"。LLM-as-Judge(用强模型评判弱模型)已成2026年主流评估方法,但需要系统化的指标体系和持续监控。

2026-08-23
第六阶段 - LLM与AI架构
LLM评估LLMasJudgeRAGAS可观测性幻觉检测LangSmith

日期: 2026-08-23 (Day 146) 阶段: 第六阶段 - LLM与AI架构 标签: #LLM评估 #LLMasJudge #RAGAS #可观测性 #幻觉检测 #LangSmith


核心概念

一句话定义

LLM应用没有传统软件的"单元测试"——你无法用assert判断"回答是否正确"。LLM-as-Judge(用强模型评判弱模型)已成2026年主流评估方法,但需要系统化的指标体系和持续监控。


知识点详解

1. 评估工具对比

工具类型核心能力适用
RAGAS开源Faithfulness/Relevancy/ContextRAG评估标准
DeepEval开源14+指标, Pytest集成CI/CD自动化
Arize Phoenix开源OpenTelemetry, 20x加速厂商无关
LangSmith商业Trace+自定义EvaluatorLangChain生态
Langfuse开源Trace+评估+Prompt管理轻量级

2. 核心评估指标

类别指标衡量
忠实度Faithfulness, Groundedness是否基于检索上下文
相关性Answer/Context Relevancy是否切题
检索质量Precision, Recall检索准确率和召回率
幻觉Hallucination Rate凭空编造比例
实用性Revision Distance需多少人工编辑——最接近真实体验

3. 生产级LLM可观测性

必须覆盖:

  • Traces: 跨chain/tool/agent的完整调用链
  • Prompt版本管理: 追踪prompt变更对质量的影响
  • 成本/延迟分解: 每步的cost和latency
  • 质量信号: 实时监控Faithfulness漂移
  • Alert: 质量下降时自动告警

4. LLM-as-Judge注意事项

  • 需要定期校准Judge模型,避免评估偏差
  • Judge模型应比被评模型更强(GPT-4o/Claude Sonnet评判小模型)
  • 建议同时保留人工评估样本作为基准

面试题

问题:如何度量RAG系统的质量?

回答:三层指标——1) 检索层:Context Precision(检索到的内容是否相关)和Recall(是否遗漏关键信息);2) 生成层:Faithfulness(是否忠实于检索内容)和Answer Relevancy(是否回答了问题);3) 业务层:Revision Distance(需要多少人工编辑)。用RAGAS做离线评估,Arize Phoenix做线上监控。