返回架构笔记
Arch Day 150

Arch Day 150: LLM应用架构总结 — 决策速查与面试冲刺

LLM应用架构的本质是在不确定性中构建可靠系统——模型输出是概率性的,但产品体验必须是确定性的。这10天覆盖了从RAG到Agent、从评估到成本优化的完整知识体系。

2026-08-27
第六阶段 - LLM与AI架构
LLM总结决策框架面试技术选型架构模式

日期: 2026-08-27 (Day 150) 阶段: 第六阶段 - LLM与AI架构 标签: #LLM总结 #决策框架 #面试 #技术选型 #架构模式


核心概念

一句话定义

LLM应用架构的本质是在不确定性中构建可靠系统——模型输出是概率性的,但产品体验必须是确定性的。这10天覆盖了从RAG到Agent、从评估到成本优化的完整知识体系。


知识点详解

1. 10天知识总览

Day主题核心收获
141RAG架构7种RAG模式,512 token+25% overlap起步
142向量数据库Qdrant性价比最优,>1B用Milvus
143Agent框架LangGraph v1.0最成熟,MCP/A2A成行业标准
144Guardrails五层纵深防御,NeMo+Guardrails AI组合
145Fine-tuningRAG管知识,FT管行为;DPO取代RLHF
146评估RAGAS标准,LLM-as-Judge主流
147生产模式Model Routing+Cache降70%+成本
148编排框架LlamaIndex做知识层+LangGraph做编排层
149产品设计透明性/可控性/渐进信任/优雅降级
150总结决策速查,面试准备

2. 决策速查表

决策点推荐理由
RAG还是Fine-tuning?先RAG60%生产应用用RAG,成本低10x
向量数据库?初创Pinecone;生产Qdrant按规模选
Agent框架?生产LangGraph;原型CrewAIv1.0最成熟
Guardrails?NeMo+Guardrails AINeMo管对话,GRAI管输出
评估?RAGAS+Arize Phoenix开源,厂商无关
成本?Routing+Cache+Prompt Cache组合降70%+
Chunking?512 tokens+25% overlap不要过早语义分块
Reranking?开源BGE;商业Cohere v4.0提升48%检索质量

3. 高频面试题

  • RAG vs Fine-tuning什么时候用什么?
  • 如何评估RAG系统的质量?
  • MCP和Function Calling有什么区别?
  • 如何防止Prompt Injection?
  • 如何将LLM API成本降到可控?
  • LangChain被批评过度抽象,你怎么看?
  • 如何设计AI产品的PMF验证?

面试题

问题:如果你要从零构建一个AI客服系统,架构上怎么设计?

回答:1) 知识层: LlamaIndex索引企业文档,混合Chunking,Hybrid Search+Reranking;2) 对话层: LangGraph管理对话状态,支持多轮对话和人工接管;3) 安全层: NeMo Guardrails限制主题范围,Guardrails AI验证输出;4) 成本层: Model Routing(80%用Mini/Flash),Semantic Cache处理重复问题;5) 监控层: RAGAS评估Faithfulness,Arize Phoenix线上监控;6) 产品层: 来源引用建立信任,不确定时转人工而非编造答案。