Arch Day 150

Arch Day 150: LLM应用架构总结 — 决策速查与面试冲刺

LLM应用架构的本质是在不确定性中构建可靠系统——模型输出是概率性的，但产品体验必须是确定性的。这10天覆盖了从RAG到Agent、从评估到成本优化的完整知识体系。

2026-08-27

第六阶段 - LLM与AI架构

LLM总结决策框架面试技术选型架构模式

日期: 2026-08-27 (Day 150) 阶段: 第六阶段 - LLM与AI架构标签: #LLM总结 #决策框架 #面试 #技术选型 #架构模式

核心概念

一句话定义

LLM应用架构的本质是在不确定性中构建可靠系统——模型输出是概率性的，但产品体验必须是确定性的。这10天覆盖了从RAG到Agent、从评估到成本优化的完整知识体系。

知识点详解

1. 10天知识总览

Day	主题	核心收获
141	RAG架构	7种RAG模式，512 token+25% overlap起步
142	向量数据库	Qdrant性价比最优，>1B用Milvus
143	Agent框架	LangGraph v1.0最成熟，MCP/A2A成行业标准
144	Guardrails	五层纵深防御，NeMo+Guardrails AI组合
145	Fine-tuning	RAG管知识,FT管行为；DPO取代RLHF
146	评估	RAGAS标准，LLM-as-Judge主流
147	生产模式	Model Routing+Cache降70%+成本
148	编排框架	LlamaIndex做知识层+LangGraph做编排层
149	产品设计	透明性/可控性/渐进信任/优雅降级
150	总结	决策速查，面试准备

2. 决策速查表

决策点	推荐	理由
RAG还是Fine-tuning?	先RAG	60%生产应用用RAG,成本低10x
向量数据库?	初创Pinecone;生产Qdrant	按规模选
Agent框架?	生产LangGraph;原型CrewAI	v1.0最成熟
Guardrails?	NeMo+Guardrails AI	NeMo管对话,GRAI管输出
评估?	RAGAS+Arize Phoenix	开源,厂商无关
成本?	Routing+Cache+Prompt Cache	组合降70%+
Chunking?	512 tokens+25% overlap	不要过早语义分块
Reranking?	开源BGE;商业Cohere v4.0	提升48%检索质量

3. 高频面试题

RAG vs Fine-tuning什么时候用什么？
如何评估RAG系统的质量？
MCP和Function Calling有什么区别？
如何防止Prompt Injection？
如何将LLM API成本降到可控？
LangChain被批评过度抽象，你怎么看？
如何设计AI产品的PMF验证？

面试题

问题：如果你要从零构建一个AI客服系统，架构上怎么设计？

回答：1) 知识层: LlamaIndex索引企业文档，混合Chunking，Hybrid Search+Reranking；2) 对话层: LangGraph管理对话状态，支持多轮对话和人工接管；3) 安全层: NeMo Guardrails限制主题范围，Guardrails AI验证输出；4) 成本层: Model Routing(80%用Mini/Flash)，Semantic Cache处理重复问题；5) 监控层: RAGAS评估Faithfulness，Arize Phoenix线上监控；6) 产品层: 来源引用建立信任，不确定时转人工而非编造答案。