Arch Day 150
Arch Day 150: LLM应用架构总结 — 决策速查与面试冲刺
LLM应用架构的本质是在不确定性中构建可靠系统——模型输出是概率性的,但产品体验必须是确定性的。这10天覆盖了从RAG到Agent、从评估到成本优化的完整知识体系。
2026-08-27
第六阶段 - LLM与AI架构LLM总结决策框架面试技术选型架构模式
日期: 2026-08-27 (Day 150) 阶段: 第六阶段 - LLM与AI架构 标签: #LLM总结 #决策框架 #面试 #技术选型 #架构模式
核心概念
一句话定义
LLM应用架构的本质是在不确定性中构建可靠系统——模型输出是概率性的,但产品体验必须是确定性的。这10天覆盖了从RAG到Agent、从评估到成本优化的完整知识体系。
知识点详解
1. 10天知识总览
| Day | 主题 | 核心收获 |
|---|---|---|
| 141 | RAG架构 | 7种RAG模式,512 token+25% overlap起步 |
| 142 | 向量数据库 | Qdrant性价比最优,>1B用Milvus |
| 143 | Agent框架 | LangGraph v1.0最成熟,MCP/A2A成行业标准 |
| 144 | Guardrails | 五层纵深防御,NeMo+Guardrails AI组合 |
| 145 | Fine-tuning | RAG管知识,FT管行为;DPO取代RLHF |
| 146 | 评估 | RAGAS标准,LLM-as-Judge主流 |
| 147 | 生产模式 | Model Routing+Cache降70%+成本 |
| 148 | 编排框架 | LlamaIndex做知识层+LangGraph做编排层 |
| 149 | 产品设计 | 透明性/可控性/渐进信任/优雅降级 |
| 150 | 总结 | 决策速查,面试准备 |
2. 决策速查表
| 决策点 | 推荐 | 理由 |
|---|---|---|
| RAG还是Fine-tuning? | 先RAG | 60%生产应用用RAG,成本低10x |
| 向量数据库? | 初创Pinecone;生产Qdrant | 按规模选 |
| Agent框架? | 生产LangGraph;原型CrewAI | v1.0最成熟 |
| Guardrails? | NeMo+Guardrails AI | NeMo管对话,GRAI管输出 |
| 评估? | RAGAS+Arize Phoenix | 开源,厂商无关 |
| 成本? | Routing+Cache+Prompt Cache | 组合降70%+ |
| Chunking? | 512 tokens+25% overlap | 不要过早语义分块 |
| Reranking? | 开源BGE;商业Cohere v4.0 | 提升48%检索质量 |
3. 高频面试题
- RAG vs Fine-tuning什么时候用什么?
- 如何评估RAG系统的质量?
- MCP和Function Calling有什么区别?
- 如何防止Prompt Injection?
- 如何将LLM API成本降到可控?
- LangChain被批评过度抽象,你怎么看?
- 如何设计AI产品的PMF验证?
面试题
问题:如果你要从零构建一个AI客服系统,架构上怎么设计?
回答:1) 知识层: LlamaIndex索引企业文档,混合Chunking,Hybrid Search+Reranking;2) 对话层: LangGraph管理对话状态,支持多轮对话和人工接管;3) 安全层: NeMo Guardrails限制主题范围,Guardrails AI验证输出;4) 成本层: Model Routing(80%用Mini/Flash),Semantic Cache处理重复问题;5) 监控层: RAGAS评估Faithfulness,Arize Phoenix线上监控;6) 产品层: 来源引用建立信任,不确定时转人工而非编造答案。