AI / LLM Notes

多模态模型 (Multimodal Model / Vision-Language Model, VLM) 是在大语言模型基础上接入视觉编码器，使AI能够同时理解文本、图像乃至视频的统一架构，核心公式为 `VLM = Vision Encoder + Projection + LLM Decoder`。

2026-04-11

MultimodalVision-LanguageViT+6

AI Day 11

AI Day 11: Reasoning模型：CoT / o1 / R1 / Extended Thinking — AI学会"深度思考"

Reasoning模型是通过大规模强化学习训练LLM在生成最终答案前进行显式的多步推理（Chain-of-Thought），将"推理时间计算"(Test-Time Compute)转化为答案准确度的新范式——标志着AI从"快速联想"进化到"深度思考"。

2026-04-12

ReasoningChain-of-ThoughtOpenAI+6

AI Day 12

AI Day 12: Agent框架：ReAct / Tool Use / Planning — 让AI不只是聊天，而是"做事"

AI Agent 是以LLM为"大脑"，配备记忆(Memory)、工具(Tools)和规划能力(Planning)的自主系统——它不只是回答问题，而是能感知环境、制定计划、调用工具、执行多步任务，并根据结果动态调整策略。

2026-04-13

AIReActTool+9

AI Day 13

AI Day 13: MCP协议与Tool生态 — AI的"USB标准"

MCP (Model Context Protocol) 是Anthropic于2024年11月开源的标准协议，定义AI模型如何发现、连接、调用外部工具和数据源——它是AI生态系统的"USB标准"，将N个AI客户端与M个工具服务的集成复杂度从O(N x M)降至O(N + M)。

2026-04-14

MCPModelJSON-RPC+6

AI Day 14

AI Day 14: 模型评估：Benchmark / Arena / 安全评估 — 如何科学地比较和选择模型

模型评估（Model Evaluation）是通过标准化测试集(Benchmark)、人类盲测投票(Arena)、自动化评判(LLM-as-Judge)和安全对抗测试(Red Teaming)等多维度方法，系统衡量LLM在知识、推理、编码、安全等方面的真实能力——它是AI系统选型的决策基础，也是"模型军备竞赛"的计分板。

2026-04-15

BenchmarkMMLUHumanEval+8

AI Day 15

AI Day 15: 第一阶段复习与架构总结 — 从概念到全景的知识地图

第一阶段不是14个孤立知识点的堆砌，而是一个完整技术栈的分层构建过程——从硬件和模型基底(Day 1-3)，到知识注入和行为控制(Day 4-7)，到性能工程(Day 8-9)，到能力扩展(Day 10-11)，到系统协作(Day 12-13)，最后到质量保障(Day 14)。今天的任务是把这些碎片拼成一张可在面试中1分钟讲清的全景图。

2026-04-16

PhaseKnowledge技术栈全景+3

第二阶段：工程实践

AI Day 16

AI Day 16: LLM应用架构设计(1) — API Gateway / 路由 / 缓存 — 生产级LLM系统的骨架

LLM应用架构不是"调一个API"这么简单——它是一套从客户端请求到模型响应再到监控反馈的完整工程体系，包含网关(Gateway)、路由(Router)、缓存(Cache)、流式传输(Streaming)、可观测性(Observability)和成本控制(Cost Control)六大支柱。第一阶段学的是"每块砖是什么"，今天学的是"怎么把砖砌成承重墙"。

2026-04-17

APIModelSemantic+6

AI Day 17

AI Day 17: LLM安全与Guardrails — 生产环境的防护体系

LLM安全与Guardrails 是在生产环境中围绕大语言模型建立的多层防护体系——通过输入过滤(Input Guard)、处理约束(Processing Constraint)、输出检查(Output Guard)三道防线，防止Prompt Injection、数据泄露、幻觉、有害内容等安全威胁，确保AI系统在可控边界内运行。它不是"锦上添花"的可选项，而是LLM上生产的硬性前提。

2026-04-18

LLMGuardrailsPrompt+9

AI Day 18

AI Day 18: LLM可观测性与监控 — 生产环境的"仪表盘"

LLM可观测性(Observability) 是对LLM应用在生产环境中"运行状态"的全面感知能力——通过Traces(链路追踪)、Metrics(指标度量)、Logs(结构化日志)三大支柱，加上LLM特有的Quality Score(质量评分)、Token Usage(令牌消耗)和Cost Attribution(成本归因)，实现"发生了什么、为什么发生、花了多少钱、质量好不好"的完整可见性。它

2026-04-19

ObservabilityTracingMetrics+14

AI Day 19

AI Day 19: 生产级RAG(1)：文档解析与Chunking工程 — 数据质量决定RAG上限

文档解析与Chunking工程是生产级RAG系统的"数据地基"——将非结构化文档(PDF/Word/HTML/扫描件)精确转化为结构化、可检索的知识片段(Chunks)。解析质量和Chunking策略决定了RAG系统的理论上限：检索再精准、模型再强大，如果源数据就是错的或碎片化的，最终输出必然低质。这是一个80%工程量花在数据处理上的典型领域。

2026-04-20

DocumentChunkingPDF+9

AI Day 20

AI Day 20: 生产级RAG(2)：检索优化与Reranking — 找到最相关的信息

检索优化与Reranking是生产级RAG系统的"精准定位引擎"——昨天我们解决了"数据怎么准备"(解析+Chunking)，今天解决"数据怎么找到"。核心问题是：面对百万级Chunks，如何在毫秒内从中精确找到回答用户问题最需要的那5-10个片段。这不是简单的向量相似度搜索，而是一个多阶段、多策略的信息精炼流程——从Query理解、粗筛召回、精排重排到上下文组装，每一步都有巨大优化空间。

2026-04-21

RetrievalRerankingCross-Encoder+11

AI Day 21

AI Day 21: 生产级RAG(3)：评估体系与持续迭代 — 用数据驱动RAG优化

RAG评估与持续迭代是让RAG系统从"能用"走向"好用"的工程闭环——通过系统化的指标度量(Faithfulness/Relevancy/Precision/Recall)、自动化评估流水线(LLM-as-Judge)、幻觉检测与治疗，以及数据驱动的诊断-优化循环，使RAG系统在生产环境中持续演进。没有评估体系的RAG，就像没有回测的量化策略——你以为它在赚钱，其实可能一直在亏。

2026-04-22

RAGRAGASFaithfulness+10

AI Day 22

AI Day 22: Agent系统工程化(1)：状态管理与错误恢复 — 让Agent在生产环境中"不丢活、不翻车"

Agent状态管理与错误恢复是让Agent从"Demo好看"到"生产能用"的关键工程能力——通过有限状态机(FSM)管理Agent的执行生命周期，通过Checkpoint/Resume实现长时任务的断点续传，通过幂等性+重试+回退+人工接管的四层防御体系应对不可预测的失败。没有状态管理的Agent，就像没有事务管理的交易系统——一断电就全丢。

2026-04-23

AgentErrorCheckpoint+7

AI Day 23

AI Day 23: Agent系统工程化(2)：成本控制与性能优化 — 让Agent又快又省

Agent成本 = LLM调用单价 x 调用次数 x 每次Token复杂度。一个没有成本控制的Agent就像一张没有限额的信用卡——一个失控Agent一分钟能花$100。优化的核心不是"少用LLM"，而是"让每一次调用都物有所值"。

2026-04-24

CostTokenModel+7

AI Day 24

AI Day 24: Agent系统工程化(3)：多Agent协作架构 -- 让AI团队分工合作

多Agent协作架构是让多个专业化AI Agent分工协作完成复杂任务的系统设计方法。单Agent是"全栈工程师"，多Agent是"专业团队"。

2026-04-25

Multi-AgentSupervisorHierarchical+6

AI Day 25

AI Day 25: Agent系统工程化(4)：测试与部署 — 让Agent从"能跑"到"敢上线"

Agent测试与部署是Agent系统工程化的最后一环——解决"非确定性系统如何保证质量"和"AI应用如何安全上线"两大核心难题。传统软件测试靠assert精确值，Agent测试靠评估框架(Evaluation Framework)判断"足够好"；传统部署靠蓝绿切换，Agent部署靠灰度+Shadow Mode+人工兜底的多层保护。没有测试的Agent是定时炸弹，没有灰度的Agent上线是赌博。

2026-04-26

AgentLLMCI/CD+7

AI Day 26

AI Day 26: LLM成本工程 — 从$10K/月降到$2K/月的实战方法

LLM成本工程 = 在保持输出质量的前提下，通过模型路由、缓存、压缩、批处理、混合部署等手段，将LLM运营成本降低50-80%。

2026-04-27

成本优化模型路由Prompt缓存+2

AI Day 27

AI Day 27: 多模型编排与Fallback策略 — 永远不让服务挂在一棵树上

多模型编排(Multi-Model Orchestration) = 在生产系统中同时管理多个LLM Provider/Model，通过智能路由、自动Fallback、版本管理和A/B测试，实现高可用、高质量、低成本的AI服务。

2026-04-28

多模型编排Fallback模型路由+4

AI Day 28

AI Day 28: LLM应用测试策略 — 如何测试"不确定性"系统

LLM应用测试(LLM Application Testing) = 针对大模型输出的非确定性特征，用分层断言、评估集(Eval Set)、LLM-as-Judge和统计方法替代传统精确匹配，在开发、集成、发布全流程保障AI系统质量。

2026-04-29

LLM测试PromptfooDeepEval+5

AI Day 29

AI Day 29: 案例分析：企业LLM平台架构 — 从PoC到Production

企业LLM平台落地(Enterprise LLM Productionization) = 将大模型能力从Demo变成企业级生产系统的完整工程过程，核心挑战不在模型本身，而在工程化、安全合规、成本可控和组织协同。

2026-04-30

企业LLMPoC到Production金融客服+5

AI Day 30

AI Day 30: 第二阶段总结 — LLM工程实践全景 (Phase 2 Summary: LLM Engineering in Practice)

第一阶段回答了"LLM是什么、能做什么"，第二阶段回答了"LLM怎么在生产环境中可靠、安全、经济地做"。15天工程实践的核心洞察是：模型能力只占生产系统的20%，剩下80%是围绕模型构建的工程基础设施——Gateway、安全层、监控、缓存、评估、部署——这些才是区分Demo和Production的真正分水岭。

2026-05-01

PhaseEngineering架构决策+7

第三阶段：金融零售AI

AI Day 31

AI Day 31: 金融AI(1)：智能风控与反欺诈 — AI重塑金融风险防线

金融智能风控(Financial AI Risk Control) = 利用机器学习、深度学习和大语言模型技术，对金融交易、信贷申请、账户行为等进行实时风险评估与欺诈检测的系统工程，核心目标是在毫秒级延迟内做出高精度的风险决策。

2026-05-02

金融AI智能风控反欺诈+6

AI Day 32

AI Day 32: 金融AI(2)：智能投顾与量化策略 — AI驱动的投资决策革命

2026-05-03

智能投顾量化策略RoboAdvisor+5

AI Day 33

AI Day 33: 金融AI(3)：合规科技与监管AI — Compliance as Code

合规科技(RegTech) = 利用AI/NLP/知识图谱等技术，将金融合规从劳动密集型的成本中心转变为自动化、智能化的效率引擎，在满足监管要求的同时降低合规成本60-80%。

2026-05-04

合规科技RegTechKYC+7

AI Day 34

AI Day 34: 金融AI(4)：信贷全链路AI — 从获客到贷后的智能化

信贷全链路AI (Full-Pipeline Credit AI) = 将AI/ML/LLM嵌入信贷从获客→审批→定价→放款→贷后→催收的每个环节，实现端到端智能决策，是金融AI落地最成熟、ROI最清晰的场景。

2026-05-05

信贷AI评分卡智能审批+5

AI Day 35

AI Day 35: 金融AI总结 — 从PM视角看AI重塑金融 (Financial AI Summary: How AI Reshapes Finance from a PM Lens)

Day 31-34走完金融AI四大战场(风控/投顾/合规/信贷)之后，最深的认知不是"AI能力有多强"，而是金融行业对AI的约束有多独特 — 监管红线、可解释性、审计追溯、公平性、数据隐私 — 这些约束不是"落地障碍"，而恰恰是PM创造差异化价值的空间。通用AI产品拼模型能力，金融AI产品拼约束下的创新。

2026-05-06

金融AI总结产品机会矩阵监管约束+7

AI Day 36

Day 36: 零售AI(1) - 推荐系统与个性化

AI Day 37

AI Day 37: 零售AI(2)：智能客服与对话商务 (Retail AI: Intelligent Customer Service & Conversational Commerce)

智能客服与对话商务 (AI Customer Service & Conversational Commerce) = 利用NLU、RAG、LLM Agent技术构建的智能对话系统，不只是"回答问题"，更是在对话中完成咨询、推荐、下单、售后的全链路商业闭环 — 客服从成本中心变成利润中心。

2026-05-08

零售AI智能客服对话商务+6

AI Day 38

AI Day 38: 零售AI(3)：供应链预测与智能运营

2026-05-09

AI Day 39

AI Day 39: 零售AI(4)：智能营销与用户增长

2026-05-10

AI Day 40

AI Day 40: 零售AI总结 — PM视角的零售智能化全景

Day 36-39走完零售AI四大战场(推荐/客服/供应链/营销)之后，最深的体会不是"AI让零售更高效"，而是零售AI正在重构消费者与商品之间的连接方式 — 从"人找货"到"货找人"，从"批量服务"到"千人千面"，从"经验驱动"到"数据驱动"。零售PM的核心挑战不是技术选型，而是如何让AI增强而非替代用户体验。

2026-05-11

零售AI总结产品机会矩阵金融AI对比+5

AI Day 41