返回架构笔记
Arch Day 107

Arch Day 107: AI系统架构 — MLOps/LLMOps全景

Arch Day 107: AI系统架构 — MLOps/LLMOps全景

2026-03-29
第四阶段 - 高阶融合
MLOpsLLMOps特征平台模型Serving向量数据库AI网关

日期: 2026-03-29 (Day 107) 阶段: 第四阶段 - 高阶融合 标签: #MLOps #LLMOps #特征平台 #模型Serving #向量数据库 #AI网关


核心概念

一句话定义

AI系统架构不只是"训练一个模型"——它是一套完整的工程体系:从数据管理、特征工程、模型训练、注册管理、在线Serving、监控反馈到持续迭代的全生命周期管理。2026年,MLOps已经从"实验性实践"演变为"企业级基础设施",LLMOps作为MLOps的延伸正在快速成熟。

为什么关注

AI/ML正在成为每一个系统的核心组件,而不是独立的"AI项目":

  • MLOps市场规模:2026年预计达到43.8亿美元,年复合增长率39.8%
  • 从实验到生产的鸿沟:85%的AI项目无法投产——MLOps就是解决这个问题的
  • LLMOps是新战场:传统MLOps围绕模型训练,LLMOps围绕Prompt管理、RAG、Guard Rails
  • 10年金融经验:金融业是AI落地最活跃的行业——风控、营销、客服都需要ML平台
  • 面试高频:高级架构面试必问ML系统设计、特征平台、模型部署策略

误区与反模式

误区现实
"MLOps就是把Jupyter Notebook上线"MLOps是完整的工程体系,Notebook只是冰山一角
"LLMOps和MLOps是两回事"LLMOps是MLOps的扩展,核心理念相通,但工具链不同
"向量数据库选最火的就行"选型取决于数据规模、查询模式、已有技术栈
"模型越大越好"模型大小 vs 推理成本 vs 延迟是核心trade-off
"特征平台是大公司的事"有3个以上ML模型就应该考虑Feature Store

知识点详解

一、ML平台架构全景

1.1 端到端架构

ML平台全景架构(2026版):

┌─────────────────────────────────────────────────────────────┐
│                    ML Platform Architecture                  │
├─────────────────────────────────────────────────────────────┤
│                                                             │
│  ┌──────────┐  ┌──────────┐  ┌──────────┐  ┌──────────┐  │
│  │ Data     │  │ Feature  │  │ Model    │  │ Online   │  │
│  │ Mgmt     │→│ Engg     │→│ Training │→│ Serving  │  │
│  │          │  │          │  │          │  │          │  │
│  │ ├─数据源  │  │ ├─离线特征│  │ ├─实验管理│  │ ├─API    │  │
│  │ ├─数据质量│  │ ├─在线特征│  │ ├─分布训练│  │ ├─批推理 │  │
│  │ ├─数据版本│  │ ├─近线特征│  │ ├─超参优化│  │ ├─流推理 │  │
│  │ └─数据目录│  │ └─特征目录│  │ └─模型注册│  │ └─边缘推理│  │
│  └──────────┘  └──────────┘  └──────────┘  └──────────┘  │
│       │              │              │              │        │
│  ┌────┴──────────────┴──────────────┴──────────────┴───┐   │
│  │              Monitoring & Feedback Loop               │   │
│  │  ┌──────────┐ ┌──────────┐ ┌──────────┐             │   │
│  │  │ 模型监控  │ │ 数据漂移  │ │ A/B测试   │             │   │
│  │  │ (性能/延迟)│ │ 检测     │ │ 统一实验  │             │   │
│  │  └──────────┘ └──────────┘ └──────────┘             │   │
│  └──────────────────────────────────────────────────────┘   │
│                                                             │
│  ┌──────────────────────────────────────────────────────┐   │
│  │              LLMOps Extension (2025-2026新增)         │   │
│  │  ┌──────────┐ ┌──────────┐ ┌──────────┐ ┌────────┐ │   │
│  │  │ Prompt   │ │ RAG      │ │ Guard    │ │ Cost   │ │   │
│  │  │ Mgmt     │ │ Pipeline │ │ Rails    │ │ Control│ │   │
│  │  └──────────┘ └──────────┘ └──────────┘ └────────┘ │   │
│  └──────────────────────────────────────────────────────┘   │
└─────────────────────────────────────────────────────────────┘

1.2 MLOps成熟度模型

MLOps成熟度(Google提出的3级模型):

Level 0: 手动ML
├── Jupyter Notebook手动训练
├── 手动部署到生产
├── 无监控无回滚
└── 适用:PoC/实验阶段

Level 1: ML Pipeline自动化
├── 自动化训练Pipeline
├── 特征工程自动化
├── 持续训练(CT) → 数据到了自动重训
├── 模型验证自动化
└── 适用:中等ML成熟度

Level 2: CI/CD for ML
├── 代码变更 → 自动训练 → 自动部署
├── A/B测试自动化
├── 模型监控 + 自动回滚
├── 特征平台 + 实验平台
└── 适用:大规模ML应用

Level 3: 自治ML(2025-2026新趋势)
├── AI Agent自动选择模型架构
├── 自动特征发现和工程
├── 自动漂移检测 + 自动重训
├── 自动成本优化
└── 适用:AI-first企业

二、特征平台(Feature Store)

2.1 为什么需要特征平台

没有Feature Store的痛点:

Data Scientist A:
  SELECT age, income, AVG(txn_amount) OVER (...)
  FROM raw_data
  WHERE ...

Data Scientist B:
  SELECT age, annual_income, MEAN(transaction_amt) OVER (...)
  FROM source_data
  WHERE ...

→ 同一个特征,不同定义,不同计算,不同结果
→ 线上/线下特征不一致 (Training-Serving Skew)
→ 重复计算,浪费资源
→ 新模型要重新写所有特征工程代码

2.2 Feature Store架构

Feature Store架构:

┌─────────────────────────────────────────────────────┐
│                  Feature Store                       │
├─────────────────────────────────────────────────────┤
│                                                     │
│  ┌───────────────────────────────────────────────┐ │
│  │            Feature Registry (元数据层)          │ │
│  │  ├── 特征定义(Schema/类型/描述)               │ │
│  │  ├── 特征血缘(Lineage) → 溯源到原始数据       │ │
│  │  ├── 特征版本 → 支持回滚                      │ │
│  │  ├── 特征质量 → 完整性/分布/漂移              │ │
│  │  └── 特征权限 → 谁能读/写哪些特征             │ │
│  └───────────────────────────────────────────────┘ │
│                       │                             │
│  ┌─────────┐  ┌──────┴──────┐  ┌──────────────┐  │
│  │ 离线存储 │  │ 近线存储     │  │ 在线存储     │  │
│  │ (Batch) │  │ (Near-line) │  │ (Real-time)  │  │
│  │         │  │             │  │              │  │
│  │ Hive/   │  │ Kafka/      │  │ Redis/       │  │
│  │ Spark/  │  │ Flink/      │  │ DynamoDB/    │  │
│  │ BigQuery│  │ Spark       │  │ Cassandra    │  │
│  │         │  │ Streaming   │  │              │  │
│  │ 延迟:   │  │ 延迟:       │  │ 延迟:        │  │
│  │ 分钟-小时│  │ 秒-分钟     │  │ <10ms       │  │
│  │         │  │             │  │              │  │
│  │ 用途:   │  │ 用途:       │  │ 用途:        │  │
│  │ 训练    │  │ 近实时模型   │  │ 在线推理     │  │
│  └─────────┘  └─────────────┘  └──────────────┘  │
│                                                     │
│  ┌───────────────────────────────────────────────┐ │
│  │            Transformation Engine               │ │
│  │  ├── 批处理转换(Spark/Flink Batch)            │ │
│  │  ├── 流处理转换(Flink/Spark Streaming)        │ │
│  │  ├── 在线转换(Python/Java实时计算)             │ │
│  │  └── SQL转换(dbt/Spark SQL)                   │ │
│  └───────────────────────────────────────────────┘ │
└─────────────────────────────────────────────────────┘

2.3 Feast vs Tecton对比(2025-2026)

维度FeastTecton
部署模式开源自建全托管SaaS
特征转换需要外部处理(Spark/Flink)内置转换引擎(批/流/实时)
在线存储插件化(Redis/DynamoDB等)托管在线存储
延迟性能Java gRPC + Redis → 极低延迟优秀,但受托管架构影响
流特征支持基础(需自己搭Kafka/Flink)原生支持,秒级可用
治理能力基础(需自己扩展)企业级(血缘/权限/审计)
成本免费(但运维成本高)付费(但运维成本低)
适用场景有强ML工程团队的中大型公司需要快速上线+SLA保障的企业
社区/生态CNCF生态,活跃社区商业生态,专业支持
2026更新v0.10: 增强流数据源/云集成持续加强实时流/治理能力

选型建议

选Feast如果:
├── 你有强大的ML工程团队(>5人)
├── 已有Spark/Flink/Kafka基础设施
├── 需要深度定制
├── 成本敏感
└── 已经是Kubernetes生态

选Tecton如果:
├── 需要快速上线(<3个月)
├── 需要生产级SLA(99.9%+)
├── 缺少ML工程专家
├── 需要企业级治理(审计/合规)
└── 愿意为减少运维付费

三、模型Serving架构

3.1 Serving框架对比(2025-2026)

模型Serving框架演进:

2020-2022: TFServing/TorchServe → 传统ML模型
2022-2024: vLLM/TGI → LLM专用Serving
2025-2026: vLLM/SGLang + TensorRT-LLM → 高性能LLM Serving
                                         + AI Gateway → 统一管理层

核心框架对比

维度vLLMTGI (v3)Triton/TensorRT-LLMSGLang
核心创新PagedAttentionFlash Attention + 长上下文优化TensorRT优化内核RadixAttention
性能高吞吐基线长Prompt(>200k)快13xH100上高20-40%与vLLM竞争
易用性pip install + 1命令Docker + 少量配置需编译TRT引擎+模型仓库pip install
API兼容OpenAI兼容OpenAI兼容自有gRPC/HTTPOpenAI兼容
硬件支持NVIDIA + AMD + TPUNVIDIA为主仅NVIDIANVIDIA + AMD
社区最大最活跃Hugging Face生态NVIDIA企业级快速增长
适用场景通用LLM ServingHF模型快速部署极致性能+企业级结构化生成
2026推荐默认首选HF生态首选需要极致优化时新锐挑战者

3.2 Serving架构设计

生产级模型Serving架构:

                    ┌────────────────┐
                    │   AI Gateway   │
                    │ (路由/限流/缓存) │
                    └───────┬────────┘
                            │
              ┌─────────────┼─────────────┐
              │             │             │
        ┌─────┴─────┐ ┌────┴────┐ ┌─────┴─────┐
        │ vLLM集群   │ │ TGI集群 │ │ TRT-LLM  │
        │ (通用)    │ │ (HF模型)│ │ (高性能)  │
        │           │ │         │ │           │
        │ ┌───────┐ │ │ ┌─────┐ │ │ ┌───────┐ │
        │ │GPU Pod│ │ │ │GPU  │ │ │ │H100   │ │
        │ │ x N   │ │ │ │Pod  │ │ │ │集群    │ │
        │ └───────┘ │ │ └─────┘ │ │ └───────┘ │
        └───────────┘ └─────────┘ └───────────┘
              │             │             │
        ┌─────┴─────────────┴─────────────┴────┐
        │          Model Registry               │
        │  ┌──────────────────────────────────┐ │
        │  │ MLflow / Weights & Biases        │ │
        │  │ ├── 模型版本管理                   │ │
        │  │ ├── A/B流量分配                   │ │
        │  │ ├── 金丝雀发布                    │ │
        │  │ └── 自动回滚                      │ │
        │  └──────────────────────────────────┘ │
        └──────────────────────────────────────┘

3.3 关键性能指标

指标定义典型目标
TTFTTime to First Token<200ms (交互式)
TPSTokens Per Second (生成速度)>30 tokens/s/请求
吞吐量并发请求数 × TPS取决于GPU数量
P99延迟99分位延迟<2s (对话式)
GPU利用率GPU计算利用率>70%
内存效率KV Cache利用率>90% (PagedAttention)

四、LLMOps特有挑战

4.1 MLOps vs LLMOps

MLOps vs LLMOps对比:

┌─────────────────┬────────────────────┬────────────────────┐
│    维度          │     MLOps          │     LLMOps         │
├─────────────────┼────────────────────┼────────────────────┤
│ 核心制品        │ 模型(权重+代码)     │ Prompt+模型+RAG     │
│ 训练方式        │ 从头训练/微调       │ 微调/ICL/RLHF/DPO  │
│ 评估方式        │ 数值指标(AUC/F1)   │ 主观+自动(LLM Judge)│
│ 版本管理        │ 数据版本+模型版本   │ +Prompt版本+RAG版本 │
│ 成本模型        │ 训练GPU + 推理GPU  │ 训练 + 推理 + Token │
│ 监控重点        │ 准确率/漂移        │ +幻觉/有害/成本    │
│ 安全关注        │ 模型偏见/公平性    │ +越狱/注入/数据泄露 │
│ 迭代周期        │ 数据→训练→评估      │ Prompt→测试→RAG调优 │
│ 关键工具        │ MLflow/Kubeflow    │ +LangSmith/Maxim   │
│ 2026新趋势      │ AutoML/自治ML      │ Agent编排/MCP/A2A  │
└─────────────────┴────────────────────┴────────────────────┘

4.2 Prompt Management

Prompt Management架构:

┌──────────────────────────────────────────────────┐
│            Prompt Management System               │
├──────────────────────────────────────────────────┤
│                                                  │
│  ┌──────────────────────────────────────────┐   │
│  │          Prompt Registry                  │   │
│  │  ├── Prompt模板版本管理                    │   │
│  │  ├── 变量(Variables)注入                  │   │
│  │  ├── A/B测试分组                          │   │
│  │  ├── 使用统计(Token消耗/延迟/质量)        │   │
│  │  └── 权限控制(谁能修改哪些Prompt)         │   │
│  └──────────────────────────────────────────┘   │
│                       │                          │
│  ┌──────────────────────────────────────────┐   │
│  │          Prompt Testing                   │   │
│  │  ├── 单元测试(固定输入→期望输出)           │   │
│  │  ├── 回归测试(旧Case不能退步)             │   │
│  │  ├── LLM-as-Judge(用LLM评估LLM)         │   │
│  │  └── Human-in-the-Loop(关键场景人工审核)  │   │
│  └──────────────────────────────────────────┘   │
│                       │                          │
│  ┌──────────────────────────────────────────┐   │
│  │          Prompt Optimization              │   │
│  │  ├── DSPy自动优化                         │   │
│  │  ├── Few-shot示例选择                     │   │
│  │  └── Chain-of-Thought模板                 │   │
│  └──────────────────────────────────────────┘   │
└──────────────────────────────────────────────────┘

4.3 Guard Rails设计

LLM Guard Rails多层防御:

Layer 1: 输入过滤
├── Prompt Injection检测 → 识别恶意指令注入
├── PII检测 → 自动脱敏个人信息
├── 有害内容检测 → 拦截暴力/歧视/色情内容
└── Token预算检查 → 防止恶意超长输入

Layer 2: 模型层控制
├── System Prompt锁定 → 防止被覆盖
├── 温度/Top-P控制 → 限制随机性
├── 停止序列(Stop Sequences)
└── JSON模式 → 强制结构化输出

Layer 3: 输出验证
├── 幻觉检测 → 与知识库交叉验证
├── 格式验证 → 确保输出符合Schema
├── 有害内容二次检测
├── 引用来源验证(RAG场景)
└── 一致性检查 → 多次生成对比

Layer 4: 业务层兜底
├── 人工审核队列 → 高风险回答送人工
├── 置信度阈值 → 低置信度返回兜底回答
├── 速率限制 → 防止滥用
└── 审计日志 → 所有输入输出可追溯

五、向量数据库选型(2025-2026)

5.1 选型矩阵

维度PineconeMilvusWeaviateQdrantpgvector
部署全托管自建/Zilliz Cloud自建/Cloud自建/CloudPG扩展
语言Go/C++GoRustC
最大规模十亿级百亿级十亿级十亿级千万级
混合搜索专有稀疏编码BM25(v2.5+)BlockMax WAND命名向量混合需扩展
元数据过滤基础最强(Rust优化)SQL原生
ACID完整ACID
延迟(1M)<50ms<20ms<50ms<30ms50-100ms
生态最广API集成CNCF毕业GraphQL原生极简APIPostgreSQL生态
成本高(托管溢价)低(Rust高效)最低(PG已有)
适合快速上手大规模部署多模态+混合搜索高性能+过滤已有PG

5.2 选型决策树

向量数据库选型决策树(2026版):

START
  │
  ├── 已经有PostgreSQL?
  │   ├── YES → 数据量<5000万?
  │   │         ├── YES → pgvector/pgvectorscale ★
  │   │         └── NO → 考虑专用向量数据库
  │   └── NO → 继续
  │
  ├── 需要全托管(零运维)?
  │   ├── YES → Pinecone ★
  │   └── NO → 继续
  │
  ├── 数据量>10亿?
  │   ├── YES → Milvus/Zilliz Cloud ★
  │   └── NO → 继续
  │
  ├── 需要复杂元数据过滤?
  │   ├── YES → Qdrant ★
  │   └── NO → 继续
  │
  ├── 需要多模态+混合搜索?
  │   ├── YES → Weaviate ★
  │   └── NO → 继续
  │
  └── 默认推荐 → Qdrant(性能/灵活性最佳平衡)

5.3 pgvectorscale的崛起

2025-2026年的一个重要趋势是pgvectorscale的崛起——它让PostgreSQL在5000万向量规模下具备了专用向量数据库的竞争力:

pgvectorscale关键优势:
├── 5000万向量 → 471 QPS @ 99%召回率
├── 完整ACID事务(向量数据库做不到)
├── 无需引入新数据库(降低运维复杂度)
├── SQL原生查询(团队学习成本为零)
└── 成本远低于专用向量数据库

局限:
├── 超大规模(>1亿)性能不如Milvus/Qdrant
├── 分布式扩展能力有限
└── 高级向量操作(如量化策略)不如专用DB灵活

六、AI网关(AI Gateway)设计

6.1 AI网关 vs API网关

API网关 vs AI网关:

API Gateway:                     AI Gateway:
├── HTTP路由                     ├── 多模型路由
├── 速率限制                     ├── Token级限流
├── 认证/鉴权                    ├── Prompt安全控制
├── 负载均衡                     ├── 语义缓存(Semantic Cache)
├── 请求/响应转换                ├── 成本控制/Token计量
└── 日志/监控                    ├── Guard Rails
                                 ├── 多Provider容灾
                                 ├── Agent工作流支持
                                 └── 可观测性(延迟+成本+质量)

6.2 AI网关架构

AI Gateway架构(2026版):

┌──────────────────────────────────────────────────────────┐
│                    AI Gateway                             │
├──────────────────────────────────────────────────────────┤
│                                                          │
│  ┌────────────────────────────────────────────────────┐ │
│  │  Ingress Layer                                      │ │
│  │  ├── OpenAI兼容API → 统一接口                       │ │
│  │  ├── 认证/鉴权 → API Key / OAuth / JWT             │ │
│  │  ├── 速率限制 → 按用户/团队/模型                    │ │
│  │  └── 请求验证 → Schema检查 + Guard Rails           │ │
│  └────────────────────────────────────────────────────┘ │
│                          │                               │
│  ┌────────────────────────────────────────────────────┐ │
│  │  Routing & Optimization Layer                       │ │
│  │  ├── 智能路由 → 按成本/延迟/质量选择模型             │ │
│  │  ├── 语义缓存 → 相似问题返回缓存(节省30-60%成本)  │ │
│  │  ├── Fallback → Provider故障自动切换                │ │
│  │  ├── 负载均衡 → 加权轮询 + 自适应                   │ │
│  │  └── Prompt增强 → 注入System Prompt/RAG上下文       │ │
│  └────────────────────────────────────────────────────┘ │
│                          │                               │
│  ┌────────────────────────────────────────────────────┐ │
│  │  Provider Layer                                     │ │
│  │  ├── OpenAI (GPT-4o/o3)                            │ │
│  │  ├── Anthropic (Claude)                             │ │
│  │  ├── Google (Gemini)                                │ │
│  │  ├── Self-hosted (vLLM/TGI)                        │ │
│  │  └── 其他 (Mistral/Cohere/...)                     │ │
│  └────────────────────────────────────────────────────┘ │
│                          │                               │
│  ┌────────────────────────────────────────────────────┐ │
│  │  Observability Layer                                │ │
│  │  ├── Token消耗追踪 → 按团队/项目/模型               │ │
│  │  ├── 延迟监控 → TTFT/TPS/P99                       │ │
│  │  ├── 质量监控 → 幻觉率/满意度                       │ │
│  │  ├── 成本仪表板 → 实时/预算/预测                    │ │
│  │  └── 审计日志 → 完整请求/响应(合规需要)            │ │
│  └────────────────────────────────────────────────────┘ │
└──────────────────────────────────────────────────────────┘

6.3 主流AI网关方案对比(2026)

方案类型核心优势延迟开销适用
PortkeySaaS最全功能集(30+Provider)中等企业级多Provider
LiteLLM开源/PythonOpenAI统一接口高(Python GIL)开发/测试
Bifrost开源/Go极低延迟(11μs)极低高性能生产
Kong AI Gateway商业已有Kong用户无缝升级已有Kong的企业
AWS Bedrock云服务AWS生态集成中等AWS全家桶用户

七、统一实验平台

7.1 A/B测试+特征实验+模型实验

统一实验平台:

┌──────────────────────────────────────────────────────────┐
│                 Unified Experiment Platform                │
├──────────────────────────────────────────────────────────┤
│                                                          │
│  实验类型:                                                │
│  ├── A/B测试: UI变更/文案/功能开关                        │
│  ├── 特征实验: 不同特征组合 → 模型效果                    │
│  ├── 模型实验: 不同模型/超参 → 业务指标                   │
│  └── Prompt实验: 不同Prompt → 生成质量(2025+新增)        │
│                                                          │
│  关键能力:                                                │
│  ├── 流量分配: 用户→实验组的确定性分配(哈希)              │
│  ├── 互斥/分层: 多个实验不冲突                            │
│  ├── 指标计算: 自动计算统计显著性                          │
│  ├── 早停规则: 负面效果自动停止                            │
│  └── 毕业流程: 胜出方案自动全量                           │
│                                                          │
│  架构:                                                    │
│  ┌──────┐  ┌──────┐  ┌──────┐  ┌──────┐               │
│  │实验配置│→│流量分配│→│指标收集│→│分析报告│               │
│  │管理   │  │引擎   │  │Pipeline│  │引擎   │               │
│  └──────┘  └──────┘  └──────┘  └──────┘               │
└──────────────────────────────────────────────────────────┘

八、实操:设计"金融AI平台"

金融AI平台完整架构:

┌──────────────────────────────────────────────────────────────┐
│                 Financial AI Platform                         │
├──────────────────────────────────────────────────────────────┤
│                                                              │
│  ┌─── 数据层 ──────────────────────────────────────────────┐│
│  │ 数据源: 交易流水 | 用户行为 | 征信数据 | 市场数据        ││
│  │ 数据湖: Delta Lake / Iceberg                             ││
│  │ 数据质量: Great Expectations + 自动化监控                 ││
│  └──────────────────────────────────────────────────────────┘│
│                            │                                  │
│  ┌─── 特征层(Feast) ──────┴──────────────────────────────┐  │
│  │ 离线特征: 用户画像/信用评分历史/交易统计(Spark Batch)    │  │
│  │ 近线特征: 近7天交易频率/近1小时交易金额(Flink Streaming) │  │
│  │ 在线特征: 当前余额/实时风险分(Redis, <5ms)              │  │
│  └──────────────────────────────────────────────────────────┘│
│                            │                                  │
│  ┌─── 模型层 ──────────────┴───────────────────────────────┐│
│  │ 训练: 分布式训练(Horovod/DeepSpeed) + W&B实验追踪       ││
│  │ 注册: MLflow Model Registry + 审批流程(合规要求)         ││
│  │ 评估: 自动化回测 + 公平性检测(金融监管)                  ││
│  └──────────────────────────────────────────────────────────┘│
│                            │                                  │
│  ┌─── Serving层 ──────────┴────────────────────────────────┐│
│  │ ML模型: TorchServe(风控模型/信用评分, <50ms)             ││
│  │ LLM: vLLM(智能客服/文档理解, <2s TTFT)                  ││
│  │ AI Gateway: Portkey(多模型路由/成本控制/审计日志)         ││
│  └──────────────────────────────────────────────────────────┘│
│                            │                                  │
│  ┌─── 监控层 ──────────────┴────────────────────────────────┐│
│  │ 模型监控: Evidently(数据漂移/模型性能衰减)               ││
│  │ LLM监控: LangSmith(Prompt质量/幻觉率/Token成本)         ││
│  │ 业务监控: 风控准确率/误报率/客户满意度                    ││
│  │ 合规审计: 所有模型决策可追溯(金融监管要求)                ││
│  └──────────────────────────────────────────────────────────┘│
└──────────────────────────────────────────────────────────────┘

面试题精选

面试题1:MLOps和LLMOps有什么区别?

30秒版本: MLOps关注模型训练全生命周期管理,核心制品是模型权重。LLMOps在此基础上新增了Prompt管理、RAG Pipeline、Guard Rails和Token成本控制。两者理念相通但工具链不同——MLOps用MLflow/Kubeflow,LLMOps用LangSmith/Maxim。

2分钟版本: 我把它分三个维度来讲:

  1. 核心差异:MLOps的迭代单位是"数据+模型",每次改进是收集更多数据、调整特征、重新训练。LLMOps的迭代单位是"Prompt+RAG+模型",很多时候改一个Prompt就能显著改善效果,不需要重训模型。

  2. 工具链差异:MLOps用Feature Store管理特征、MLflow追踪实验、Kubeflow编排Pipeline。LLMOps新增了Prompt版本管理、向量数据库(RAG)、Guard Rails(安全护栏)、LLM Evaluation框架(LLM-as-Judge)。

  3. 成本模型差异:MLOps的成本主要是训练时的GPU。LLMOps的成本分三块——训练(微调)、推理(Token计费)、RAG(向量存储+检索)。Token成本是LLMOps的核心关注点,所以AI Gateway的语义缓存和路由优化变得很重要。

在我设计金融AI平台时,实际上MLOps和LLMOps是统一在一个平台上的——共享数据层和监控层,但模型训练和Serving走不同的路径。

面试题2:向量数据库如何选型?

30秒版本: 如果已有PostgreSQL且数据量<5000万,首选pgvectorscale。需要零运维选Pinecone。10亿级以上选Milvus。需要复杂过滤选Qdrant。多模态+混合搜索选Weaviate。

2分钟版本: 选型要考虑五个维度:

  1. 现有技术栈:如果已经有PostgreSQL,pgvectorscale在5000万向量以内性能出色,而且不用引入新数据库——这在企业环境中运维成本的节省是巨大的,还有完整ACID事务。

  2. 数据规模:千万级以下pgvector够用;亿级首选Milvus(Go/C++,分布式扩展性最强)或Qdrant(Rust,单机性能极好);十亿级以上必须Milvus。

  3. 查询模式:如果大量需要元数据过滤(比如"找与这个问题相似的、且属于金融领域、且时间在最近30天的文档"),Qdrant的Rust实现过滤性能最优。

  4. 运维能力:没有专职DBA/运维团队就选托管方案——Pinecone(最简单)或Zilliz Cloud(Milvus托管版)。

  5. 成本:Pinecone最贵但最省心,pgvector最便宜但功能最简单。要根据预算和团队能力权衡。


今日总结

核心要点

  1. ML平台是端到端工程体系,不是"训练一个模型"
  2. Feature Store解决训练-推理特征不一致(Training-Serving Skew)问题
  3. vLLM是2026年LLM Serving的默认选择,PagedAttention是核心创新
  4. LLMOps在MLOps基础上新增Prompt管理、RAG、Guard Rails、成本控制
  5. 向量数据库选型取决于规模、技术栈、查询模式——pgvectorscale是PostgreSQL用户的杀手级方案
  6. AI网关正从可选组件变为关键基础设施,语义缓存可节省30-60%成本

明日预告

Day 108将深入AI Agent系统架构——从Agent架构模式到多Agent编排,从RAG演进到安全权限设计。


参考资源