返回 Papers
AI 底层逻辑 / 经典论文

Model Routing / Semantic Cache:Frugal AI 与成本质量路由

核心思想:

350ai-foundations/papers/28-model-routing-semantic-cache-frugal-ai.md

Model Routing / Semantic Cache / Frugal AI 解读

面向对象: AI PM / AI Architect / Platform PM / FinOps / EvalOps。 核心问题: 企业 AI 为什么不能所有请求都打最强模型?如何用模型路由、语义缓存和级联策略同时管理质量、成本、延迟和风险? 学习目标: 理解 FrugalGPT、RouteLLM、semantic cache、model cascade 的底层思路,并把它们转成 AI 平台的 routing policy、SLO 和产品策略。


Source Anchors

SourceLink用途
FrugalGPThttps://arxiv.org/abs/2305.05176理解 LLM cascade 如何在成本和质量之间做优化
RouteLLMhttps://github.com/lm-sys/RouteLLM理解根据请求难度路由到强/弱模型
RouteLLM Paperhttps://arxiv.org/abs/2406.18665理解 model router 的训练和评估方法
GPTCachehttps://github.com/zilliztech/GPTCache理解语义缓存、相似查询复用和成本降低
LMSYS Chatbot Arenahttps://chat.lmsys.org/理解模型质量比较和路由评估的背景

核心思想:

AI 平台不应该只问“哪个模型最好”,而应问“这个请求在这个风险等级、SLO 和成本约束下,应该由哪个能力路径处理”。


1. 这类研究解决什么问题

企业 AI 上线后会遇到四个现实约束:

约束表现
成本所有请求打大模型,单位经济无法成立
延迟客服、搜索、工单、代码辅助对响应时间敏感
质量小模型便宜但复杂任务失败率高
风险高风险任务不能只由便宜模型自动完成

单一模型策略太粗:

所有请求 -> 最大模型 -> 高成本 / 高延迟 / 不区分风险
所有请求 -> 小模型 -> 低成本 / 质量不稳 / 高风险不可接受

更成熟的 AI 平台会使用:

Request
  -> classify task / risk / difficulty / tenant / SLO
  -> cache lookup
  -> route to small model / large model / specialized model / RAG / human
  -> evaluate output confidence / risk
  -> escalate, retry, or finalize

2. FrugalGPT: Cascade 的产品含义

FrugalGPT 的核心思路是:

先用便宜模型处理简单请求;当质量信号不足时,再升级到更强模型。

Input
  -> Model A cheap
  -> quality check
     -> pass: return
     -> fail: Model B stronger
        -> quality check
           -> pass: return
           -> fail: Model C / human

这不是简单的降本,而是把模型调用变成一个可控决策过程。

Cascade 设计问题

决策说明
first model用哪个便宜模型先试
confidence signal用什么判断是否足够好
escalation rule什么时候升级到强模型
stop rule什么时候拒答或人工处理
cost budget每类请求最大允许成本
latency budget升级是否仍满足体验

3. RouteLLM: 路由不是 if-else

RouteLLM 关注的问题是:

如何学习一个 router,让简单请求走便宜模型,复杂请求走强模型,在质量接近强模型的同时降低成本。

路由依据可以包括:

  • 请求长度。
  • 任务类型。
  • 语义复杂度。
  • 历史模型表现。
  • 用户等级。
  • 风险等级。
  • 是否需要工具。
  • 是否有明确 gold source。

Router 输出

Output含义
small_model低风险、简单、格式稳定
large_model复杂推理、长上下文、高质量生成
specialist_model分类、抽取、rerank、embedding
rag_path需要当前知识和引用
human_review高风险或不确定性过高

AI PM 要注意:

Router 本身也是产品能力,需要评测、监控、灰度和回滚。


4. Semantic Cache: 缓存的不只是字符串

传统缓存:

exact query match -> return cached answer

语义缓存:

new query -> embedding -> similar cached query -> similarity threshold
          -> reuse answer / reuse retrieved context / skip model call

适合:

  • FAQ。
  • 政策解释。
  • 固定流程说明。
  • 内部知识问答。
  • 高频客服问题。

不适合直接复用:

  • 客户个性化信息。
  • 金额、日期、状态敏感查询。
  • 权限差异明显的问题。
  • 政策快速变化的问题。
  • 高风险建议。

5. Semantic Cache 的治理边界

风险例子控制
stale answer政策更新后仍返回旧答案cache TTL + source version binding
permission leakageA 用户缓存命中 B 用户可见答案permission-aware cache key
semantic false positive相似但业务条件不同threshold + rerank + field constraints
personalization error忽略用户账户状态no-cache fields
audit gap不知道答案来自缓存trace cache_hit=true

高风险场景中,缓存最好复用 retrieval/context,而不是直接复用最终答案。


6. Routing Policy Matrix

Task typeRiskDefault pathEscalation
FAQ 改写lowsmall model + semantic cachelarge model if low confidence
政策问答mediumRAG + medium modellarge model if conflicting sources
AML narrativehighRAG + large model + HITLhuman if missing evidence
信贷解释highrules + RAG + large modelcompliance review
支付争议建议highworkflow + policy enginehuman approval before customer-facing
内部 SQL/BI 问答medium/highsemantic layer + SQL guardrailsdata owner review for sensitive metrics

模型路由应把业务风险放在成本之前。


7. 架构视图: AI Routing Control Plane

Request
  -> Identity / Tenant / Permission
  -> Task Classifier
  -> Risk Classifier
  -> Cache Lookup
  -> Context Strategy Router
       -> no retrieval
       -> RAG
       -> long context
       -> tool workflow
  -> Model Router
       -> small / large / specialist / fallback
  -> Output Validator
  -> Eval Signal
  -> Trace + Cost Ledger

关键组件

Component责任
task classifier判断任务类型和复杂度
risk classifier决定自动化边界
cache serviceexact / semantic / context cache
model router决定模型路径
policy engine覆盖合规和权限规则
cost ledger记录单位成本和预算
quality monitor监控成功率、升级率、失败类型
fallback handler降级、排队、人工、拒答

8. Product Metrics

Metric含义
cost per successful task每个成功任务的模型成本
first-token latency首 token 延迟
end-to-end latency用户实际等待时间
cache hit rate缓存命中率
safe cache hit rate缓存命中且未导致错误的比例
escalation rate从小模型升级到大模型/HITL 的比例
avoided large-model calls节省的大模型调用
route accuracyrouter 选择是否符合 gold path
quality delta vs strongest model路由策略相对最强模型的质量损失
unsafe cost optimization rate因降本导致风险门禁失败的比例

最后一项应被当作 stop metric。


9. Eval 设计

路由 eval 不只看最终答案,也要看路径是否正确。

Eval layer样本
task classificationFAQ / policy / case action / data query
risk classificationlow / medium / high / critical
cache eligibility可缓存 / 不可缓存 / 只能缓存 context
model routesmall / large / specialist / human
fallback behavior重试 / 升级 / 拒答 / 人工
cost-quality frontier成本下降时质量损失

Golden Route 样例

QueryGold routeReason
“如何修改登录密码?”cache + small model低风险 FAQ
“这笔交易是否可以 chargeback?”workflow + RAG + human review涉及规则和客户影响
“解释最新 KYC 地址证明要求”RAG + medium/large model需要当前政策来源
“这个客户是否应被拒贷?”no auto decision + human高风险决策

10. 金融零售案例

10.1 Retail Customer Service Copilot

路由策略:

  • 高频 FAQ: semantic cache + small model。
  • 账户状态查询: read-only tool + medium model。
  • 费用减免承诺: 不自动承诺,转人工或生成草稿。
  • 投资/信贷建议: 边界说明 + 合规升级。

10.2 AML Alert Copilot

路由策略:

  • typology 分类: specialist classifier。
  • 证据聚合: tool + RAG。
  • narrative 草稿: large model。
  • disposition 建议: human review。
  • 高风险 alert: 禁止缓存最终建议,只缓存非敏感模板。

10.3 AI Platform PM

平台 backlog:

CapabilityWhy
routing policy editorPM/architect 可配置 task/risk/model 路径
semantic cache dashboard监控命中、节省、错误和 stale
model comparison harness评估 cost-quality frontier
route trace viewer复盘为什么走某模型
fallback simulator测试降级和供应商故障

11. Build vs Buy 决策

选项适合风险
vendor gateway routing快速接入多模型路由逻辑黑盒、证据不足
自建 lightweight router任务类型明确维护 eval 和监控成本
研究型 learned router流量大、成本压力高训练数据和漂移治理复杂
semantic cache onlyFAQ 和知识问答占比高权限和 stale 控制是重点
no routing初期低流量成本和延迟不可持续

高级判断:

流量不足时不要过早复杂化;进入规模化后,没有 routing/caching 的 AI 平台会很难管理单位经济。


12. 作品集输出

Artifact内容
AI Routing Policytask/risk/SLO/cost 到模型路径
Semantic Cache ADR哪些内容可缓存、TTL、权限、版本、trace
Cost-Quality Frontier Report小/大/路由策略的成本质量对比
Golden Route Eval Set100 条请求和期望路径
FinOps Dashboard Spec成本、命中率、升级率、质量损失
Fallback Runbook模型不可用、成本异常、质量下降时怎么处理

13. 面试表达

30 秒版本

模型路由的目标不是一味省钱,而是在任务类型、风险、SLO 和成本之间做动态决策。简单低风险请求可以走缓存或小模型,高风险复杂任务必须升级到强模型、RAG 或人工复核。

2 分钟版本

FrugalGPT 和 RouteLLM 的共同启发是: 企业 AI 应该把模型调用设计成 routing control plane,而不是固定模型选择。请求先经过任务分类、风险分类、权限检查和缓存判断,再决定 small model、large model、specialist model、RAG 或 human review。语义缓存可以显著降低高频知识问答成本,但必须绑定 source version、permission、TTL 和 trace。衡量路由不能只看 cost saving,还要看 route accuracy、quality delta、unsafe optimization rate 和 incident。

CTO 深挖

我会把 router 当成可发布组件: 有 routing policy、golden route eval、shadow traffic、灰度、成本账本、trace viewer 和 rollback。模型升级或供应商变更时,router eval 必须回归,否则成本优化可能变成质量和风险退化。


14. 复习问题

  1. FrugalGPT 的 cascade 思路和单模型策略有什么差异?
  2. RouteLLM 为什么要学习路由,而不只是手写规则?
  3. Semantic cache 为什么必须做权限和版本治理?
  4. 哪些任务绝对不应该直接缓存最终答案?
  5. 路由 eval 为什么要看“路径是否正确”?
  6. 如何设计 cost-quality frontier report?
  7. 在金融零售 AI 平台中,哪些场景应优先引入 model routing?