AIPA Day 48

gateway 实测报告 — 把 Day 47 的前沿填上真数字

2026-08-01

ai-gatewaysemantic-cachebenchmarkcost-quality

日期: 2026-08-01 阶段: Phase 2 - AI-native 参考架构标签: #ai-gateway #semantic-cache #benchmark #cost-quality

核心问题

Day 47 立了 Pareto 面板的算法骨架和数据流，但承诺「Day 48 用 gateway 实测数据填真实数字」。今天兑现：把抽象的「成本×延迟×质量」三轴换成可引用的实测口径，回答三个产品决策问题：

语义缓存到底降多少成本、命中率多高、命中时延迟多低？（前沿的「成本」和「延迟」两轴要靠它压低）
缓存命中省了钱，但代价是什么？——对 AML 这种合规场景，返回一条「相似但不对」的缓存 SAR 是灾难，必须量化这个风险。
拿到这些数字后，AML Copilot 每一步该选前沿上哪个点？

这一篇是「数据定稿」性质——不是引入新概念，而是用 2026-06 的一手实测把 Day 47 的前沿钉死，让模型选型从「设计假设」变成「有出处的决策」。

关键内容

A. 语义缓存的实测三件套：命中率、降本、命中延迟

语义缓存（semantic cache）和传统精确匹配缓存的根本区别：精确缓存只在字符串完全相同时命中，而语义缓存对语义相似的查询也命中——它把 query 嵌入成向量，在向量库里找余弦相似度超阈值的历史响应直接返回。这一步关键在于：研究显示 31% 的 LLM 查询和此前请求语义相似（getmaxim，2026），这部分冗余精确缓存一个都抓不到。

工作机制（伪代码）：

function semanticCacheLookup(query, threshold=0.95):
  qvec = embed(query)                          # text-embedding-3-small, ~$0.02/1M
  hit = vectorStore.search(qvec, top1)         # 找最近邻
  if cosine(qvec, hit.vec) >= threshold:       # 阈值典型 0.92–0.97
    return hit.cachedResponse                  # 命中：跳过整个 LLM 调用
  else:
    resp = callLLM(query)                       # 未命中：正常推理
    vectorStore.add(qvec, resp)                 # 写回缓存
    return resp

实测数字（theagenttimes / getmaxim，2026-06）：

指标	实测值	来源口径
token 成本下降	20%–73%（随工作负载）	多个独立生产实现
缓存命中率（通用）	20%–40%	生产部署
缓存命中率（重复型：FAQ/客服/文档）	35%–60%	高重复负载
命中延迟 vs 未命中	0.05s vs 1.2s（24× 更快）	45,000 query 基准
余弦相似阈值	0.92–0.97	典型配置
嵌入成本	~$0.02/1M token	text-embedding-3-small

24× 的命中加速（50ms vs 1.2s）直接砸进 Day 47 的延迟轴：命中的请求几乎从延迟分布里消失，把 p95 大幅拉低。降本 20%–73% 直接砸进成本轴。

反直觉洞察①（语义缓存的价值高度依赖工作负载形状，AML 是「中等」而非「高」收益场景）：实测显示 FAQ/客服这类高重复负载命中率 35%–60%，但 AML 的 typology 分类、SAR 起草是对每个独特告警的个性化推理——告警金额、对手方、时间序列各不相同，语义相似度天然低。所以 AML Copilot 不该期待 60% 命中率，更现实是 20%–35% 区间，而且命中主要来自「同一类 typology 的模板化解释段落」而非整条 SAR。盲目套用「73% 降本」的营销数字会高估收益、低估 B 节的风险。

B. 缓存的代价：相似 ≠ 正确，对 AML 是合规雷区

降本不是免费的。theagenttimes（2026-06）明确承认：「调得不好的相似度阈值有返回陈旧或错误答案的风险」。这个风险在通用客服场景顶多是答非所问，在 AML 是合规灾难：

反直觉洞察②（一条「相似但不对」的缓存 SAR 比慢 1 秒严重一万倍）：设想两个告警语义高度相似（都是「大额跨境转账 + 新开户」），余弦相似度 0.96 超过 0.95 阈值——缓存命中，直接复用前一条 SAR 叙述。但两个告警的对手方、金额、司法管辖区不同，复用的叙述把A 案的事实写进了 B 案的 SAR。这不是「答得慢」，这是向监管机构提交了事实错误的可疑活动报告——可能漏报真风险、或诬告无辜账户。在 AML 场景，SAR 叙述这一步必须禁用语义缓存；缓存只能用在「无事实负载」的步骤（如 typology 的通用解释模板、术语定义）。

阈值是个精度-召回的旋钮，且方向反直觉：

阈值	命中率	错误命中风险	AML 适用
0.97（保守）	低（少命中）	极低	typology 模板可用
0.95（典型）	中	中——不同案可能撞阈值	SAR 叙述禁用
0.92（激进）	高	高——大量「相似但不同」误命中	AML 全禁

所以 AML Copilot 的语义缓存策略必须分步配置：不是全局一个阈值，而是按 trace step 的「事实敏感度」分级——无事实段落可激进缓存，含具体案情事实的段落零缓存。这正好对接 P1 建立的 trace 结构（按 step 区分）。

C. 把实测填进前沿：AML 三步各选哪个点

有了 A/B 的数字，回到 Day 47 的前沿，给 AML Copilot 三个核心步骤定模型（数字为 Day 47 前沿 + 本日实测组合的设计选型，非生产实测）：

步骤	任务性质	前沿选点（设计）	理由
typology 分类	结构化、低创造性	Nemotron 3 Super 120B（$0.10/1M，质量~51）	Day 47 反直觉①：比 Opus 便宜 100× 只差 6 分质量；可激进语义缓存（模板化）
SAR 叙述起草	高事实负载、人工复核	Claude Sonnet 4.6（$6/1M，质量~56）	叙述质量直接影响合规，但禁语义缓存（B 节）；Sonnet 在前沿上是质量/成本拐点
judge 评分	需校准、稳定	Claude Opus 4.6（$10/1M，质量~57）	judge 必须最稳（Day 17 κ≥0.6），评测器值得用前沿最右点；调用量小，成本可控

这张表体现 Day 47 的核心论点——没有单一最优模型：同一个 pipeline 里三步选了三个不同模型，每步在前沿上挑最契合该步约束的点。typology 选最便宜（质量够用），SAR 选拐点（质量要紧但还要可控），judge 选最贵（评测器须最稳）。

反直觉洞察③（gateway 的开销本身也是延迟轴的一项，且差异巨大）：选 gateway 时容易只看功能（缓存/路由/预算），忽略 gateway 自身加多少延迟。实测：Bifrost 每请求 11µs 开销，LiteLLM 约 8ms——差 700 倍。对单次调用 8ms 微不足道，但 AML 的 orchestrator 一次运行可能串十几次 LLM/工具调用，gateway 开销累加进 Day 47 的 p95。不过对自托管/开源优先的本项目，LiteLLM 的 8ms 完全可接受（换来 100+ provider 和虚拟 key 预算控制），这是个有意识的取舍而非疏忽——把它写进前沿的延迟基线即可。

设计要点/决策表

要点	决策	理由
缓存启用范围	按 step 事实敏感度分级，非全局	SAR 叙述含案情事实，错误命中=合规灾难
SAR 叙述步	禁用语义缓存	相似≠正确，复用会把 A 案事实写进 B 案 SAR
typology 模板步	可缓存，阈值 0.97（保守）	无事实负载，保守阈值控误命中
命中率预期	20%–35%（非营销的 73%）	AML 是个性化推理，非高重复 FAQ 负载
gateway 选型	LiteLLM（8ms 开销可接受）	开源自托管 + 100+ provider + 预算控制优先于极致低延迟
模型选点	三步三模型（前沿不同点）	没有单一最优；按各步约束在前沿挑点

对本项目的落地

回填 src/agent/pareto/paretoFrontier.ts 的实测注释：把 A 节实测口径（缓存降本 20%–73%、命中 24× 加速、阈值 0.92–0.97）作为面板的「成本/延迟轴标定来源」写进头注，标注来源日期 2026-06。Day 47 的占位数字替换为本表口径。
新建 src/agent/gateway/semanticCachePolicy.ts：导出按 step 的缓存策略 cachePolicyForStep(step: 'typology' | 'sar' | 'judge') → { enabled, threshold }——sar 返回 { enabled: false }（B 节合规约束硬编码），typology 返回 { enabled: true, threshold: 0.97 }，judge 返回 { enabled: false }（评测须每次重算保稳定）。纯配置函数，可单测断言「SAR 永不缓存」这条不变量。
面板数据定稿：src/agent/pareto/ParetoPanel.tsx（Day 47 骨架）的散点图填入 C 节三步选点 + 6 个前沿模型坐标；controls 的单价滑杆默认值用本日 digitalapplied 快照（Day 47 已记）；新增「缓存命中率」滑杆，演示命中率↑→延迟轴 p95↓→前沿左移。
诚实标注：semanticCachePolicy.ts 与 ParetoPanel.tsx 头注明确——降本/命中率为外部实测引用（非本项目实跑，本项目无生产流量）；命中率 20%–35% 为 AML 负载形状的推断而非实测；C 节模型选点为「前沿+实测」的设计决策，待真实接 gateway 后用本项目 66 案 SAR 实测校正。ParetoPanel UI 须标「数据快照 2026-Q2，会过时」。

参考资料

theagenttimes — Semantic Caching Cuts Our LLM Inference Costs by Up to 73 Percent：降本 20%–73%（随负载）；40% 命中率 / 45,000 query / 命中 0.05s vs 未命中 1.2s（24×）；重复型负载命中 35%–60%；余弦阈值 0.92–0.97；嵌入成本 ~$0.02/1M（text-embedding-3-small）；调不好阈值返回陈旧/错误答案的风险 (2026-06)
getmaxim — Semantic Caching for LLMs: Cut Cost and Latency at Scale / Top AI Gateways：31% 查询语义相似于历史请求（精确缓存抓不到）；生产命中率 20%–40%；Bifrost 11µs vs LiteLLM ~8ms 每请求开销 (2026)
vLLM Blog — vLLM Semantic Router v0.3 "Themis"：意图感知路由（ModernBERT 分类器测意图+复杂度）转为 stateful/observable 生产就绪；自 v0.2 起 350+ commits (2026-06-05)
digitalapplied — AI Model Efficient Frontier Q2 2026：C 节三步选点用的 6 前沿模型坐标与单价（Day 47 已引）(2026-Q2)
本仓库 src/agent/pareto/paretoFrontier.ts + ParetoPanel.tsx（Day 47 骨架）、src/agent/trace/types.ts（按 step 区分事实敏感度的结构基础）、src/agent/ui/CostMeter.tsx（成本口径）(2026-06)

SOTA 检查 (2026-06-11)

语义缓存 + AI gateway 是 2026-06 成熟工业实践：LiteLLM/Bifrost/Portkey 均原生支持，降本/命中率数字有多家独立生产验证，非前沿研究而是 table-stakes。本笔记的增量价值在 B 节把它放进 AML 合规约束下重新评估——业界普遍鼓吹「73% 降本」，但极少讨论错误命中在合规场景的不可接受性。
意图感知路由在升级：vLLM Semantic Router v0.3「Themis」(2026-06-05) 把路由从「信号」推到「stateful 生产路由」，用 ModernBERT 测意图+复杂度——这比纯相似度缓存更细。本项目当前用「按 step 事实敏感度」的静态策略（C 节），更简单可控；若 P3 流量上来，可评估接入意图分类器做动态缓存决策。
阈值是活的踩坑点：0.92–0.97 是「典型值」非「正确值」——不同 embedding 模型、不同领域的最优阈值不同。AML 领域的安全阈值需用 66 案 SAR 实测「多高的阈值才不会让两个不同案撞命中」，这是 W3 校准动作，本日仅落保守默认（SAR 禁用、typology 0.97）。
gateway 自身延迟差异是新认知点：Bifrost 11µs vs LiteLLM 8ms 的 700× 差距 2026 才被广泛量化对比。本项目选 LiteLLM 是开源/provider 覆盖优先的有意识取舍，须在 Pareto 延迟轴基线里显式标注这 8ms，不能假装 gateway 零开销。
待跟踪：Day 47/48 的前沿数字均为 2026-Q2 快照，模型版本与单价每月变；本面板的长期价值依赖「可重算」而非「数字本身」。关注 Artificial Analysis Index 口径是否变化（质量轴的标尺一变，前沿形状全变）。