gateway 实测报告 — 把 Day 47 的前沿填上真数字
gateway 实测报告 — 把 Day 47 的前沿填上真数字
日期: 2026-08-01 阶段: Phase 2 - AI-native 参考架构 标签: #ai-gateway #semantic-cache #benchmark #cost-quality
核心问题
Day 47 立了 Pareto 面板的算法骨架和数据流,但承诺「Day 48 用 gateway 实测数据填真实数字」。今天兑现:把抽象的「成本×延迟×质量」三轴换成可引用的实测口径,回答三个产品决策问题:
- 语义缓存到底降多少成本、命中率多高、命中时延迟多低?(前沿的「成本」和「延迟」两轴要靠它压低)
- 缓存命中省了钱,但代价是什么?——对 AML 这种合规场景,返回一条「相似但不对」的缓存 SAR 是灾难,必须量化这个风险。
- 拿到这些数字后,AML Copilot 每一步该选前沿上哪个点?
这一篇是「数据定稿」性质——不是引入新概念,而是用 2026-06 的一手实测把 Day 47 的前沿钉死,让模型选型从「设计假设」变成「有出处的决策」。
关键内容
A. 语义缓存的实测三件套:命中率、降本、命中延迟
语义缓存(semantic cache)和传统精确匹配缓存的根本区别:精确缓存只在字符串完全相同时命中,而语义缓存对语义相似的查询也命中——它把 query 嵌入成向量,在向量库里找余弦相似度超阈值的历史响应直接返回。这一步关键在于:研究显示 31% 的 LLM 查询和此前请求语义相似(getmaxim,2026),这部分冗余精确缓存一个都抓不到。
工作机制(伪代码):
function semanticCacheLookup(query, threshold=0.95):
qvec = embed(query) # text-embedding-3-small, ~$0.02/1M
hit = vectorStore.search(qvec, top1) # 找最近邻
if cosine(qvec, hit.vec) >= threshold: # 阈值典型 0.92–0.97
return hit.cachedResponse # 命中:跳过整个 LLM 调用
else:
resp = callLLM(query) # 未命中:正常推理
vectorStore.add(qvec, resp) # 写回缓存
return resp
实测数字(theagenttimes / getmaxim,2026-06):
| 指标 | 实测值 | 来源口径 |
|---|---|---|
| token 成本下降 | 20%–73%(随工作负载) | 多个独立生产实现 |
| 缓存命中率(通用) | 20%–40% | 生产部署 |
| 缓存命中率(重复型:FAQ/客服/文档) | 35%–60% | 高重复负载 |
| 命中延迟 vs 未命中 | 0.05s vs 1.2s(24× 更快) | 45,000 query 基准 |
| 余弦相似阈值 | 0.92–0.97 | 典型配置 |
| 嵌入成本 | ~$0.02/1M token | text-embedding-3-small |
24× 的命中加速(50ms vs 1.2s)直接砸进 Day 47 的延迟轴:命中的请求几乎从延迟分布里消失,把 p95 大幅拉低。降本 20%–73% 直接砸进成本轴。
反直觉洞察①(语义缓存的价值高度依赖工作负载形状,AML 是「中等」而非「高」收益场景):实测显示 FAQ/客服这类高重复负载命中率 35%–60%,但 AML 的 typology 分类、SAR 起草是对每个独特告警的个性化推理——告警金额、对手方、时间序列各不相同,语义相似度天然低。所以 AML Copilot 不该期待 60% 命中率,更现实是 20%–35% 区间,而且命中主要来自「同一类 typology 的模板化解释段落」而非整条 SAR。盲目套用「73% 降本」的营销数字会高估收益、低估 B 节的风险。
B. 缓存的代价:相似 ≠ 正确,对 AML 是合规雷区
降本不是免费的。theagenttimes(2026-06)明确承认:「调得不好的相似度阈值有返回陈旧或错误答案的风险」。这个风险在通用客服场景顶多是答非所问,在 AML 是合规灾难:
反直觉洞察②(一条「相似但不对」的缓存 SAR 比慢 1 秒严重一万倍):设想两个告警语义高度相似(都是「大额跨境转账 + 新开户」),余弦相似度 0.96 超过 0.95 阈值——缓存命中,直接复用前一条 SAR 叙述。但两个告警的对手方、金额、司法管辖区不同,复用的叙述把A 案的事实写进了 B 案的 SAR。这不是「答得慢」,这是向监管机构提交了事实错误的可疑活动报告——可能漏报真风险、或诬告无辜账户。在 AML 场景,SAR 叙述这一步必须禁用语义缓存;缓存只能用在「无事实负载」的步骤(如 typology 的通用解释模板、术语定义)。
阈值是个精度-召回的旋钮,且方向反直觉:
| 阈值 | 命中率 | 错误命中风险 | AML 适用 |
|---|---|---|---|
| 0.97(保守) | 低(少命中) | 极低 | typology 模板可用 |
| 0.95(典型) | 中 | 中——不同案可能撞阈值 | SAR 叙述禁用 |
| 0.92(激进) | 高 | 高——大量「相似但不同」误命中 | AML 全禁 |
所以 AML Copilot 的语义缓存策略必须分步配置:不是全局一个阈值,而是按 trace step 的「事实敏感度」分级——无事实段落可激进缓存,含具体案情事实的段落零缓存。这正好对接 P1 建立的 trace 结构(按 step 区分)。
C. 把实测填进前沿:AML 三步各选哪个点
有了 A/B 的数字,回到 Day 47 的前沿,给 AML Copilot 三个核心步骤定模型(数字为 Day 47 前沿 + 本日实测组合的设计选型,非生产实测):
| 步骤 | 任务性质 | 前沿选点(设计) | 理由 |
|---|---|---|---|
| typology 分类 | 结构化、低创造性 | Nemotron 3 Super 120B($0.10/1M,质量~51) | Day 47 反直觉①:比 Opus 便宜 100× 只差 6 分质量;可激进语义缓存(模板化) |
| SAR 叙述起草 | 高事实负载、人工复核 | Claude Sonnet 4.6($6/1M,质量~56) | 叙述质量直接影响合规,但禁语义缓存(B 节);Sonnet 在前沿上是质量/成本拐点 |
| judge 评分 | 需校准、稳定 | Claude Opus 4.6($10/1M,质量~57) | judge 必须最稳(Day 17 κ≥0.6),评测器值得用前沿最右点;调用量小,成本可控 |
这张表体现 Day 47 的核心论点——没有单一最优模型:同一个 pipeline 里三步选了三个不同模型,每步在前沿上挑最契合该步约束的点。typology 选最便宜(质量够用),SAR 选拐点(质量要紧但还要可控),judge 选最贵(评测器须最稳)。
反直觉洞察③(gateway 的开销本身也是延迟轴的一项,且差异巨大):选 gateway 时容易只看功能(缓存/路由/预算),忽略 gateway 自身加多少延迟。实测:Bifrost 每请求 11µs 开销,LiteLLM 约 8ms——差 700 倍。对单次调用 8ms 微不足道,但 AML 的 orchestrator 一次运行可能串十几次 LLM/工具调用,gateway 开销累加进 Day 47 的 p95。不过对自托管/开源优先的本项目,LiteLLM 的 8ms 完全可接受(换来 100+ provider 和虚拟 key 预算控制),这是个有意识的取舍而非疏忽——把它写进前沿的延迟基线即可。
设计要点/决策表
| 要点 | 决策 | 理由 |
|---|---|---|
| 缓存启用范围 | 按 step 事实敏感度分级,非全局 | SAR 叙述含案情事实,错误命中=合规灾难 |
| SAR 叙述步 | 禁用语义缓存 | 相似≠正确,复用会把 A 案事实写进 B 案 SAR |
| typology 模板步 | 可缓存,阈值 0.97(保守) | 无事实负载,保守阈值控误命中 |
| 命中率预期 | 20%–35%(非营销的 73%) | AML 是个性化推理,非高重复 FAQ 负载 |
| gateway 选型 | LiteLLM(8ms 开销可接受) | 开源自托管 + 100+ provider + 预算控制优先于极致低延迟 |
| 模型选点 | 三步三模型(前沿不同点) | 没有单一最优;按各步约束在前沿挑点 |
对本项目的落地
- 回填
src/agent/pareto/paretoFrontier.ts的实测注释:把 A 节实测口径(缓存降本 20%–73%、命中 24× 加速、阈值 0.92–0.97)作为面板的「成本/延迟轴标定来源」写进头注,标注来源日期 2026-06。Day 47 的占位数字替换为本表口径。 - 新建
src/agent/gateway/semanticCachePolicy.ts:导出按 step 的缓存策略cachePolicyForStep(step: 'typology' | 'sar' | 'judge') → { enabled, threshold }——sar返回{ enabled: false }(B 节合规约束硬编码),typology返回{ enabled: true, threshold: 0.97 },judge返回{ enabled: false }(评测须每次重算保稳定)。纯配置函数,可单测断言「SAR 永不缓存」这条不变量。 - 面板数据定稿:
src/agent/pareto/ParetoPanel.tsx(Day 47 骨架)的散点图填入 C 节三步选点 + 6 个前沿模型坐标;controls 的单价滑杆默认值用本日 digitalapplied 快照(Day 47 已记);新增「缓存命中率」滑杆,演示命中率↑→延迟轴 p95↓→前沿左移。 - 诚实标注:
semanticCachePolicy.ts与ParetoPanel.tsx头注明确——降本/命中率为外部实测引用(非本项目实跑,本项目无生产流量);命中率 20%–35% 为 AML 负载形状的推断而非实测;C 节模型选点为「前沿+实测」的设计决策,待真实接 gateway 后用本项目 66 案 SAR 实测校正。ParetoPanelUI 须标「数据快照 2026-Q2,会过时」。
参考资料
- theagenttimes — Semantic Caching Cuts Our LLM Inference Costs by Up to 73 Percent:降本 20%–73%(随负载);40% 命中率 / 45,000 query / 命中 0.05s vs 未命中 1.2s(24×);重复型负载命中 35%–60%;余弦阈值 0.92–0.97;嵌入成本 ~$0.02/1M(text-embedding-3-small);调不好阈值返回陈旧/错误答案的风险 (2026-06)
- getmaxim — Semantic Caching for LLMs: Cut Cost and Latency at Scale / Top AI Gateways:31% 查询语义相似于历史请求(精确缓存抓不到);生产命中率 20%–40%;Bifrost 11µs vs LiteLLM ~8ms 每请求开销 (2026)
- vLLM Blog — vLLM Semantic Router v0.3 "Themis":意图感知路由(ModernBERT 分类器测意图+复杂度)转为 stateful/observable 生产就绪;自 v0.2 起 350+ commits (2026-06-05)
- digitalapplied — AI Model Efficient Frontier Q2 2026:C 节三步选点用的 6 前沿模型坐标与单价(Day 47 已引)(2026-Q2)
- 本仓库
src/agent/pareto/paretoFrontier.ts+ParetoPanel.tsx(Day 47 骨架)、src/agent/trace/types.ts(按 step 区分事实敏感度的结构基础)、src/agent/ui/CostMeter.tsx(成本口径)(2026-06)
SOTA 检查 (2026-06-11)
- 语义缓存 + AI gateway 是 2026-06 成熟工业实践:LiteLLM/Bifrost/Portkey 均原生支持,降本/命中率数字有多家独立生产验证,非前沿研究而是 table-stakes。本笔记的增量价值在 B 节把它放进 AML 合规约束下重新评估——业界普遍鼓吹「73% 降本」,但极少讨论错误命中在合规场景的不可接受性。
- 意图感知路由在升级:vLLM Semantic Router v0.3「Themis」(2026-06-05) 把路由从「信号」推到「stateful 生产路由」,用 ModernBERT 测意图+复杂度——这比纯相似度缓存更细。本项目当前用「按 step 事实敏感度」的静态策略(C 节),更简单可控;若 P3 流量上来,可评估接入意图分类器做动态缓存决策。
- 阈值是活的踩坑点:0.92–0.97 是「典型值」非「正确值」——不同 embedding 模型、不同领域的最优阈值不同。AML 领域的安全阈值需用 66 案 SAR 实测「多高的阈值才不会让两个不同案撞命中」,这是 W3 校准动作,本日仅落保守默认(SAR 禁用、typology 0.97)。
- gateway 自身延迟差异是新认知点:Bifrost 11µs vs LiteLLM 8ms 的 700× 差距 2026 才被广泛量化对比。本项目选 LiteLLM 是开源/provider 覆盖优先的有意识取舍,须在 Pareto 延迟轴基线里显式标注这 8ms,不能假装 gateway 零开销。
- 待跟踪:Day 47/48 的前沿数字均为 2026-Q2 快照,模型版本与单价每月变;本面板的长期价值依赖「可重算」而非「数字本身」。关注 Artificial Analysis Index 口径是否变化(质量轴的标尺一变,前沿形状全变)。