返回 AIPA 笔记
AIPA Day 35

W5 周总结 — 编排半周方法论、checkpoint 验收与 token 经济学框架

W5 周总结 — 编排半周方法论、checkpoint 验收与 token 经济学框架

2026-07-19
week-summaryorchestrationtoken-economicscheckpoint-validation

日期: 2026-07-19 阶段: Phase 2 - AI-native 参考架构 标签: #week-summary #orchestration #token-economics #checkpoint-validation

核心问题

W5(P2 第一周,D29-35)是 AI-native 参考架构阶段的开篇半周。它不写功能代码,只回答一个治理性问题:在把 LLM 真正接进 AML Copilot 之前,「编排层」的架构决策能不能先用证据钉死? 这是 Day 28「尺子先于引擎」纪律从「评测」延伸到「架构」——P1 证明了度量底座可先于 LLM 建好,W5 要证明编排架构的取舍(单 vs 多 agent、持久化方案、成本上限)同样可以先于 LLM 接入就基于证据定下

W5 本周总结回答三件事:(A) 编排半周方法论复盘——D31/D32 读证据、D33 出 ADR、D34 定持久化,这条「读证据→出决策→定机制」链是否闭合;(B) checkpoint smoke test 验收——浏览器 checkpointer 教学装置的最小验收标准;(C) 交付一个 token 经济学框架,把 D31-D34 散落的成本数字(15× / 5-30× / $5-8)收敛成一个可对账、可设上限的模型,接续 Day 28 的 $/案件 指标。

关键内容

A. 编排半周方法论复盘:「读证据 → 出 ADR → 定机制」闭环

W5 的方法论骨架是一条三段链,每段都强制产出可追溯物证,拒绝「感觉先进就上」:

[读证据] D31/D32
   Anthropic 多agent 90.2%/15×  +  Cognition 单线程  +  Tran&Kiela 信息论
        │  (区分「广度并行」红利 vs「单一深推」任务)
        ▼
[出决策] D33 → ADR-001
   AML 主路径 = 单 agent;多agent 降级为 /agent-lab 教学装置
   + Revisit-When R1-R4 (可证伪重评条件)
        │
        ▼
[定机制] D34 → LangGraph checkpointing
   单 agent ≠ 无状态;durable execution 用 super-step checkpoint
   + 节点级恢复幂等纪律 + 静态站浏览器 checkpointer 方案

这条链的方法论价值在于每一步的输出是下一步的约束输入,而非孤立结论:

  • D33 的 ADR 之所以能定「单 agent」,是因为 D31/D32 把「多 agent 红利绑定真并行+超单窗」这条边界读清楚了——AML 单案调查不在该象限。
  • D34 之所以聚焦 checkpointing 而非多 agent 编排,正是因为 D33 已裁定单 agent 主路径——但「单 agent」逼出了「单 agent 怎么做长流程持久化」的新问题。

反直觉洞察①(架构决策的质量取决于「区分对了什么」,不是「选了什么」):W5 最容易被误读为「我们决定不用多 agent」。但真正的方法论产出是那条区分线——把任务分成「广度并行可超窗」与「单一深推强一致」两类。一旦这条线划对,单/多 agent 的选择是它的推论,不是独立判断。同理 D34 的价值不是「选了 LangGraph」,而是区分了「super-step 边界存档 vs 行级存档」「节点级恢复 vs 续行恢复」——区分对了,幂等纪律是推论。坏架构师纠结选哪个框架,好架构师先找对区分维度。 这与 Day 17 区分「裸一致率 vs κ」、Day 28 区分「底座就位 vs 实测」同构:先有正确的区分轴,结论自然落位。

B. checkpoint smoke test 验收标准

D34 的浏览器 checkpointer 教学装置(BrowserCheckpointSaver)作为 W5 唯一的代码型交付,需要一个最小可验收 smoke test——不是完整测试套件,而是「证明核心语义对」的冒烟测试。验收断言(vitest,对照 D34 A 节的机制):

#smoke 断言验证的语义期望
S1put 一帧后 getTuple(thread) 取回相同 values存取往返一致字段全等
S2同 thread 多次 put → list() 返回全部帧、按序super-step 历史可枚举n 帧有序
S3getTuple(checkpoint_id=旧帧) 取回旧 valuestime-travel 寻址历史帧可达
S4模拟节点中断 → resume → 节点从顶部重跑节点级(非行级)恢复副作用计数器 +1(证明重跑)
S5标 idempotency-key 的副作用 resume 后不重复幂等纪律生效副作用计数器不变

S4/S5 是核心——它们把 D34 洞察①(resume 重跑整节点→须幂等)变成可断言的回归:S4 故意制造重复副作用证明语义,S5 证明幂等键能拦住它。一个无法演示 S4 的 checkpointer 等于没理解 super-step 模型。

反直觉洞察②(smoke test 要先证明「危险语义」存在,再证明防护生效):直觉是 smoke test 只测「正常工作」(S1-S3)。但对 checkpoint 这种语义陷阱密集的机制,最有价值的断言是 S4——主动制造「resume 重跑导致副作用翻倍」,先让危险可见,再用 S5 证明幂等键能防住。只测 S1-S3「能存能取」会给人虚假安全感:存取对了不代表 resume 语义对,而 resume 语义错(副作用重复扣费)才是 AML 审计链的真实风险。测试的价值排序应按「失败后果」而非「实现难度」——这正是 Day 11 失败分类学、Day 12 靶向难例的同一思路。

C. token 经济学框架(W5 交付,接续 Day 28 $/案件

D31-D34 散落着一堆成本倍率,必须收敛成一个可对账的框架,否则「成本」永远是模糊形容词。框架的核心是把 $/案件 拆成可归因、可设上限、可优化的三层:

第一层——基线倍率(任务形态决定)。不同 agent 形态相对普通 chat 的 token 倍率(全部带一手出处):

形态token 倍率 vs chat出处
单次 chat基准
单 agent + 工具(AML 主路径)~5-30×(agentic 任务区间)Zylos/业界 2026-02
多 agent orchestrator~15×(且 80% 性能差异来自 token 量)Anthropic 2025-06
无约束 coding agent$5-8/任务(API 费)业界 2026

D33 选单 agent 的成本含义在此清晰:避开多 agent 的 15× 倍率,落在单 agent 5-30× 区间的低端(AML 单案上下文小、步数有限)。

第二层——成本控制杠杆(可乘性削减)。三个杠杆,按 2026 实测口径:

有效$/案件 = 基线token × 单价
           × (1 − 缓存命中率)        ← 语义缓存:~31% 查询语义相似可命中
           × 路由折扣                 ← 模型路由:简单子任务下沉小模型
           − compaction 省下的窗口费   ← 上下文压缩:抗 context rot 兼省 token
  • 语义缓存(LiteLLM/Bifrost 双层语义缓存/Portkey):约 31% 的 LLM 查询语义相似可命中,命中返回 <5ms vs 直连 2-5s,整体 API 调用量降 30-50%(业界 2026)。AML 场景里大量「同 typology 的相似案件解读」高度可缓存。
  • 模型路由(vLLM Semantic Router v0.3.0 意图感知,2026-06):把「字段抽取/格式化」等简单子任务路由到小模型,「typology 推理/SAR 起草」留前沿模型。
  • compaction(Anthropic《Effective context engineering》2025-09 的首选杠杆):长调查接近窗口上限时摘要压缩重开窗,既抗 context rot(上下文越长召回越差)又省 token。

第三层——硬上限(Budget 熔断)。框架顶上必须有不可逾越的 cap,否则倍率会复利失控——Anthropic 警告多 agent「15× 基线在出错时(subagent 递归 spawn / 工具返回超大结果)可再 ×10」。本仓库 src/agent/orchestrator/budget.ts 已实现 costCapUsd + assertCostOk() + step/toolCall 上限——这正是框架第三层的现成落点。

反直觉洞察③(成本框架的价值在「设对上限」,不在「压低均值」):直觉是优化成本=降低平均 $/案件。但 AML 这种长尾任务,真正炸预算的是尾部失控案例(一个递归扇出的 subagent、一个返回 10MB 的工具结果),不是均值。Anthropic 数据:15× 均值在失控时复利成 150×。所以框架第三层(硬 cap 熔断)比第二层(均值优化)更先决——先用 budget.ts 把单案最坏成本钉死上限,再谈缓存/路由压均值。没有 cap 的成本优化是在沙堆上盖楼:均值再低,一个失控案例就吃掉全月预算。这也解释了为什么 D33 ADR 把「归因复杂度」「token 税」列为多 agent 的核心代价——它们都是尾部风险放大器。

设计要点/决策表(W5 交付 × 证据)

W5 交付物类型证据/落点状态
ADR-001 单 agent 主路径决策文档docs/adr/ADR-001-*.md(D33)✅ 定稿
多 agent 降级为教学装置架构定位orchestratorAgent.ts 头注 + /agent-lab✅ 决策
Revisit-When R1-R4可证伪重评条件ADR-001 扩展段✅ 定稿
LangGraph checkpointing 机制精读笔记D34 A/B/C 节
BrowserCheckpointSaver(IndexedDB)代码(教学装置)src/agent/checkpoint/(计划落地)🚧 W5 落函数+smoke
checkpoint smoke test S1-S5测试vitest,S4/S5 验幂等语义🚧 验收标准已定
token 经济学框架(三层)框架文档接 Day 28 $/案件 + budget.ts✅ 框架定稿

对本项目的落地

  • 新建 docs/adr/ 目录:W5 起本项目正式采用 ADR 实践,ADR-001 入档;后续 P2 架构决策(MCP 集成形态、memory 方案选型)均走 ADR 链,Status/Supersede 可追溯。
  • src/agent/checkpoint/browserCheckpointSaver.ts + 同目录 __tests__/:落 D34 的四方法接口实现 + 本笔记 B 节 S1-S5 smoke test;S4/S5 用一个「副作用计数器」mock 节点证明节点级重跑与幂等键防护,进 CI(呼应 Day 19 阻断门,但此处仅 smoke 不阻断 merge,标教学装置)。
  • token 经济学框架文档化:新建 docs/aipa/token-economics-framework.md,把 C 节三层模型(基线倍率/控制杠杆/硬 cap)落档,所有倍率带一手出处与日期;$/案件 实测值仍标「待 P2 接 LLM gateway 后回填」(不提前声明已优化,承 Day 28 纪律)。
  • budget.ts 接框架第三层:确认 costCapUsd/assertCostOk 即框架硬 cap 落点;P2 接 LLM 后,把单案最坏成本(最长调查 × 无缓存 × 前沿模型单价)算出,设为 costCapUsd 初值,防尾部失控。
  • 诚实标注:W5 交付分「决策/框架已定稿」(ADR、token 框架)与「代码教学装置 W5 落函数+smoke」(BrowserCheckpointSaver)两类;真实 LLM 接入、$/案件 实测、语义缓存命中率实测均为 P2 后续动作,不预报为已完成。

参考资料

  1. Anthropic Engineering — How we built our multi-agent research system:90.2%/15×/token 解释 80% 性能差异;15× 失控可再 ×10(递归 spawn / 超大工具结果)(2025-06)
  2. Anthropic Engineering — Effective context engineering for AI agents:context rot、compaction(首选杠杆,摘要压缩重开窗)、JIT 检索、sub-agent 压缩、structured note-taking (2025-09-29)
  3. Cognition — Don't Build Multi-Agents:单线程优先、共享上下文/全 trace 原则(D32 证据,承接 D33 ADR)(2025)
  4. Zylos Research — AI Agent Cost Optimization: Token Economics and FinOps in Production:agentic 任务 5-30× chat token;无约束 coding agent $5-8/任务;语义缓存 + 路由降 API 量 30-50%;~31% 查询语义相似可命中 (2026-02)
  5. vLLM Semantic Router v0.3.0:意图感知路由(2026-06);LiteLLM/Bifrost(双层语义缓存)/Portkey:开源网关多模型路由 + 预算 + 语义缓存(命中 <5ms vs 直连 2-5s)(2026-06)
  6. 本仓物证:src/agent/orchestrator/budget.ts(costCapUsd/assertCostOk/step/toolCall 上限=框架硬 cap)、docs/aipa/day33-adr-no-multiagent.mddocs/aipa/day34-langgraph-checkpoint.md、Day 28($/案件 成本口径起点)(2026-06)

SOTA 检查 (2026-06-11)

  • 「token 经济学是 2026 agent 工程的一等约束」已是行业共识:业界口径一致——agentic 任务 5-30× chat token、$5-8/任务,成本压力是生产部署的核心 blocker;语义缓存(~31% 可命中)+ 模型路由(降 30-50% API 量)+ compaction 为三大主流杠杆,硬 cap 熔断防尾部失控。本日 WebSearch 未见替代该框架的方法论。
  • compaction 是 context engineering 的首选杠杆(Anthropic 2025-09)在 2026-06 仍 SOTA:抗 context rot + 省 token 双收益;本框架第二层据此设计,与 ADR-001 的「单 agent 长流程用 compaction 而非多 agent 分窗」一致。
  • 新趋势:Agentic Tier 按「成功任务」计费:AWS/Azure 2026 出现「per successful task completion」计费层,把低效风险从用户转移到供应商——值得跟踪,可能改变本框架第一层「按 token 倍率」的基线假设。
  • 过时认知警示:(1) 不可把「成本优化=降均值」——AML 长尾任务的预算炸点在尾部失控(递归扇出/超大工具结果),硬 cap(框架第三层)比均值优化更先决;(2) $/案件 实测前不得声明「成本已优化」,承 Day 28 纪律;(3) 多 agent 15× 在出错时复利成 ~150×(Anthropic 2025-06),任何「多 agent 成本可控」断言须附熔断证据。
  • 待跟踪:P2 接 LLM gateway(LiteLLM/Bifrost/Portkey 三选一)后实测 AML 案件语义缓存命中率(验证 ~31% 假设是否适用 AML 场景);vLLM Semantic Router v0.3.0(2026-06)意图路由实测效果;Agentic Tier 按成功计费是否值得替换 token 倍率基线。