AIPA Day 35

W5 周总结 — 编排半周方法论、checkpoint 验收与 token 经济学框架

2026-07-19

week-summaryorchestrationtoken-economicscheckpoint-validation

日期: 2026-07-19 阶段: Phase 2 - AI-native 参考架构标签: #week-summary #orchestration #token-economics #checkpoint-validation

核心问题

W5（P2 第一周，D29-35）是 AI-native 参考架构阶段的开篇半周。它不写功能代码，只回答一个治理性问题：在把 LLM 真正接进 AML Copilot 之前，「编排层」的架构决策能不能先用证据钉死？ 这是 Day 28「尺子先于引擎」纪律从「评测」延伸到「架构」——P1 证明了度量底座可先于 LLM 建好，W5 要证明编排架构的取舍（单 vs 多 agent、持久化方案、成本上限）同样可以先于 LLM 接入就基于证据定下。

W5 本周总结回答三件事：(A) 编排半周方法论复盘——D31/D32 读证据、D33 出 ADR、D34 定持久化，这条「读证据→出决策→定机制」链是否闭合；(B) checkpoint smoke test 验收——浏览器 checkpointer 教学装置的最小验收标准；(C) 交付一个 token 经济学框架，把 D31-D34 散落的成本数字（15× / 5-30× / $5-8）收敛成一个可对账、可设上限的模型，接续 Day 28 的 $/案件 指标。

关键内容

A. 编排半周方法论复盘：「读证据 → 出 ADR → 定机制」闭环

W5 的方法论骨架是一条三段链，每段都强制产出可追溯物证，拒绝「感觉先进就上」：

[读证据] D31/D32
   Anthropic 多agent 90.2%/15×  +  Cognition 单线程  +  Tran&Kiela 信息论
        │  (区分「广度并行」红利 vs「单一深推」任务)
        ▼
[出决策] D33 → ADR-001
   AML 主路径 = 单 agent；多agent 降级为 /agent-lab 教学装置
   + Revisit-When R1-R4 (可证伪重评条件)
        │
        ▼
[定机制] D34 → LangGraph checkpointing
   单 agent ≠ 无状态；durable execution 用 super-step checkpoint
   + 节点级恢复幂等纪律 + 静态站浏览器 checkpointer 方案

这条链的方法论价值在于每一步的输出是下一步的约束输入，而非孤立结论：

D33 的 ADR 之所以能定「单 agent」，是因为 D31/D32 把「多 agent 红利绑定真并行+超单窗」这条边界读清楚了——AML 单案调查不在该象限。
D34 之所以聚焦 checkpointing 而非多 agent 编排，正是因为 D33 已裁定单 agent 主路径——但「单 agent」逼出了「单 agent 怎么做长流程持久化」的新问题。

反直觉洞察①（架构决策的质量取决于「区分对了什么」，不是「选了什么」）：W5 最容易被误读为「我们决定不用多 agent」。但真正的方法论产出是那条区分线——把任务分成「广度并行可超窗」与「单一深推强一致」两类。一旦这条线划对，单/多 agent 的选择是它的推论，不是独立判断。同理 D34 的价值不是「选了 LangGraph」，而是区分了「super-step 边界存档 vs 行级存档」「节点级恢复 vs 续行恢复」——区分对了，幂等纪律是推论。坏架构师纠结选哪个框架，好架构师先找对区分维度。 这与 Day 17 区分「裸一致率 vs κ」、Day 28 区分「底座就位 vs 实测」同构：先有正确的区分轴，结论自然落位。

B. checkpoint smoke test 验收标准

D34 的浏览器 checkpointer 教学装置（BrowserCheckpointSaver）作为 W5 唯一的代码型交付，需要一个最小可验收 smoke test——不是完整测试套件，而是「证明核心语义对」的冒烟测试。验收断言（vitest，对照 D34 A 节的机制）：

#	smoke 断言	验证的语义	期望
S1	put 一帧后 getTuple(thread) 取回相同 values	存取往返一致	字段全等
S2	同 thread 多次 put → list() 返回全部帧、按序	super-step 历史可枚举	n 帧有序
S3	getTuple(checkpoint_id=旧帧) 取回旧 values	time-travel 寻址	历史帧可达
S4	模拟节点中断 → resume → 节点从顶部重跑	节点级（非行级）恢复	副作用计数器 +1（证明重跑）
S5	标 idempotency-key 的副作用 resume 后不重复	幂等纪律生效	副作用计数器不变

S4/S5 是核心——它们把 D34 洞察①（resume 重跑整节点→须幂等）变成可断言的回归：S4 故意制造重复副作用证明语义，S5 证明幂等键能拦住它。一个无法演示 S4 的 checkpointer 等于没理解 super-step 模型。

反直觉洞察②（smoke test 要先证明「危险语义」存在，再证明防护生效）：直觉是 smoke test 只测「正常工作」（S1-S3）。但对 checkpoint 这种语义陷阱密集的机制，最有价值的断言是 S4——主动制造「resume 重跑导致副作用翻倍」，先让危险可见，再用 S5 证明幂等键能防住。只测 S1-S3「能存能取」会给人虚假安全感：存取对了不代表 resume 语义对，而 resume 语义错（副作用重复扣费）才是 AML 审计链的真实风险。测试的价值排序应按「失败后果」而非「实现难度」——这正是 Day 11 失败分类学、Day 12 靶向难例的同一思路。

C. token 经济学框架（W5 交付，接续 Day 28 `$/案件`）

D31-D34 散落着一堆成本倍率，必须收敛成一个可对账的框架，否则「成本」永远是模糊形容词。框架的核心是把 $/案件 拆成可归因、可设上限、可优化的三层：

第一层——基线倍率（任务形态决定）。不同 agent 形态相对普通 chat 的 token 倍率（全部带一手出处）：

形态	token 倍率 vs chat	出处
单次 chat	1×	基准
单 agent + 工具（AML 主路径）	~5-30×（agentic 任务区间）	Zylos/业界 2026-02
多 agent orchestrator	~15×（且 80% 性能差异来自 token 量）	Anthropic 2025-06
无约束 coding agent	$5-8/任务（API 费）	业界 2026

D33 选单 agent 的成本含义在此清晰：避开多 agent 的 15× 倍率，落在单 agent 5-30× 区间的低端（AML 单案上下文小、步数有限）。

第二层——成本控制杠杆（可乘性削减）。三个杠杆，按 2026 实测口径：

有效$/案件 = 基线token × 单价
           × (1 − 缓存命中率)        ← 语义缓存：~31% 查询语义相似可命中
           × 路由折扣                 ← 模型路由：简单子任务下沉小模型
           − compaction 省下的窗口费   ← 上下文压缩：抗 context rot 兼省 token

语义缓存（LiteLLM/Bifrost 双层语义缓存/Portkey）：约 31% 的 LLM 查询语义相似可命中，命中返回 <5ms vs 直连 2-5s，整体 API 调用量降 30-50%（业界 2026）。AML 场景里大量「同 typology 的相似案件解读」高度可缓存。
模型路由（vLLM Semantic Router v0.3.0 意图感知，2026-06）：把「字段抽取/格式化」等简单子任务路由到小模型，「typology 推理/SAR 起草」留前沿模型。
compaction（Anthropic《Effective context engineering》2025-09 的首选杠杆）：长调查接近窗口上限时摘要压缩重开窗，既抗 context rot（上下文越长召回越差）又省 token。

第三层——硬上限（Budget 熔断）。框架顶上必须有不可逾越的 cap，否则倍率会复利失控——Anthropic 警告多 agent「15× 基线在出错时（subagent 递归 spawn / 工具返回超大结果）可再 ×10」。本仓库 src/agent/orchestrator/budget.ts 已实现 costCapUsd + assertCostOk() + step/toolCall 上限——这正是框架第三层的现成落点。

反直觉洞察③（成本框架的价值在「设对上限」，不在「压低均值」）：直觉是优化成本=降低平均 $/案件。但 AML 这种长尾任务，真正炸预算的是尾部失控案例（一个递归扇出的 subagent、一个返回 10MB 的工具结果），不是均值。Anthropic 数据：15× 均值在失控时复利成 150×。所以框架第三层（硬 cap 熔断）比第二层（均值优化）更先决——先用 budget.ts 把单案最坏成本钉死上限，再谈缓存/路由压均值。没有 cap 的成本优化是在沙堆上盖楼：均值再低，一个失控案例就吃掉全月预算。这也解释了为什么 D33 ADR 把「归因复杂度」「token 税」列为多 agent 的核心代价——它们都是尾部风险放大器。

设计要点/决策表（W5 交付 × 证据）

W5 交付物	类型	证据/落点	状态
ADR-001 单 agent 主路径	决策文档	`docs/adr/ADR-001-*.md`（D33）	✅ 定稿
多 agent 降级为教学装置	架构定位	`orchestratorAgent.ts` 头注 + `/agent-lab`	✅ 决策
Revisit-When R1-R4	可证伪重评条件	ADR-001 扩展段	✅ 定稿
LangGraph checkpointing 机制精读	笔记	D34 A/B/C 节	✅
`BrowserCheckpointSaver`（IndexedDB）	代码（教学装置）	`src/agent/checkpoint/`（计划落地）	🚧 W5 落函数+smoke
checkpoint smoke test S1-S5	测试	vitest，S4/S5 验幂等语义	🚧 验收标准已定
token 经济学框架（三层）	框架文档	接 Day 28 `$/案件` + `budget.ts`	✅ 框架定稿

对本项目的落地

新建 docs/adr/ 目录：W5 起本项目正式采用 ADR 实践，ADR-001 入档；后续 P2 架构决策（MCP 集成形态、memory 方案选型）均走 ADR 链，Status/Supersede 可追溯。
src/agent/checkpoint/browserCheckpointSaver.ts + 同目录 __tests__/：落 D34 的四方法接口实现 + 本笔记 B 节 S1-S5 smoke test；S4/S5 用一个「副作用计数器」mock 节点证明节点级重跑与幂等键防护，进 CI（呼应 Day 19 阻断门，但此处仅 smoke 不阻断 merge，标教学装置）。
token 经济学框架文档化：新建 docs/aipa/token-economics-framework.md，把 C 节三层模型（基线倍率/控制杠杆/硬 cap）落档，所有倍率带一手出处与日期；$/案件 实测值仍标「待 P2 接 LLM gateway 后回填」（不提前声明已优化，承 Day 28 纪律）。
budget.ts 接框架第三层：确认 costCapUsd/assertCostOk 即框架硬 cap 落点；P2 接 LLM 后，把单案最坏成本（最长调查 × 无缓存 × 前沿模型单价）算出，设为 costCapUsd 初值，防尾部失控。
诚实标注：W5 交付分「决策/框架已定稿」（ADR、token 框架）与「代码教学装置 W5 落函数+smoke」（BrowserCheckpointSaver）两类；真实 LLM 接入、$/案件 实测、语义缓存命中率实测均为 P2 后续动作，不预报为已完成。

参考资料

Anthropic Engineering — How we built our multi-agent research system：90.2%/15×/token 解释 80% 性能差异；15× 失控可再 ×10（递归 spawn / 超大工具结果）(2025-06)
Anthropic Engineering — Effective context engineering for AI agents：context rot、compaction（首选杠杆，摘要压缩重开窗）、JIT 检索、sub-agent 压缩、structured note-taking (2025-09-29)
Cognition — Don't Build Multi-Agents：单线程优先、共享上下文/全 trace 原则（D32 证据，承接 D33 ADR）(2025)
Zylos Research — AI Agent Cost Optimization: Token Economics and FinOps in Production：agentic 任务 5-30× chat token；无约束 coding agent $5-8/任务；语义缓存 + 路由降 API 量 30-50%；~31% 查询语义相似可命中 (2026-02)
vLLM Semantic Router v0.3.0：意图感知路由（2026-06）；LiteLLM/Bifrost（双层语义缓存）/Portkey：开源网关多模型路由 + 预算 + 语义缓存（命中 <5ms vs 直连 2-5s）(2026-06)
本仓物证：src/agent/orchestrator/budget.ts（costCapUsd/assertCostOk/step/toolCall 上限=框架硬 cap）、docs/aipa/day33-adr-no-multiagent.md、docs/aipa/day34-langgraph-checkpoint.md、Day 28（$/案件 成本口径起点）(2026-06)

SOTA 检查 (2026-06-11)

「token 经济学是 2026 agent 工程的一等约束」已是行业共识：业界口径一致——agentic 任务 5-30× chat token、$5-8/任务，成本压力是生产部署的核心 blocker；语义缓存（~31% 可命中）+ 模型路由（降 30-50% API 量）+ compaction 为三大主流杠杆，硬 cap 熔断防尾部失控。本日 WebSearch 未见替代该框架的方法论。
compaction 是 context engineering 的首选杠杆（Anthropic 2025-09）在 2026-06 仍 SOTA：抗 context rot + 省 token 双收益；本框架第二层据此设计，与 ADR-001 的「单 agent 长流程用 compaction 而非多 agent 分窗」一致。
新趋势：Agentic Tier 按「成功任务」计费：AWS/Azure 2026 出现「per successful task completion」计费层，把低效风险从用户转移到供应商——值得跟踪，可能改变本框架第一层「按 token 倍率」的基线假设。
过时认知警示：(1) 不可把「成本优化=降均值」——AML 长尾任务的预算炸点在尾部失控（递归扇出/超大工具结果），硬 cap（框架第三层）比均值优化更先决；(2) $/案件 实测前不得声明「成本已优化」，承 Day 28 纪律；(3) 多 agent 15× 在出错时复利成 ~150×（Anthropic 2025-06），任何「多 agent 成本可控」断言须附熔断证据。
待跟踪：P2 接 LLM gateway（LiteLLM/Bifrost/Portkey 三选一）后实测 AML 案件语义缓存命中率（验证 ~31% 假设是否适用 AML 场景）；vLLM Semantic Router v0.3.0（2026-06）意图路由实测效果；Agentic Tier 按成功计费是否值得替换 token 倍率基线。