token economics 决策框架 — 15× 成本何时换得回 +90.2%
token economics 决策框架 — 15× 成本何时换得回 +90.2%
日期: 2026-07-16 阶段: Phase 2 - AI-native 参考架构 标签: #token-economics #cost-quality-tradeoff #budget
核心问题
Day 29 给了多 agent 的「+90.2% 质量 / 15× token」这对数字,Day 31 又证明这优势高度条件化。现在到了把它变成一条可执行的成本决策的时候:作为 PM,我该用什么框架判断「这个任务值不值得付 15× token 走多 agent」?
三个具体问题:
- 「15× token 换 +90.2%」的盈亏平衡点在哪?什么样的任务复杂度之上才划算?
- 代入本项目 AML 基线,用真实 Claude 计价算一笔账,单 agent vs 多 agent 各花多少?
- 这条成本-质量边界,怎么落到
budget.ts的costCapUsd上,变成代码级闸门?
这不是抽象算账。orchestratorAgent.ts 已经按「Opus 4.8 当 lead + Sonnet 4.6 当 subagent」分配模型,budget.ts 留了 costCapUsd 字段但还没接真实计价。今天把这个框架补上。
关键内容
A. 盈亏平衡的本质:质量提升必须越过「价值×成功率」的门槛
先把 Day 29 的数字翻译成单位经济。设:
- $C_1$ = 单 agent 一次任务的 token 成本,$C_m$ = 多 agent 一次的成本,Day 29 给 $C_m \approx 15 \times C_{chat}$、$C_1 \approx 4 \times C_{chat}$,故 $C_m / C_1 \approx 3.75$(多 agent 约是单 agent 的 3.75 倍,不是 15 倍——15× 是相对 chat,别搞混)。
- $p_1, p_m$ = 单/多 agent 把任务做对的概率;$V$ = 一次任务做对的业务价值;$L$ = 一次做错的损失(AML 漏报罚款/合规风险)。
单次任务的期望净收益:
$$E = p \cdot V - (1-p)\cdot L - C$$
多 agent 比单 agent 划算,当且仅当 $E_m > E_1$:
$$\underbrace{(p_m - p_1)}{\Delta p\ \text{质量增益}} \cdot (V + L) ;>; \underbrace{C_m - C_1}{\Delta C\ \text{多花的钱}}$$
整理出盈亏平衡的质量增益门槛:
$$\boxed{\Delta p^* = \frac{C_m - C_1}{V + L}}$$
含义极清楚:任务的「对错价差」$(V+L)$ 越大,需要的质量增益门槛 $\Delta p^*$ 越低——多 agent 越容易划算。 反过来,低价值任务($V+L$ 小)哪怕多 agent 能 +20% 准确率也不值得,因为分母太小、门槛被推得很高。
反直觉洞察①(决定要不要多 agent 的,不是「能提升多少准确率」,而是「这个任务做错的代价」):工程师习惯问「多 agent 能涨几个点」,但公式说了算的是分母 $(V+L)$。同样 +5% 的 $\Delta p$,在「闲聊问答」($V+L$ 小)上是纯烧钱,在「漏报一笔洗钱被监管罚 500 万」($L$ 巨大)上则远远值回 3.75× 成本。AML 的特殊性正在于 $L$ 极大——这让它成为少数「质量增益门槛极低、多 agent 容易划算」的场景,恰好与 Day 31「多数任务单 agent 即够」的普适结论相反。 但前提是这个任务还得满足 Day 29/31 的「广度可分解」条件,否则多 agent 连 $\Delta p>0$ 都做不到。
B. 代入 AML 基线的真实计价(Claude API,2026-06)
用 Claude 官方计价(platform.claude.com,2026-06):Opus 4.8 = $5/MTok 输入、$25/MTok 输出;Sonnet 4.6 = $3/MTok 输入、$15/MTok 输出;cache 命中 = 0.1× 输入;Batch = 全价 5 折。
本项目模型分配:lead = Opus 4.8,subagent = Sonnet 4.6。算一次「AML 批量复核 3 笔告警」的多 agent 运行(保守估算 token):
| 角色 | 模型 | 输入 tok | 输出 tok | 成本 |
|---|---|---|---|---|
| Lead 规划 | Opus 4.8 | 8,000 | 1,500 | 8000×5/1e6 + 1500×25/1e6 = $0.0775 |
| Sub-agent ×3(并行,各检索) | Sonnet 4.6 | 3×20,000 | 3×2,000 | 60000×3/1e6 + 6000×15/1e6 = $0.270 |
| Lead 综合 | Opus 4.8 | 12,000 | 2,500 | 12000×5/1e6 + 2500×25/1e6 = $0.1225 |
| Citation 一趟 | Sonnet 4.6 | 6,000 | 800 | 6000×3/1e6 + 800×15/1e6 = $0.030 |
| 多 agent 合计 $C_m$ | ≈ $0.500 |
对照单 agent(Opus 4.8 一趟把 3 笔串行做完,上下文更长但无并行冗余):
| 模型 | 输入 tok | 输出 tok | 成本 | |
|---|---|---|---|---|
| 单 agent | Opus 4.8 | 40,000 | 6,000 | 40000×5/1e6 + 6000×25/1e6 = ≈ $0.350 |
实测 $C_m/C_1 \approx 0.50/0.35 \approx 1.43$——比 Day 29 的「3.75×」低得多。原因有二:(1) subagent 用便宜的 Sonnet 而非 Opus;(2) prompt caching 把 lead 重复的系统提示压到 0.1×。这印证 Day 29 SOTA 检查的判断:caching+模型分级会把实测倍数压下来。
要理解这个 1.43× 是怎么从 Day 29 的 3.75× 缩水来的,得看成本结构的非对称性。多 agent 的总成本里,最大的一块是「三个 subagent 各自数万 token 的检索输入」(B 表里 $0.27,占了一半多)。Anthropic 原话假设 subagent 和 lead 同档模型,所以这块按 Opus 计价会贵得多;而本项目把 subagent 降到 Sonnet(输入 $3 vs Opus $5、输出 $15 vs $25),这块直接打了六折。更狠的是输出 token——Opus 输出是 Sonnet 的 1.67 倍单价,而 subagent 的输出(检索摘要)恰恰是 token 大头之一,降档收益被放大。再叠加 lead 系统提示的 cache 命中(0.1×),整套多 agent 的「溢价」就从理论的 3.75× 被压到实测 1.43×。这说明 Day 29 那个吓人的「15× / 3.75×」是「全 Opus、无缓存」的上界,不是工程化后的真实数字。
把 B 的数字代回 A 的门槛公式:设一笔 AML 复核做对价值 $V$≈$2(省人工),做错损失 $L$ 取保守的「漏报期望罚款摊销」≈$50:
$$\Delta p^* = \frac{C_m - C_1}{V+L} = \frac{0.50-0.35}{2+50} = \frac{0.15}{52} \approx 0.29%$$
只要多 agent 能让复核准确率提升超过 0.29 个百分点,就划算。 这门槛低到几乎必然满足——前提仍是任务「广度可分解」(3 笔独立告警正好是)。
把这个 0.29% 放到对比里才能体会它有多低:一般产品里「多花 43% 的钱换 0.29% 准确率」是想都不用想的亏本买卖,因为分母 $(V+L)$ 太小。AML 的特殊性全在那个 $L=$50$ 上——而且这还是极度保守的取值。真实场景里单笔重大漏报的监管处罚可达数百万美元,按发生概率摊销到每笔告警上,$L$ 可能是几百甚至上千美元,门槛 $\Delta p^*$ 会进一步压到 0.01% 量级。换句话说,在 AML 这种「错误代价被监管放大」的领域,「多 agent 是否值得」几乎不取决于成本,而完全取决于「任务能不能分解」——成本侧的天平已经被巨大的 $L$ 彻底压向「值得」。这正是金融合规场景与普通消费级 AI 产品在 token 经济上的根本分野:消费级产品盯成本,合规级产品盯漏判损失。
反直觉洞察②(真实账单里,模型分级 + 缓存比「要不要多 agent」更能省钱):从 B 表看,多 agent 比单 agent 只贵 43%,但如果把 subagent 从 Sonnet 换成 Opus,sub 那一行从 $0.27 飙到 $0.45,$C_m$ 直接破 $0.68,倍数跳到 1.9×。也就是说,「subagent 用 Sonnet 还是 Opus」这个选择对成本的影响(+36%),和「单 agent 还是多 agent」(+43%)是同一量级。 PM 盯着「多 agent 贵」时,往往忽略了真正的成本杠杆其实是模型分级和缓存——这两个旋钮拧对了,多 agent 的溢价就没那么吓人。Batch(5 折)和 cache(0.1×)能再砍一半。
C. 决策框架:四象限 + 三道闸
把 A 的门槛公式做成 PM 可用的四象限(横轴=任务对错价差 $V+L$,纵轴=是否广度可分解):
| 低价差 $(V+L)$ 小 | 高价差 $(V+L)$ 大 | |
|---|---|---|
| 广度可分解 | 单 agent(门槛 $\Delta p^*$ 高,多 agent 不划算) | 多 agent(AML 批量复核落这里:门槛极低 0.29%) |
| 深度耦合 | 单 agent | 单 agent(多 agent 连 $\Delta p>0$ 都做不到,AML 单案深推落这里) |
注意右下角:即便价差巨大(如单案深度调查 $L$ 极高),只要任务深度耦合、不可分解,仍走单 agent——因为 Day 31 证明深度耦合下多 agent 因 communication bottleneck 会丢信息,$\Delta p$ 可能为负,公式右边再大也救不回来。
落到代码是三道闸(递进,前两道软、第三道硬):
[闸1·路由判据] 任务进来 → 落四象限哪格?
└─ 仅「广度可分解 ∧ 高价差」格 → 启用 orchestrator;否则单 agent
[闸2·预算估算] 启用前用 B 表的 token 估算预估 C_m
└─ 预估 C_m > 该任务的 (V+L) → 拒绝升级,回落单 agent
[闸3·运行时硬闸] budget.ts 在运行中累计真实 token×单价
└─ cost > costCapUsd → 抛错中断(防 Day 29 的 subagent 暴增烧穿预算)
设计要点/决策表
| 要点 | 决策 | 依据 |
|---|---|---|
| 多 agent 启用判据 | 广度可分解 ∧ $(V+L)$ 大,二者皆满足才上 | A 门槛公式 + C 四象限 |
| 盈亏门槛 | $\Delta p^* = (C_m-C_1)/(V+L)$,AML 复核约 0.29% | B 节代入 |
| 模型分级 | lead=Opus 4.8、sub=Sonnet 4.6 | B 节:sub 用 Opus 会把成本推高 36% |
| 缓存 | lead 系统提示走 prompt caching(0.1× 命中) | B 节:把重复上下文成本压掉 |
| 成本硬闸 | costCapUsd 接真实 token×单价,超即中断 | C 节闸3,防烧穿 |
对本项目的落地
- 给
budget.ts接真实计价:当前addCost(usd)是空壳、costCapUsd无数据喂入。计划在orchestratorAgent.ts的每个 sub-agentonSubAgentEnd(已带usage: { inputTokens, outputTokens })回调里,按 B 节单价表算出该步成本并budget.addCost(),让assertCostOk()用真实累计值判cost > costCapUsd。costCapUsd初值可设为单任务 $(V+L)$ 的一个保守分数(如 $L$/100),对应 C 节闸2/闸3。 costCapUsd的默认值要按四象限分档:广度任务给较高 cap(容得下 $C_m≈$0.5),深度单案任务给极低 cap(强制走单 agent,超一点点就中断)。这把 C 节的路由判据从「靠 prompt 自觉」升级为「靠预算物理隔离」——即使 lead 误判要 spawn subagent,深度任务的低 cap 也会拦下。- 模型分级已对、缓存待补:
OrchestratorOpts里modelOrchestrator(Opus)和modelSubAgent(Sonnet)的分离设计正确(对应 B 节反直觉②的成本杠杆)。下一步计划给 lead 的ORCHESTRATOR_SYSTEM加cache_control,把固定系统提示打到 0.1× 命中价——这是单任务级别最大的一笔可省成本。 - AML 的 $L$ 极大这一点,要写进路由策略而非埋在代码:依据 A 节反直觉①,AML 漏报损失 $L$ 巨大使「质量增益门槛」极低,这是本项目敢在批量复核上用多 agent 的核心理由。但必须配 Day 31 的 pass^k 可靠性闸——高 $L$ 场景同时要求高准确率和高一致性,二者缺一不可。这条经济判据应进
orchestratorPrompt.ts的分解策略注释,让模型理解「为什么 AML 批量值得多花钱」。 - 诚实标注:B 节 token 数为保守估算、$V/L$ 为示意值,真实值须 W 后续用 AML 实跑数据回填;
addCost接线、cache_control、按象限分档的costCapUsd均为 P2 计划项,当前budget.ts仅有结构未接真实计价。
参考资料
- Anthropic Engineering — How we built our multi-agent research system:+90.2% over single-agent;agents≈4× chat token、multi-agent≈15× chat token;「multi-agent systems require tasks where the value is high enough to pay for increased performance」 (2025-06)
- Anthropic — Claude API Pricing(platform.claude.com):Opus 4.8 $5/$25 per MTok、Sonnet 4.6 $3/$15、Haiku 4.5 $1/$5;prompt cache 命中 0.1× 输入、5m 写 1.25×;Batch API 5 折;1M context 无长上下文加价 (2026-06)
- Anthropic Engineering — Effective context engineering for AI agents:subagent 数万 token 探索→回 1-2K 摘要,配合 caching/compaction 压成本 (2025-09)
- Princeton HAL(arXiv 2510.11977):成本-准确率 Pareto,「some agents drastically more expensive while only marginally better」——经济判据来源 (2025-10)
- 本仓库
src/agent/orchestrator/budget.ts(addCost/costCapUsd/assertCostOk)、src/agent/orchestrator/orchestratorAgent.ts(onSubAgentEnd带 usage、Opus/Sonnet 分级) (2026-06)
SOTA 检查 (2026-06-11)
- 「价值/成本驱动的 agent 编排选型」在 2026-06 是主流框架共识:Anthropic 原文、Princeton HAL、各 AI gateway(LiteLLM 的 virtual key+预算、Bifrost 语义缓存、Portkey)都在围绕「按任务价值分配 token 预算」做产品;语义缓存可降推理成本 40-70%(2026-06 快变口径),是本笔记成本杠杆之外的又一旋钮,P3 规模化时评估接入。
- Claude 计价的两个 2026 变量:(1) Opus 4.7+ 换了新 tokenizer,同文本可能多用最多 35% token——B 节 token 估算须按此上修;(2) Fast mode(Opus 4.8 $10/$50)在低延迟场景会改变成本结构。引用具体单价须带访问月份,执行当周重新核对官方 pricing 页。
- 盈亏门槛公式 $\Delta p^*=(C_m-C_1)/(V+L)$ 是单位经济常识、非新发现:但 2026 仍多见「只比准确率不比单位经济」的选型(HAL 的核心吐槽),故本笔记反直觉①(看 $V+L$ 不看 $\Delta p$)仍是 live 踩坑点。
- 过时认知警示:「多 agent 必然贵 15×」已过时——B 节实测在模型分级(Sonnet sub)+缓存下只贵 ~43%。把 15× 当成多 agent 的固定税,会错误地一刀切否掉所有多 agent 方案。真实倍数取决于模型分级/缓存/batch 三个旋钮。
- 待跟踪:W 后续用 AML 实跑数据回填 $V/L$ 与 token 估算,验证 0.29% 门槛是否成立;
budget.ts接真实计价后,离线画成本-准确率 Pareto(呼应 Day 31 HAL),确认 orchestrator 模式落在前沿。