返回 AIPA 笔记
AIPA Day 31

单 agent vs 多 agent 的证据核查 — pass^k、HAL 与 64% 的出处

单 agent vs 多 agent 的证据核查 — pass^k、HAL 与 64% 的出处

2026-07-15
single-vs-multi-agentpass-kreliability

日期: 2026-07-15 阶段: Phase 2 - AI-native 参考架构 标签: #single-vs-multi-agent #pass-k #reliability

核心问题

Day 29 学到 Anthropic 的 +90.2%,Day 30 学到 orchestrator 怎么编排。一个危险的惯性正在形成:默认「多 agent 更好」。今天专门踩一脚刹车,做证据核查——回答一个 PM 必须诚实面对的问题:多 agent 到底在多少任务上真的赢?赢的部分会不会被它自己的协调开销吃掉?

具体三件事:

  1. 网上广为流传的 Princeton「64% 任务单 agent 即够」这个数,一手出处到底在哪?能不能作为主线论据?
  2. 用什么可靠的一手证据替代/印证它——τ²-bench 的 pass^k、Princeton HAL 的成本-准确率 Pareto?
  3. 多 agent 的隐性成本(协调开销/调试难度/延迟)具体长什么样?

这关系到 AML Copilot 的根本架构决策:我们已经写了 orchestrator(orchestratorAgent.ts),但默认入口该不该是它?还是先用单 agent,只在证据充分时才升级到多 agent?

关键内容

A. 「64%」的出处核查:找不到一手,只能作辅证

按硬规则,先 WebSearch 锁定一手出处。结果如实记录:

  • 「single agent matched or outperformed multi-agent on 64% of benchmarked tasks when given the same tools and context;multi-agent adds ~2.1pp accuracy at ~2× cost and 10–30× latency」这段表述,只出现在二手聚合博客(如 ranksquire.com「AI Agents Orchestration 2026」2026-04、jobsbyculture 等),并未在任何 Princeton 官方页面、arXiv 论文或 PLI/CITP 发布中找到精确的「64%」原文。
  • WebSearch 命中的 Princeton 一手成果是另外两项:HAL(Holistic Agent Leaderboard)(arXiv 2510.11977,2025-10;ICLR 2026;作者含 Kapoor、Narayanan)和 PLI 的 agentic 聚合论文,但它们都没有「64%」这个具体数字。

反直觉洞察①(一个被反复引用的数字,可能从来没有一手出处):「64%」在 2026 的多篇博客里被当成既定事实互相引用,但顺着引用链回溯,源头是空的——没有任何论文给出这个精确比例。这是 AI 内容生态的典型「引用塌缩」:二手互引制造了「人人都知道」的假权威。按本项目硬规则(无精确月份/无一手出处的数据只能作辅证),「64%」不得作为主线论据,只能定性引用为「多份 2026 工程口径认为多数任务单 agent 即够」。 真正能上主线的,是下面 B 节有论文/榜单背书的证据。

B. 可靠一手证据:pass^k 揭示「单次分数撒谎」,HAL 揭示「成本-准确率 Pareto」

证据一:τ-bench 的 pass^k(Sierra,arXiv 2406.12045,2024-06;τ²-bench 2025)。 它把「能不能做对」和「能不能稳定做对」分开:

  • pass@k:「the agent's ability to successfully complete a task in at least one out of k attempts」(k 次里至少一次成功)
  • pass^k:「determines if it can successfully complete the same task multiple times」(k 次全部成功)

数学上,若单次成功率为 $p$,则在「k 次独立同任务」假设下:

$$\text{pass}^k = p^k \quad\text{(指数衰减)}, \qquad \text{pass@}k = 1-(1-p)^k \quad\text{(指数逼近 1)}$$

两者朝相反方向走。τ-bench 实测:GPT-4o 在 τ-retail 上「drops to ~25% on pass^8 ... a staggering 60% drop compared to its pass^1 score」——pass^1≈85%,pass^8 只剩 ~25%。原文判语:「all the tested agents perform extremely poorly on the reliability test」,现实含义是「only a 25% chance that the agent will resolve 8 cases of the same issue with different customers」。

反直觉洞察②(多 agent 的准确率提升常被协调开销吃掉,而 pass^k 让这件事可见):直觉上,加 agent = 加准确率。但 pass^k 暴露了一个被 pass@1 掩盖的真相——可靠性随 k 指数衰减。多 agent 引入更多组件(lead+N 个 sub+消息传递),每个组件都有自己的失败概率,整体成功率是各环节的乘积 $p_1 p_2 \cdots p_m$,环节越多衰减越快。所以多 agent 在 pass^1 上看似 +2pp,到 pass^8 可能因为多出来的协调环节反而更不稳定。AML 要的是「同一类告警每次都判对」(高 pass^k),不是「八次里蒙对一次」(高 pass@k)——这正是多 agent 协调开销最致命的地方。

证据二:HAL 的成本-准确率 Pareto(Princeton SAgE/CITP,2025-10)。 HAL 跑了「21,730 agent rollouts across 9 models and 9 benchmarks ... ~$40,000」,自动算每个 benchmark 的 Pareto frontier,核心结论:「some agents are drastically more expensive while being only marginally better」。这给「多 agent 该不该上」一个经济判据——不是看准确率绝对值,而是看它在成本-准确率平面上是否落在 Pareto 前沿。

为什么 pass^k 对 AML 是「正确的指标」而非吹毛求疵?因为 AML 的真实工作流是「同一类型的告警一天来几十上百条」。监管要的不是「这个 agent 偶尔能写出一份漂亮 SAR」,而是「这类可疑跨境,它每一笔都不漏判」。pass@1 高、pass^k 崩的 agent,在 demo 里光鲜,上线后会以指数速度积累漏报——k=20 笔同类告警全判对的概率是 $p^{20}$,$p=0.9$ 时只剩 12%。这也是为什么 Day 17 的 judge 校准要配漂移监控:可靠性不是单点指标,是一条随重复次数衰减的曲线,必须盯住衰减斜率而非起点高度。

证据三:等 token 预算下的反转(arXiv 2604.02460,2026-04)。 把推理 token 预算拉平后,「single-agent systems consistently match or outperform MAS on multi-hop reasoning」。实测(FRAMES/MuSiQue):

thinking-token 预算单 agent (SAS)串行多 agent (Sequential MAS)
10000.4180.379
20000.4210.389
50000.4270.386

机理是数据处理不等式(Data Processing Inequality):「multi-agent decompositions introduce additional communication bottlenecks that can lead to information loss」——信息每经过一次 agent 间传递就只会损失、不会增加。这恰好印证 Day 30 B 节的「communication bottleneck」,也解释了 Day 29 的 +90.2% 为何高度依赖「并行塞更多 token」而非「多 agent 更聪明」:一旦把 token 预算这个混淆变量控住,多 agent 的优势在多跳推理上蒸发了。

这条 DPI 论证值得多停一秒,因为它直接戳破了一个流行直觉——「把难题拆成子题分给多个专家,应该更好」。在信息论意义上,拆解 = 在推理链里插入一道「压缩-传输-解压」的瓶颈。单 agent 直读完整上下文时,它持有的是关于任务的全部互信息;一旦把上下文切给三个 subagent、再让它们通过自然语言摘要互相传递,每一次「写摘要给下一个 agent」都是一次有损压缩,互信息只减不增。所以多跳推理这种「每一跳都依赖前一跳的完整中间结论」的任务,恰恰是 DPI 惩罚最重的场景——拆得越细,丢得越多。这与 Day 29 的董事会例子形成完美互补:董事会任务每家公司独立可查(子题之间无互信息依赖),DPI 不惩罚,于是多 agent 大赢;多跳推理子题链式依赖,DPI 重罚,于是多 agent 反输。同一套信息论框架,解释了两个看似矛盾的实验结果。

C. 多 agent 的隐性成本:协调 / 调试 / 延迟

把单/多 agent 的成本-质量摊开,隐性项往往比准确率那 +2pp 大得多:

维度单 agent多 agent量化口径
准确率增益基线+约 2pp(二手口径,作辅证)微弱
token 成本≈15×(Day 29,Anthropic 2025-06)超线性
延迟10–30×(二手口径,辅证)数量级
可靠性 pass^k环节少,衰减慢环节多,乘积衰减快见 B 节
调试难度单一控制流,可下断点DAG 无中心,需透传 trace context(Day 30)工程量陡增
信息保真全上下文直读每跳过 communication bottleneck 丢信息DPI 约束

多 agent 真正仍然赢的条件(来自 arXiv 2604.02460):只有当单 agent 的上下文利用严重退化时——论文测到「substitution corruption (α=0.7)」(70% 上下文被误导性替换)或「masking at heavy levels」(~70% 推理上下文被遮蔽)——多 agent 才能「recover task-relevant information more reliably than a degraded single pass」。即:多 agent 是「单 agent 装不下 / 被污染到失效」时的补救,不是默认的更优解。 这与 Day 29 的边界结论(广度可分解 + 超单窗口)完全吻合,从两个独立证据源收敛到同一条判据。

设计要点/决策表

要点决策依据
「64%」用法仅作定性辅证,不上主线A 节,无一手出处
默认入口单 agent 优先B 证据三:等预算下单 agent ≥ 多 agent
升级到多 agent 的判据任务广度可分解 超单窗口/上下文退化C 节 + Day 29 收敛结论
评测指标报 pass^k 而非只报 pass@1B 证据一:AML 要稳定正确
选型经济判据看成本-准确率 Pareto 前沿B 证据二:HAL

对本项目的落地

  • AML Copilot 的默认入口应是单 agent,orchestrator 是「按需升级」而非默认orchestratorAgent.ts 已实现,但根据 B 节证据三(等 token 预算下单 agent 在多跳推理上不输甚至更优),单笔告警深度调查应直接走 runResearchAgent 这类单 sub-agent;只有「批量复核 N 笔 / 比对多对手」这类广度任务才路由进 runOrchestrator。这条路由判据应写进 orchestratorPrompt.ts,并在产品层把「多 agent 模式」做成显式触发而非隐式默认。
  • 评测口径补 pass^k:P1 建的 src/aml/evalChecks.ts / evalBaseline.ts 现在是单次跑分。依据 B 节,应计划新增「同一案例重复 k 次、报 pass^k」的可靠性维度——AML 合规要的是「这类告警每次都判对」,pass^1 高但 pass^k 崩的 judge/agent 不能上线。这与 Day 17 judge 校准的「漂移监控」形成可靠性双闭环。
  • 成本-准确率 Pareto 接入 Budgetbudget.tscostCapUsd 给了成本硬闸,但还缺「准确率/成本比」的决策视图。可借 HAL 思路,计划在 useTraceStore.ts 的 trace 聚合里同时记录每次运行的 (cost, eval-score),离线画 Pareto,验证 orchestrator 模式是否真落在前沿——若某次多 agent 运行「drastically more expensive while only marginally better」,就该降级回单 agent。
  • 诚实标注:本笔记主线论据来自 τ-bench(pass^k)、HAL(Pareto)、arXiv 2604.02460(等预算反转)三个一手源;「64% / +2.1pp / 10–30× latency」均为二手聚合口径,仅作量级参考,不写进任何代码注释或 PRD 作为既定事实。pass^k 评测与 Pareto 视图为 P2/P3 计划项,当前 W 未实现。

参考资料

  1. Sierra — τ-bench / τ²-bench(arXiv 2406.12045,2024-06;τ²-bench 2025):pass@k vs pass^k 定义;$\text{pass}^k=p^k$ 指数衰减;GPT-4o τ-retail pass^8≈25%(较 pass^1 跌 60%);「agents perform extremely poorly on reliability test」 (2024-06 / 2025)
  2. Princeton SAgE / CITP — Holistic Agent Leaderboard (HAL)(arXiv 2510.11977,ICLR 2026):成本-准确率 Pareto frontier;21,730 rollouts / 9 模型 / 9 benchmark / ~$40K;「some agents drastically more expensive while only marginally better」 (2025-10)
  3. arXiv 2604.02460 — Single-Agent LLMs Outperform Multi-Agent Systems on Multi-Hop Reasoning Under Equal Thinking Token Budgets:等 token 预算下 SAS≥MAS(1K/2K/5K 三档数据);Data Processing Inequality / communication bottleneck;多 agent 仅在上下文重度退化(α=0.7 corruption / heavy masking)时反超 (2026-04)
  4. 二手聚合(仅辅证)— ranksquire「AI Agents Orchestration 2026」等:「单 agent 在 64% 任务即够,多 agent +2.1pp / 2× cost / 10–30× latency」,无一手出处 (2026-04)
  5. 本仓库 src/agent/orchestrator/orchestratorAgent.tssrc/aml/evalChecks.tssrc/agent/orchestrator/budget.tssrc/agent/trace/useTraceStore.ts (2026-06)

SOTA 检查 (2026-06-11)

  • 「单 agent 优先、多 agent 按需」是 2026-06 的收敛共识:τ-bench(pass^k)、HAL(Pareto)、等预算反转论文(2026-04)三个独立一手源指向同一结论——多 agent 的优势高度条件化(广度可分解/超窗口/上下文退化),不是默认更优。这与 Day 29/30 的边界判据互相印证。ThoughtWorks Radar Vol 34(2026-04)也把「permission-greedy agent topologies」列为需审慎评估项。
  • pass^k 在 2026 快速成为可靠性标准指标:多个新榜单(HAL Reliability Dashboard、ReliabilityBench、「Beyond pass@1」框架 arXiv 2603.29231)都在推「只报 pass@1 会系统性高估生产可靠性」。本项目补 pass^k 是跟上 SOTA,而非过度设计。
  • 「64%」类二手数字的过时/失真风险:此类无一手出处的比例数字随博客互引可能持续漂移,不可作为时效性论据;执行当周若要引用单/多 agent 对比,应回到有论文背书的 τ-bench/HAL/等预算论文,并核对是否有更新版本。
  • 待跟踪:等 token 预算论文(2604.02460)目前是 v1 preprint,结论待同行评审与更多模型复现;若后续出现「在 reasoning 模型上多 agent 重新反超」的证据,需回填本笔记的判据。HAL 与 τ²-bench 均在持续更新榜单,引用具体数字时须带访问月份。