AIPA Day 31

单 agent vs 多 agent 的证据核查 — pass^k、HAL 与 64% 的出处

2026-07-15

single-vs-multi-agentpass-kreliability

日期: 2026-07-15 阶段: Phase 2 - AI-native 参考架构标签: #single-vs-multi-agent #pass-k #reliability

核心问题

Day 29 学到 Anthropic 的 +90.2%，Day 30 学到 orchestrator 怎么编排。一个危险的惯性正在形成：默认「多 agent 更好」。今天专门踩一脚刹车，做证据核查——回答一个 PM 必须诚实面对的问题：多 agent 到底在多少任务上真的赢？赢的部分会不会被它自己的协调开销吃掉？

具体三件事：

网上广为流传的 Princeton「64% 任务单 agent 即够」这个数，一手出处到底在哪？能不能作为主线论据？
用什么可靠的一手证据替代/印证它——τ²-bench 的 pass^k、Princeton HAL 的成本-准确率 Pareto？
多 agent 的隐性成本（协调开销/调试难度/延迟）具体长什么样？

这关系到 AML Copilot 的根本架构决策：我们已经写了 orchestrator（orchestratorAgent.ts），但默认入口该不该是它？还是先用单 agent，只在证据充分时才升级到多 agent？

关键内容

A. 「64%」的出处核查：找不到一手，只能作辅证

按硬规则，先 WebSearch 锁定一手出处。结果如实记录：

「single agent matched or outperformed multi-agent on 64% of benchmarked tasks when given the same tools and context；multi-agent adds ~2.1pp accuracy at ~2× cost and 10–30× latency」这段表述，只出现在二手聚合博客（如 ranksquire.com「AI Agents Orchestration 2026」2026-04、jobsbyculture 等），并未在任何 Princeton 官方页面、arXiv 论文或 PLI/CITP 发布中找到精确的「64%」原文。
WebSearch 命中的 Princeton 一手成果是另外两项：HAL（Holistic Agent Leaderboard）（arXiv 2510.11977，2025-10；ICLR 2026；作者含 Kapoor、Narayanan）和 PLI 的 agentic 聚合论文，但它们都没有「64%」这个具体数字。

反直觉洞察①（一个被反复引用的数字，可能从来没有一手出处）：「64%」在 2026 的多篇博客里被当成既定事实互相引用，但顺着引用链回溯，源头是空的——没有任何论文给出这个精确比例。这是 AI 内容生态的典型「引用塌缩」：二手互引制造了「人人都知道」的假权威。按本项目硬规则（无精确月份/无一手出处的数据只能作辅证），「64%」不得作为主线论据，只能定性引用为「多份 2026 工程口径认为多数任务单 agent 即够」。真正能上主线的，是下面 B 节有论文/榜单背书的证据。

B. 可靠一手证据：pass^k 揭示「单次分数撒谎」，HAL 揭示「成本-准确率 Pareto」

证据一：τ-bench 的 pass^k（Sierra，arXiv 2406.12045，2024-06；τ²-bench 2025）。 它把「能不能做对」和「能不能稳定做对」分开：

pass@k：「the agent's ability to successfully complete a task in at least one out of k attempts」（k 次里至少一次成功）
pass^k：「determines if it can successfully complete the same task multiple times」（k 次全部成功）

数学上，若单次成功率为 $p$，则在「k 次独立同任务」假设下：

$$\text{pass}^k = p^k \quad\text{（指数衰减）}, \qquad \text{pass@}k = 1-(1-p)^k \quad\text{（指数逼近 1）}$$

两者朝相反方向走。τ-bench 实测：GPT-4o 在 τ-retail 上「drops to ~25% on pass^8 ... a staggering 60% drop compared to its pass^1 score」——pass^1≈85%，pass^8 只剩 ~25%。原文判语：「all the tested agents perform extremely poorly on the reliability test」，现实含义是「only a 25% chance that the agent will resolve 8 cases of the same issue with different customers」。

反直觉洞察②（多 agent 的准确率提升常被协调开销吃掉，而 pass^k 让这件事可见）：直觉上，加 agent = 加准确率。但 pass^k 暴露了一个被 pass@1 掩盖的真相——可靠性随 k 指数衰减。多 agent 引入更多组件（lead+N 个 sub+消息传递），每个组件都有自己的失败概率，整体成功率是各环节的乘积 $p_1 p_2 \cdots p_m$，环节越多衰减越快。所以多 agent 在 pass^1 上看似 +2pp，到 pass^8 可能因为多出来的协调环节反而更不稳定。AML 要的是「同一类告警每次都判对」（高 pass^k），不是「八次里蒙对一次」（高 pass@k）——这正是多 agent 协调开销最致命的地方。

证据二：HAL 的成本-准确率 Pareto（Princeton SAgE/CITP，2025-10）。 HAL 跑了「21,730 agent rollouts across 9 models and 9 benchmarks ... ~$40,000」，自动算每个 benchmark 的 Pareto frontier，核心结论：「some agents are drastically more expensive while being only marginally better」。这给「多 agent 该不该上」一个经济判据——不是看准确率绝对值，而是看它在成本-准确率平面上是否落在 Pareto 前沿。

为什么 pass^k 对 AML 是「正确的指标」而非吹毛求疵？因为 AML 的真实工作流是「同一类型的告警一天来几十上百条」。监管要的不是「这个 agent 偶尔能写出一份漂亮 SAR」，而是「这类可疑跨境，它每一笔都不漏判」。pass@1 高、pass^k 崩的 agent，在 demo 里光鲜，上线后会以指数速度积累漏报——k=20 笔同类告警全判对的概率是 $p^{20}$，$p=0.9$ 时只剩 12%。这也是为什么 Day 17 的 judge 校准要配漂移监控：可靠性不是单点指标，是一条随重复次数衰减的曲线，必须盯住衰减斜率而非起点高度。

证据三：等 token 预算下的反转（arXiv 2604.02460，2026-04）。 把推理 token 预算拉平后，「single-agent systems consistently match or outperform MAS on multi-hop reasoning」。实测（FRAMES/MuSiQue）：

thinking-token 预算	单 agent (SAS)	串行多 agent (Sequential MAS)
1000	0.418	0.379
2000	0.421	0.389
5000	0.427	0.386

机理是数据处理不等式（Data Processing Inequality）：「multi-agent decompositions introduce additional communication bottlenecks that can lead to information loss」——信息每经过一次 agent 间传递就只会损失、不会增加。这恰好印证 Day 30 B 节的「communication bottleneck」，也解释了 Day 29 的 +90.2% 为何高度依赖「并行塞更多 token」而非「多 agent 更聪明」：一旦把 token 预算这个混淆变量控住，多 agent 的优势在多跳推理上蒸发了。

这条 DPI 论证值得多停一秒，因为它直接戳破了一个流行直觉——「把难题拆成子题分给多个专家，应该更好」。在信息论意义上，拆解 = 在推理链里插入一道「压缩-传输-解压」的瓶颈。单 agent 直读完整上下文时，它持有的是关于任务的全部互信息；一旦把上下文切给三个 subagent、再让它们通过自然语言摘要互相传递，每一次「写摘要给下一个 agent」都是一次有损压缩，互信息只减不增。所以多跳推理这种「每一跳都依赖前一跳的完整中间结论」的任务，恰恰是 DPI 惩罚最重的场景——拆得越细，丢得越多。这与 Day 29 的董事会例子形成完美互补：董事会任务每家公司独立可查（子题之间无互信息依赖），DPI 不惩罚，于是多 agent 大赢；多跳推理子题链式依赖，DPI 重罚，于是多 agent 反输。同一套信息论框架，解释了两个看似矛盾的实验结果。

C. 多 agent 的隐性成本：协调 / 调试 / 延迟

把单/多 agent 的成本-质量摊开，隐性项往往比准确率那 +2pp 大得多：

维度	单 agent	多 agent	量化口径
准确率增益	基线	+约 2pp（二手口径，作辅证）	微弱
token 成本	1×	≈15×（Day 29，Anthropic 2025-06）	超线性
延迟	1×	10–30×（二手口径，辅证）	数量级
可靠性 pass^k	环节少，衰减慢	环节多，乘积衰减快	见 B 节
调试难度	单一控制流，可下断点	DAG 无中心，需透传 trace context（Day 30）	工程量陡增
信息保真	全上下文直读	每跳过 communication bottleneck 丢信息	DPI 约束

多 agent 真正仍然赢的条件（来自 arXiv 2604.02460）：只有当单 agent 的上下文利用严重退化时——论文测到「substitution corruption (α=0.7)」（70% 上下文被误导性替换）或「masking at heavy levels」（~70% 推理上下文被遮蔽）——多 agent 才能「recover task-relevant information more reliably than a degraded single pass」。即：多 agent 是「单 agent 装不下 / 被污染到失效」时的补救，不是默认的更优解。 这与 Day 29 的边界结论（广度可分解 + 超单窗口）完全吻合，从两个独立证据源收敛到同一条判据。

设计要点/决策表

要点	决策	依据
「64%」用法	仅作定性辅证，不上主线	A 节，无一手出处
默认入口	单 agent 优先	B 证据三：等预算下单 agent ≥ 多 agent
升级到多 agent 的判据	任务广度可分解且超单窗口/上下文退化	C 节 + Day 29 收敛结论
评测指标	报 pass^k 而非只报 pass@1	B 证据一：AML 要稳定正确
选型经济判据	看成本-准确率 Pareto 前沿	B 证据二：HAL

对本项目的落地

AML Copilot 的默认入口应是单 agent，orchestrator 是「按需升级」而非默认：orchestratorAgent.ts 已实现，但根据 B 节证据三（等 token 预算下单 agent 在多跳推理上不输甚至更优），单笔告警深度调查应直接走 runResearchAgent 这类单 sub-agent；只有「批量复核 N 笔 / 比对多对手」这类广度任务才路由进 runOrchestrator。这条路由判据应写进 orchestratorPrompt.ts，并在产品层把「多 agent 模式」做成显式触发而非隐式默认。
评测口径补 pass^k：P1 建的 src/aml/evalChecks.ts / evalBaseline.ts 现在是单次跑分。依据 B 节，应计划新增「同一案例重复 k 次、报 pass^k」的可靠性维度——AML 合规要的是「这类告警每次都判对」，pass^1 高但 pass^k 崩的 judge/agent 不能上线。这与 Day 17 judge 校准的「漂移监控」形成可靠性双闭环。
成本-准确率 Pareto 接入 Budget：budget.ts 的 costCapUsd 给了成本硬闸，但还缺「准确率/成本比」的决策视图。可借 HAL 思路，计划在 useTraceStore.ts 的 trace 聚合里同时记录每次运行的 (cost, eval-score)，离线画 Pareto，验证 orchestrator 模式是否真落在前沿——若某次多 agent 运行「drastically more expensive while only marginally better」，就该降级回单 agent。
诚实标注：本笔记主线论据来自 τ-bench（pass^k）、HAL（Pareto）、arXiv 2604.02460（等预算反转）三个一手源；「64% / +2.1pp / 10–30× latency」均为二手聚合口径，仅作量级参考，不写进任何代码注释或 PRD 作为既定事实。pass^k 评测与 Pareto 视图为 P2/P3 计划项，当前 W 未实现。

参考资料

Sierra — τ-bench / τ²-bench（arXiv 2406.12045，2024-06；τ²-bench 2025）：pass@k vs pass^k 定义；$\text{pass}^k=p^k$ 指数衰减；GPT-4o τ-retail pass^8≈25%（较 pass^1 跌 60%）；「agents perform extremely poorly on reliability test」 (2024-06 / 2025)
Princeton SAgE / CITP — Holistic Agent Leaderboard (HAL)（arXiv 2510.11977，ICLR 2026）：成本-准确率 Pareto frontier；21,730 rollouts / 9 模型 / 9 benchmark / ~$40K；「some agents drastically more expensive while only marginally better」 (2025-10)
arXiv 2604.02460 — Single-Agent LLMs Outperform Multi-Agent Systems on Multi-Hop Reasoning Under Equal Thinking Token Budgets：等 token 预算下 SAS≥MAS（1K/2K/5K 三档数据）；Data Processing Inequality / communication bottleneck；多 agent 仅在上下文重度退化（α=0.7 corruption / heavy masking）时反超 (2026-04)
二手聚合（仅辅证）— ranksquire「AI Agents Orchestration 2026」等：「单 agent 在 64% 任务即够，多 agent +2.1pp / 2× cost / 10–30× latency」，无一手出处 (2026-04)
本仓库 src/agent/orchestrator/orchestratorAgent.ts、src/aml/evalChecks.ts、src/agent/orchestrator/budget.ts、src/agent/trace/useTraceStore.ts (2026-06)

SOTA 检查 (2026-06-11)

「单 agent 优先、多 agent 按需」是 2026-06 的收敛共识：τ-bench（pass^k）、HAL（Pareto）、等预算反转论文（2026-04）三个独立一手源指向同一结论——多 agent 的优势高度条件化（广度可分解/超窗口/上下文退化），不是默认更优。这与 Day 29/30 的边界判据互相印证。ThoughtWorks Radar Vol 34（2026-04）也把「permission-greedy agent topologies」列为需审慎评估项。
pass^k 在 2026 快速成为可靠性标准指标：多个新榜单（HAL Reliability Dashboard、ReliabilityBench、「Beyond pass@1」框架 arXiv 2603.29231）都在推「只报 pass@1 会系统性高估生产可靠性」。本项目补 pass^k 是跟上 SOTA，而非过度设计。
「64%」类二手数字的过时/失真风险：此类无一手出处的比例数字随博客互引可能持续漂移，不可作为时效性论据；执行当周若要引用单/多 agent 对比，应回到有论文背书的 τ-bench/HAL/等预算论文，并核对是否有更新版本。
待跟踪：等 token 预算论文（2604.02460）目前是 v1 preprint，结论待同行评审与更多模型复现；若后续出现「在 reasoning 模型上多 agent 重新反超」的证据，需回填本笔记的判据。HAL 与 τ²-bench 均在持续更新榜单，引用具体数字时须带访问月份。