Towards a Science of Scaling Agent Systems

中文标题:迈向智能体系统规模化的科学
作者/机构:Yubin Kim, Ken Gu, Chanwoo Park, Chunjong Park, Samuel Schmidgall, A. Ali Heydari, Yao Yan, Zhihan Zhang, Yuchen Zhuang, Mark Malhotra, Paul Pu Liang, Hae Won Park, Yuzhe Yang, Xuhai Xu, Yilun Du, Shwetak Patel, Tim Althoff, Daniel McDuff and Xin Liu (来自 Google Research, Google DeepMind, Massachusetts Institute of Technology)

A1 主要贡献

核心问题:尽管基于语言模型(LM)的智能体系统(能够推理、规划和行动)已成为现实世界AI应用的主流范式,但决定其性能的原则仍未得到充分探索。从业者依赖于启发式方法而非原则性的设计选择,尤其不清楚何时增加智能体能提升性能,何时会削弱性能。

研究目标:本文旨在通过推导智能体系统的定量规模化原则来弥补这一差距。研究将“规模化”定义为智能体数量、协调结构、模型能力和任务属性之间的相互作用。

研究方法与评估
* 基准测试:研究在四个多样化的基准上进行评估:Finance-Agent(金融推理)、BrowseComp-Plus(网页导航)、PlanCraft(游戏规划)和Workbench(工作流执行)。
* 智能体架构:使用了五种典型的智能体架构:单智能体系统(SAS)和四种多智能体系统(MAS),包括独立型(Independent)、中心化型(Centralized)、去中心化型(Decentralized)和混合型(Hybrid)。
* 模型与配置:这些架构在三个大型语言模型(LLM)家族中实例化,总共进行了180种配置的受控评估。为了隔离架构本身的影响,所有配置都标准化了工具、提示结构和令牌预算。
* 预测模型:研究利用效率、开销、错误放大和冗余等经验性协调指标,推导出一个预测模型,该模型在交叉验证中达到了$R^2=0.513$。该模型通过对任务属性进行建模,能够预测未见过的任务领域的性能,而非对特定数据集过拟合。

核心发现与创新点
研究确定了三个主导效应:
1. 工具-协调权衡 (Tool-Coordination Trade-off):在固定的计算预算下,工具密集型任务会因多智能体开销而受到不成比例的影响。
2. 能力饱和 (Capability Saturation):研究发现,一旦单智能体基线的性能超过约45%的经验阈值,协调带来的收益会递减甚至为负($\rho=−0.408, p<0.001$)。
3. 拓扑依赖的错误放大 (Topology-dependent Error Amplification):独立智能体由于未经检查的传播,将错误放大了17.2倍;而中心化协调通过验证瓶颈将错误控制在4.4倍。

研究强调,协调的好处是任务依赖的:
* 对于像金融推理这样可并行的任务,中心化协调能将性能提升80.9%。
* 对于动态网页导航,去中心化协调表现出色(性能提升9.2%,而中心化为+0.2%)。
* 然而,对于顺序推理任务(如规划),所有测试的多智能体变体都导致性能下降了39%–70%。

主要贡献总结
1. 受控的智能体系统评估框架:建立了一个比较智能体架构的框架,通过控制实现上的混淆因素来隔离协调结构的影响。该框架涵盖了180种配置,使性能差异能够归因于架构选择而非随机变化。
2. 多智能体系统的规模化原则:推导出一个混合效应模型($R^2=0.513$),使用经验性协调指标(如效率$E_c$、错误放大$A_e$和冗余$R$)来量化性能如何由推理能力和任务属性的相互作用产生。该分析识别了主要的抑制机制,特别是工具-协调权衡($\beta=−0.330$)和架构依赖的错误级联,从而确定了协调有效性的基本限制。
3. 架构-任务对齐的量化原则:证明了智能体架构的选择受可测量的任务特征(如可分解性、工具复杂性)而非简单的智能体数量规模化所支配。该框架在预测未见任务的最优架构方面达到了87%的准确率,从而能够基于预测模型而非定性启发式方法做出有原则的部署决策。

图 1 | 模型智能和系统架构下的智能体扩展。在四个智能体基准测试中,平均性能(%)随着模型智能指数(见附录A)的增加而持续提高,涵盖了三个主要的LLM家族(OpenAI、Google和Anthropic)在不同智能体配置下的表现。单智能体系统(SAS)作为参考轨迹,而多智能体系统(MAS)的变体(中心化、去中心化、独立和混合)揭示了不同的扩展行为(架构比较见表2)。图中所有标注的百分比增量(例如,+8.1%,+8.7%,–4.6%)表示在相同智能指数下,表现最佳的MAS变体相对于SAS基线的性能相对变化。中心化和混合协调通常产生更高的扩展效率,表明协作式智能体结构比单独的个体扩展更能有效地放大能力增益。
图 1 | 模型智能和系统架构下的智能体扩展。在四个智能体基准测试中,平均性能(%)随着模型智能指数(见附录A)的增加而持续提高,涵盖了三个主要的LLM家族(OpenAI、Google和Anthropic)在不同智能体配置下的表现。单智能体系统(SAS)作为参考轨迹,而多智能体系统(MAS)的变体(中心化、去中心化、独立和混合)揭示了不同的扩展行为(架构比较见表2)。图中所有标注的百分比增量(例如,+8.1%,+8.7%,–4.6%)表示在相同智能指数下,表现最佳的MAS变体相对于SAS基线的性能相对变化。中心化和混合协调通常产生更高的扩展效率,表明协作式智能体结构比单独的个体扩展更能有效地放大能力增益。

A3 背景知识

多智能体系统(MAS)与单智能体系统(SAS)

区分单智能体与多智能体系统是表征架构效应的基础。遵循 Tran 等人(2025)【索引[48],Multi-agent collaboration mechanisms: A survey of LLMs,2025,arXiv】和 Guo 等人(2024)【索引[17],Large language model based multi-agents: a survey of progress and challenges,2024,IJCAI】的定义,本文将单智能体系统(Single-Agent System)定义为具有单一推理核心的系统:所有的感知、规划和行动都在由一个LLM实例控制的单个顺序循环中发生,即使它使用了工具【索引[59],React: Synergizing reasoning and acting in language models,2023,ICLR】、自反思【索引[41],Reflexion: Language agents with verbal reinforcement learning,2023,NeurIPS】或思维链(CoT)推理【索引[53],Emergent abilities of large language models,2022,TMLR】。关键在于,自反思机制不构成多智能体协作,因为它们在单个决策核心内运作【索引[55],LLM powered autonomous agents,2023,Lil'Log】。多智能体系统(Multi-Agent System)则包含多个由LLM支持的智能体,它们通过结构化消息传递、共享内存或协调协议进行通信【索引[57],The rise and potential of large language model based agents: A survey,2025,Science China Information Sciences】。MAS架构根据其拓扑结构而不同:独立系统聚合孤立的输出;去中心化系统支持点对点交换【索引[13],Improving factuality and reasoning in language models through multiagent debate,2023,ICML】;中心化系统通过协调器进行路由【索引[20],MetaGPT: Meta programming for a multi-agent collaborative framework,2024,ICLR】;混合系统则结合了分层控制和横向通信【索引[12],Multi-agent collaboration via evolving orchestration,2025,arXiv】。MAS的评估已经超越了早期关于其普遍优越性的假设【索引[29],More agents is all you need,2024,TMLR;索引[38],Scaling large language model-based multi-agent collaboration,2025,ICLR】,转向了由领域复杂性驱动的更为细致的理解。全面的综述描述了各种协调协议的协作机制【索引[48],Multi-agent collaboration mechanisms: A survey of LLMs,2025,arXiv】和智能体分析模式【索引[17],Large language model based multi-agents: a survey of progress and challenges,2024,IJCAI】。然而,存在一些实证挑战:Gao 等人(2025)【索引[14],Single-agent or multi-agent systems? why not both?,2025,arXiv】表明,随着基础模型的改进,MAS的优势会减弱,前沿模型通常表现优于团队;Cemri 等人(2025)【索引[5],Why do multi-agent LLM systems fail?,2025,arXiv】识别出14种失败模式(Cohen's Kappa=0.88);Zhang 等人(2025)【索引[61],Multi-agent architecture search via agentic supernet,2025,ICML】通过动态架构搜索以6-45%的成本实现了可比的性能;Anthropic(2024)【索引[1],How we built our multi-agent research system,2024,Anthropic Engineering Blog】报告称智能体消耗的令牌多15倍。Sumers 等人(2023)【索引[45],Cognitive architectures for language agents,2023,TMLR】的理论基础提出了认知架构,将智能体置于AI更广阔的历史背景中。多智能体协调相比于使用工具的单个强大模型何时能提供价值,这个问题在经验上仍未解决,Qian 等人(2025)【索引[38],Scaling large language model-based multi-agent collaboration,2025,ICLR】提出的规模化定律并未显示出显著的普适模式【索引[49],A survey on large language model based autonomous agents,2024a,Frontiers of Computer Science】,这激发了我们进行系统性评估。

智能体任务与基准

本文遵循Zhu等人(2025)的定义,将智能体任务定义为需要以下三点的任务:(1) 与环境持续进行多步交互,(2) 在部分可观察的情况下迭代收集信息,以及 (3) 根据反馈自适应地调整策略。这区分了像网页浏览【索引[54],Browsecomp: A simple yet challenging benchmark for browsing agents,2025,arXiv;索引[64],WebArena: A realistic web environment for building autonomous agents,2024,ICLR】、金融交易【索引[4],Finance agent benchmark: Benchmarking llms on real-world financial research tasks,2025,arXiv】、软件工程【索引[23],SWE-bench: Can language models resolve real-world github issues?,2024,ICLR】和规划【索引[11],Plancraft: an evaluation dataset for planning with LLM agents,2024,arXiv】等任务与静态基准。非智能体任务评估的是无需与环境交互的单次推理能力,例如:GSM8K【索引[10],Training verifiers to solve math word problems,2021,arXiv】(直接的思维链数学题)、MMLU【索引[18],Measuring massive multitask language understanding,2021,ICLR】(参数化知识)、HumanEval【索引[7],Evaluating large language models trained on code,2021,arXiv】(需求完整的编码)和SQuAD【索引[39],Squad: 100,000+ questions for machine comprehension of text,2016,EMNLP】(单遍理解)。在非智能体基准上,多智能体系统通过集成效应(在HumanEval上五个智能体达到89%的准确率)显示出单调的性能提升,因为投票可以纠正错误而不会产生顺序性的复合错误【索引[25],AI agents that matter,2025,TMLR】。这一区别至关重要:在智能体场景中,协调开销随交互深度而扩展,智能体在日益分歧的世界状态上操作(10次交互后重叠度为34%),错误会级联而非抵消【索引[25],AI agents that matter,2025,TMLR】。Zhu等人(2025)【索引[65],Establishing best practices in building rigorous agentic benchmarks,2025,NeurIPS Datasets and Benchmarks Track】引入了“智能体基准检查清单”,指出了导致100%相对错误估计的缺陷。基准的发展从Liu等人(2024)【索引[30],Agentbench: Evaluating LLMs as agents,2024,ICLR】的8环境评估(4k-13k响应)演变到专业框架:Jimenez等人(2024)【索引[23],SWE-bench: Can language models resolve real-world github issues?,2024,ICLR】(GitHub问题解决)、Zhou等人(2024)【索引[64],WebArena: A realistic web environment for building autonomous agents,2024,ICLR】(812个网页任务)、Xu等人(2025)【索引[58],TheAgentCompany: Benchmarking LLM Agents on Consequential Real World Tasks,2025,NeurIPS Datasets and Benchmarks Track】(30%自主完成率)和Paglieri等人(2025)【索引[34],BALROG: Benchmarking agentic LLM and VLM reasoning on games,2025,ICLR】(基于视觉的强化学习)。

本文对相关工作进行了更深入的探讨。Yao等人(2023)【索引[59],React: Synergizing reasoning and acting in language models,2023,ICLR】形式化了推理-行动的协同作用;Weng(2023)【索引[55],LLM powered autonomous agents,2023,Lil'Log】描述了需要规划、记忆和工具的智能体;Kapoor等人(2025)【索引[25],AI agents that matter,2025,TMLR】揭示了仅关注准确率而忽略成本指标会导致不必要复杂的智能体。在单次推理设置中显示出MAS优势的任务,在真实的交互环境下往往表现出相反的模式,这表明架构的优势是任务依赖的,从而促使我们分离并研究不同智能体领域的协调效应。

规模化定律与协调机制

理解多智能体系统的性能规模化需要区分协作规模化和神经规模化定律。神经规模化遵循幂律,需要百万倍的参数增长才能看到显著趋势【索引[24],Scaling laws for neural language models,2020,arXiv】,而协作规模化则在小得多的尺度上呈现逻辑增长模式【索引[38],Scaling large language model-based multi-agent collaboration,2025,ICLR】。Chen等人(2024a)【索引[6],Are more LLM calls all you need? towards scaling laws of compound inference systems,2024a,arXiv】探究了是否仅增加LLM调用次数就能驱动性能,发现复合推理系统遵循与单模型训练不同的规模化行为。然而,Wang等人(2024a)【索引[49],A survey on large language model based autonomous agents,2024a,Frontiers of Computer Science】指出,协作规模化没有显示出显著的普适模式,表明其规律是领域特定的而非通用的。协调机制是决定协作是增强还是削弱性能的关键:Hong等人(2024)【索引[20],MetaGPT: Meta programming for a multi-agent collaborative framework,2024,ICLR】引入了元编程工作流以减轻幻觉级联;Chen等人(2024b)【索引[8],Agentverse: Facilitating multi-agent collaboration and exploring emergent behaviors,2024b,ICLR】通过结构化交互展示了涌现行为;Wu等人(2024)【索引[56],Autogen: Enabling next-gen LLM applications via multi-agent conversations,2024,CoLM】提供了通用的多智能体框架。最近的研究揭示,架构-任务对齐比团队规模更重要:Zhang等人(2025)【索引[61],Multi-agent architecture search via agentic supernet,2025,ICML】通过查询相关的配置,以6-45%的成本实现了更优的性能;Dang等人(2025)【索引[12],Multi-agent collaboration via evolving orchestration,2025,arXiv】表明,傀儡师协调的改进源于紧凑的循环结构;Du等人(2023)【索引[13],Improving factuality and reasoning in language models through multiagent debate,2023,ICML】证明了点对点辩论的有效性取决于任务的可分解性,Smit等人(2023)【索引[42],Should we be going mad? a look at multi-agent debate strategies for llms,2023,arXiv】进一步表明,多智能体辩论并不总是优于如自洽性这样的单智能体策略,这说明其好处对任务和超参数高度敏感。这些发现共同表明,协调的好处来自于将通信拓扑与任务结构相匹配,而不是简单地增加智能体数量,为有原则的架构设计奠定了基础,而非“越多智能体越好”的启发式方法。

A2 方法细节

3.1. 系统定义

本文基于多智能体系统形式化理论定义了智能体系统。借鉴Guo等人(2024)【索引[17],Large language model based multi-agents: a survey of progress and challenges,2024,IJCAI】和Zhu等人(2025)【索引[65],Establishing best practices in building rigorous agentic benchmarks,2025,NeurIPS Datasets and Benchmarks Track】的理论,一个智能体系统 S = ( A, E, C, Ω) 由一组智能体 $A = \{a_1, . . . , a_n\}$(其中$n \ge 1$)、一个共享环境 $E$、一个通信拓扑 $C$ 和一个协调策略 $\Omega$ 组成。当 $|A| = 1$ 时,称之为单智能体系统(SAS);当 $|A| > 1$ 时,称之为多智能体系统(MAS)。每个智能体 $a_i$ 通过迭代反馈在共享环境中感知、推理和行动。

形式上,每个智能体 $a_i$ 被定义为一个元组 $a_i = (\Phi_i, A_i, M_i, \pi_i)$。其中:
* $\Phi_i$ 是推理策略(通常是一个LLM)。
* $A_i = \{\text{ToolCall}(t, p) : t \in T, p \in \Theta_t\}$ 是由工具使用组成的动作空间,其中 T 是可用工具集(如网页搜索、代码执行),$\Theta_t$ 表示工具 t 的有效参数配置。
* $M_i$ 是内部记忆。
* $\pi_i : H \rightarrow A_i$ 是决策函数,将观察历史映射到动作。

观察历史空间H包含了一系列的动作-观察对。决策函数 $\pi_i$ 由推理策略 $\Phi_i$(即LLM)实例化:给定一个历史 $h_{i,t}$,LLM生成一个推理轨迹并选择下一个动作。例如,一个历史 $h_{i,t} = [(\text{“search(query='pandas')”}, \text{“Found 5 files”}), ...]$ 会被 $\Phi_i$ 处理以产生下一个工具调用 $a_{i,t+1}$。

在时间步t,智能体 $a_i$ 根据以下方式选择一个动作 $a_{i,t} \in A_i$
$\alpha_{i,t} = \pi_i(h_{i,t}), \quad o_{i,t} = E(\alpha_{i,t}), \quad h_{i,t+1} = f_i(h_{i,t}, \alpha_{i,t}, o_{i,t}),$
其中 $E$ 表示环境,而 $h_{i,0} = \{x_0\}$ 包含初始任务说明。历史更新函数 $f_i : H \times A_i \times O \rightarrow H$ 将新的动作-观察对附加到智能体的历史中:$h_{i,t+1} = f_i(h_{i,t}, a_{i,t}, o_{i,t}) = h_{i,t} \oplus (a_{i,t}, o_{i,t})$,当 $|h_{i,t+1}| > \text{MAX\_TOKENS}$ 时,会进行上下文窗口截断。这个更新机制统一应用于SAS和MAS配置。智能体之间的通信通过协调层的显式消息传递进行。

单智能体系统(SAS)包含一个推理核心。即 $|A| = 1$,其中 A 是智能体集合。所有的感知、推理和行动都在一个单一的顺序循环中发生,其计算复杂度为 $O(k)$,其中 k 是推理迭代的次数。SAS的通信开销为零,内存占用最小 $O(k)$,但分解或验证能力有限。

多智能体系统(MAS)是具有 $|A| > 1$ 的智能体系统 S。在MAS中,智能体通过通信拓扑 $C$ 和协调策略 $\Omega$ 进行交互。

通信拓扑 C 定义了智能体之间的信息流模式
* 独立型(Independent): $C = \emptyset$ (无智能体间通信)。
* 中心化型(Centralized): $C = \{(a_{\text{orch}}, a_i) : \forall i\}$ (仅协调器与智能体通信)。
* 去中心化型(Decentralized): $C = \{(a_i, a_j) : \forall i, j, i \neq j\}$ (全连接拓扑)。
* 混合型(Hybrid): $C = C_{\text{centralized}} \cup C_{\text{peer}}$ (协调器加有限的点对点通信)。

协调器 $\Omega$(如果存在)决定了:(i) 子智能体的输出如何聚合(例如,多数投票、加权综合),(ii) 协调器是否可以否决子智能体的决策,(iii) 记忆是否在协调轮次间持续存在,以及 (iv) 基于共识或质量阈值的终止条件。

MAS架构因信息和控制在智能体间传播方式的不同而异,从而在计算、协调和并行化之间产生了不同的权衡。表2使用渐进符号来形式化这些权衡,涵盖了LLM调用次数、顺序深度、通信开销和内存复杂性。我们选择这五种架构来对协调机制进行结构性消融分析:
* 独立型 隔离了没有通信的并行化(集成)效应。
* 去中心化型 引入了没有层级的点对点信息融合。
* 中心化型 引入了层级验证和瓶颈控制。
* 混合型 考察了层级结构与横向灵活性的协同作用。

这种设计使我们能够将性能增益归因于特定的协调机制,而不是泛泛的“多智能体”效应。具体配置包括:
* 独立型 MAS: $A = \{a_1, . . . , a_n\}$, $C = \emptyset$, $\Omega = \text{synthesis\_only}$。n个智能体各自独立执行k次推理迭代,然后聚合输出 ($O(nk)$)。这实现了最大的并行化但协调最少,适用于集成式推理。
* 中心化型 MAS: $A = \{a_{\text{orch}}, a_1, . . . , a_n\}$, $C = \{(a_{\text{orch}}, a_i) : \forall i\}$, $\Omega = \text{hierarchical}$。一个协调器在n个子智能体间协调r轮 ($O(rnk)$)。顺序深度为r,而并行化因子保持为n。这种设计稳定了推理过程,但在协调器处产生了瓶颈。
* 去中心化型 MAS: $A = \{a_1, . . . , a_n\}$, $C = \{(a_i, a_j) : \forall i, j, i \neq j\}$, $\Omega = \text{consensus}$。智能体在d个顺序辩论轮次中进行通信 ($O(dnk)$)。内存复杂度为 $O(d \cdot n \cdot k)$,因为每个智能体都存储自己的辩论历史。这通过点对点讨论实现了共识的形成。
* 混合型 MAS: $A = \{a_{\text{orch}}, a_1, . . . , a_n\}$, $C = \text{star} + \text{peer edges}$, $\Omega = \text{hierarchical} + \text{lateral}$。结合了协调的层级结构和有限的点对点通信 ($O(rnk + p)$,其中p是点对点通信的轮次数)。这继承了协调器的控制权,同时允许智能体之间进行横向交流。

通信与协调的区别。我们将通信(智能体之间的消息传递)与协调(对智能体活动的战略指导)区分开来。在中心化系统中,协调通过协调器的任务分解和进度监控实现,而通信则涉及在协调器和工作智能体之间传递发现。在去中心化系统中,通信和协调通过辩论轮次交织在一起,智能体在其中既交换信息又共同引导问题解决的方向。

总结来说,SAS代表了智能体计算的最小单元 ($O(k)$),而MAS配置则探索了协调复杂性的扩展前沿——从完全并行且无通信的(独立型)到通过点对点共识完全耦合的(去中心化型)。这些配置使我们能够测试性能增益是来自于智能体协调和专业化,还是仅仅来自于通过集成增加的计算量。我们的分类法涵盖了基于LLM的智能体系统中常见的协调模式。

3.2. 智能体任务与基准

本文根据Zhu等人(2025)的框架,将一个任务T定义为“智能体的”。当最优性能显著受益于自适应交互时,该任务即为智能体任务。形式上,如果 $\tau = \{(a_t, o_t)\}_{t=0}^T$ 代表一个交互轨迹,那么:

$$\frac{\max_{\pi} \mathbb{E}[R(\tau)] - \max_{g} \mathbb{E}[R(g(x))]}{\max_{\pi} \mathbb{E}[R(\tau)]} > \delta,$$


其中 $\pi$ 代表一个交互式策略,g 代表任何单次前向传播的函数,R 衡量任务成功度,$\delta$ 是一个任务相关的阈值,期望值是基于任务实例 x 和随机的环境动态计算的。这个定义捕捉了那些交互能比最佳单次方法提供显著优势的任务。

最优策略的期望回报因此取决于顺序的观察-行动反馈,要求智能体在部分可观察性下收集信息、规划并修正假设。基于智能体基准检查清单【索引[65],Establishing best practices in building rigorous agentic benchmarks,2025,NeurIPS Datasets and Benchmarks Track】,我们为智能体基准形式化了三个必要属性:
* 顺序相互依赖性: 后续行动依赖于早期的观察;单次策略无法获得高回报。
* 部分可观察性: 关键状态信息是隐藏的,必须通过主动查询或工具使用来获取。
* 自适应策略形成: 策略必须根据通过交互获得的新证据来更新内部信念。

缺乏这些条件的基准(例如,GSM8K, MMLU)评估的是静态推理而非智能体能力

表 1 | 用于评估的四个智能体基准。
表 1 | 用于评估的四个智能体基准。

环境反馈之所以重要,是因为现实世界的部署(如编码助手、金融分析师和具身机器人)在不确定和非平稳的环境中运行。可通过直接提示解决的任务衡量的是语言知识,而智能体基准评估的是智能过程:探索、适应和协调。因此,我们选择的基准要求 (i) 基础LLM在单次模式下表现不佳,以及 (ii) 取得非凡性能需要多步环境交互。

本文扩展了Zhu等人(2025)提出的框架,引入了额外的基准设计原则以隔离架构效应
* 受控的工具接口: 所有架构使用相同的工具API和观察结构,以消除外部反馈质量带来的混淆。
* 受控的参数化知识: 在每个模型家族内部,评估侧重于自适应推理而非记忆的事实。跨家族比较(第4节)通过基线归一化来考虑固有的知识库差异。
* 动作-观察循环长度: 每个基准强制执行非平凡的轨迹长度 $T > 3$,以确保顺序推理。
* 比较归一化: 分数相对于最佳单智能体基线进行归一化,以衡量协调带来的增益或损失。

A4 实验环境

  • 基准测试

    • Workbench: 确定性的代码执行和工具使用任务,有客观的通过/失败标准。用于评估业务任务自动化。
    • Finance Agent: 多步定量推理和风险评估任务,包含50个需要领域专业知识的金融问题。
    • PlanCraft: 在约束条件下的时空规划任务,专注于Minecraft环境中的顺序规划。
    • BrowseComp-Plus: 动态网页导航、信息提取和跨页综合任务,包含100个需要多网站信息综合的任务。该基准在所有实验配置中表现出最高的性能可变性(变异系数为0.32)。
  • 模型架构

    • LLM系列:

      • OpenAI: GPT-5-nano, GPT-5-mini, GPT-5
      • Google: Gemini 2.0 Flash, 2.5 Flash, 2.5 Pro
      • Anthropic: Claude Sonnet 3.7, 4.0, 4.5
    • 智能指数: 使用一个综合能力得分(智能指数)来量化模型能力,范围从34到66。

  • 硬件配置

    • 论文未明确提供具体的硬件配置信息(如GPU型号/数量、CPU型号等)。
  • 软件配置与实现

    • 代码库: 使用 LiteLLM 统一访问不同模型提供商的API,使用 LangChain 进行智能体编排和工具集成。
    • 工具环境: 工具包括网页搜索(Tavily)、代码执行(Python REPL)、数学运算等。
    • 计算公平性: 为了确保公平比较,多智能体系统(MAS)和单智能体系统(SAS)的最大总迭代次数或令牌预算是匹配的。MAS通过并行处理获得等效计算预算,而SAS则获得相应更多的顺序推理轮次。

A4 实验结果

实验旨在回答三个核心研究问题:RQ1. 哪些因素决定智能体系统性能? RQ2. 协调在何种条件下改善或降低性能? RQ3. 我们能否推导出预测最优架构的定量规模化原则?

主要结果:MAS的性能高度依赖于领域和架构

  • 性能异质性:多智能体系统(MAS)在不同任务领域表现出巨大的性能差异。

    • Finance Agent上,MAS性能显著提升,中心化架构(Centralized)相对SAS提升了+80.9%。这得益于任务可分解,允许多个智能体并行进行金融推理。
    • Workbench上,MAS增益甚微,去中心化架构(Decentralized)仅提升+5.7%
    • BrowseComp-Plus上,去中心化架构也仅带来+9.2%的温和提升。
    • PlanCraft上,所有MAS架构均导致性能普遍下降,降幅从-39%到-70%不等。这揭示了“协调饱和效应”,即在需要严格顺序推理的任务中,协调开销超过了其带来的好处。
  • 总体表现:综合所有基准和架构,MAS的平均性能改善为-3.5%,表明MAS并非普遍优于SAS。性能范围从-70.0%(PlanCraft独立型)到+80.9%(Finance中心化型)不等,强调了架构-任务对齐的重要性。

图 2 | 单智能体(SAS)和多智能体系统(MAS)在四个不同基准上的性能比较揭示了高度依赖任务的扩展动态。箱形图显示了成功率的分布(范围:0到1,1代表100%成功)。百分比注释表示与SAS基线相比的相对改进/下降。 (a) BrowseComp-Plus显示出两极分化的结果,独立智能体表现灾难性地差于SAS(-35%),而结构化更强的协调取得了温和的收益。(b) Finance Agent展示了最强的多智能体优势,所有MAS架构都大幅优于SAS(+57%至81%)。(c) PlanCraft在所有MAS变体中都表现出一致的性能下降(-70%至-39%)。(d) Workbench显示出边际效应(-11%至+6%)。白色菱形标记表示每个架构的平均性能。
图 2 | 单智能体(SAS)和多智能体系统(MAS)在四个不同基准上的性能比较揭示了高度依赖任务的扩展动态。箱形图显示了成功率的分布(范围:0到1,1代表100%成功)。百分比注释表示与SAS基线相比的相对改进/下降。 (a) BrowseComp-Plus显示出两极分化的结果,独立智能体表现灾难性地差于SAS(-35%),而结构化更强的协调取得了温和的收益。(b) Finance Agent展示了最强的多智能体优势,所有MAS架构都大幅优于SAS(+57%至81%)。(c) PlanCraft在所有MAS变体中都表现出一致的性能下降(-70%至-39%)。(d) Workbench显示出边际效应(-11%至+6%)。白色菱形标记表示每个架构的平均性能。

规模化原则:一个可预测的量化模型

为了解释和预测性能,研究者构建了一个混合效应模型,该模型在交叉验证中解释了51.3%的性能方差($R^2_{CV}=0.513$)。该模型整合了模型能力、系统配置、任务属性和实证协调指标(见表5)。

关键发现:
1. 效率-工具权衡是主导因素:模型中最强的预测因子是效率与工具数量的交互作用($\hat{\beta} = -0.330, p < 0.001$)。工具密集型任务会不成比例地受到多智能体低效率的影响,使得简单的SAS架构在这种情况下反而更有效。
2. 错误放大效应:不同架构的错误放大因子差异巨大。独立型MAS由于缺乏验证机制,错误放大了17.2倍,导致其性能普遍不佳。而中心化架构通过协调器瓶颈进行验证,将错误放大控制在4.4倍
3. 开销与任务复杂度的非线性关系:多智能体架构的开销(如Hybrid高达515%)与工具数量相互作用($\hat{\beta} = -0.141, p < 0.001$),对复杂任务造成了复合成本。
4. 智能的加速回报:模型能力的二次项($\hat{\beta}_{I^2} = 0.256, p = 0.010$)表明,更高能力的模型从智能提升中获益更多,呈现出加速回报的趋势。
5. 基线悖论 (Baseline Paradox):当单智能体基线性能($P_{SA}$)已经很高时,增加智能体进行协调带来的收益会递减甚至为负($\hat{\beta} = -0.408, p < 0.001$)。模型预测,当$P_{SA}$超过约45%时,协调开始产生负面影响。
6. 架构选择的量化规则:该模型能够在给定任务特性(工具数量、基线难度)和模型能力的情况下,预测不同架构的性能,并在未见过的配置上实现了87%的正确架构选择率。

表 3 | 规模化原则模型比较。逐步引入经验性协调指标显著提高了预测能力。
表 4 | 规模化原则系数,关联性能与智能、任务属性及经验性协调指标(R²_train = 0.589, R²_CV = 0.513, n = 180, AIC=−190.3)。模型使用5折交叉验证;所有显著预测因子均已显示。

协调效率、错误动态和信息传递

  • 协调开销:MAS的推理轮次(Turns)随智能体数量(n)呈超线性增长($T \propto (n + 0.5)^{1.724}$)。例如,混合型(Hybrid)系统所需的轮次是SAS的6.2倍。这意味着在固定计算预算下,当智能体数量超过3-4个时,每个智能体的推理能力会急剧下降。
  • 错误吸收机制:中心化和去中心化架构通过验证和辩论机制,平均能将事实错误率降低22.7%。而独立型MAS由于缺乏此类机制,反而会放大错误。
  • 模型家族的差异:不同LLM家族表现出对不同架构的偏好。例如,OpenAI模型在中心化和混合型MAS中表现出较强的协同效应;Google模型显示出边际改善和效率瓶颈;而Anthropic模型对协调开销更为敏感(图3)。异构模型(混合不同能力模型)的实验表明,在去中心化架构中,混合能力团队通常能达到或超过同质高能力团队的性能(图4)。
  • 智能体数量扩展:增加智能体数量并非总是有益。对于能力较低的模型(Gemini-2.0 Flash),性能在7个智能体时达到顶峰后开始下降;而能力更强的模型(Gemini-2.5 Pro)则在更少的智能体数量时就达到峰值,表明协调开销最终会超过并行化的好处(图5)。

图 3 | 跨模型家族和架构的成本-性能权衡。比较了单智能体(SAS)和多智能体(MAS)架构:独立、去中心化、中心化和混合型,横跨三个LLM家族。每个点代表平均智能体性能(%)与每个实验的标准化成本(美元),水平和垂直误差线分别表示成本和性能的均值标准误(SEM)。
图 5 | 智能体数量扩展揭示了模型依赖的协调极限。Gemini-2.0 Flash (a) 和 Gemini-2.5 Pro (b) 在不同智能体数量(n_a ∈ {1, 3, 5, 7, 9})的多智能体架构下的性能表现。两种模型都显示出多智能体协调带来的初步增益,但扩展模式明显不同:Gemini-2.0 Flash在7个智能体时表现出明显的最佳点,之后性能下降,而Gemini-2.5 Pro的去中心化架构尽管单智能体基线更高,却更早达到峰值。

A7 补充细节:协调效率、错误动态和信息传递

本研究遵循Cemri等人(2025)提出的多智能体系统失败分类法(MAST),对观察到的错误进行分类。该分类法包括规范错误、智能体间未对齐和验证失败。在此基础上,本文对不同架构下的错误频率和传播进行了量化分析。

表 2 | 智能体方法的架构比较与客观复杂度指标。计算复杂度以LLM调用次数、协调开销和并行化潜力来衡量。
* k = 每个智能体的最大迭代次数,n = 智能体数量,r = 协调器轮次,d = 辩论轮次,p = 点对点通信轮次,m = 每轮平均点对点请求数。通信开销计算智能体间的消息交换。独立型提供最大的并行化和最小的协调。去中心化型使用顺序辩论轮次。混合型结合了协调器控制和定向的点对点通信。

表 5 | 各架构和模型家族的协调指标(n = 180个配置,共14,742个实例运行)。所有系统的总推理令牌数匹配(平均每轮试验4,800个)。
表 5 | 各架构和模型家族的协调指标(n = 180个配置,共14,742个实例运行)。所有系统的总推理令牌数匹配(平均每轮试验4,800个)。

本文系统地描述了在180个实验中协调效率、错误传播机制和信息传递的特征。为了隔离协调效应,所有MAS和SAS配置的总推理令牌预算(平均每次试验4800个令牌)和工具调用权限都进行了匹配。

推理轮次数随智能体数量呈幂律扩展。总推理轮次(推理-响应交换)与智能体数量呈现出幂律增长关系:
$T = 2.72 \times (n + 0.5)^{1.724}, R^2 = 0.974$, 指数的95%置信区间为 $[1.685, 1.763], p < 0.001$。
该关系是在聚合了各架构均值后拟合的;架构内部的方差仍然很大(例如,n=3时:独立型平均11.4轮,而去中心化型为26.1轮),反映了依赖于拓扑的通信模式。这个超线性指数(1.724 > 1)反映了二次方的消息复杂性(潜在的全对全通信),但受到实际带宽限制的调节,从而创造了一个与神经网络参数扩展(例如,Kaplan等人报告密集模型中 $\alpha = 0.76$)根本不同的智能体扩展机制。实证上,混合型系统比SAS多需要6.2倍的轮次(44.3 vs 7.2轮;$t(178) = 16.8, p < 0.001$),中心化型需要3.8倍(27.7轮),而去中心化型需要3.6倍(26.1轮)。这意味着在固定的计算预算下,超过3-4个智能体后,每个智能体的推理能力会变得极其有限,形成一个硬性资源上限,此时通信成本主导了推理能力。

消息密度与性能呈对数饱和关系。所有架构的成功率与消息密度遵循对数关系:
$S = 0.73 + 0.28 \ln(c), \quad R^2 = 0.68, \quad p < 0.001,$
其中c是每推理轮次的消息数。性能在 $c^* \approx 0.39$ 消息/轮附近达到平台期(去中心化和中心化架构分别在0.41和0.39达到),对应的成功率为47.7%和46.3%。超过此点,额外的消息带来的回报递减:混合型系统(515%的协调开销, T = 44.3)相比中心化系统(285%的开销, T = 27.7)仅获得约2%-3%的成功率增益,即0.7个百分点的差异,统计上不显著($t(178) = 0.61, p = 0.542$)。这种饱和反映了开放式推理中基本的信息限制,而非机制故障:高性能的运行显示出收敛的令牌重叠(共享令牌:平均约1.8比特;与低性能运行相比$p < 0.001$),表明消息共识已达成;进一步的消息增加的是冗余而非新信息。

本文形式化了错误吸收机制。我们将错误吸收定义为 $Absorb = (E_{SAS} - E_{MAS})/E_{SAS}$,其中E是事实错误率。该机制通过迭代验证运作:在中心化和混合型架构中,子智能体的输出通过一个协调器,该协调器在聚合前交叉检查推理步骤,从而能够检测和纠正逻辑不一致。在去中心化架构中,点对点辩论轮次通过明确的挑战-回应交换提供了类似的验证。这些架构实现了平均22.7%的错误减少(95% CI: [20.1%, 25.3%]),在Finance Agent上达到峰值31.4%,因为结构化的数值输出便于验证。独立型MAS由于没有任何智能体间验证机制,没有显示出错误纠正效果(+4.6%的放大),其中单个智能体犯的错误直接传播到聚合输出中,没有纠正的机会。

令牌重叠分析揭示了纠正机制。智能体推理中的每个令牌被标记为:(i) 唯一(仅出现在一个智能体中);(ii) 共享(两个或更多智能体);(iii) 矛盾(语义对立,BERTScore < 0.3)。高性能运行表现出:(i) 共享令牌熵增加(Finance Agent平均约1.8比特;与低性能运行相比 $p < 0.001$);(ii) 矛盾内容大幅减少(成功案例中位数为2.3%,失败案例为8.1%),这表明消息向相互一致的子证明收敛,而不是自我强化的错误。有趣的是,高冗余度($R > 0.50$)与成功率呈负相关($\rho = -0.136, p = 0.004$),这意味着存在一个涌现的多样性-效率权衡:当消息重叠在共享基础和信息多样性之间取得平衡时,集体能力达到峰值;最优冗余度出现在 $R \approx 0.41$(中心化中位数),平衡了信息融合与推理独立性。

图 4 | 智能体异质性对多智能体性能的影响。在BrowseComp-Plus基准测试中,比较了中心化(协调器-子智能体)和去中心化(带投票的点对点辩论)多智能体架构在三个LLM家族中的性能。高能力模型包括GPT-5、Claude Sonnet 4.5和Gemini-2.5 Pro;低能力模型包括GPT-5 nano、Claude Sonnet 3.7和Gemini-2.0 Flash。(1) Anthropic模型在中心化架构中独特地受益于异构混合,其中低能力协调器与高能力子智能体(0.42)的组合优于同质高能力组合(0.32)31%,而OpenAI和Gemini在异构中心化配置下表现出性能下降。(2) 去中心化混合能力方法实现了接近或优于同质高能力基线的性能(OpenAI:0.53 vs 0.50;Anthropic:0.47 vs 0.37;Gemini:0.42 vs 0.43),表明尽管能力不对称,但仍能实现有效的涌现协作。(3) 对于OpenAI和Gemini家族,使用低能力协调器的中心化架构表现显著不佳,表明当协调依赖于能力较弱的模型时存在架构限制。
图 4 | 智能体异质性对多智能体性能的影响。在BrowseComp-Plus基准测试中,比较了中心化(协调器-子智能体)和去中心化(带投票的点对点辩论)多智能体架构在三个LLM家族中的性能。高能力模型包括GPT-5、Claude Sonnet 4.5和Gemini-2.5 Pro;低能力模型包括GPT-5 nano、Claude Sonnet 3.7和Gemini-2.0 Flash。(1) Anthropic模型在中心化架构中独特地受益于异构混合,其中低能力协调器与高能力子智能体(0.42)的组合优于同质高能力组合(0.32)31%,而OpenAI和Gemini在异构中心化配置下表现出性能下降。(2) 去中心化混合能力方法实现了接近或优于同质高能力基线的性能(OpenAI:0.53 vs 0.50;Anthropic:0.47 vs 0.37;Gemini:0.42 vs 0.43),表明尽管能力不对称,但仍能实现有效的涌现协作。(3) 对于OpenAI和Gemini家族,使用低能力协调器的中心化架构表现显著不佳,表明当协调依赖于能力较弱的模型时存在架构限制。

错误分类法揭示了特定于架构的失败模式。我们识别了四种错误类别:
(1) 逻辑矛盾:智能体对同一实体断言“X为真”和“X为假”,或推导出违反其既定前提的结论;(2) 数值漂移:级联的四舍五入或单位转换错误导致的累积计算误差,衡量为与真实值的相对偏差超过5%;(3) 上下文忽略:未能引用当前推理步骤所需的先前已建立的实体、关系或状态信息;(4) 协调失败(MAS特有):消息误解、任务分配冲突或智能体间的状态同步错误。这些类别中出现了特定于架构的模式:
* 逻辑矛盾:基线为12.3-18.7%。中心化通过共识降至9.1%(减少36.4%);去中心化通过点对点验证达到11.5%;独立型保持在16.8%不变。
* 数值漂移:基线为20.9-24.1%。中心化/去中心化通过子问题验证降至18.3%(减少24%);混合型因舍入误差传播而放大至26.4%;独立型保持在23.2%不变。
* 上下文忽略:基线为15.8-25.2%。中心化通过协调器综合降至8.3%(减少66.8%);去中心化达到11.2%;独立型保持在24.1%不变。
* 协调失败:仅出现在MAS中。独立型:0%(无协调机制);中心化:1.8%;去中心化:3.2%;混合型:12.4%(协议复杂性超出了鲁棒实现的范围)。

这些模式识别出三个操作性协调机制:(i) 协调不足(开销 < 100%):准确率增益极小($\Delta P \approx +2-4\%$),协调机制尚未充分启动;(ii) 最优区间(200% < 开销 < 300%):成功-成本比率最高($E_c \approx 0.16$),由中心化和去中心化主导,具有强大的错误吸收能力;(iii) 过度协调(开销 > 400%):混合型运行效率降低($E_c \approx 0.11$),协议复杂性引入了协调失败模式。错误放大分析证实:独立型架构将错误传播至基线的17.2倍(95% CI: [14.3, 20.1];无纠正机制),而中心化通过有监督的聚合将错误控制在4.4倍([3.8, 5.0])。

信息增益(IG)在低复杂度领域预测MAS的优势。我们通过比较协调前后的任务不确定性代理(通过对关键变量的贝叶斯后验方差减少)来计算信息增益 $\Delta I$。在结构化领域(Finance Agent, Workbench)中,$\Delta I$ 与MAS-SAS差距强相关($\rho = 0.71, p < 0.001$),表明智能体成功交换了高价值信息并将其合成为改进的解决方案。特别是在Finance Agent中,成功试验的 $\Delta I$ 范围为0.8-2.1比特(平均1.4),而失败试验为0.2-0.6比特(平均0.4)。

相反,在开放世界领域(BrowseComp-Plus),$\Delta I$ 的预测能力弱且不显著,这表明由于世界固有的模糊性,智能体的消息提供的已验证信息有限。这种依赖于领域的信息增益模式直接对应于观察到的MAS优势:Finance Agent(+23.1%),信息交换价值高;BrowseComp-Plus(+6%-8%),世界模糊性限制了验证。

跨领域泛化验证了协调原则。架构排名在不同领域间保持稳定(Kendall $\tau = 0.89$,架构间的变异系数 < 0.1),表明协调原则超越了特定的任务结构。留一领域交叉验证达到了 $R^2 = 0.89$($p < 0.001$),证实了协调效应可以泛化到这四个基准之外。通过拟合的幂律外推到更大的团队(n = 6-10),预测的轮次增加95%置信区间为[3.2, 6.8]倍(自举覆盖率为94.2%),对扩展行为具有高置信度。具体来说,在n=6个智能体时,预测的轮次范围为12.8到20.1(SAS为7.2;中心化将达到约85-130轮)。这种超线性扩展证实了硬性资源上限:在固定预算下,超过3-4个智能体后,每个智能体的推理质量急剧下降。

经济效率和特定家族的成本效益权衡。令牌效率(每1000个令牌的成功次数)揭示了不同架构和家族的尖锐权衡:SAS达到67.7次成功/1K令牌;中心化降至21.5(差3.1倍);去中心化降至23.9(差2.8倍);混合型降至13.6(差5.0倍)。每次试验的绝对美元成本因模型而异:OpenAI混合型每1%成功率增益的边际成本约为0.008美元(对于结构化任务而言陡峭但可控),而Anthropic混合型达到约0.024美元/1%增益(差3倍,反映了Anthropic对协调开销的敏感性)。Google在所有架构中保持中等成本,约为0.012美元/1%增益,表明其成本效益权衡更为均衡。

LLM家族特定的部署特征和模型-架构对齐。跨家族分析揭示了不同的架构偏好。OpenAI模型在结构化任务上显示出最强的混合型协同效应(Finance:混合型52%成功率 vs SAS 39%;Workbench:混合型56% vs SAS 42%)。Anthropic模型表现出最保守、稳定的中心化性能(跨任务平均43%,标准差=2.3%,方差最低)。Google模型在不同拓扑结构中表现出鲁棒的跨架构效率(性能范围 < 5%)。这些模式($R^2 = 0.89$ 交叉验证)反映了注意力机制、激活稀疏性和表示几何方面的根本差异,这些差异促成或限制了多智能体交互,而不仅仅是表面的超参数差异。

A5 结论

本研究通过在三个LLM家族和四个智能体基准上进行的180次受控实验,量化了智能体系统的规模化原则。研究揭示,多智能体性能与协调复杂性之间呈现倒U型关系,当协调水平超过中等程度后,其带来的好处会递减。

核心结论
1. 领域复杂性是关键预测因素:领域复杂性是预测性能的最强指标($\beta = -0.114, p < 0.002$),相比架构选择,它对多智能体系统优势的削弱作用更为显著。
2. 性能增益高度依赖任务结构:性能增益因任务结构而异,在Finance Agent上可达+80.9%,而在PlanCraft上则下降-70.0%。这表明协调的好处紧密依赖于任务的可分解性。
3. 计算预算限制了有效团队规模:在固定的计算预算下,推理轮次数随团队规模呈超线性增长($T \propto n^{1.724}$),这实际上将有效的团队规模限制在3-4个智能体。
4. 建立了可预测的定量关系:研究推导出一个预测关系,表明多智能体系统的优势取决于模型能力(I)和领域复杂性(D),使从业者能在部署前估算预期收益。该模型在未见数据上的交叉验证达到了$R^2 = 0.89$。

最终启示:多智能体系统的好处关键取决于任务结构,而非仅仅是团队规模。有效的系统设计需要将协调拓扑与问题特性相匹配,而不是假设增加智能体数量会带来普遍的好处。

A6 附录

A. 模型智能指数

为了量化研究中使用的LLM的能力,我们采纳并扩展了Artificial Analysis智能指数。该指数是公开可用的最全面的模型能力综合评估之一,结合了模型在推理、知识、数学、编码、指令遵循、长上下文推理和智能体工作流任务上的表现。它整合了十个评估套件(如MMLU-Pro、GPQA Diamond、HLE、AIME 2025、SciCode、LiveCodeBench、IFBench、AA-LCR、Terminal-Bench Hard和g2-Bench Telecom),并采用了仔细的标准化、稳健的答案提取和模型无关的提示方法。

本研究需要一个统一、量化的模型基线能力度量,该度量独立于任何智能体机制或多智能体协作结构。智能指数通过以下方式满足了这一要求:(i) 在一致的、零样本、指令提示条件下评估所有模型;(ii) 采用pass@1评分和稳健的等价性检查机制;(iii) 报告一个反映通用推理和问题解决能力的综合度量;(iv) 表现出高统计可靠性(报告的置信区间低于±1%)。这使其适合作为研究智能体性能如何随底层模型能力扩展的基础轴。

我们对Artificial Analysis评估进行了扩展。由于Artificial Analysis仅报告了部分前沿模型的智能指数得分,而我们的研究需要更广泛的覆盖。对于那些官方平台尚未基准测试的模型,我们独立复现了智能指数评估的一部分,具体包括AA-LCR、HLE、MMLU-Pro、GPQA Diamond、AIME 2025、LiveCodeBench、SciCode和IFBench,并使用了公开披露的方法、提示、评分程序和评估环境。

对于没有公开结果的模型,我们遵循智能指数v3.0中使用的等权重公式计算了一个重构的智能指数。在无法完全复现的情况下(例如,特定的智能体工作流任务或不可用的上下文窗口限制),我们报告了近似估计值(用“∼”表示)并透明地讨论了其局限性。这些重构值应被解释为方法上一致但未经官方认证的估计。

表6总结了我们研究中使用的所有模型的重构智能指数及其底层组件分数。该表包括:(i) 可用时的官方智能指数值;(ii) 未报告模型的重构值;(iii) 用于计算综合指数的所有组成评估分数;(iv) 与智能体性能分析相关的其他模型元数据(上下文窗口、成本、吞吐量、延迟)。

我们的重构智能指数值应谨慎解读。首先,一些评估,特别是长上下文和智能体工作流任务,包含不确定性组件,其在不同实现中可能略有不同。其次,对于没有公开API支持大上下文评估的模型(例如,“非推理”检查点),我们的长上下文估计是基于可用上下文窗口和内部模型行为的上限近似。第三,Artificial Analysis维护着私有测试变体和额外的过滤程序,这些无法完全复现。因此,我们的估计提供了一个方法上对齐但未经官方验证的扩展。

表 6 | 我们实验中使用的LLM的智能指数(非智能体能力)。
* 从报告范围中估计或平均得出。

B. 领域复杂性

我们通过一个复合指标来量化领域复杂性,该指标捕捉了所评估基准的经验难度。这种有原则的方法使得我们能够系统地分析多智能体协调在何时能带来性能优势,以及何时会产生过高的开销。

B.1. 复杂性指标构建

领域复杂性D∈[0, 1]是三个互补度量的保守平均值
* 性能天花板。定义为 $1 - P_{\text{max}}$,其中 $P_{\text{max}}$ 是任何评估系统所达到的最高性能。较低的天花板表示任务固有难度更大。
* 变异系数。计算为 $\sigma / \mu$,其中 $\sigma$ 和 $\mu$ 分别表示所有配置下性能的标准差和均值。这个与尺度无关的度量捕捉了独立于绝对性能范围的相对可变性。
* 最佳模型基线。定义为 $1 - P_{\text{best}}$,其中 $P_{\text{best}}$ 是每个数据集上最先进的单模型性能,为可达到的准确率提供了一个上限。

最终的复杂性分数是这三个组成部分的算术平均值,从而得出一个稳健的估计,减轻了对任何单一指标的敏感性。

B.2. 领域特征

表7总结了每个基准的复杂性分数和定义特征。

B.3. 关键阈值

我们的分析确定了一个关键的复杂性阈值,位于 D ≈ 0.40。低于此阈值,多智能体架构通过有效的任务分解和并行推理产生净正回报。

表 7 | 领域复杂性得分和任务特征。
表 7 | 领域复杂性得分和任务特征。

高于此阈值,协调开销会消耗本可分配给推理的计算资源,导致性能下降。这一发现表明,多智能体方法的适用性从根本上受限于领域内在属性,而不仅仅是架构的复杂性。

C. 数据集

我们在四个需要多步推理和工具交互的智能体基准上评估我们的智能体系统。每个数据集强调了智能体行为的不同方面:信息检索、领域专业知识、规划和任务分解。

  • Finance Agent。我们使用Finance Agent基准【索引[4],Finance agent benchmark: Benchmarking llms on real-world financial research tasks,2025,arXiv】,包含50个需要领域专业知识和多步分析的金融问题。任务包括收益分析、财务指标计算和市场趋势解读。每个实例都包含专家提供的用于结构化评估的评分标准。问题通常需要专家15-30分钟的时间,表明其复杂性相当高。
  • BrowseComp Plus。BrowseComp Plus【索引[9],Browsecompplus: A more fair and transparent evaluation benchmark of deep-research agent,2025,arXiv】包含100个需要综合多个网站信息的网页浏览任务。任务包括比较分析、事实核查和跨多个网络源的全面研究。每个实例要求智能体在复杂的信息环境中导航,提取相关细节并综合发现。该数据集使用基于LLM的评估,将智能体响应与带有置信度评分的真实答案进行比较。
  • WorkBench。WorkBench【索引[43],Workbench: a benchmark dataset for agents in a realistic workplace setting,2024,arXiv】通过函数调用序列来评估业务任务自动化。该数据集涵盖五个领域:分析、日历管理、电子邮件操作、项目管理和客户关系管理。成功需要执行正确的工具序列来完成现实的业务工作流程。评估遵循以结果为中心的评估方法,测量预测和预期函数调用序列之间的完全匹配。该数据集支持100个不同的业务场景,并容忍微小的日期变化。
  • Plancraft。Plancraft【索引[11],Plancraft: an evaluation dataset for planning with LLM agents,2024,arXiv】专注于Minecraft环境中的顺序规划。智能体必须通过利用可用库存和制作配方来确定最佳行动序列,以制作目标物品。任务需要对依赖关系、资源管理和行动顺序进行多步推理。该数据集使用由环境决定的成功指标,基于在步数限制内成功制作物品。我们使用plancraft-test子集,其中包含集中的规划挑战。

D. 实现细节

D.1. 技术基础设施

我们的实现利用LiteLLM来统一访问模型提供商的API,并使用LangChain进行智能体编排和工具集成。LiteLLM为OpenAI、Gemini和Anthropic模型提供了标准化的接口,从而实现了无缝的模型切换和比较。LangChain则方便了工具绑定、对话管理和结构化提示。

API集成。我们通过特定提供商的API访问LLM:OpenAI API用于GPT模型(gpt-5, gpt-5-mini, gpt-5-nano),GenAI API用于Gemini模型(gemini-2.5-pro, gemini-2.5-flash, gemini-2.0-flash),以及Anthropic API用于Claude模型(claude-4.5-sonnet, claude-4.0-sonnet, claude3.7-sonnet)。我们的实现包括智能API密钥轮换,每个提供商使用多个密钥来处理速率限制和配额管理。当接近令牌限制时,上下文窗口管理会自动截断对话历史。

工具环境。每个数据集通过环境配置定义其工具生态系统。工具包括网页搜索(Tavily)、代码执行(Python REPL)、数学运算和任务完成标记。工具定义使用LangChain的BaseTool接口,具有结构化的输入模式和执行方法。当可用时,工具会使用函数调用功能动态绑定到LLM实例。

D.2. 智能体配置

架构参数。单个智能体每个实例最多使用10次迭代。独立多智能体系统部署3个智能体,仅进行综合协调。中心化系统使用3个子智能体和1个协调器,最多进行5轮协调,每轮每个智能体进行3次迭代。去中心化系统运行3个智能体,进行3轮辩论,每轮3次迭代。混合系统结合了中心化协调和有限的点对点通信阶段。

异构模型。我们的框架支持异构配置,其中不同角色的智能体使用不同的模型。协调器可以使用高能力模型(例如,GPT-5),而子智能体可以使用高效模型(例如,Gemini-2.0 Flash)。LLMConfig类管理模型分配,并为每个智能体角色自动创建LLM实例。去中心化系统可以为不同的工作智能体分配不同的模型以实现多样性。

D.3. 提示编译系统

我们实现了一个结构化的提示系统,支持命名模板和变量插值。提示在YAML文件中定义,包含基础模板和特定于角色的扩展。编译过程使用双大括号语法({variable})执行模板变量替换,并支持根据智能体类型和对话状态进行条件模板选择。

数据集集成。每个数据集提供包含任务特定指令和示例的共享提示模板。数据集实例提供提示变量,包括问题描述、上下文和约束。提示编译系统将智能体提示与数据集模板合并,确保在所有架构中指令传递的一致性,同时保持任务的特异性。

D.4. 评估方法

样本量。我们在数据集子集上进行评估,以平衡计算成本和统计显著性:Finance Agent(50个实例)、BrowseComp Plus(100个实例)、WorkBench(100个实例)和Plancraft(100个实例)。实例选择确保了每个基准中任务类型和难度水平的代表性覆盖。

限制和控制。所有实验在不同架构间使用相同的工具接口和观察结构,以消除外部反馈的混淆因素。上下文窗口管理应用一致的截断策略。API速率限制和重试机制确保了公平的资源分配。评估使用冻结的模型权重,不进行微调,以独立于模型优化来衡量架构效应。

D.5. 信息增益计算

信息增益 $\Delta I$ 量化了通过智能体协调实现的任务不确定性减少。我们通过贝叶斯后验方差减少来估计这一点:

$$\Delta \mathcal{I} = \frac{1}{2} \log \frac{\text{Var}[Y|\mathbf{s}_{\text{pre}}]}{\text{Var}[Y|\mathbf{s}_{\text{post}}]}$$


其中 $Y \in \{0, 1\}$ 是任务成功指示器,$s_{\text{pre}}$ 是协调前智能体的状态表示(初始推理轨迹),$s_{\text{post}}$ 是协调后的状态(最终聚合输出)。方差通过蒙特卡洛采样估计:我们使用温度 $T = 0.7$ 为每个状态生成 $N = 10$ 个推理轨迹,并计算预测成功概率的经验方差。对于二元结果,这简化为:
$\text{Var}[Y|\mathbf{s}] = \hat{p}(\mathbf{s})(1 - \hat{p}(\mathbf{s}))$
其中 $\hat{p}(s)$ 是样本中预测的平均成功概率。

图 6 | 各LLM家族在不同基准测试中的扩展动态。性能曲线显示了四个基准测试中表现最佳的多智能体变体与单智能体基线随智能指数的变化。OpenAI和Google在结构化任务中(Finance Agent:+23.1%;Workbench:+20.8%;Cohen's d > 1.2)表现出强大的协作扩展能力。Anthropic模型在开放式环境中(PlanCraft:非协调变体为-35.0%;d ≈ 0.35)的回报递减或为负,其中独立推理有时优于协调。跨家族方差分解(R² = 0.89)证实,内在的通信对齐差异驱动了这些不同的模式。
图 6 | 各LLM家族在不同基准测试中的扩展动态。性能曲线显示了四个基准测试中表现最佳的多智能体变体与单智能体基线随智能指数的变化。OpenAI和Google在结构化任务中(Finance Agent:+23.1%;Workbench:+20.8%;Cohen's d > 1.2)表现出强大的协作扩展能力。Anthropic模型在开放式环境中(PlanCraft:非协调变体为-35.0%;d ≈ 0.35)的回报递减或为负,其中独立推理有时优于协调。跨家族方差分解(R² = 0.89)证实,内在的通信对齐差异驱动了这些不同的模式。