暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

MACNET: 多 Agent 能否触发 Scaling Law?|论文分享

1283
今天分享的是由清华和北邮合作的一篇论文:

Scaling Large-Language-Model-based Multi-Agent Collaboration

可扩展的 LLM 多 Agent 协作系统
文章链接:https://arxiv.org/pdf/2406.07155
代码链接:https://github.com/OpenBMB/ChatDev

论文摘要

本文讨论了多Agent协作结构中,是否增加智能体的数量会像增加神经元一样,涌现新的能力。同时,文章提出了MACNET的方法,用有向无环图来组织多Agent,并通过拓扑排序优化Agent之间的交互推理。这种方法能够支持上千个Agent的协作。
文章还发现了一个“小世界”协作现象,类似小世界属性的网络拓扑在性能上更为出色。此外,研究发现了一种协作扩展定律,表明随着智能体数量的增加,解决方案的质量呈现逻辑增长模式。
文章的主要贡献有以下几点:
  1. 提出了MACNET架构:设计了一个基于有向无环图(DAG)的拓扑结构,用于多智能体协作网络(MACNET)。在这个架构中,每条边由指导者管理,每个节点由执行助手支持,从而实现智能体之间的功能分工和协作。
  2. 优化了交互推理过程:通过拓扑排序来安排智能体的交互顺序,确保信息在网络中有序传递。每轮交互中,相邻的两个智能体会优化之前的解决方案,并将优化后的结果传递给下一个邻居,而不是传递整个对话,从而避免全局广播,减少上下文的冗长。
  3. 提高了系统的可扩展性:这种方法避免了冗长的上下文和全局广播,使得MACNET能够在几乎任何大规模网络中进行可扩展的协作。
  4. 实现了功能二分化:通过引入指导者和执行助手的角色,MACNET成功地在智能体之间引入了功能分工,并将静态拓扑与专门化的智能体无缝整合,提升了协作效率。

多Agent协作网络

网络构建

网络的构建主要围绕有向无环图来组织多智能体的协作,具体步骤如下:
  1. 拓扑结构设计:网络被设计为一个有向无环图,用来组织智能体之间的交互。DAG由一组节点和一组边组成,其中节点代表智能体,边表示智能体之间的交互关系。由于DAG没有循环,信息可以在网络中顺畅地传递而不会发生死锁。
  2. 拓扑类型选择:文章重点研究了三种常见的拓扑类型-链状、树状和图状,每种类型又进一步细分为六种结构(如下图左侧):
    • 链状拓扑:类似于瀑布模型,智能体之间的交互沿着线性结构进行。
    • 树状拓扑:智能体可以向不同方向分支,形成独立的交互路径,分为“更宽”的星形结构和“更深”的树形结构。
    • 图状拓扑:支持任意的交互依赖关系,节点可以有多个子节点和父节点,形成发散和收敛的交互,进一步分类为全连接网格结构、多层感知机(MLP)结构和不规则的随机结构。
  3. 功能二分化设计:在网络中,每条边分配一个指导者,负责发出指令;每个节点分配一个执行助手,负责提供定制化解决方案。指导者和执行助手的角色分工使得智能体能够专注于各自的功能,从而促进高效的信息传递和任务解决。例如下图右侧中,节点1代表一个不带GUI的结果,边代表添加GUI指令,由节点2生成带GUI的结果。
  4. 确保信息流的有序性:有向边的“指向性”使得智能体之间的交互能够被有效地协调,而“无环”配置则避免了信息传播中的死锁问题。
通过这些步骤,网络能够高效地组织和管理多智能体的协作,确保信息在网络中的有序和高效传递。

交互推理

一旦图创建完成,推理过程的关键步骤如下:
  1. 拓扑排序:在推理过程中,首先对图中的智能体进行拓扑排序。这种排序方法确保在访问某个节点(智能体)之前,必须先访问所有与之相关的依赖节点。这意味着智能体必须在与其相连的边上的智能体之前被访问,而 又必须在节点之前被访问。这样可以保证信息在网络中的传递是有序的。
  2. 交互顺序:在确定了全局的拓扑顺序后,每一对相邻的、由边连接的智能体开始进行交互。具体来说,每个图形结构中涉及的智能体总数为,需要进行轮交互。每一轮交互都是在相邻的智能体之间进行的。
  3. 多轮交互模式:在每条边上,智能体之间进行多轮指令响应的交互。具体交互模式为:
    • 提出请求,提供优化建议并请求进一步的改进。
    • 接收到优化后的建议后,提供最终的解决方案。这个过程在每一条边上迭代进行,从而逐步优化解决方案。
  4. 控制流与数据流:拓扑排序不仅决定了交互的顺序,还明确了多智能体协作过程中的控制流。数据流则沿着图中的依赖关系传播,确保信息的传递与图形拓扑结构中的固有依赖关系一致。
这里需要注意的是,控制流和数据流并不是完全一样的,控制流代表Agent的工作流程,而数据流代表信息的流转方向。从下图中可以看出两个流在左侧这样一个有向无环图中的区别。

内存控制

在这套多Agent框架中,处理长上下文的方式也是通过长短期记忆。
  1. 短期记忆
    • 功能:在每次双智能体交互过程中,短期记忆捕捉交互中的工作记忆,确保在每次交互中进行上下文感知的决策。
    • 作用:帮助智能体在当前交互中保持对话的上下文,确保决策与当前信息相关。
  2. 长期记忆
    • 功能:长期记忆用于保持交互之间的上下文连续性,但只传递对话中的最终解决方案,而不是整个对话历史。
    • 作用:通过只传递最终解决方案,而非所有对话历史,长期记忆确保了前序智能体的上下文保持马尔可夫性质,从而减少了上下文信息过载的风险。
  3. 上下文管理
    • 目的:通过将信息传播限制在相邻智能体之间,而非所有前序对话之间,上述记忆机制减小了上下文过载的风险,同时保持了上下文的连续性。
    • 结果:这种方法使得多智能体系统能够在大规模网络中进行可扩展的协作,而不受到上下文长度的限制。

解决方案的优化与聚合

  • 解决方案的传播和优化:原始解决方案在网络中传播时,通过各个智能体的连续优化,其质量会随着时间的推移不断提高。

  • 分支与聚合:在网络的分支节点,解决方案通过并行传播进行扩展;在汇合节点,通过聚合机制来综合各个解决方案的优势,丢弃其劣势,从而产生更优质的聚合结果。这种非线性的决策机制确保了解决方案的质量提升。

实验

实验通过使用GPT-4生成4,000个代理,以增强观点多样性,每个代理由GPT3.5来执行。这些代理能够自主使用外部工具(如Python编译器)。在拓扑排序中,应用了Kahn算法,并且代理的温度值从1.0线性递减到0.0,基于拓扑深度。每次交互允许最多三轮对话,为确保公平性,所有基线模型在评估中使用相同的超参数和设置。
文章对多Agent协作能否触发涌现的分析如下:
  1. 实验方法:通过从1个节点逐步增加到50个节点(对应到一个网格设置中的1275个智能体),对不同拓扑进行扩展。
  2. 结果与现象
    • 小世界协作现象:在高密度网络中达到了最佳结果。这表明,适当的网络密度可以优化智能体之间的协作效果。
    • 反向退化现象:在某些配置下,随着规模的扩大,整体质量出现了2.27%到6.24%的下降。
    • 性能趋势:随着拓扑规模的扩大,系统性能初期迅速上升,随后达到饱和点(或略有下降)。这种趋势可以用sigmoid函数进行近似:,其中是参数,根据具体的拓扑配置而有所不同。
  3. 对比神经扩展定律
    • 神经扩展定律:神经扩展需要大规模的神经元增加(约在 之间)才能显现显著趋势。
    • 协作扩展:在MACNET中,大多数拓扑在规模为24到25时就会出现性能饱和,较神经扩展显著更快。这是因为神经元协调需要从零开始训练以融入广泛的世界知识,而智能体协调依赖于预训练的语言模型,通过语言交互来理解和优化文本信息,通常不需要如此大的规模。
  4. 结合两种机制
    • 将神经扩展和智能体协作扩展机制结合,可能会产生更高质量的结果,因为它们在不同层次上实现了扩展和优化。

总结

总结来说,MACNET提出了基于拓扑结构的多Agent框架。同时,MACNET通过实验观察到的协作扩展定律表明,智能体的协作效能随着规模的增加而呈现出明显的提升和饱和现象,与神经扩展定律的趋势有所不同,且在较小规模下就能显现协作效应。(论文中实验小节还有其他对实验结论的分析,感兴趣可以参考原文)

编者简介

李剑楠:华东师范大学硕士研究生,研究方向为向量检索。作为核心研发工程师参与向量数据库、RAG等产品的研发。代表公司参加DTCC、WAIM等会议进行主题分享。

👆 关注 AI 搜索引擎,获取更多专业技术分享 ~

文章转载自向量检索实验室,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论