热点|Anthropic vs Devin：成本15倍换90%性能提升，Multi-Agent没有未来？

ZILLIZ 2025-06-20

最近的大模型圈子已经乱成一锅粥了。

因为Multi-Agent，Devin（Cognitio旗下自动编程软件）联合创始人把OpenAI、微软、Anthropic，全都点名吐槽了一遍。

情况大概是这样的：Anthropic刚发布了他们的多智能体研究系统，信心满满地宣称"多智能体是扩展性能的关键"；Cognitio就立马跳出来反驳，标题直接挑衅："Don't Build Multi-Agents"（别搞多智能体），然后又直接说OpenAI 和微软旗下的 Swarm 和 AutoGen 全都错了，把开发者带到了坑里。

Multi-Agent这么火，为什么Devin为什么要吐槽？Multi-Agent当前的争议又在哪里？这场论战对我们做Agent开发又有什么借鉴意义？本文将一一为你解答。

先来看看两家公司拿出的数据：

Anthropic的成绩单：他们的多智能体系统在内部研究评估中，比单智能体Claude Opus 4的表现高出90.2%。

Cognition的反击：多智能体架构"极其脆弱"，决策分散导致系统崩溃。而且成本高得离谱——单智能体聊天是基准，多智能体系统的token消耗是单智能体的15倍。（单智能体，你发一条"你好"给AI，可能消耗2个token；AI回复"你好，有什么可以帮助您的？"可能消耗15个token。多智能体系统需要多个AI同时工作，把这些上下文，在多智能体之间来回传递，成本自然就翻倍了）

现在问题来了，90%性能提升 vs 15倍成本消耗，究竟谁对谁错？

真相是，双方都对，但看的角度不同。

Anthropic的"天使论证"：多智能体就是生产力

Anthropic的逻辑很直接：单个AI模型就像一个人，再聪明也有极限。但如果让多个AI协同工作，就能突破这个天花板。比如你要研究"2025年AI智能体公司的市场格局"这个复杂问题。如果用单个智能体，它得一步步来：先搜索技术趋势，再看市场数据，然后分析竞争格局...这样下来，半天都搞不定。但多智能体就不一样了。主智能体制定策略，然后同时派出几个"小弟"：一个专门搜技术信息，一个专门看市场数据，一个专门分析竞争对手。大家并行工作，效率自然高。

他们的Research系统的设计就是这个理念的完美体现。

这个架构的精髓在于"编排者-工作者"模式。主Agent就像项目经理，负责拆解任务、分配工作；子Agent就像专业员工，各自专注自己的领域。

对这个架构进行拆解，你就会发现它的优势不只是多个智能体一起思考，另一个更大的优势其实是上下文窗口的突破。现在最强的模型上下文窗口也就200万tokens，看起来很多，但真正处理复杂任务时根本不够用，一旦记忆爆满就直接出现“失忆”的尴尬情况，而多智能体就能很好的解决这个问题。

此外，分工的更大优势还在于不只是把一个事情交给多个智能体做，更是把一件事情拆成不同模块，交给更适合的智能体去做，在Anthropic的系统里，不同的子Agent可以针对不同领域进行优化。搜索Agent专门负责信息检索，分析Agent专门负责数据处理，写作Agent专门负责内容生成。

而且，Anthropic还发现，智能程度和token总用量是正相关的。在BrowseComp评估中，Anthropic观察到token使用量能解释80%的性能差异，即用得越多，效果越好。既然更多token能带来更好效果，那让多个Agent并行使用更多token，自然能获得更强的能力。

Cognition的"魔鬼细节"：多智能体的致命缺陷

Cognition的态度很明确：现在的多智能体系统就是个"看起来很美"的陷阱。他们直接开炮："别搞多智能体了，这条路走不通。"

为什么这么说？因为他们发现了多智能体系统的三个致命问题。

问题一：上下文丢失的灾难。看看Cognition提供的这个架构图：

看起来很合理对吧？但问题就出在这里：子Agent 1完全不知道子Agent 2在干什么，反之亦然。

基于问题一，又带来了问题二：隐含决策的冲突。每个Agent都在独立执行任务，期间，都会做出一些"隐含决策"——这些决策没有明确表达出来，但可能不同模块做出的决策其实是相悖的。

问题三，错误的复合效应，也同样典型。单个Agent出错，影响只是局部的。但多Agent系统中，一个Agent的错误会传播给其他Agent，形成"错误雪球"连环传导越滚越大。

总结来说，Cognition担心的问题，除了成本之外，还有信息协调难题。多智能体系统中，每个AI都有自己的"认知边界"和"知识盲区"，当它们各自处理信息片段时，缺乏全局视角的统一协调机制。这导致输出结果在逻辑层面、时间维度、数据标准上出现不可调和的冲突，最终产生的综合结论可能完全偏离预期目标。所以，所谓的多智能体更高效，在信息都无法对齐的情况下，可能根本就是个伪命题。

基于以上认知，Cognition认为最合适的解决方案还是回归单线程。这种单线程主要有两个特点：

特点1，共享上下文，传递完整智能体轨迹。不要只传递结果，要传递整个思考过程。让每个Agent都能看到其他Agent的完整决策轨迹，避免信息丢失。

特点2，承认每个行动都包含隐含决策，通过集中控制避免决策冲突。用单线程的线性Agent，虽然慢一点，但至少可靠。