暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

热点|Anthropic vs Devin:成本15倍换90%性能提升,Multi-Agent没有未来?

ZILLIZ 2025-06-20
77

最近的大模型圈子已经乱成一锅粥了。

因为Multi-Agent,Devin(Cognitio旗下自动编程软件)联合创始人把OpenAI、微软、Anthropic,全都点名吐槽了一遍。

情况大概是这样的:Anthropic刚发布了他们的多智能体研究系统,信心满满地宣称"多智能体是扩展性能的关键"Cognitio就立马跳出来反驳,标题直接挑衅:"Don't Build Multi-Agents"(别搞多智能体),然后又直接说OpenAI 和微软旗下的 Swarm 和 AutoGen 全都错了,把开发者带到了坑里。

Multi-Agent这么火,为什么Devin为什么要吐槽?Multi-Agent当前的争议又在哪里?这场论战对我们做Agent开发又有什么借鉴意义?本文将一一为你解答。

先来看看两家公司拿出的数据:

Anthropic的成绩单:他们的多智能体系统在内部研究评估中,比单智能体Claude Opus 4的表现高出90.2%。

Cognition的反击:多智能体架构"极其脆弱",决策分散导致系统崩溃。而且成本高得离谱——单智能体聊天是基准,多智能体系统的token消耗是单智能体的15倍。(单智能体,你发一条"你好"给AI,可能消耗2个token;AI回复"你好,有什么可以帮助您的?"可能消耗15个token。多智能体系统需要多个AI同时工作,把这些上下文,在多智能体之间来回传递,成本自然就翻倍了)

现在问题来了,90%性能提升 vs 15倍成本消耗,究竟谁对谁错?

真相是,双方都对,但看的角度不同。

Anthropic的"天使论证":多智能体就是生产力

Anthropic的逻辑很直接:单个AI模型就像一个人,再聪明也有极限。但如果让多个AI协同工作,就能突破这个天花板。比如你要研究"2025年AI智能体公司的市场格局"这个复杂问题。如果用单个智能体,它得一步步来:先搜索技术趋势,再看市场数据,然后分析竞争格局...这样下来,半天都搞不定。但多智能体就不一样了。主智能体制定策略,然后同时派出几个"小弟":一个专门搜技术信息,一个专门看市场数据,一个专门分析竞争对手。大家并行工作,效率自然高。

他们的Research系统的设计就是这个理念的完美体现。

这个架构的精髓在于"编排者-工作者"模式。主Agent就像项目经理,负责拆解任务、分配工作;子Agent就像专业员工,各自专注自己的领域。

对这个架构进行拆解,你就会发现它的优势不只是多个智能体一起思考,另一个更大的优势其实是上下文窗口的突破。现在最强的模型上下文窗口也就200万tokens,看起来很多,但真正处理复杂任务时根本不够用,一旦记忆爆满就直接出现“失忆”的尴尬情况,而多智能体就能很好的解决这个问题。

此外,分工的更大优势还在于不只是把一个事情交给多个智能体做,更是把一件事情拆成不同模块,交给更适合的智能体去做,在Anthropic的系统里,不同的子Agent可以针对不同领域进行优化。搜索Agent专门负责信息检索,分析Agent专门负责数据处理,写作Agent专门负责内容生成。

而且,Anthropic还发现,智能程度和token总用量是正相关的。在BrowseComp评估中,Anthropic观察到token使用量能解释80%的性能差异,即用得越多,效果越好。既然更多token能带来更好效果,那让多个Agent并行使用更多token,自然能获得更强的能力。

Cognition的"魔鬼细节":多智能体的致命缺陷

Cognition的态度很明确:现在的多智能体系统就是个"看起来很美"的陷阱。他们直接开炮:"别搞多智能体了,这条路走不通。"

为什么这么说?因为他们发现了多智能体系统的三个致命问题。

问题一:上下文丢失的灾难看看Cognition提供的这个架构图:

看起来很合理对吧?但问题就出在这里:子Agent 1完全不知道子Agent 2在干什么,反之亦然。

基于问题一,又带来了问题二:隐含决策的冲突。每个Agent都在独立执行任务,期间,都会做出一些"隐含决策"——这些决策没有明确表达出来,但可能不同模块做出的决策其实是相悖的。

问题三错误的复合效应,也同样典型。单个Agent出错,影响只是局部的。但多Agent系统中,一个Agent的错误会传播给其他Agent,形成"错误雪球"连环传导越滚越大。

总结来说,Cognition担心的问题,除了成本之外,还有信息协调难题。多智能体系统中,每个AI都有自己的"认知边界"和"知识盲区",当它们各自处理信息片段时,缺乏全局视角的统一协调机制。这导致输出结果在逻辑层面、时间维度、数据标准上出现不可调和的冲突,最终产生的综合结论可能完全偏离预期目标。所以,所谓的多智能体更高效,在信息都无法对齐的情况下,可能根本就是个伪命题。

基于以上认知,Cognition认为最合适的解决方案还是回归单线程这种单线程主要有两个特点:

特点1,共享上下文,传递完整智能体轨迹不要只传递结果,要传递整个思考过程。让每个Agent都能看到其他Agent的完整决策轨迹,避免信息丢失。

特点2承认每个行动都包含隐含决策,通过集中控制避免决策冲突。用单线程的线性Agent,虽然慢一点,但至少可靠。

前面两章我们聊了Anthropic和Cognition的架构之争,但有个关键问题一直没深入:多智能体系统最大的技术瓶颈到底在哪里?

就是"记忆"问题。

这个记忆问题,可以从三个方面去理解:

问题一:上下文丢失:不只是技术问题,更是架构灾难。还记得Cognition提到的"上下文丢失"吗?这个问题比表面看起来严重得多。比如:你让AI团队分析"2025年AI投资机会"。

然后三个智能体同时工作时互相看不到彼此的推理与决策过程:于是,A搜索技术趋势,说多模态是趋势;B分析市场数据,发现传统NLP融资更多;C研究了竞争格局,认为计算机视觉是主流

主智能体面对三个矛盾结论,完全无法整合。

问题:信息孤岛与资源浪费。每个智能体只看到问题的一个片段,就像盲人摸象。为什么多智能体系统token消耗是单智能体的15倍,除了信息传递,大部分浪费在重复搜索上。

问题三:信息整合对齐困难,无法做出决策。A假设关注B2B市场,重点搜索企业级应用;B假设关注C2C市场,重点分析消费级产品。结果看起来都专业,但基于不同假设做的结论,根本无法整合并做出最合适的最终决策。

问题客观存在,但解法是否只有单线程一个思路呢?我们可以尝试,用Milvus向量数据库多智能体协作的统一记忆中枢

Milvus向量数据库解决多智能体信息孤岛问题的核心优势,一共有四

  • 统一存储:所有智能体的推理过程和结果集中存储

  • 实时共享:智能体A的技术分析立即对B、C可见

  • 向量检索(就像给每个信息打上标签,需要时快速匹配):基于语义相似性快速找到相关信息

  • MCP-Server服务,自然语言交互,高效便捷

智能体A分析"多模态AI趋势"时,B和C能看到完整推理链,避免基于片面信息得出错误结论。三个智能体基于相同信息基础协作,主智能体也能基于此轻松整合一致性结论。

现在,是时候来聊聊那个最扎心的问题了:多智能体系统,在2025年的今天,它到底是个"天使"还是个"魔鬼"?

我的结论是,别急着站队,先看事实。长期来看,多智能体是趋势,但现阶段单智能体更可靠。

Anthropic的"人多力量大"没错,Cognition说的"失忆"和成本也没错。Anthropic看到了它的潜力,Cognition看到了它的挑战。

现阶段,多智能体系统是不是"好",最终还是要看它能解决什么问题,以及解决这个问题的价值是不是大于它消耗的成本。对于那些需要大量并行处理、信息量巨大、或者需要调用多种复杂工具的任务,多智能体系统可能就是那个"天使"。但对于一些简单任务,或者对一致性要求极高的场景,单智能体可能更可靠。

那么,在你看来,多智能体系统在哪些场景下最有潜力?它最大的挑战又是什么?你更看好哪种技术路线?欢迎在评论区,一起聊聊。


作者介绍

Zilliz 黄金写手:尹珉


推荐阅读
最新|Milvus_local_RAG,笔记本也能跑的本地知识库&RAG来了
Response指南:为什么90%的多模态RAG,一做就会,一用就废?
实战|Spring +Milvus,Java也能实现的企业级文档问答RAG
用Milvus构建RAG系统,N8N VS dify 如何选?


文章转载自ZILLIZ,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论