暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

开源DeepSeacher横向测评:gpt-4.1、o3-mini 、DeepSeek R1哪个更强

ZILLIZ 2025-04-17
385

前言

好消息,在大家的热情助力下,我们推出的开源版资料检索、报告生成神器——DeepSearcher在GitHub上的star数量已经超过5400!

尝鲜链接:https://github.com/zilliztech/deep-searcher

在最近一个月,有很多小伙伴后台表示,DeepSearcher很好,只要一个提问,就能生成专业的基于私有数据的报告;

不仅省了每月200美金的Open AI月费成本,对于企业场景来说,可以自由选择大模型,还能接入本地向量数据库这点,非常适合私有数据的利用。

但是,模型的选择一多,新的困扰反而来了,比如,DeepSeek R1 和 OpenAI o3-mini 以及gpt-4.1 这些都是最近火热的模型,到底选一个好?

响应大家的需求,一手测评这不就来了!

01 

DeepSearcher概述

(本章节主要给不了解的朋友做一个背景科普,如果已经了解,可以自行跳过)

DeepSearcher是一个由 Zilliz 开发的开源项目。通过结合推理大模型和向量数据库如 Milvus、Zilliz Cloud 等,可以执行基于私有数据的搜索、评估和推理,提供高度准确的答案和全面报告,适用于企业知识管理、智能问答系统和信息检索场景。

从架构来看,DeepSearcher属于一个非常典型的Agentic RAG架构。相比传统RAG,可以做到:

(1)被动响应变为主动响应;

(2)单次的关键词检索,升级为多轮的动态调整检索,并拥有自我修正能力;

(3)适用场景,从最基础的简单事实问答,升级为复杂推理、复杂报告生成等开放域任务。

而基于以上能力的升级,DeepSearcher能够像人类专家一样,面对提问,不仅给出答案,更能给出推理过程、执行细节在内的一整套完整方案。

相应的,DeepSearcher的核心能力包括:

  • 搜索私有数据:支持本地文件加载以及网络爬取功能。在确保数据安全的同时,最大限度地利用企业内部数据,同时可以集成在线内容以提供更准确的答案。

  • 管理向量数据库:支持 Milvus 以及其它向量数据库,允许数据分区来实现高效检索。

  • 灵活的Embedding:兼容多种Embedding模型,以便进行最佳选择。

  • 支持多种大型语言模型:支持 DeepSeek、OpenAI 及其他大型模型,用于智能问答和内容生成。

了解更多信息,可以参考以下文章。

官宣,DeepSearcher开源:告别传统RAG,私有数据+Deepseek,打造本地版Deep Research

02 

DeepSeek R1、 o3-mini 、gpt-4.1实测对比

最近,不少朋友都有困惑,本地部署DeepSearcher的过程中:

DeepSeek R1 、 OpenAI o3-mini 、还有最新发布的gpt-4.1 这几个模型,到底选一个好?

接下来,我们从以下几个方面来对它们比较

  • 报告生成能力:我们首先会关注模型生成全面报告的能力,对于DeepSearcher而言,这是最重要且基础能力。

  • 搜索能力:其次,我们关注下模型在私有数据上的搜索能力,能够准确的搜索是生成高质量报告的基础。

  • 推理能力:最后,我们评估下模型基于私有数据的推理能力

03 

测试准备

在接下来的测试中,DeepSeek R1我们采用的是 AWS Bedrock提供接口

    config.set_provider_config("llm",  "Bedrock", {"model_id""us.deepseek.r1-v1:0"})

    OpenAI o3-mini 以及 gpt-4.1均使用的是原生接口

      config.set_provider_config("llm""OpenAI", {"model""o3-mini"})
        config.set_provider_config("llm""OpenAI", {"model""gpt-4.1"})

        文件加载采用JinaCrawler 进行网络数据抓取,通过JINA_API_TOKEN
        来设置Jina Reader API KEY。

          config.set_provider_config("web_crawler""JinaCrawler", {})

          以及通过 PDFLoader 加载下载到本地的文件

            config.set_provider_config("file_loader""PDFLoader", {})

            04 

            报告生成能力测试

            测试题目:总结下小米2024年的财报

            测试数据:小米公司2024年财务报表 https://ir.mi.com/static-files/c9c6f155-70d2-4031-9f4d-79b14193bbd4

            通过curl --output xiaomi_report.pdf "
            https://ir.mi.com/static-files/c9c6f155-70d2-4031-9f4d-79b14193bbd4
            "
             下载此财务报表数据到本地。

            测试代码:

              # Load your local data
              from deepsearcher.offline_loading import load_from_local_files
              local_path="./xiaomi_report.pdf"
              load_from_local_files(paths_or_directory=local_path)curl
              # Query
              result = query("总结下小米2024年的财报")

              • Deepseek R1 的推理过程以及答案

                  <think> Select agent [DeepSearch] to answer the query [总结下小米2024年的财报] </think>
                  <query> 总结下小米2024年的财报 </query>
                  <think> Break down the original query into new sub queries: ['小米2024年的总营收和净利润是多少?', '小米2024年各业务部门(智能手机、IoT、互联网服务等)的收入表现如何?', '小米2024年财报中提到的关键增长驱动因素或挑战有哪些?', '小米2024年财报中披露的研发投入和未来战略规划是什么?']</think>
                  >> Iteration: 1
                  <think> Perform search [小米2024年的总营收和净利润是多少?] on the vector DB collections: ['deepsearcher'] </think>
                  <search> Search [小米2024年的总营收和净利润是多少?] in [deepsearcher]...  </search>
                  <search> Accept 5 document chunk(s) from references: ['./xiaomi_report.pdf'] </search>
                  <think> Perform search [小米2024年各业务部门(智能手机、IoT、互联网服务等)的收入表现如何?] on the vector DB collections: ['deepsearcher'] </think>
                  <search> Search [小米2024年各业务部门(智能手机、IoT、互联网服务等)的收入表现如何?] in [deepsearcher]...  </search>
                  <search> Accept 5 document chunk(s) from references: ['./xiaomi_report.pdf'] </search>
                  <think> Perform search [小米2024年财报中提到的关键增长驱动因素或挑战有哪些?] on the vector DB collections: ['deepsearcher'] </think>
                  <search> Search [小米2024年财报中提到的关键增长驱动因素或挑战有哪些?] in [deepsearcher]...  </search>
                  <search> Accept 5 document chunk(s) from references: ['./xiaomi_report.pdf'] </search>
                  <think> Perform search [小米2024年财报中披露的研发投入和未来战略规划是什么?] on the vector DB collections: ['deepsearcher'] </think>
                  <search> Search [小米2024年财报中披露的研发投入和未来战略规划是什么?] in [deepsearcher]...  </search>
                  <search> Accept 5 document chunk(s) from references: ['./xiaomi_report.pdf'] </search>
                  <think> Reflecting on the search results... </think>
                  <think> No new search queries were generated. Exiting. </think>
                  <think> Summarize answer from all 4 retrieved chunks... </think>
                  ==== FINAL ANSWER====
                  小米2024年财报总结
                  一、整体财务表现
                  全年总营收:3,659.06亿元人民币,同比增长35.0%,创历史新高
                  经调整净利润:272.35亿元人民币,同比增长41.3%(含智能电动汽车业务净亏损62亿元)
                  第四季度:
                  单季营收首次突破千亿(1,090.05亿元),同比增长48.8%
                  经调整净利润83.16亿元,同比增长69.4%
                  二、各业务部门收入表现
                  1. 智能手机业务
                  全年收入:1,918亿元,同比增长21.8%;毛利率12.6%
                  全球出货量:1.685亿台,同比增长15.7%,市占率13.8%(全球第三)
                  高端化突破:中国大陆4,000-6,000元价位段市占率显著提升,ASP达1,138.2元(+5.2%)
                  2. IoT与生活消费产品
                  全年收入:1,041亿元,同比增长30.0%,首次突破千亿;毛利率20.3%(+3.9个百分点)
                  智能大家电:空调、冰箱、洗衣机出货量分别超680万、270万、190万台,同比增速超50%、30%、45%
                  AIoT生态:连接设备数达9.046亿(+22.3%),米家APP月活用户1.008亿(+17.5%)
                  3. 互联网服务
                  全年表现:第四季度收入93.39亿元(+18.5%),全年增长主要依赖广告业务驱动
                  4. 智能电动汽车等创新业务
                  全年收入:328亿元,其中第四季度收入167亿元,交付Xiaomi SU7系列69,697辆(ASP 23.4万元/辆)
                  首年交付量:截至2024年底,累计交付136,854辆
                  三、关键增长驱动因素
                  1. 高端化战略
                  高端智能手机占比提升(中国大陆3,000元以上机型占比23.3%)
                  双品牌策略(Xiaomi 15 Ultra、Redmi K80系列)拉动ASP增长
                  2. 全球化布局
                  境外收入占比41.9%
                  在非洲、东南亚、中东等地区市占率显著提升(如东南亚市占率16.1%,+2.0个百分点)
                  3. AIoT生态优势
                  智能家电高速增长,AIoT设备连接数突破9亿,用户黏性增强
                  4. 政策红利
                  中国大陆家电补贴政策推动智能电视、大家电出货量增长
                  四、研发投入与未来战略
                  1. 研发投入
                  全年研发支出241亿元(+25.9%)
                  研发人员占比48.5%
                  全球专利超4.2万项(电动汽车专利超1,000项)
                  2. 技术突破
                  发布澎湃OS 2系统,集成HyperCore、HyperConnect、HyperAI技术
                  自研超级电机V8s/V6s应用于电动汽车
                  3. 未来规划
                  人车家全生态:深化AI与大模型技术融合,赋能智能汽车、手机、家居场景
                  新零售与全球化:拓展中国新零售网络,巩固全球56个国家智能手机市场前三地位
                  五、挑战与风险
                  智能汽车业务亏损:全年净亏损62亿元,需持续投入技术及产能
                  市场竞争加剧:高端手机与IoT领域面临国内外品牌双重竞争压力
                  供应链成本:原材料价格波动可能影响毛利率稳定性
                  总结
                  小米2024年通过高端化、全球化及AIoT生态协同实现营收利润双增长,智能汽车业务初具规模但需时间盈利。未来将聚焦底层技术研发与"人车家全生态"战略,巩固全球科技领军地位。

























                • OpenAI o3-mini的推理过程以及答案

                  <think> Select agent [DeepSearch] to answer the query [总结下小米2024年的财报] </think>
                  <query> 总结下小米2024年的财报 </query>
                  <think> Break down the original query into new sub queries: ['小米2024年的总收入和利润情况如何?', '小米2024年各主要业务板块(如智能手机、IoT与生活消费产品等)的表现如何?', '报告中有哪些关键的财务指标(如毛利率、净利润率、成本控制情况等)值得关注?', '小米在财报中对未来的战略规划和面临的市场风险有哪些描述?']</think>
                  >> Iteration: 1
                  <think> Perform search [小米2024年的总收入和利润情况如何?] on the vector DB collections: ['deepsearcher'] </think>
                  <search> Search [小米2024年的总收入和利润情况如何?] in [deepsearcher]...  </search>
                  <think> Perform search [小米2024年各主要业务板块(如智能手机、IoT与生活消费产品等)的表现如何?] on the vector DB collections: ['deepsearcher'] </think>
                  <search> Search [小米2024年各主要业务板块(如智能手机、IoT与生活消费产品等)的表现如何?] in [deepsearcher]...  </search>
                  <search> Accept 4 document chunk(s) from references: ['./xiaomi_report.pdf'] </search>
                  <think> Perform search [报告中有哪些关键的财务指标(如毛利率、净利润率、成本控制情况等)值得关注?] on the vector DB collections: ['deepsearcher'] </think>
                  <search> Search [报告中有哪些关键的财务指标(如毛利率、净利润率、成本控制情况等)值得关注?] in [deepsearcher]...  </search>
                  <search> Accept 3 document chunk(s) from references: ['./xiaomi_report.pdf'] </search>
                  <think> Perform search [小米在财报中对未来的战略规划和面临的市场风险有哪些描述?] on the vector DB collections: ['deepsearcher'] </think>
                  <search> Search [小米在财报中对未来的战略规划和面临的市场风险有哪些描述?] in [deepsearcher]...  </search>
                  <search> Accept 5 document chunk(s) from references: ['./xiaomi_report.pdf'] </search>
                  <think> Reflecting on the search results... </think>
                  <think> No new search queries were generated. Exiting. </think>
                  <think> Summarize answer from all 7 retrieved chunks... </think>
                  ==== FINAL ANSWER====
                  以下是对小米2024年财报的综合总结,涵盖了总收入与利润状况、主要业务板块表现、关键财务指标,以及未来战略与风险考量:
                  1. 总收入与利润情况  
                  • 2024年小米集团实现全年合并收入3659亿元人民币,同比增长35.0%,创历史新高。  
                  • 全年经调整净利润达到272.3亿元人民币,同比大幅增长41.3%。  
                  • 第四季度表现尤为亮眼,季度总收入首次突破1000亿元,达到1090亿元人民币;同期,经调整净利润为83亿元人民币,同比增长69.4%。
                  2. 主要业务板块表现  
                  • 手机×AIoT分部:  
                    – 手机业务:全年智能手机收入1918亿元,同比增长21.8%,毛利率维持在12%左右;全球出货量达到1.685亿台,同比增长15.7%,中国市场的份额进一步提升。第四季度智能手机收入513亿元,同比增长16.0%,平均售价(ASP)创历史新高(达1138元全年的数据,季度则达到约1202元),表明高端机型占比提升。  
                    – IoT与生活消费产品板块:全年收入首次突破1000亿元(达1041亿元),同比增长30.0%,毛利率提升至20.3%;第四季度收入达309亿元,增速达51.7%,显示出智能大家电、智能电视及其他消费产品的强劲增长。  
                  • 智能电动汽车及创新业务:第四季度收入为167亿元,其中智能电动汽车业务实现收入163亿元;Xiaomi SU7系列交付近7万辆,单车均价约23.4万元,表明这一新业务领域已初见规模。
                  3. 关键财务指标  
                  • 毛利率情况:不同业务板块毛利率存在差异,智能手机业务毛利率约12%左右,而IoT及生活消费产品毛利率则维持在20%左右;整体毛利水平稳中有升,显示出成本控制与产品升级均有成效。  
                  • 净利润率:季度净利润率约8%左右,年度数据也基本维持在6–7%的水平,在各业务协同发展下实现了较好盈利效益。  
                  • 成本与研发投入:销售成本虽随收入增长有所上升(例如第四季度手机×AIoT分部销售成本同比增长约50%),但得益于持续的研发投入和效能提升,研发支出达241亿元,同比增长25.9%,且研发人员占比近半,专利储备达到4.2万件,均为未来竞争力夯实基础。
                  4. 未来战略规划与市场风险  
                  • 战略定位:“人车家全生态”战略在2024年已全面落地,覆盖手机、智能家居、智能电动汽车等多个领域,推进双品牌策略,推出了Xiaomi 15 Ultra、Redmi K80等旗舰产品,进一步向高端市场发力。  
                  • 技术创新与AI应用:小米正加大在底层核心技术与AI领域的投入,例如推出澎湃OS 2和自研超級電機系统,不仅在产品上实现创新,也助推内外部业务流程数字化升级。  
                  • 全球化与多元化拓展:境外收入占比接近42%,全球布局稳步推进,在非洲、东南亚及中东等重点区域市场份额均有显著提升。  
                  • 市场风险方面:财报中也提及产业竞争加剧、成本上升压力、以及汽车等新业务领域的不确定性,要求未来在技术创新、渠道拓展及成本管控上持续发力,以缓解外部风险带来的影响。
                  总的来说,2024年小米在收入与利润上均取得显著增长,各板块表现均衡且具竞争力,同时在高端产品、核心技术研发和全球拓展方面制订了清晰的战略规划,为未来的持续增长奠定了坚实基础。

                  • OpenAI gpt-4.1 的推理过程以及答案

                    ```
                    <think> Select agent [DeepSearch] to answer the query [总结下小米2024年的财报] </think>
                    <query> 总结下小米2024年的财报 </query>
                    <think> Break down the original query into new sub queries: ['小米2024年财报的主要财务数据有哪些?', '小米2024年各主要业务板块(如智能手机、IoT与生活消费产品、互联网服务)的表现如何?', '小米2024年的盈利能力和增长动力表现如何?', '小米2024年财报中有哪些值得关注的亮点或挑战?']</think>
                    >> Iteration: 1
                    <think> Perform search [小米2024年财报的主要财务数据有哪些?] on the vector DB collections: ['deepsearcher'] </think>
                    <search> Search [小米2024年财报的主要财务数据有哪些?] in [deepsearcher]...  </search>
                    <search> Accept 4 document chunk(s) from references: ['./xiaomi_report.pdf'] </search>
                    <think> Perform search [小米2024年各主要业务板块(如智能手机、IoT与生活消费产品、互联网服务)的表现如何?] on the vector DB collections: ['deepsearcher'] </think>
                    <search> Search [小米2024年各主要业务板块(如智能手机、IoT与生活消费产品、互联网服务)的表现如何?] in [deepsearcher]...  </search>
                    <search> Accept 5 document chunk(s) from references: ['./xiaomi_report.pdf'] </search>
                    <think> Perform search [小米2024年的盈利能力和增长动力表现如何?] on the vector DB collections: ['deepsearcher'] </think>
                    <search> Search [小米2024年的盈利能力和增长动力表现如何?] in [deepsearcher]...  </search>
                    <search> Accept 5 document chunk(s) from references: ['./xiaomi_report.pdf'] </search>
                    <think> Perform search [小米2024年财报中有哪些值得关注的亮点或挑战?] on the vector DB collections: ['deepsearcher'] </think>
                    <search> Search [小米2024年财报中有哪些值得关注的亮点或挑战?] in [deepsearcher]...  </search>
                    <search> Accept 5 document chunk(s) from references: ['./xiaomi_report.pdf'] </search>
                    <think> Reflecting on the search results... </think>
                    <think> No new search queries were generated. Exiting. </think>
                    <think> Summarize answer from all 8 retrieved chunks... </think>
                    ==== FINAL ANSWER====
                    基于对小米2024年财报的信息汇总整理,现对小米2024年全年财务与业务表现进行详细总结:
                    一、主要财务数据
                    - 收入:2024年总收入达人民币3,659亿元,同比增长35%,刷新历史新高。
                    - 毛利:全年毛利为765.6亿元,同比增长33.2%。
                    - 经营利润:为245亿元,同比增长22.5%。
                    - 年内利润(净利润):235.8亿元,同比增长34.9%。
                    - 经调整净利润:272.3亿元,同比增长41.3%,为历史新高。
                    - 单季度来看,2024年第四季度收入首次突破1,000亿元,达1,090亿元,同比增48.8%;经调整净利润83亿元,同比增长69.4%。
                    - 整体毛利率为20.9%,较去年进一步提升。
                    二、各主要业务板块表现
                    1. 智能手机
                       - 全年收入1,918亿元,同比增长21.8%,毛利率12.6%。
                       - 全球智能手机出货量1.685亿台,同比增长15.7%,全球市场份额13.8%,稳居世界第三。
                       - 智能手机ASP(平均售价)为1,138.2元,同比增长5.2%,创历史新高。
                       - 高端市场突破:高端手机出货量占比达到23.3%,高端(4,000元及以上)和超高端(5,000-6,000元)市场份额继续上升。
                       - 境外收入1,533亿元,占总收入41.9%。
                       - 小米和Redmi双品牌策略推动,Xiaomi 15 Ultra等旗舰产品发布驱动高端增长。
                    2. IoT与生活消费产品
                       - 全年收入首次突破1,000亿元,达1,041亿元,同比增长30%;毛利率20.3%,显著提升。
                       - 智能大家电(空调、冰箱、洗衣机等)出货量快速增长,均创历史新高,助力IoT高端化战略。
                       - AIoT平台连接设备超9.046亿台,年增22.3%,拥有5件及以上设备的用户达1,830万。
                       - 应用生态活跃,米家APP月活1.008亿,小爱同学1.371亿,月活持续增长。
                    3. 互联网服务
                       - 收入341亿元,同比增长13.3%;毛利率76.6%,达历史高位。
                       - 广告业务增长强劲,全年收入247亿元,同比增20.5%,其中境外互联网服务收入占比32.2%,同比提升。
                       - 全球智能手机与IoT用户基础大幅增长,中国大陆及全球月活跃用户均创历史新高。
                    4. 智能电动汽车与创新业务(新业务首次大规模披露,2024年成为重点)
                       - 收入328亿元,其中智能电动汽车321亿元,全年交付量136,854辆。2025年目标提升至35万辆。
                       - 该板块毛利率18.5%,全年经调整净亏损62亿元,第四季度亏损收窄至7亿元。
                       - SU7系列推动业务快速放量,单车ASP约23.4万元,线下门店覆盖58个城市、超200家门店。
                    三、盈利能力与增长动力
                    - 整合“手机×AIoT”与智能电动汽车,“人车家全生态”战略收效显著。
                    - 毛利率、净利率均处于历史高位,费用率进一步优化,降本增效成效明显。
                    - 研发投入241亿元,同比增25.9%,研发人员超2万人,聚焦核心技术与AI大模型。
                    - 高端化持续突破,出货结构持续改善,AI与OS生态深度融合,提升品牌与产品竞争力。
                    - 全球化深入推进,境外收入和用户持续攀升。
                    四、亮点与挑战
                    亮点:
                    - 全年及单季度收入、利润、毛利率等多项核心指标创历史新高,盈利能力显著增强。
                    - 智能手机、IoT、互联网服务三大主业均实现较高增速,结构优化。
                    - 高端化转型明显,ASP与高端产品市占率提升。
                    - 智能电动汽车板块实现量产放量,成为新增长引擎。
                    - 数据、生态、渠道能力持续提升,全球影响力强化。
                    挑战与风险:
                    - 智能电动汽车板块短期仍处亏损阶段,后续盈利性受竞争和成本控制影响。
                    - 行业市场竞争加剧,需持续创新以应对头部品牌压力。
                    - 高端市场提升空间下,品牌溢价能力和用户心智仍需进一步巩固。
                    - 国际业务与供应链风险需持续跟进与管理。
                    - 市场和国家政策、环境压力、技术演化等外部风险。
                    综上,2024年小米集团在“手机×AIoT”稳健增长、互联网服务盈利能力提升和智能电动汽车业务放量的三驾马车驱动下,实现历史最优业绩。高研发投入与全生态战略成为未来增长的核心支撑,但电动汽车等创新业务的持续投入和盈利转折点及市场环境变化,仍是中长期关注重点。
                    ```
                    对比下,OpenAI o3-mini,gpt-4.1和DeepSeek R1 对于小米公司2024年财报总结。我们可以看出OpenAI gpt-4.1对于财报总结最全面,并且每个总结点的细节阐述清楚,总结到位。DeepSeek R1的总结报告次之,对于每个总结点阐述比较简单,没有列举出具体数据。而o3-mini虽然对于每个总结点进行了详细阐述,但是在内容归纳总结方面做得不足,没有使用总结性的语句对于内容进行囊括。

                    05 

                    搜索能力测试

                    测试题目: 搜索BM25全文搜索相关的内容

                    测试数据:Milvus2.5 release note https://milvus.io/docs/release_notes.md

                    测试代码:

                      website_url=["https://milvus.io/docs/release_notes.md"]
                      from deepsearcher.offline_loading import load_from_website
                      load_from_website(urls=website_url)
                      # Query
                      result = query("搜索BM25全文搜索相关的内容")

                      • Deepseek R1 的推理过程以及答案

                        <think> Select agent [ChainOfRAG] to answer the query [搜索BM25全文搜索相关的内容] </think>
                        >> Iteration: 1
                        <think> Perform search [What specific aspect of BM25 are you interested in?] on the vector DB collections: ['deepsearcher'</think>
                        <search> Search [What specific aspect of BM25 are you interested in?] in [deepsearcher]...  </search>
                        >> Iteration: 2
                        <think> Perform search [How does real-time statistical updates during data insertion affect BM25's search performance?] on the vector DB collections: ['deepsearcher'] </think>
                        <search> Search [How does real-time statistical updates during data insertion affect BM25's search performance?] in [deepsearcher]...  </search>
                        >> Iteration: 3
                        <think> Perform search [How does BM25's ranking algorithm handle dynamic data in full-text search?] on the vector DB collections: ['deepsearcher'] </think>
                        <search> Search [How does BM25's ranking algorithm handle dynamic data in full-text search?] in [deepsearcher]...  </search>
                        <think> Summarize answer from all 1 retrieved chunks... </think>
                        ==== FINAL ANSWER====
                        Milvus 2.5支持基于Sparse-BM25的全文搜索,通过实时更新BM25统计信息提升搜索性能,适用于动态数据场景。

                        • OpenAI o3-mini的推理过程以及答案

                          <think> Select agent [ChainOfRAG] to answer the query [搜索BM25全文搜索相关的内容] </think>
                          >> Iteration: 1
                          <think> Perform search [BM25全文搜索的基本原理是什么?] on the vector DB collections: ['deepsearcher'] </think>
                          <search> Search [BM25全文搜索的基本原理是什么?] in [deepsearcher]...  </search>
                          >> Iteration: 2
                          <think> Perform search [BM25全文搜索是什么?] on the vector DB collections: ['deepsearcher'] </think>
                          <search> Search [BM25全文搜索是什么?] in [deepsearcher]...  </search>
                          >> Iteration: 3
                          <think> Perform search [Milvus 2.5中BM25全文搜索如何使用Tantivy分析器处理文本输入?] on the vector DB collections: ['deepsearcher'] </think>
                          <search> Search [Milvus 2.5中BM25全文搜索如何使用Tantivy分析器处理文本输入?] in [deepsearcher]...  </search>
                          <think> Summarize answer from all 2 retrieved chunks... </think>
                          ==== FINAL ANSWER====
                          在Milvus 2.5中,BM25全文搜索利用BM25统计算法结合稀疏向量来实现全文检索功能。借助内置Tantivy分析器,系统能够直接处理文本输入,对文本进行分词和预处理,并在数据插入时实时更新BM25统计信息,从而实现精准的自然语言匹配和过滤搜索。这一机制不仅优化了对稀有词和技术术语的检索,还提升了关键词搜索与稀疏文本匹配的准确性和效果。

                          • OpenAI gpt-4.1 的推理过程以及答案

                            <think> Select agent [ChainOfRAG] to answer the query [搜索BM25全文搜索相关的内容] </think>
                            >> Iteration: 1
                            <think> Perform search [BM25是什么?] on the vector DB collections: ['deepsearcher'] </think>
                            <search> Search [BM25是什么?] in [deepsearcher]...  </search>
                            >> Iteration: 2
                            <think> Perform search [BM25与全文搜索有什么关系?] on the vector DB collections: ['deepsearcher'] </think>
                            <search> Search [BM25与全文搜索有什么关系?] in [deepsearcher]...  </search>
                            >> Iteration: 3
                            <think> Perform search [BM25在全文搜索中的作用是什么?] on the vector DB collections: ['deepsearcher'] </think>
                            <search> Search [BM25在全文搜索中的作用是什么?] in [deepsearcher]...  </search>
                            <think> Summarize answer from all 1 retrieved chunks... </think>
                            ==== FINAL ANSWER====
                            Milvus 2.5支持基于Sparse-BM25的全文搜索,这是对其强大语义检索能力的重要补充,尤其适用于包含稀有词或技术术语的场景。BM25作为一种稀疏向量检索算法,能够提升关键词检索和文档相关性排序,通过统计模型对文档进行有效地排序。Milvus 2.5内置BM25相关统计信息实时更新,并支持直接以文本输入进行全文检索。

                            对比下,OpenAI o3-mini,gpt-4.1和DeepSeek R1 对于搜索BM25全文搜索相关的内容。我们可以看出OpenAI o3-mini搜索了数据分块(chunks)数量比DeepSeek R1多一个,且对于Milvus BM25算法涉及到功能点进行了详细说明。而对比来看,DeepSeek R1 结果略显简单;gpt-4.1内容虽然详细,但是对于BM25算法具体功能点没有详细说明,只是简单的概述。

                            06 

                            推理能力测试

                            测试题目: 基于Milvus2.4和2.5 release note文档,预测未来Milvus有哪些功能

                            测试数据:Milvus2.5 release note https://milvus.io/docs/release_notes.md,Milvus 2.4 release note https://milvus.io/docs/v2.4.x/release_notes.md

                            测试代码:

                              website_url=["https://milvus.io/docs/release_notes.md""https://milvus.io/docs/v2.4.x/release_notes.md"]
                              from deepsearcher.offline_loading import load_from_website
                              load_from_website(urls=website_url)
                              # Query
                              result = query("基于Milvus2.4和2.5release note文档,预测未来Milvus有哪些功能")

                              • Deepseek R1 的推理过程以及答案

                                <think> Select agent [ChainOfRAG] to answer the query [基于Milvus2.42.5release note文档,预测未来Milvus有哪些功能] </think>
                                >> Iteration: 1
                                <think> Perform search [What specific future version plans or roadmap sections are mentioned in the Milvus 2.4 and 2.5 release notes?] on the vector DB collections: ['deepsearcher'</think>
                                <search> Search [What specific future version plans or roadmap sections are mentioned in the Milvus 2.4 and 2.5 release notes?] in [deepsearcher]...  </search>
                                >> Iteration: 2
                                <think> Perform search [What key features or improvements were introduced in Milvus 2.4 and 2.5?] on the vector DB collections: ['deepsearcher'</think>
                                <search> Search [What key features or improvements were introduced in Milvus 2.4 and 2.5?] in [deepsearcher]...  </search>
                                >> Iteration: 3
                                <think> Perform search [What areas of improvement or features have seen continuous development focus across Milvus 2.4 and 2.5 releases?] on the vector DB collections: ['deepsearcher'</think>
                                <search> Search [What areas of improvement or features have seen continuous development focus across Milvus 2.4 and 2.5 releases?] in [deepsearcher]...  </search>
                                <think> Summarize answer from all 3 retrieved chunks... </think>
                                ==== FINAL ANSWER====
                                增强的全文搜索功能(多语言分析器、实时BM25更新)、混合稀疏/密集向量搜索优化、动态配置与集群管理改进、跨平台支持扩展、大容量数据批量插入增强、基于机器学习的自动压缩与内存管理、多模态检索能力集成、SDK版本统一与API扩展。

                                • OpenAI o3-mini的推理过程以及答案

                                  <think> Select agent [ChainOfRAG] to answer the query [基于Milvus2.42.5release note文档,预测未来Milvus有哪些功能] </think>
                                  >> Iteration: 1
                                  <think> Perform search [Milvus2.42.5release note中有哪些新增或改进的功能变化?] on the vector DB collections: ['deepsearcher'</think>
                                  <search> Search [Milvus2.42.5release note中有哪些新增或改进的功能变化?] in [deepsearcher]...  </search>
                                  >> Iteration: 2
                                  <think> Perform search [Milvus官方是否有发布未来功能规划或roadmap文档?] on the vector DB collections: ['deepsearcher'</think>
                                  <search> Search [Milvus官方是否有发布未来功能规划或roadmap文档?] in [deepsearcher]...  </search>
                                  >> Iteration: 3
                                  <think> Perform search [Milvus官方roadmap文档中有哪些未来功能规划?] on the vector DB collections: ['deepsearcher'</think>
                                  <search> Search [Milvus官方roadmap文档中有哪些未来功能规划?] in [deepsearcher]...  </search>
                                  <think> Summarize answer from all 4 retrieved chunks... </think>
                                  ==== FINAL ANSWER====
                                  预测未来Milvus可能会继续强化分布式架构和高并发数据处理能力,进一步优化搜索与查询引擎(例如更智能的查询优化和更高效的索引策略),并扩展对多平台、多语言SDK的支持。同时,系统的监控、调优和故障排查工具可能会更完善(例如更详尽的性能指标和调试信息),再加上用户界面和权限管理的持续改进,以提升整体的易用性和安全性。

                                  • OpenAI gpt-4.1 的推理过程以及答案

                                    <think> Select agent [ChainOfRAG] to answer the query [基于Milvus2.42.5release note文档,预测未来Milvus有哪些功能] </think>
                                    >> Iteration: 1
                                    <think> Perform search [Milvus2.42.5release note分别有哪些新增功能?] on the vector DB collections: ['deepsearcher'</think>
                                    <search> Search [Milvus2.42.5release note分别有哪些新增功能?] in [deepsearcher]...  </search>
                                    >> Iteration: 2
                                    <think> Perform search [Milvus2.4release note中提到了哪些新功能?] on the vector DB collections: ['deepsearcher'</think>
                                    <search> Search [Milvus2.4release note中提到了哪些新功能?] in [deepsearcher]...  </search>
                                    >> Iteration: 3
                                    <think> Perform search [Milvus2.5release note中有哪些新功能?] on the vector DB collections: ['deepsearcher'</think>
                                    <search> Search [Milvus2.5release note中有哪些新功能?] in [deepsearcher]...  </search>
                                    <think> Summarize answer from all 1 retrieved chunks... </think>
                                    ==== FINAL ANSWER====
                                    基于Milvus的 release note,新版添加了稀疏浮点向量批量插入等功能。结合现有优化(如布隆过滤器加速、动态配置更新、内存优化等),可以预测未来 Milvus 可能会持续增强稀疏向量支持、批量数据处理能力、系统性能优化、更多存储格式兼容性以及进一步提升分布式管理和高可用性功能。
                                    对比下,OpenAI o3-mini,gpt-4.1和DeepSeek R1 对于 基于Milvus2.42.5release note文档,预测未来Milvus有哪些功能。从输出内容来看,o3-mini和DeepSeek R1两个模型对于Milvus未来功能预测均有亮点,OpenAI o3-mini提到了Milvus架构优化,监控完善以及改进权限管理,而DeepSeek R1提到了索引优化,数据管理优化。这些都是Milvus未来需要加强的功能。而gpt-4.1预测的内容没有涉及到具体的优化功能点,只是泛泛而谈。

                                    07 

                                    总结

                                    我们通过实际案例问题在DeepSearcher对于Deepseek R1 和 OpenAI o3-mini,gpt-4.1 进行了模型能力对比。

                                    从上述表格中,我们可以看出:Deepseek R1 和 OpenAI O3 mini ,gpt-4.1在 DeepSearcher 内各有优势。

                                    gpt-4.1在报告总结能力较强,而在推理能力方面偏弱;

                                    而Deepseek R1 在搜索方面能力偏弱一些,在推理能力还不错;

                                    o3-mini 有较强的搜索以及推理能力,在报告生成方面偏弱。

                                    当然,上述结论来自于当前测试题目,面对不同数据类型和要求,结果可能略有差距。

                                    但整体来看,其实不管是DeepSeekR1,还是最新的大模型gpt-4.1,都不能胜任解决所有类型的问题。

                                    未来,在实际应用中,我们更需要根据数据性质和任务类型选择合适模型;

                                    甚至更长期来看,多模型协作,比如o3-mini搜索资料,DeepSeek R1基于资料做推理,最终由gpt-4.1生成报告,也不是不可能。

                                    作者介绍

                                    Zilliz 黄金写手:臧伟

                                    推荐阅读

                                    别搞Graph RAG了,拥抱新一代RAG范式DeepSearcher

                                    DeepSearcher第三弹:如何让DeepSeek告诉你特斯拉还能不能抄底

                                    官宣,DeepSearcher开源:告别传统RAG,私有数据+Deepseek,打造本地版Deep Research

                                    点击“阅读原文”即可体验zillz cloud

                                    文章转载自ZILLIZ,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

                                    评论