暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

向量数据库是大模型时代的刚需,前景广阔

原创 通讯员 2023-05-16
1878

4 月以来,全球多家向量数据库创业公司密集获得新一轮融资。其中,Pinecone 完成 1 亿美元 B 轮融资(投后估值 7.5 亿美元),Weaviate 完成 5000 万美元 B 轮融资,Chroma 获 1800万美元种子轮融资,Qdrant 获 750 万美元种子融资。

向量数据库是一种专门用来存储、管理和查询向量数据的数据库,其相较于传统关系型数据库主要有两点不同:

1)存储的是向量数据,即将图片、音频、文章等非结构化数据转换为向量的方式来存储,以便于计算机或者 AI 模型直接理解。

2)使用相似性查找,不同于传统数据库的查询结果是一个精确的结果,向量数据库会把输入的内容与底库中的数据做相似度匹配,从而找出近似匹配的结果。

得益于上述特性,向量数据库先前多被运用于以图搜图、推荐算法等领域,但随着生成式 AI的出现,其使用场景几何级拓宽,具体包括:

1)帮助用户管理私域数据,既可以是 B 端垂直领域的专业知识,也可以是 C 端用户的画像信息;

2)为大模型提供记忆功能,典型应用如AutoGPT 就采用了 OpenAI(模型)+ Pinecone(向量数据库)的模式。

3)降低大模型的训练和推理成本,如将常见的问答存入向量数据库,对于相似的问题直接生成答案,减少推理需求。

我们认为,生成式 AI 的出现让向量数据库迎来 killer app 时刻,随着各类基于大模型的上层应用出现,预计向量数据库的使用量将出现跨越式发展,有望复刻移动互联网时代MongoDB 的兴起。关注:星环科技、拓尔思、大华股份、达梦数据、太极股份、创意信息等。


华福证券《计算机行业行业专题报告:向量数据库-大模型引发爆发式增长》研报核心观点:

  • 向量数据库为大模型提供记忆,是大模型应用的刚需工具。
  • 在大模型应用中,不断涌现的B端对专用数据的需求、C端对个性化与自动化的需求,带来给大模型增加记忆功能的刚性需求。向量数据库因为可以为大模型提供记忆而需求倍增,AutoGPT更是把对向量数据库需求量推到了更高的水平。
  • 向量数据库的竞争格局:大模型厂商不构成竞争,以专业厂商为主
  • 大模型的训练和推理本身只涉及embedding模型,不需要向量数据库,因此大模型厂商不形成直接竞争。专业向量数据库厂商当前以Zilliz、Pinecone等为主,4月以来海外多家知名向量数据库创业企业陆续传出融资喜讯。
  • 市场空间:预计2025年向量数据库占非结构化数据处理需求约三成,数据向量化后存储将带来较大膨胀
  • 中国数据库市场规模2022年约300亿人民币,预计到2025年将达到约500亿人民币。随着非结构化数据的增加,非关系型数据库的营收占比预计将逐年提升。向量数据库同样用于非结构化数据的处理分析需求,我们推测到2025年其将占非结构化数据处理需求约三成,同时数据向量化后相比传统非结构化数据存储有较大膨胀,因此其价格将会数倍于传统的非关系型数据库产品。


文章来源:2023谷歌I/O开发者大会、华福证券

http://t.10jqka.com.cn/pid_286107377.shtml

最后修改时间:2023-05-16 12:14:46
「喜欢这篇文章,您的关注和赞赏是给作者最好的鼓励」
关注作者
【版权声明】本文为墨天轮用户原创内容,转载时必须标注文章的来源(墨天轮),文章链接,文章作者等基本信息,否则作者和墨天轮有权追究责任。如果您发现墨天轮中有涉嫌抄袭或者侵权的内容,欢迎发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论