4 月以来,全球多家向量数据库创业公司密集获得新一轮融资。其中,Pinecone 完成 1 亿美元 B 轮融资(投后估值 7.5 亿美元),Weaviate 完成 5000 万美元 B 轮融资,Chroma 获 1800万美元种子轮融资,Qdrant 获 750 万美元种子融资。
向量数据库是一种专门用来存储、管理和查询向量数据的数据库,其相较于传统关系型数据库主要有两点不同:
1)存储的是向量数据,即将图片、音频、文章等非结构化数据转换为向量的方式来存储,以便于计算机或者 AI 模型直接理解。
2)使用相似性查找,不同于传统数据库的查询结果是一个精确的结果,向量数据库会把输入的内容与底库中的数据做相似度匹配,从而找出近似匹配的结果。
得益于上述特性,向量数据库先前多被运用于以图搜图、推荐算法等领域,但随着生成式 AI的出现,其使用场景几何级拓宽,具体包括:
1)帮助用户管理私域数据,既可以是 B 端垂直领域的专业知识,也可以是 C 端用户的画像信息;
2)为大模型提供记忆功能,典型应用如AutoGPT 就采用了 OpenAI(模型)+ Pinecone(向量数据库)的模式。
3)降低大模型的训练和推理成本,如将常见的问答存入向量数据库,对于相似的问题直接生成答案,减少推理需求。
我们认为,生成式 AI 的出现让向量数据库迎来 killer app 时刻,随着各类基于大模型的上层应用出现,预计向量数据库的使用量将出现跨越式发展,有望复刻移动互联网时代MongoDB 的兴起。关注:星环科技、拓尔思、大华股份、达梦数据、太极股份、创意信息等。
华福证券《计算机行业行业专题报告:向量数据库-大模型引发爆发式增长》研报核心观点:
- 向量数据库为大模型提供记忆,是大模型应用的刚需工具。
- 在大模型应用中,不断涌现的B端对专用数据的需求、C端对个性化与自动化的需求,带来给大模型增加记忆功能的刚性需求。向量数据库因为可以为大模型提供记忆而需求倍增,AutoGPT更是把对向量数据库需求量推到了更高的水平。
- 向量数据库的竞争格局:大模型厂商不构成竞争,以专业厂商为主
- 大模型的训练和推理本身只涉及embedding模型,不需要向量数据库,因此大模型厂商不形成直接竞争。专业向量数据库厂商当前以Zilliz、Pinecone等为主,4月以来海外多家知名向量数据库创业企业陆续传出融资喜讯。
- 市场空间:预计2025年向量数据库占非结构化数据处理需求约三成,数据向量化后存储将带来较大膨胀
- 中国数据库市场规模2022年约300亿人民币,预计到2025年将达到约500亿人民币。随着非结构化数据的增加,非关系型数据库的营收占比预计将逐年提升。向量数据库同样用于非结构化数据的处理分析需求,我们推测到2025年其将占非结构化数据处理需求约三成,同时数据向量化后相比传统非结构化数据存储有较大膨胀,因此其价格将会数倍于传统的非关系型数据库产品。
文章来源:2023谷歌I/O开发者大会、华福证券
http://t.10jqka.com.cn/pid_286107377.shtml




