最近,为ChatGPT等生成式AI应用提供向量搜索、向量数据存储、向量嵌入等功能的向量数据库赛道突然走红,三家初创公司Qdrant、Pinecone和Weaviate最近共获得是10多亿融资,其火爆程度可见一斑。
4月19日,开源向量数据库初创公司 Qdrant 宣布从主要投资者 Unusual Ventures 获得 750 万美元的种子融资,参与方包括 42cap、IBB Ventures 和包括 Cloudera 联合创始人 Amr Awadallah 在内的一些天使投资人。
4月22日,向量数据库平台(vector database)Weaviate宣布获得5000万美元(约3.5亿元)B轮融资,由Index Ventures领投,Battery Ventures等跟投。
4月28日,向量数据库平台Pinecone宣布获得1亿美元(约7亿元)B轮融资,由Andreessen Horowitz领投,ICONIQ Growth等跟投。

Pinecone联合创始人兼首席执行官Edo Liberty则直言,如果没有ChatGPT的出现,我们根本不可能获得巨额融资。
事实上,在ChatGPT火爆出圈之前向量数据库非常小众,而Pinecone和Weaviate皆创立于2019年无论是融资还是营收并不如意,因为,大型科技巨头具备自研能力无需使用第三方产品,例如,微软将向量搜索技术应用在Bing中。
现在,大量开发者涌向生成式AI应用开发领域,这使得初创向量数据库厂商终于迎来了曙光,其用户数量呈指数级增长,也是获得巨额投资的重要原因之一。
根据 IDC调查数据显示,全球在AI技术和服务上的支出2023年将达到1540亿美元,到2026年将超过3000亿美元。其中,向量数据库为AI的开发、增强内容生成的准确性提供了重要技术支撑。
什么是向量数据库
简单来说,向量数据库用来存储非结构化数据,例如,文档、图片、视频、音频和纯文本等,在保证100%信息完整的情况下,通过向量嵌入函数来精准描写这些非结构化数据的特征,从而提供查询、删除、修改、元数据过滤等操作。而像SQL、Mysql这样传统的数据库根本无法完成这些操作。
从向量数据库的技术特性不难看出,这是专门为ChatGPT等生成式AI应用量身定制,例如,让ChatGPT用莎士比亚的语气生成一段诗句,ChatGPT通过向量数据库的相似搜索功能,可以增强内容输出的准确性

因此,向量数据库在大语言模型、计算机视觉、推荐系统以及其他需要语义理解和数据匹配的领域得到广泛应用。
中国向量数据库
国内典型向量数据库代表有Milvus、Vearch、TensorDB、Om-iBASE等。从技术角度来讲,向量数据库主要解决2个问题,一个是高效的检索,另一个是高效的分析。
公司:上海赜睿信息科技有限公司(Zilliz)
网站:https://milvus.io/
百科:https://www.modb.pro/wiki/972
Milvus 作为专门设计用于处理输入向量查询的数据库,它能够以万亿规模索引向量。与现有的主要按照预定义模式处理结构化数据的关系数据库不同,Milvus 是自下而上设计的,用于处理从非结构化数据转换而来的嵌入向量。
公司:京东
网站:https://github.com/vearch/vearch
百科:https://www.modb.pro/wiki/1230
Vearch 是京东研发的一款分布式向量搜索系统,可以用来计算向量相似度或用于机器学习领域 如:图像识别, 视频识别或自然语言处理各个领域。本系统基于 Faiss 实现, 提供了快速的向量检索功能。提供类似 Elasticsearch 的 Restful API 可以方便的对数据及表结构进行管理查询等工作。
公司:爱可生
网站:https://m.actionsky.com/Cloud-tree-series/tensordb.html#ys_762
百科:https://www.modb.pro/wiki/1228
TensorDB 是爱可生公司完全自主设计研发的向量数据库软件。该产品实现了超大规模向量型数据的高效组织,设计了易扩展的索引结构,有效支撑了时变环境下的向量数据快速比对。面向复杂场景下的实体分析与关系推断,TensorDB 克服了 AI 领域多样化应用面临的非结构化数据管理与处理分析困难,提升了数据库异构融合能力。TensorDB 具有极高的并发检索性能,支持卓越的水平拓展能力,并提供满足多元业务场景下的高可用需求。TensorDB 致力于为用户提供一站式非结构化数据的检索与存储解决方案。
公司:杭州联汇科技股份有限公司
网站:http://www.hzlh.com/coreTechnology/4.cshtml
百科:https://www.modb.pro/wiki/1208
Om-iBASE(向量数据库)是基于智能算法提取需存储内容的特征,转变成具有大小定义、特征描述、空间位置的多维数值进行向量化存储的数据库,使内容不仅可被存储,同时可被智能检索与分析。使用向量数据库可有效实现音频、视频、图片、文件等非结构化数据向量化存储,并通过向量检索、向量聚类、向量降维等技术,实现数据精准分析、精准检索。
墨天轮中国数据库流行度排行榜(https://www.modb.pro/dbRank),可选择“模型”筛选“向量”数据库,或其它种类数据库。






