使用 TimescaleDB 存储和查询时间序列数据的组织可能有兴趣知道他们也可以使用该数据库来存储和查询 GenAI 应用程序的向量。
Timescale以开发开源时间序列数据库而闻名。这家纽约公司为 Postgres 添加了扩展,使时间序列数据成为物联网类型应用程序(包括游戏)的一流数据类型。
2023年9月25日消息,随着推出 Timescale Vector,该公司现在正在进入向量数据库市场,由于人们对基于大型语言模型构建的生成式人工智能应用程序产生了巨大兴趣,该市场正在蓬勃发展。
向量数据库作为 LLM 的一种长期记忆,例如OpenAI的 GPT-4 和Meta的 Llama 。通过存储和索引由 LLM 训练的文本片段的数学表示(称为向量嵌入),向量数据库可以更快地将运行时 GenAI 应用程序的用户输入与 LLM 遇到的最相关的训练数据片段进行匹配。
在 TimescaleDB 的案例中,该公司采用了 pgvector,Postgres 的开源矢量库。除了合并 pgvector 之外,该公司还通过使用近似最近邻 (ANN) 算法来增强其矢量功能,该公司声称该算法比普通 pgvector 和专用向量数据库具有更好的性能。
“我们为这些类型的向量查找提供了额外的支持,使人们能够在其基础上构建 LLM 模型,以比其他内容更高效、更快、更准确的方式回答……问题。 Timescale 首席技术官兼联合创始人迈克尔·弗里德曼 (Michael Freedman) 表示。
在今天的一篇长篇博文中,该公司分享了一些内部基准数据,称这些数据证明其 ANN 索引在包含 100 万个 OpenAI 嵌入的数据集上比竞争对手的矢量数据库具有更好、更快的性能。
该公司声称,与Weaviate的矢量数据库相比,其搜索速度提高了 243%,召回率高达 99% 。它还声称其搜索速度比 pgvector 的分层可导航小世界(HNSW)算法快约 39%,比 pg_embedding 快 363%。
“Timescale Vector 优化了基于时间的混合向量搜索,利用 Timescale 超表的自动基于时间的分区和索引来有效地查找最近的嵌入,按时间范围或文档年龄限制向量搜索,并存储和检索 LLM 响应和聊天历史记录轻松,”该公司在博客中写道。
向量数据库基准测试结果(来源:Timescale)
在接受Datanami采访时,Freedman 还特别指出了开发专用向量数据库的Pinecone作为新的竞争对手。弗里德曼说,专用向量数据库的问题在于它们只存储向量嵌入。
“但通常你可能有其他想要在问题中使用的关系数据,”他说。“因此,如果您在 Pinecone 上构建应用程序,您可能需要部署 Pinecone 和 Postgres 以及其他东西,然后在查询时将所有数据汇集在一起并回答问题。如果您使用 Timescale,所有内容都集中在一个数据库中,您实际上可以使用更简单、操作更简单的堆栈来构建大量应用程序。”
虽然 TimescaleDB 最出名的是时间序列数据库,但该公司后来已经脱离了这个利基市场,现在认为自己是一家通用数据库提供商。它不仅可以存储物联网和游戏应用程序的时间序列和事件数据,而且由于其 Postgres 核心,它可以存储任何关系数据。
“我们称自己为 Postgres ++,”Freedman 说。“我们是 Postgres '并且'。我们不是 Postgres 的“或”。”
拥有底层 Postgres 兼容性使 Timescale 能够为任何已经使用 Postgres 的组织存储数据。考虑到 Postgres 是世界上最受欢迎的数据库,这是一个相当大的市场。Freedman 表示,这已经转化为拥有数千万用户的开源产品的巨大成功。他说,Timescale 在云中提供的托管数据库服务拥有大约 1,000 个付费客户。
“他们会说,‘哦,我已经在使用 Postgres 了。我应该让你来完成[我的所有工作量],”弗里德曼说。“只要他们想要像 Postgres 这样的关系数据库,我们就可以成为 Postgres 的最佳选择。”
Timescale 几个月前向云客户推出了矢量支持,今天正式宣布启动预览计划。该公司因其矢量功能吸引了多家早期采用者,其中包括欧洲回收解决方案提供商 PolyPerception。
PolyPerception 首席执行官 Nicolas Bream 在 Timescale 博客中表示:“Timescale Vector 使用 Postgres 作为时间序列和矢量数据库的集成方法的简单性和可扩展性使像我们这样的初创公司能够更快地将人工智能产品推向市场。” “选择 TimescaleDB 是我们做出的最佳技术决策之一,我们很高兴使用 Timescale Vector。”
另一个早期采用者 Blueway Software 也发现该数据库非常适合其 GenAI 开发。“使用 Timescale Vector 使我们能够轻松地将 PostgreSQL 的经典数据库功能与用于检索增强生成 (RAG) 的向量嵌入存储结合起来,”该公司的创新总监 Alexis de Saint Jean 说道。“Timescale 易于使用的云平台和良好的支持使我们的团队专注于成像解决方案,以解决客户的难题,而不是构建基础设施。”
文章来源:https://www.datanami.com/2023/09/25/timescaledb-is-a-vector-database-now-too/






