暂无图片
暂无图片
10
暂无图片
暂无图片
暂无图片

Timescale 引入 pgai Vectorizer,强化 PostgreSQL 的 AI 能力

通讯员 2024-11-21
544

最近,Timescale 通过引入 pgai Vectorizer 扩展了其 PostgreSQL 的人工智能产品线。这一更新使得开发者能够在不需要外部工具或额外基础设施的情况下,与关系数据一起创建、存储和管理向量嵌入。

TimescaleDB 是为时间序列数据量身定制的 PostgreSQL 开源扩展,它首次为 PostgreSQL 增加了实时分析功能。现在,Timescale 通过 pgai 套件和 pgai Vectorizer 的引入,加强了人工智能的集成,使得开发者能够在 PostgreSQL 内无缝进行 AI 开发。

在开发过程中,贡献者们遇到了一些挑战。一位名为 Tostino 的贡献者指出了与 OpenAI API 兼容性的问题,他提到当前的实现缺少了一些使用代理解决方案或开源推理服务器时所必需的参数。此外,Tostino 建议应该在返回 JSON 的原始函数之上构建提供“简单”包装的函数,而不是严格的数据类型,以提高灵活性。

构建像搜索引擎和 AI 代理这样的 AI 系统通常需要复杂的工作流程。pgai Vectorizer 通过将整个 AI 工作流程集成到 PostgreSQL 中,简化了这一流程,允许开发者使用熟悉的 SQL 命令快速高效地创建高级 AI 应用。

图片.png

Timescale 认为,将向量嵌入视为独立数据的标准方法会导致同步问题和数据过时。道德 AI 和机器学习研究所评论道:

TimescaleDB 提出将嵌入视为类似于数据库索引的派生数据,这很有趣,考虑到了像 planetscale 这样的数据库最近的扩展,通过“本地向量化器”抽象自然地将嵌入集成到索引中。在这种情况下,他们仍然利用开源的 pgai Vectorizer for PostgreSQL,这有助于在数据库内自动同步嵌入与源数据。

pgvector 和 pgvectorscale 扩展允许你在数据库中存储向量嵌入并执行快速高效的向量搜索。pgai Vectorizer 在这些扩展的基础上,自动为你数据库中的任何文本数据创建和同步嵌入。

用一行代码,你就可以定义一个向量化器,为表中的数据创建嵌入。机器学习顾问 Suvarna Kadam 评论道:

pgai Vectorizer 使得使用一个 SQL 命令来管理你的向量嵌入成为可能,“无需”通常的工程挑战来保持与源数据同步!

SELECT ai.create_vectorizer(     <table_name>::regclass,    destination => <embedding_table_name>,    embedding => ai.embedding_openai(<model_name>, <dimensions>),     chunking => ai.chunking_recursive_character_texter(<column_name>) );

在同一周,Neon Database Labs 也引入了 Pgrag,这是一个旨在支持端到端检索增强生成(RAG)管道的 PostgreSQL 实验扩展,进一步扩展了他们自己的 AI 能力。

除了最近推出的 pgai Vectorizer,社区对于支持的嵌入模型范围扩展到 OpenAI 之外也表现出了兴趣。贡献者 claudeomusic 询问了使嵌入模型的选择可配置的可能性,强调了对用户灵活性的重要性。对此,来自 Timescale 的 alejandrodnm 确认,尽管当前的 Vectorizer 功能仅支持 OpenAI 模型,但未来有计划包括其他提供商。团队对社区的贡献持开放态度,以帮助实现这一目标。另一位贡献者 wang 分享了他如何使用 Openrouter 的解决方法。

想要快速尝试使用预构建的 Docker 开发环境进行嵌入,请参阅 Vectorizer 快速开始。有关更详细的技术规格,请参阅 Vectorizer API 参考。

原文作者:Mohit Palriwal
2024年11月20日

文章转载自通讯员,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论