暂无图片
暂无图片
10
暂无图片
暂无图片
暂无图片

天翼云PostgreSQL重磅升级:全面支持PGVector 0.8.0,解锁向量数据处理新范式!

TeleDB 3天前
136


在大模型技术迅猛发展的今天,如何高效处理海量非结构化数据并从中提取价值,成为企业面临的核心挑战。天翼云致力于为企业提供最前沿的数据库技术。近期,PostgreSQL云数据库正式宣布全面支持PGVector 0.8.0插件,同时提供了向量相关的指标监控,将向量引擎计算能力无缝融入云数据库,为企业构建AI应用提供更坚实的技术基础。


向量数据库:AI时代的数据管理新范式


向量数据库是专门设计用于处理向量数据(一系列数字的集合,称为嵌入)的数据库系统。在AI模型中,文本、图像、音频和视频等非结构化数据都可以通过嵌入技术转化为向量,从而在数学空间中表示其特性和关系。

嵌入(embedding)是指将高维数据映射为低维表示的过程。通过嵌入,复杂的数据可以在多个维度上抽象,转化为向量表示。

向量相似性则通过计算向量之间的距离来衡量。以“狗”、“猫”和“苹果”三个对象为例,将它们转化为二维向量后:


 “苹果”:[1, 1, 0.5]

 “香蕉”:[1.2, 0.8, 0.6]

 “猫”:[6, 0.4, 0.1]


在二维平面中,同属动物的狗和猫距离更接近,而它们与苹果的距离则相对较远。维度越高,对信息的分类就越细,搜索结果的精确度也就越高。


天翼云PostgreSQL的向量能力全面升级


天翼云关系型数据库PostgreSQL版通过PGVector 0.8.0插件,为用户提供更强大的向量数据处理能力。

PGVector 0.8.0的核心功能特性

PGVector扩展为PostgreSQL增加了vector数据类型,使数据库能够直接存储和检索向量数据。

主要技术特性包括:

• 高性能向量存储:支持在PostgreSQL表中直接存储高维向量,最大支持16000维度的向量。

• 灵活相似性搜索:提供精确和近似最近邻搜索(ANN),支持欧氏距离(L2)、曼哈顿距离(L1)、余弦相似度及内积运算。

 多索引策略:支持HNSW索引和IVFFlat索引,满足不同场景下的性能与召回率需求。

• 并行索引构建:显著提升索引构建效率,缩短系统维护时间。


企业级实践示例

在天翼云PostgreSQL中使用PGVector极为简便:

创建扩展


SQL
CREATE EXTENSION IF NOT EXISTS vector;

创建包含向量列的表


SQL
CREATE TABLE items (
  id bigserial PRIMARY KEY,
  item text,
  embedding vector(3)  -- 以三维为例,实际支持更高维度
  );

插入向量数据


SQL
INSERT INTO items (item, embedding)
VALUES
  ('苹果', '[1, 1, 0.5]'),('香蕉', '[1.2, 0.8, 0.6]'),
  ('猫', '[6, 0.4, 0.1]');

执行相似性搜索


SQL
-- 余弦度量:使用公式cosine_similarity = 1 - cosine_distance进行计算余弦相似度,距离越小,相似度越高。(范围 [-1, 1])
SELECT
  item,1 - (embedding <=> '[1.2, 0.8, 0.6]') AS cosine_similarity
FROM
  items
ORDER BY
  cosine_similarity DESC;

-- 内积度量:需将 <#> 的结果乘以 -1得到内积(因 <#>返回负内积)。使用 l2_normalize() 函数将向量归一化为单位向量(模长为1)
-- 归一化后的内积 = 余弦相似度(范围 [-1, 1])
SELECT
  item,
-(l2_normalize(embedding)<#> l2_normalize('[1.2, 0.8, 0.6]'::vector)) AS normalized_inner_product
FROM
  items
ORDER BY
-(l2_normalize(embedding)<#> l2_normalize('[1.2, 0.8, 0.6]'::vector)) DESC;

  --L1度量:<+> 返回 L1 距离,范围 [0, +∞),距离越小,相似度越高,0表示完全相同
SELECT
  item,
  embedding <+> '[1.2, 0.8, 0.6]' AS l1_distance
FROM
  items
ORDER BY
  embedding <+> '[1.2, 0.8, 0.6]' ASC;

  --L2度量:<-> 返回 L2 距离,范围 [0, +∞),距离越小,相似度越高,0表示完全相同
SELECT
  item,
  embedding <-> '[1.2, 0.8, 0.6]' AS l2_distance
FROM
  items
ORDER BY
  embedding <-> '[1.2, 0.8, 0.6]' ASC;

查询结果示例:


SQL
 --以余弦度量为例:
 item | cosine_similarity  
------+--------------------
 香蕉 |                  1
 苹果 | 0.9816159996665887
 猫   | 0.8068634552933738
(3 rows)


从结果可以看出,香蕉与自身的相似度为1(完全匹配),与苹果的相似度为0.978(高度相似),而与猫的相似度为0.852(相似度较低)。


向量索引的优化策略

在实际生产环境中,合理的索引策略是保证向量检索性能的关键:

HNSW索引配置


SQL
CREATE INDEX ON items USING hnsw (embedding vector_cosine_ops)
WITH (m = 16, ef_construction = 64);

参数说明:

 m:构建HNSW索引时,每层中每个节点的最大邻近节点数目。该值越大,图的稠密度越高,通常会导致召回率的提高,同时构建和查询所需的时间也相应增加。

 ef_construction:表示构建HNSW索引时,候选集的大小。该值越大,通常召回率也越高,但构建和查询所需的时间也相应增加。

IVFFlat索引配置


SQL
CREATE INDEX ON items USING ivfflat (embedding vector_cosine_ops)
WITH (lists = 100);

参数说明:

• lists:参数表示将数据集分成的列表数。该值越大,表示数据集被分割得越多,每个子集的大小相对较小,索引查询速度越快。但随着lists值的增加,查询的召回率可能会下降。


应用场景:向量技术的多元化实践


天翼云PostgreSQL配合PGVector 0.8.0插件,在多种AI应用场景下发挥关键作用:

智能推荐系统

根据用户的历史行为和偏好向量,寻找相似的产品或内容,大幅提升推荐准确度和用户体验。

多模态内容检索

将图像、语音和文本数据统一转化为向量表示,实现高效的跨模态语义搜索,应用于版权保护、内容检索等领域。

RAG增强检索

为大语言模型提供精准的知识检索能力,基于向量相似性从企业知识库中检索相关信息,减少模型幻觉,提升回答准确性。

异常检测

在金融、网络安全等领域,通过向量相似度比较,快速识别异常交易或行为模式,保障业务安全。


天翼云TeleDB的全面向量化战略


PGVector插件只是天翼云数据库向量化能力的一部分。天翼云自研的TeleDB分布式数据库同样集成了向量搜索引擎,形成完整的向量数据处理技术栈。

TeleDB定位是一款分布式HTAP数据库,在SQL引擎层引入了向量化执行引擎,以进一步提升TeleDB的数据分析能力。这表明天翼云正在构建一个完整的向量数据处理生态,从多个层面推进数据库的智能化转型:

• 顶层:数据库生命周期管理平台DCP,作为天翼云数据库能力中台。

• 中间层:丰富的数据库生态工具,包括数据传输服务DTS、数据管理服务DMS等。

• 底层:数据库产品,包括常用的RDS托管产品以及自研的TeleDB数据库。


天翼云PostgreSQL对PGVector 0.8.0插件的支持,是传统数据库向AI原生架构演进的又一重要里程碑。这一集成使企业能够在统一的数据平台上构建完整的智能应用生态,同时满足事务一致性、分析性能和语义检索的多元化需求。

作为云计算国家队,天翼云始终秉承央企使命,致力于通过技术创新推动产业智能化转型,为企业提供稳定可靠、性能卓越、安全合规的向量数据管理平台,助力千行百业在AI时代构建核心竞争优势。

随着AI技术的不断普及,向量数据库将成为企业智能化转型的核心基础设施。天翼云通过PostgreSQL的PGVector 0.8.0支持和TeleDB的向量化能力,正助力中国企业在新的技术浪潮中抢占先机,成就智能未来!


点击【阅读原文】立即体验

登录天翼云官网,了解PostgreSQL云数据库的PGVector 0.8.0插件,开启您的向量数据库之旅!


最后修改时间:2025-12-03 10:35:55
文章转载自TeleDB,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论