VexDB - 墨天轮百科

VexDB

编辑

简介：VexDB 是源于清华的数智引航发布的一款融合关系型数据库能力与多路语义检索能力的向量数据库。它强调高性能、大容量、高精度、强一致性、高可用性、高安全性、易用性，支持千维向量、百亿级规模的数据毫秒级检索，召回准确度达99%以上。

产品概览用户评价

产品介绍

VexDB 是源于清华的数智引航发布的一款融合关系型数据库能力与多路语义检索能力的向量数据库。它强调高性能、大容量、高精度、强一致性、高可用性、高安全性、易用性，支持千维向量、百亿级规模的数据毫秒级检索，召回准确度达99%以上。

VexDB 不仅支持用于加速查询的 B-Tree、Hash 等标量索引，更集成了 IVFFlat、IVFPQ、HNSW、DiskANN 等常见的向量检索索引和向标混合索引 HybridANN，用于高效处理高维向量数据的相似性搜索，极大优化了诸如以图搜图、语义检索、推荐系统等AI场景的查询性能。

产品特点

向量数据处理
VexDB 提供全面的向量计算能力，包括 KNN 精确查询、ANN 近似查询、向量与标量混合查询以及向量实时更新等功能，可高效支撑搜索业务与大模型业务场景：

搜索业务：图像、文本和视频的相似性检索、跨模态搜索等；
大模型应用：智能问答、AI 智能体、GPT 缓存、推理加速等。

在向量索引方面，VexDB 集成了 IVFFlat、IVFPQ、DiskANN、HNSW、HybridANN 等先进算法，结合图与倒排索引技术，适配高并发、低延迟、大规模数据等多样化场景需求。

关系型数据库核心能力
VexDB 兼容标准 SQL 语法，继承了关系型数据库的核心能力：

事务管理
数据一致性
分区表管理
查询优化
高可用架构
企业级安全
数据库运维监控

产品优势

高性能
- 支持 IVFFlat、IVFPQ 索引，实现千万级别高召回率，毫秒级响应。
- 支持 DiskANN 索引，改良了传统的 HNSW 索引。通过对于图索引算法的极致优化，重新设计构建算法、内存布局和磁盘数据结构，实现高并发下的高吞吐、低时延。
- 通过软硬件协同优化，进一步降低查询时延。
- 创新向标联合索引算法，能够自适应不同的标量选择率，同时发挥标量过滤索引和向量索引的加速效能，满足 AI 应用对于语义查询的复杂要求。
大容量
- 采用最新的量化压缩技术，降低75%存储成本，结合分层分片索引技术，VexDB单节点能够支持超过10亿条向量数据存储和高效查询。
高精度
- 通过一条 SQL 语句就能支持多路召回功能，将端到端的检索召回率提高 30%。
- 通过动态剪枝、位图加速和位置跳跃技术优化了复杂全文查询效率，借助 BM25 相关度评分方法，有效支撑了AI应用对于高精度语义查询的要求。
强一致
- 通过多版本并发控制算法进行事务管理，支持读已提交和可重复度两种隔离级别，都能够在高性能的前提下确保数据的强一致，实现 0 延迟的数据新鲜度。
- 支持数据原地更新（商业特性）以及动态实时更新。
- 保证数据新鲜度的同时，提高高频更新场景下的性能稳定性，以及存储空间利用率，有效满足缓存场景和实时数据分析场景对于数据实时更新的需求。
高可用
- 支持一主多备的高可用部署架构，保障数据不丢失，服务不中断。
- 支持两地三中心跨 Region 容灾部署方案，保证极端灾难情况下数据的安全和可用性。
- 支持极致 RTO，高效并行回放，单点故障快速恢复。
- 支持备份即时恢复（PITR），避免误操作带来的数据丢失。
高安全
- 支持数据库加密存储，通过 AES128 加解密数据。
- 支持基于角色的访问控制模型和基于三权分立的访问控制模型。
- 支持统一审计机制（商业特性），可有效解决攻击者抵赖。
- 支持数据透明加密（商业特性），解决静态数据泄露问题。
易用性
- VexDB 支持多种硬件和操作系统平台。
- 提供了数据库使用全流程工具，实现易部署、易运维、易迁移。
- 通过原生的 SQL 语法，支持不同 AI 应用的特异化场景需求，统一关系查询、向量查询、和全文检索能力。
- 支持 Python、Java 等多语言开发者工具，高度兼容现有 AI 生态组件，降低开发门槛，促进大模型的价值发挥。

技术特性

VexDB 在兼容关系型数据库特性的同时，通过以下技术特性，为 AI 应用的开发与落地提供了可靠的向量数据管理解决方案。

多种索引算法支持

VexDB 适配了通用索引扫描的 ANN（近似最近邻）查询。
VexDB 实现了向量数据查询计划生成与索引选择能力的增强。
VexDB 支持多种基于磁盘的向量索引结构，在保证 ACID 特性的同时，实现向量数据的高性能检索。

索引算法优化
VexDB 在处理大规模向量数据的相似性搜索时，创新性地实现了一种高效的基于磁盘的向量图索引 Graph Index。该索引结合了 HNSW 的层次化管理特点和 DiskANN 的磁盘存储优势，确保了查询的高效性，并提升了数据和查询的可靠性。

单个索引通过最新的量化和分层分片索引技术，能够支持高达十亿级数据的高效存储与查询。

高效向量检索

VexDB 支持并行索引构建和扫描，通过并行化技术将查询时延降低了两倍以上；它还适配了多种 CPU 处理器架构的 SIMD 指令集，加速了距离计算性能，提升超过三倍，并支持自适应代码选择技术，实现了一次编译，多平台运行。
VexDB 使用自适应算法来决定是否可以提前终止检索，从而将检索速度提升了 40%。与业界流行产品的相比，VexDB 在相同的环境和数据集上展现了超过 50% 的吞吐性能优势。

动态索引维护框架

引入页面整理机制，有效解决频繁更新场景下索引质量降低的问题。
智能控制索引膨胀，从而节省存储资源。

简单高效的管理方式
具备完备的日志体系，为每种基于磁盘的向量索引结构设计了专用的日志类型。
通过标准数据库驱动支持多语言应用接入，提供完善的数据库服务能力。

产品版本

VexDB 目前分为两个版本：

开发版：适合应用开发商、个人开发者和开源项目使用的免费向量数据库，1年使用期限，社群支持。
商业版：面向企业级AI应用场景的商业向量数据库，SLA服务保障，专业技术支持服务。

VexDB 系统采用分层架构设计，充分满足了解耦、复用、灵活扩展和高效运维的现代数据库设计原则。

产品架构

SQL引擎：负责 SQL 语句的解析、优化，并生成高性能的执行计划。
负责接收 SQL 语句，进行词法、语法解析及语义分析，生成抽象的查询树。随后，基于代价的优化器（CBO）结合数据统计信息、索引情况与系统资源状态，从多种执行策略中选择最优路径，生成高性能的执行计划。
执行引擎：高效执行 SQL 引擎生成的计划，调度计算资源。
调度 CPU、内存等计算资源，高效地执行由SQL引擎生成的计划。它实现多种数据操作算法（如连接、排序、聚合），以流水线或批处理方式处理数据，并将结果返回给客户端。
存储引擎：保障数据安全，高效持久化存储和事务管理。
负责数据在磁盘上的持久化存储、缓存管理（Buffer Pool）、事务管理（ACID）、redo恢复及空间分配。它确保数据的一致性、持久性和高效访问。

所属公司

北京数智引航科技有限公司源于清华，专注人工智能基础设施领域。公司致力于为企业提供高性能向量数据库产品，助力用户快速构建和部署智能应用。

用户评价

词条统计

创建者：墨天轮福利君

编辑次数：6

浏览次数：133

API调用次数：0

贡献者

目录