【VLDB 2022】基于多级量化可证明的LSH方案来解决点对超平面近邻搜索

向量检索实验室 2023-02-24

178

论文分享

今日分享论文MQH: Locality Sensitive Hashing on Multi-level Qantization Errors for Point-to-Hyperplane Distances

本篇论文来自于VLDB2022，提出了一个基于多级量化的可证明的LSH方案来解决点对超平面近邻搜索（P2HNNS）的问题。实验证明这种方法不仅能获得一个对查询结果的概率保证还能使生成的哈希函数有效的修建了错误的点。

Hyperplane超平面

VectorSearch

超平面是n维欧氏空间中余维度等于一的线性子空间，也就是必须是(n-1)维度。这是平面中的直线、空间中的平面之推广（n大于3才被称为“超”平面），是纯粹的数学概念，不是现实的物理概念。因为是子空间，所以超平面一定经过原点。

仿射超平面：仿射超平面是仿射空间中的代数1的仿射子空间。在笛卡尔坐标中，可以用以下形式的单一线性方程来描述这样的超平面（至少有一个ai不是0）仿射超平面用于定义许多机器学习算法中的决策边界，例如线性组合（倾斜）决策树和感知器。本文提到的超平面实际是指仿射超平面。

在上图所示的KD树中，我们通常会轮流对x、y轴进行基于仿射超平面的切割。而生成的这种树结构在搜索时类似二分搜索。在三维空间如下图所示。

点到超平面的距离

VectorSearch

如果用

表示超平面，那么最近点xmin可表示为

LSH 局部敏感哈希

VectorSearch

LSH的理论依据是将原始数据空间中的两个相邻数据点通过相同的映射或投影变换后，这两个数据点在新的数据空间中仍然相邻的概率很大，而不相邻的数据点被映射到同一个桶的概率很小。

基于这个定义，令 h(x)表示样本x的哈希变换, x与y表示任意两个样本，d(x,y)为x、y之间的距离，d1、d2为两个常量。且d1<d2, p1与p2为介于0与1之间的常量值，若h(x)满足以下两个条件，则称哈希函数h(x)为(d1,d2,="" p1,="" p2)-senstive<="" div="">

1、如果d(x, y) <= d1，则h(x) = h(y)的概率至少为p1；

2、如果d(x, y) >= d1，则h(x) = h(y)的概率至多为p2。

通过一个或多个(d1,d2,p1,p2)-senstive 的哈希函数对原始数据集合进行哈希运算，得到一个或者多个哈希表的过程就称为是局部敏感哈希。

MQH结构

VectorSearch