索引构建方法、字段搜索方法、装置、设备及介质_CN118467669A_深圳计算科学研究院.pdf

迹部景吾

20页

0次

2024-09-29

免费下载

(19)国家知识产权局

(12)发明专利申请

(10)申请公布号

(43)申请公布日

(21)申请号 202410565836 .X

(22)申请日 2024 .05 .09

(71)申请人深圳计算科学研究院

地址 518000 广东省深圳市龙华区民治街

道红山六九七九商业中心(二期)9栋

26座1001

(72)发明人马海寅　胡清霜　别彬彬　王尧舒　

沈吉明　屈爽　苏阳华　谭洁　

梁建铖　田野　

(74)专利代理机构深圳众鼎专利商标代理事务

所(普通合伙) 44325

专利代理师谭果林

(51)Int.Cl .

G06F

16/31

(2019 .01)

(54)发明名称

索引构建方法、字段搜索方法、装置、设备及

介质

(57)摘要

本申请适用于数据处理技术领域，尤其涉及

一种索引构建方法、字段搜索方法、装置、及介

质。该方法对公共数据集中任一数据列，根据数

据列的数据类型对应的字段提取方式，对数据列

进行字段提取，得到数据列的字段特征及特征向

量，根据字段特征和存储信息，构建倒排索引，根

据特征向量和存储信息，构建向量索引。在查询

时，根据待查询数据和倒排索引，确定第一数据

集，根据待查询向量和向量索引，确定第二数据

集，根据第一数据集和第二数据集形成候选数据

集，根据待查询数据，对候选数据集中所有的数

据进行排序，得到排序的数据为查询结果。构建

了公共数据集内更精细化的索引结构，提高了搜

索结果的全面性和准确性。

权利要求书2页说明书13页附图4页

CN 118467669 A

2024.08.09

CN 118467669 A

1 .一种索引构建方法，其特征在于，所述索引构建方法包括：

获取公共数据集，针对所述公共数据集中任一数据列，根据所述数据列的数据类型对

应的字段提取方式，对所述数据列进行字段提取，得到所述数据列的字段特征，确定每个字

段特征对应的特征向量；

获取所述公共数据集中每个数据列的存储信息，根据每个数据列的字段特征和存储信

息，构建倒排索引，根据每个数据列的特征向量和存储信息，构建向量索引。

2 .根据权利要求1所述的索引构建方法，其特征在于，在所述得到所述数据列的字段特

征及特征向量之后，还包括：

计算任两个数据列的特征向量的相似度，得到相似度计算结果，若所述相似度计算结

果大于相似度阈值，则确定所述两个数据列为疑似匹配对；

从所述疑似匹配对中第一数据列中抽取预设数量的第一数据，将所有的第一数据与所

述疑似匹配对中第二数据列进行匹配，得到匹配结果；

统计所述匹配结果为匹配的第一数据在所述预设数量中的占比，若所述占比超过占比

阈值，则确定所述疑似匹配对验证通过，将所述第一数据列与所述第二数据列的字段特征

形成关联信息；

在所述第一数据列和所述第二数据列写入所述倒排索引后，将所述关联信息写入所述

第一数据列和所述第二数据列在所述倒排索引中的数组内。

3 .根据权利要求1所述的索引构建方法，其特征在于，所述索引构建方法还包括：

若所述公共数据集中包含长文本数据，则通过训练好的语言模型对所述长文本数据进

行压缩归纳，得到归纳文档；

所述根据每个数据列的字段特征和存储信息，构建倒排索引，包括：

对每个数据列的字段特征分别进行分词处理，得到对应数据列的第一分词结果；

构建倒排索引，将每个数据列的第一分词结果写入所述倒排索引的一空白的键值中，

将对应数据列的存储信息写入对应键值的数组中；

获取每个归纳文档的存储信息，对每个归纳文档分别进行分词处理，得到对应归纳文

档的第二分词结果；

将每个归纳文档的第二分词结果写入所述倒排索引的一空白的键值中，将对应归纳文

档的存储信息写入与对应键值的数组中。

4 .一种字段搜索方法，其特征在于，在采用如权利要求1至3任一项所述的索引构建方

法得到倒排索引和向量索引后，所述字段搜索方法包括：

获取待查询数据，确定所述待查询数据的待查询向量；

根据所述待查询数据和所述倒排索引，确定第一数据集，根据所述待查询向量和所述

向量索引，确定第二数据集；

根据所述第一数据集和所述第二数据集形成候选数据集；

根据所述待查询数据，对所述候选数据集中所有的数据进行排序，得到排序的数据为

查询结果。

5 .根据权利要求4所述的字段搜索方法，其特征在于，所述根据所述待查询数据和所述

倒排索引，确定第一数据集，包括：

对所述待查询数据进行前缀过滤，得到过滤后的待查询数据；

权　利　要　求　书

1/2 页

CN 118467669 A

of 20

免费下载

yashandb patent

关注

评论