1 .一种索引构建方法,其特征在于,所述索引构建方法包括:
获取公共数据集,针对所述公共数据集中任一数据列,根据所述数据列的数据类型对
应的字段提取方式,对所述数据列进行字段提取,得到所述数据列的字段特征,确定每个字
段特征对应的特征向量;
获取所述公共数据集中每个数据列的存储信息,根据每个数据列的字段特征和存储信
息,构建倒排索引,根据每个数据列的特征向量和存储信息,构建向量索引。
2 .根据权利要求1所述的索引构建方法,其特征在于,在所述得到所述数据列的字段特
征及特征向量之后,还包括:
计算任两个数据列的特征向量的相似度,得到相似度计算结果,若所述相似度计算结
果大于相似度阈值,则确定所述两个数据列为疑似匹配对;
从所述疑似匹配对中第一数据列中抽取预设数量的第一数据,将所有的第一数据与所
述疑似匹配对中第二数据列进行匹配,得到匹配结果;
统计所述匹配结果为匹配的第一数据在所述预设数量中的占比,若所述占比超过占比
阈值,则确定所述疑似匹配对验证通过,将所述第一数据列与所述第二数据列的字段特征
形成关联信息;
在所述第一数据列和所述第二数据列写入所述倒排索引后,将所述关联信息写入所述
第一数据列和所述第二数据列在所述倒排索引中的数组内。
3 .根据权利要求1所述的索引构建方法,其特征在于,所述索引构建方法还包括:
若所述公共数据集中包含长文本数据,则通过训练好的语言模型对所述长文本数据进
行压缩归纳,得到归纳文档;
所述根据每个数据列的字段特征和存储信息,构建倒排索引,包括:
对每个数据列的字段特征分别进行分词处理,得到对应数据列的第一分词结果;
构建倒排索引,将每个数据列的第一分词结果写入所述倒排索引的一空白的键值中,
将对应数据列的存储信息写入对应键值的数组中;
获取每个归纳文档的存储信息,对每个归纳文档分别进行分词处理,得到对应归纳文
档的第二分词结果;
将每个归纳文档的第二分词结果写入所述倒排索引的一空白的键值中,将对应归纳文
档的存储信息写入与对应键值的数组中。
4 .一种字段搜索方法,其特征在于,在采用如权利要求1至3任一项所述的索引构建方
法得到倒排索引和向量索引后,所述字段搜索方法包括:
获取待查询数据,确定所述待查询数据的待查询向量;
根据所述待查询数据和所述倒排索引,确定第一数据集,根据所述待查询向量和所述
向量索引,确定第二数据集;
根据所述第一数据集和所述第二数据集形成候选数据集;
根据所述待查询数据,对所述候选数据集中所有的数据进行排序,得到排序的数据为
查询结果。
5 .根据权利要求4所述的字段搜索方法,其特征在于,所述根据所述待查询数据和所述
倒排索引,确定第一数据集,包括:
对所述待查询数据进行前缀过滤,得到过滤后的待查询数据;
权 利 要 求 书
1/2 页
2
评论