1 .一种数据库中文全文检索的方法,其特征在于,包括以下步骤:
接收待插入到数据库中的文本数据;
对所述文本数据每相邻两个汉字为一组进行二元分词处理,同时为所述文本数据创建
倒排索引;
分词过程中,对于每个分词得到的二元词组,将所述二元词组和所述二元词组在该文
本数据中的位置信息写入所述倒排索引;
接收待检索文本,并进行二元分词处理,得到多个待检索二元词组;
在所述数据库中,基于倒排索引和所述多个待检索二元词组执行全文检索;
所述倒排索引包括三级索引,其中,一级索引用于标识各二元词组在二级索引中的位
置,二级索引用于记录每个二元词组,以及所述文本在三级索引中的位置,三级索引用于记
录二元词组在文本中的位置信息,所述位置信息包括二元词组在所述文本中的行,以及在
该行中的位置。
2.如权利要求1所述的一种数据库中文全文检索的方法,其特征在于,所述一级索引为
编码;或
所述一级索引为字母或字母组合,对应多个以所述字母或字母组合标引的数据表文
件;
进一步地,所述字母组合基于常用词汇的统计得到。
3 .如权利要求1所述的一种数据库中文全文检索的方法,其特征在于,所述基于倒排索
引和所述多个待检索二元词组执行全文检索包括:
接收待检索文本,对所述待检索文本进行二元分词,得到多个待检索二元词组;
对于数据库中的每个文本数据,根据所述文本数据对应的倒排索引,按行统计所述多
个待检索二元词组分别出现的频率;
根据所述频率计算待检索文本与所述文本数据每一行的相似度;
汇总待检索文本与该文本数据每一行的相似度,得到所述待检索文本与所述文本数据
的相似度;
将数据库中的文本数据按相似度从高到低排序并输出。
4 .一种数据库中文全文检索的方法,其特征在于,包括以下步骤:
预先创建倒排索引结构;
接收待插入到数据库中的文本数据;
对所述文本数据每相邻两个汉字为一组进行二元分词处理;
分词过程中,对于每个分词得到的二元词组,将所述二元词组和所述二元词组在该文
本数据中的位置信息写入所述倒排索引;
接收待检索文本,并进行二元分词处理,得到多个待检索二元词组;
在所述数据库中,基于倒排索引和所述多个待检索二元词组执行全文检索;
所述倒排索引包括三级索引,其中,一级索引用于标识各二元词组在二级索引中的位
置,二级索引用于记录每个二元词组,以及所述文本在三级索引中的位置,三级索引用于记
录二元词组在文本中的位置信息,所述位置信息包括二元词组在所述文本中的行,以及在
该行中的位置。
5 .如权利要求4所述的一种数据库中文全文检索的方法,其特征在于,所述一级索引为
权 利 要 求 书
1/2 页
2
评论