暂无图片
暂无图片
暂无图片
暂无图片
暂无图片
一种数据库中文全文检索的方法及系统_CN109885641B_卢健 姜瑞海 王硕 张龙_瀚高.pdf
335
18页
0次
2022-01-27
免费下载
(19)中华人民共和国国家知识产权局
(12)发明专利
(10)授权公告号
(45)授权公告日
(21)申请号 201910053622.3
(22)申请日 2019.01 .21
(65)同一申请的已公布的文献号
申请公布号 CN 109885641 A
(43)申请公布日 2019.06 .14
(73)专利权人 瀚高基础软件股份有
地址 250010 山东省济南市高新区新泺大
街2117号铭盛大厦20层2001室
(72)发明人 卢健 姜瑞海 王硕 张龙 
(74)专利代理机构 济南圣达知识产权代理有
37221
代理人 黄海丽
(51)Int.Cl.
G06F
16/31
(2019 .01)
G06F
16/33
(2019 .01)
G06F
16/338
(2019 .01)
(56)对比文件
CN 108776705 A ,2018 .11 .09
US 2018300415 A1 ,2018 .10 .18
审查员 彦男
(54)发明
一种数据库中文全文检索的方法及系统
(57)摘要
种数库中索的
系统括以接收
索文本对所述待检索文本每两个汉字为一组进
词处到多词组
为所述数
引中个所述二词组
于在检索过程中写入相应词组在数据库中
各文本数据中的位置信息述位置信息包括包
词组据所
多个二元词组在所述数据库中对所述待检索文
本进行全文检索。本发明的检索方法无需构建字
对新词的且通引入多级
检索效率更高。
权利要求书2页 说明书9页 附图6页
CN 109885641 B
2021.03.09
CN 109885641 B
1 .一种数据库文全文检索方法其特征在于包括下步骤
接收待插入到数据库中文本数
对所述文本数据每相邻两个字为一组进行二元词处理同时所述本数创建
倒排索引
词过词得到的词组词组和所词组
本数据中位置信息写入所述倒排索引
接收待检索文本并进行二元分处理得到多个待检索二元词组
在所述数据库基于倒排索引和所述多个待检索二元执行全文检索
倒排引包用于词组引中的
二级索用于记录每个二元词组及所述文本在三级索引中的位置级索于记
录二词组在文本中所述信息词组述文本中及在
该行中的位置。
2.如权利要求1所述的种数据库中文全文检索的方法特征在于述一引为
编码
引为个以引的
进一步地所述字母组合基于常词汇统计得到。
3 .如权要求1述的种数据库中全文索的方在于基于倒排
引和所述多个待检索二元执行全文检索包括
接收待检索文本对所述待检索文本进行二元分词得到多个待检索二元
库中的应的按行
个待检索二元词组分别出现频率
根据所述频率计算待检索文本与所述文本数据每一行相似度
总待检索文与该文本数据每一行的相似到所待检索文与所述本数
相似度
将数据库中文本数据按相似度从高到低排序并输出。
4 .一种数据库中文全文检索方法其特征在于包括以下步骤
预先创建倒排索
接收待插入到数据库中文本数
对所述文本数据每相邻两个汉字为一组进行二元分词处理
词过词得到的词组词组和所词组
本数据中位置信息写入所述倒排索引
接收待检索文本并进行二元分处理得到多个待检索二元词组
在所述数据库基于倒排索引和所述多个待检索二元执行全文检索
倒排引包用于词组引中的
二级索用于记录每个二元词组及所述文本在三级索引中的位置级索于记
录二词组在文本中所述信息词组述文本中及在
该行中的位置。
5 .如权要求4述的种数据库中全文索的方其特征述一引为
权 利 要 求 书
1/2
2
CN 109885641 B
2
of 18
免费下载
【版权声明】本文为墨天轮用户原创内容,转载时必须标注文档的来源(墨天轮),文档链接,文档作者等基本信息,否则作者和墨天轮有权追究责任。如果您发现墨天轮中有涉嫌抄袭或者侵权的内容,欢迎发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论

关注
最新上传
暂无内容,敬请期待...
下载排行榜
Top250 周榜 月榜