1 .一种实体增强规则的挖掘方法,其特征在于,所述挖掘方法包括:
初始化初始挖掘规则集合和已使用谓词集合为空集,将候选谓词集合中每一个候选谓
词分别与所述已使用谓词集合合并,得到对应候选谓词的已使用谓词集合,使用每个候选
谓词的已使用谓词集合中所有谓词,结合已知规则的规则目标,构建得到对应的候选规则;
根据预设的相关性度量和预设的多样性度量,对每个候选规则及其扩展得到的规则进
行收益评分,得到每个候选规则对应收益得分上界和收益得分下界;
计算每个候选规则的可信度,根据每个候选规则的收益得分上界、收益得分下界和可
信度,确定候选最佳规则子集和下一轮迭代候选规则子集,将候选最佳规则子集中每个规
则分别添加至所述初始挖掘规则集合,得到每个规则对应的更新规则集合;
计算每个更新规则集合相较于所述初始挖掘规则集合的收益提升量,确定所述收益提
升量最高的更新规则集合对应的规则为本轮迭代的最佳规则,将所述最佳规则添加至所述
初始挖掘规则集合,得到更新的挖掘规则集合,将所述候选最佳规则子集中除最佳规则以
外的规则添加至所述下一轮迭代候选规则子集,得到更新的下一轮迭代候选规则子集;
在下一轮迭代中,以所述更新的下一轮迭代候选规则子集进行扩展搜索,得到扩展规
则,将所述扩展规则作为所述候选规则,并将所述更新的挖掘规则集合作为所述初始挖掘
规则集合,返回执行计算每个候选规则的可信度,直至所述更新的挖掘规则集合中规则条
数达到预设条数或者达到预设迭代次数,得到更新的挖掘规则集合。
2.根据权利要求1所述的挖掘方法,其特征在于,所述根据每个候选规则的收益得分上
界、收益得分下界和可信度,确定候选最佳规则子集和下一轮迭代候选规则子集,包括:
检测每个候选规则的可信度是否大于可信度阈值,若检测到一候选规则的可信度不大
于所述可信度阈值,则将所述候选规则归为下一轮迭代候选规则子集;
若检测到一候选规则的可信度大于所述可信度阈值,则将所述候选规则作为候选最佳
规则,针对所有候选最佳规则中第一候选最佳规则和第二候选最佳规则,若检测到所述第
一候选最佳规则对应的收益得分下界大于所述第二候选最佳规则对应收益得分上界,则将
所述第二候选最佳规则归为所述下一轮迭代候选规则子集;
若检测到所述第一候选最佳规则对应的收益得分上下界和所述第二候选最佳规则对
应的收益得分上下界之间存在交叉,则将所述第一候选最佳规则和所述第二候选最佳规则
均归为候选最佳规则子集。
3.根据权利要求1所述的挖掘方法,其特征在于,在所述计算每个候选规则的可信度之
后,还包括:
获取所述初始挖掘规则集合的剩余名额,所述剩余名额为所述预设条数与所述初始挖
掘规则集合中当前条数的差值;
按照收益得分下界从高至低的方式对所有候选规则排序,确定排序为所述剩余名额对
应数值的候选规则为下限规则;
将所有候选规则中收益得分上界小于所述下限规则的收益得分下界的候选规则归为
排除规则子集,所述排除规则子集中的所有规则被剔除出所有轮次迭代。
4 .根据权利要求1所述的挖掘方法,其特征在于,所述计算每个更新规则集合相较于所
述初始挖掘规则集合的收益提升量,包括:
使用目标函数,计算得到所述初始挖掘规则集合的第一收益得分,以及每个更新规则
权 利 要 求 书
1/3 页
2
评论