基于主题与概率模型的非合作深网数据源选择-邓松 , 万常选.pdf

上善若水

229

16页

0次

2022-05-20

免费下载

软件学报 ISSN 1000-9825, CODEN RUXUEW E-mail: jos@iscas.ac.cn

Journal of Software,2017,28(12):3241−3256 [doi: 10.13328/j.cnki.jos.005285] http://www.jos.org.cn

基于主题与概率模型的非合作深网数据源选择

∗

邓

松

1,3

万常选

2,3

(江西财经大学软件与通信工程学院,江西南昌 330013)

(江西财经大学信息管理学院,江西南昌 330013)

(数据与知识工程江西省高校重点实验室(江西财经大学),江西南昌 330013)

通讯作者: 邓松, E-mail: daonicool@sina.com

摘要: 在深网数据集成过程中,用户希望仅检索少量数据源便能获取高质量的检索结果,因而数据源选择成为

其核心技术.为满足基于相关性和多样性的集成检索需求,提出一种适合小规模抽样文档摘要的深网数据源选择方

法.该方法在数据源选择过程中首先度量数据源与用户查询的相关性,然后进一步考虑候选数据源提供数据的多样

性.为提升数据源相关性判别的准确性,构建了基于层次主题的数据源摘要,并在其中引入了主题内容相关性偏差概

率模型,且给出了基于人工反馈的偏差概率模型构建方法以及基于概率分析的数据源相关性度量方法.为提升数据

源选择结果的多样性程度,在基于层次主题的数据源摘要中建立了多样性链接有向边,并给出了数据源多样性的评

价方法.最后,将基于相关性和多样性的数据源选择问题转化为一个组合优化问题,提出了基于优化函数的数据源选

择策略.实验结果表明:在基于少量抽样文档进行数据源选择时,该方法具有较高的选择准确率.

关键词: 深网;数据源选择;主题;概率模型;TextRank

中图法分类号: TP311

中文引用格式: 邓松,万常选.基于主题与概率模型的非合作深网数据源选择.软件学报,2017,28(12):3241−3256. http://www.

jos.org.cn/1000-9825/5285.htm

英文引用格式: Deng S, Wan CX. Non-Cooperative deep Web data source selection based on subject and probability model.

Ruan Jian Xue Bao/Journal of Software, 2017,28(12):3241−3256 (in Chinese). http://www.jos.org.cn/1000-9825/5285.htm

Non-Cooperative Deep Web Data Source Selection Based on Subject and Probability Model

DENG Song

1,3

, WAN Chang-Xuan

2,3

(School of Software & Communication Engineering, Jiangxi University of Finance and Economics, Nanchang 330013, China)

(School of Information and Technology, Jiangxi University of Finance and Economics, Nanchang 330013, China)

(Jiangxi Key Laboratory of Data and Knowledge Engineering (Jiangxi University of Finance and Economics), Nanchang 330013, China)

Abstract: It is desirable for a user to get high-quality query results from only a few data sources in deep Web data integration

systems. Therefore, data source selection becomes one of the core technologies in the integration systems. In this paper, a method based

on correlations and diversities is proposed for selecting deep Web data sources suitable for small-scale sampling document summaries.

Firstly, considering the correlations between the query and the data sources, a hierarchical subject summary with a probability model of

correlation deviation of the data sources is constructed to discriminate the data sources. Furthermore, a method is described for

constructing a deviation probability model based on artificial feedbacks and correlation measurement of the data sources. Meanwhile, the

diversity-oriented directed edges are built in the hierarchical subject summary of data source in consideration of the diversities of data

∗ 基金项目: 国家自然科学基金(61462037, 61562032, 61173146, 61363039, 61363010); 江西省自然科学基金(20152ACB20003);

江西省高等学校科技落地计划(KJLD12022, KJLD14035)

Foundation item: National Natural Science Foundation of China (61462037, 61562032, 61173146, 61363039, 61363010); Natural

Science Foundation of Jiangxi Province of China (20152ACB20003); Science and Technology Landing Plan of Colleges in Jiangxi

Province of China (KJLD12022, KJLD14035)

收稿时间:

2016-10-12; 修改时间: 2016-11-29, 2017-01-24, 2017-03-09, 2017-03-21; 采用时间: 2017-03-28

3242

Journal of Software 软件学报 Vol.28, No.12, December 2017

sources, and an evaluation metric is proposed to measure data source diversities. Taking the data source selection based on correlation and

diversity as a combinatorial optimization problem, an optimal result of data source selection is achieved by solving an optimization

function. Experimental results show that the proposed method achieves better selection accuracy in selecting data sources with small

sampling documents.

Key words: deep Web; data source selection; subject; probability model; TextRank

在当前的互联网环境下,深网数据源占据较大比例,传统爬虫技术难以有效获取其中的信息资源.深网数据

源中的信息需要向搜索接口提交查询才可以获取,如果一个用户需要集成检索一定规模的深网数据源中的数

据,早期的做法是向每个深网数据源的接口提交相应的查询以获取相关结果.当前,各领域相关深网数据源成百

上千,以上工作显然是非常耗时且令人疲惫的,因此,深网数据集成系统应运而生.

为了帮助用户更容易地使用各深网中的资源,深网数据集成系统建立统一的元查询接口.元查询接口可以

使得用户提交的一个查询自动转换成各数据源接口能够接受的查询语句.如果通过以上方法检索各领域下每

个数据源以获取用户想要的结果,效率将十分低下.另外,由于深网数据源质量相差较大,且用户通常只对排名

较前的检索结果感兴趣,因此人们希望能够在真正执行检索之前获知最佳结果在各数据源中的分布情况,由此

产生了数据源选择技术.

数据源选择技术可以使得用户只检索少量几个数据源便可以获取较理想的结果.在有数据源选择部件的

集成检索框架中,元搜索接口保存着各数据源的摘要.当一个查询到来时,依据数据源摘要满足用户查询的程

度,就可以判定出将用于真实提交查询的 Top-k 数据源.为了提升数据源选择的准确性,面向用户查询的数据源

摘要的构建以及基于摘要的数据源评价方法就成为一个关键问题.

由于通常情况下数据源是非合作的,即,不会向使用者自动提供其全部数据,为了构建深网数据源摘要,需

要通过抽样技术获取深网中的相关数据分布情况.深网有结构化和非结构化两种类型,其中,非结构化深网数量

较多,本文主要针对非结构化深网数据源选择展开相关研究.用户集成检索时,通常会特别关注检索结果与查询

的相关性、检索结果的非重复度(即多样性).为了便于说明,本文把数据源返回的检索结果与查询的相关程度称

为

相关性,数据源返回的检索结果的非重复程度定义为多样性.目前,已有的非结构化深网数据源选择方法较多

地考虑了数据源返回的检索结果与查询的相关程度,即仅考虑相关性,少量研究成果考虑了合作环境下基于相

关性和多样性的数据源选择问题.非合作环境下,为保证数据源选择的效率,数据源摘要通常仅保留少量词项或

文档数据,在此基础上进行基于相关性和多样性的深网数据源选择,这是本文的主要着眼点.

非合作环境下,基于相关性和多样性进行数据源选择需要建立相应的数据源摘要.与基于词项构建数据源

摘要相比,基于抽样文档构建数据源摘要,数据源选择的效果会更好

[1]

.针对一个领域,数据源中的文本内容通常

涉及多个相对固定的主题,且每个主题下的文档内容关联性较强,如汽车领域数据源包含发动机、轮胎、离合

器等主题,每个主题又含有各自的子主题.

因此,本文基于层次主题构建数据源摘要,出发点如下:(1) 基于一个数据源中相同主题下抽样文档内容相

关的特点,可以提升数据源相关性判别的准确度;(2) 基于不同数据源相同主题下抽样文档的多样性程度,可以

有助于估算不同数据源提供检索结果的多样性.

数据源摘要中,与用户查询相关的抽样文档的代表性是有限的,因此,数据源与查询的相关性一般是通过用

户查询相对于数据源摘要各层次主题内容的相关性估算得分来判别.如果能够事先获知该相关性估算得分与

用户查询相对于真实数据源的相关性得分(称为真实相关性得分)的偏差概率分布,则可以基于偏差概率选用合

适方法调整相关性估算得分,这样就可以进一步提升相关性判别的准确率.

由于一个文档可能包含很多不同方面的内容,因此,即使是同一主题下的两个抽样文档,也可能包含不同方

面的内容.由于每篇文档不同方面的内容可由不同的特征词来表征,因此,本文把每篇文档中用特征词表征的不

同方面的内容称为文档特征面.一个数据源给定主题下的抽样文档内容可以包含多个文档特征面,文档特征面

越多,则表示文档内容的多样性越好.因此,本文依据不同数据源摘要中相同主题下抽样文档所包含特征词的多

样性程度来判别该数据源检索结果的多样性.

of 16

免费下载

软件学报计算机技术

关注

评论