
3242
Journal of Software 软件学报 Vol.28, No.12, December 2017
sources, and an evaluation metric is proposed to measure data source diversities. Taking the data source selection based on correlation and
diversity as a combinatorial optimization problem, an optimal result of data source selection is achieved by solving an optimization
function. Experimental results show that the proposed method achieves better selection accuracy in selecting data sources with small
sampling documents.
Key words: deep Web; data source selection; subject; probability model; TextRank
在当前的互联网环境下,深网数据源占据较大比例,传统爬虫技术难以有效获取其中的信息资源.深网数据
源中的信息需要向搜索接口提交查询才可以获取,如果一个用户需要集成检索一定规模的深网数据源中的数
据,早期的做法是向每个深网数据源的接口提交相应的查询以获取相关结果.当前,各领域相关深网数据源成百
上千,以上工作显然是非常耗时且令人疲惫的,因此,深网数据集成系统应运而生.
为了帮助用户更容易地使用各深网中的资源,深网数据集成系统建立统一的元查询接口.元查询接口可以
使得用户提交的一个查询自动转换成各数据源接口能够接受的查询语句.如果通过以上方法检索各领域下每
个数据源以获取用户想要的结果,效率将十分低下.另外,由于深网数据源质量相差较大,且用户通常只对排名
较前的检索结果感兴趣,因此人们希望能够在真正执行检索之前获知最佳结果在各数据源中的分布情况,由此
产生了数据源选择技术.
数据源选择技术可以使得用户只检索少量几个数据源便可以获取较理想的结果.在有数据源选择部件的
集成检索框架中,元搜索接口保存着各数据源的摘要.当一个查询到来时,依据数据源摘要满足用户查询的程
度,就可以判定出将用于真实提交查询的 Top-k 数据源.为了提升数据源选择的准确性,面向用户查询的数据源
摘要的构建以及基于摘要的数据源评价方法就成为一个关键问题.
由于通常情况下数据源是非合作的,即,不会向使用者自动提供其全部数据,为了构建深网数据源摘要,需
要通过抽样技术获取深网中的相关数据分布情况.深网有结构化和非结构化两种类型,其中,非结构化深网数量
较多,本文主要针对非结构化深网数据源选择展开相关研究.用户集成检索时,通常会特别关注检索结果与查询
的相关性、检索结果的非重复度(即多样性).为了便于说明,本文把数据源返回的检索结果与查询的相关程度称
为
相关性,数据源返回的检索结果的非重复程度定义为多样性.目前,已有的非结构化深网数据源选择方法较多
地考虑了数据源返回的检索结果与查询的相关程度,即仅考虑相关性,少量研究成果考虑了合作环境下基于相
关性和多样性的数据源选择问题.非合作环境下,为保证数据源选择的效率,数据源摘要通常仅保留少量词项或
文档数据,在此基础上进行基于相关性和多样性的深网数据源选择,这是本文的主要着眼点.
非合作环境下,基于相关性和多样性进行数据源选择需要建立相应的数据源摘要.与基于词项构建数据源
摘要相比,基于抽样文档构建数据源摘要,数据源选择的效果会更好
[1]
.针对一个领域,数据源中的文本内容通常
涉及多个相对固定的主题,且每个主题下的文档内容关联性较强,如汽车领域数据源包含发动机、轮胎、离合
器等主题,每个主题又含有各自的子主题.
因此,本文基于层次主题构建数据源摘要,出发点如下:(1) 基于一个数据源中相同主题下抽样文档内容相
关的特点,可以提升数据源相关性判别的准确度;(2) 基于不同数据源相同主题下抽样文档的多样性程度,可以
有助于估算不同数据源提供检索结果的多样性.
数据源摘要中,与用户查询相关的抽样文档的代表性是有限的,因此,数据源与查询的相关性一般是通过用
户查询相对于数据源摘要各层次主题内容的相关性估算得分来判别.如果能够事先获知该相关性估算得分与
用户查询相对于真实数据源的相关性得分(称为真实相关性得分)的偏差概率分布,则可以基于偏差概率选用合
适方法调整相关性估算得分,这样就可以进一步提升相关性判别的准确率.
由于一个文档可能包含很多不同方面的内容,因此,即使是同一主题下的两个抽样文档,也可能包含不同方
面的内容.由于每篇文档不同方面的内容可由不同的特征词来表征,因此,本文把每篇文档中用特征词表征的不
同方面的内容称为文档特征面.一个数据源给定主题下的抽样文档内容可以包含多个文档特征面,文档特征面
越多,则表示文档内容的多样性越好.因此,本文依据不同数据源摘要中相同主题下抽样文档所包含特征词的多
样性程度来判别该数据源检索结果的多样性.
评论