一种准确而高效的领域知识图谱构建方法-杨玉基 , 许斌 , 胡家威 , 仝美涵 , 张鹏 , 郑莉.pdf

上善若水

226

17页

7次

2022-05-19

免费下载

软件学报 ISSN 1000-9825, CODEN RUXUEW E-mail: jos@iscas.ac.cn

Journal of Software,2018,29(10):29312947 [doi: 10.13328/j.cnki.jos.005552] http://www.jos.org.cn

一种准确而高效的领域知识图谱构建方法





杨玉基

许

斌

胡家威

仝美涵

张

鹏

郑

莉

(清华大学计算机科学与技术系知识工程实验室,北京 100084)

通讯作者: 杨玉基, E-mail: yangyujiyyj@gmail.com

摘要: 作为语义网的数据支撑,知识图谱在知识问答、语义搜索等领域起着至关重要的作用,一直以来也是研

究领域和工程领域的一个热点问题,但是,构建一个质量较高、规模较大的知识图谱往往需要花费巨大的人力和时

间成本.如何平衡准确率和效率、快速地构建出一个高质量的领域知识图谱,是知识工程领域的一个重要挑战.对领

域知识图谱构建方法进行了系统研究,提出了一种准确、高效的领域知识图谱构建方法——“四步法”,将该方法应

用到中国基础教育九门学科知识图谱的构建中,在较短时间内构建出了准确率较高的学科知识图谱,证明了该方法

构建领域知识图谱的有效性.以地理学科知识图谱为例,使用“四步法”共得到 67 万个实例、1 421 万条三元组,其中,

标注数据的学科知识覆盖率和知识准确率均在 99%以上.

关键词: 语义网;知识图谱;本体;语义标注;实体集扩充;关系抽取

中图法分类号: TP18

中文引用格式: 杨玉基,许斌,胡家威,仝美涵,张鹏,郑莉.一种准确而高效的领域知识图谱构建方法.软件学报,2018,29(10):

29312947. http ://www.jos.org.cn/1000-9825/5552.htm

英文引用格式: Yang YJ, Xu B, Hu JW, Tong MH, Zhang P, Zheng L. Accurate and efficient method for constructing domain

knowledge graph. Ruan Jian Xue Bao/Journal of Software, 2018,29(10):29312947 (in Chinese). http://www.jos.org.cn/1000 -

9825/5552.htm

Accurate and E fficient Me thod for Constr uc ting Domai n Knowle dge Graph

YANG Yu-Ji, XU Bin, HU Jia-Wei, TONG Mei-Han, ZHANG Peng, ZHENG Li

(Knowledge Engineering Group, Department of Computer and Sciences, Tsinghua University, Beijing 100084, China)

Abstra ct : In supporting semantic Web, knowledge graphs have played a vital role in many areas such as knowledge QA and semantic

search . Theref ore, th ey have b ecome a hot topic in t he field of resear ch and en gineerin g. How ever, it is often costly t o build a large-scale

knowledge graph with high accuracy. How to balance the accuracy and efficiency, and quickly build a high-quality domain knowledge

graph, is a big challenge in the field of knowledge engineering. This paper engages a systematic study on the construction of domain

knowledge graphs, and puts forward an accurate and efficient method of constructing domain knowledge graphs as “four-steps”. This

method has been applied to the construction of knowledge graphs of nine subjects in the k12 education of China, and the nine subject

knowledge graphs have been developed with high accuracy, which demonstrates that the new method is effective. For example, the

geographical knowledge graph, which is constructed using the “four-steps” method, h as 670 thousand instances and 14.21 million triples.

And as part of it, the annotation data’s knowledge coverage and knowledge accuracy are both above 99%.

Key words: semantic Web; knowledge graph; ontology; semantic annotation; entity set expansion; rel ation extraction

1998 年,互联网的创始人 Berners-Lee 最先提出了“语义网(semantic Web)”的概念

[1]

,其核心思想是:在网页

 基金项目: 国家高技术研究发展计划(863)(2015AA015401)

Foundation item: National High Technology Research and Development Plan of China (2015AA015401)

本文由“本体工程与知识图谱”专题特约编辑漆桂林教授推荐.

收稿时间: 2017-07-22; 修改时间: 2017-11-08; 采用时间: 2018-01-24; jos 在线出版时间: 2018-02-08

CNKI 网络优先出版: 2018-02-08 11 :55:49, http: //kns.cnki.net/kcms/d etail/11.2560.TP.20180208.1155.008.html

2932

Journal of Software 软件学报 Vol.29, No.10, October 2018

数据中添加能够被计算机所理解的语义信息,从而提升机器的理解能力.作为语义网的数据支撑,知识图谱成为

研究领域和工程领域的热点问题.知识图谱是一个巨大的知识网络,网络中的节点表示实体,节点之间的边表示

实体和实体之间的关系,实体包含概念和实例两种,每个实体还有很多(属性-值)对来描述实体的内在特性.例

如:“中国”和“俄罗斯”是实例,也是“国家”, 而“国家”是一个概念;“中国”和“俄罗斯”有着“毗邻”的关系,“中国”和

“俄罗斯”也都有各自的“人口数量”“面积”等属性.上述知识都可以通过(主语-谓语-宾语)的形式来描述,这种形

式被称为三元组,也被称为事实.以上事实在知识图谱中就可以表示为:

(中国-类型-国家)

(俄罗斯-类型-国家)

(中国-毗邻-俄罗斯)

(中国-面积-

9 634 057 平方公里)

(中国-人口数量-13.8 亿(2016 年))

(俄罗斯-面积-17 098 242 平方公里)

(俄罗斯-人口数量-1.4 亿(2016 年))

知识图谱可以分为不限领域的知识图谱(通用知识图谱)和限定领域的知识图谱(领域知识图谱)两种.通用

知识图谱有很多,包括研究领域的 DBpedia

[2]

、YAGO

[3]

、Freebase

[4]

等和工程领域的 Google 的 Knowledge

Graph

[5]

、百度的“知心”(http://baike.ba idu.co m/view/ 1097 2128.h tm)、搜狗的“知立方”(http:// baike.bai du.co m/

view/9645207. htm)等.领域知识图谱也有很多被构建出来,例如地理信息领域知识图谱 Ge oname s(http://www.

geonames.org/ontology)、“天眼查”(https://www.tianyancha.com)的企业领域知识图谱等.

知识图谱的构建往往需要付出很大的代价.由于当前的自然语言处理方法还不够完善,完全自动化的构建

方式难以得到较为准确的知识图谱,例如,DBPedia、YAGO 等都存在有较多错误;而完全人工构建的方法虽然保

证了准确性,但却需要花费巨大的人力和时间成本,完全人工构建较大规模的知识图谱几乎不可能.因此,如何

协调准确率和效率、平衡自动化方法和人工参与,以最高效的方式构建出最准确的知识图谱,是目前构建知识

图谱需要解决的一大难题.

本文主要基于以上难题提出了系统性的解决办法——“四步法”,4 个步骤分别是:

步骤 1:领域本体构建;

步骤 2:众包半自动语义标注;

步骤 3:外源数据补全;

步骤 4:信息抽取.

本体构建是指构建出知识图谱的本体结构,本体结构可以理解为知识图谱的框架.众包半自动语义标注指

的是将文本页面众包给多个标注者,根据步骤 1 构建好的本体,利用语义标注工具标注得到高质量的标注数据.

外源数据补全是指将其他来源的结构化程度较好的数据按照本体结构处理后,与标注数据整合在一起.而信息

抽取则是针对知识图谱中较为稀疏的实体或者关系,从文本中进行大规模的抽取和补充.步骤 1、步

骤 2 是知识

图谱的骨架部分,是基础,也是核心.两个步骤相互迭代,本体构建指导标注,标注中遇到的新的情况又可以反向

改进本体结构.步骤 1、步骤 2 保证了知识图谱的准确性.步骤 3、步骤 4 是知识图谱的血肉部分.在步骤 1、步

骤 2 得到的高质量标注数据的基础上进行有针对性的、可控的扩充和补全,保证了知识图谱的覆盖率和构建的

高效性.步骤 3、步骤 4 也是相互迭代的关系,步骤 4 可以利用步骤 3 中得到的关系和实体从文本中进行信息抽

取,步骤 3 也可以利用步骤 4 中抽取出的新的实体和关系,将其他来源的结构化数据中的相关知识补充到知识

图谱中.

以上 4 个步骤能够充分利用领域内高质量的专业资料和海量的互联网数据,高效地构建出准确率较高的

实际可用的领域知识图谱.我们还使用此方法构建出了面向基础教育的地理学科的知识图谱,实例数量 67 万、

三元组数量 1 421 万,其中,标注数据的知识覆盖率和知识准确率达 99%以上.

本文的主要贡献如下.

of 17

免费下载

软件学报计算机技术

关注

评论