自动术语抽取研究综述-张雪，孙宏宇，辛东兴，李翠平，陈红.pdf

上善若水

32页

0次

2022-05-24

免费下载

软件学报 ISSN 1000-9825, CODEN RUXUEW

Journal of Software, [doi: 10.13328/j.cnki.jos.006040]

自动术语抽取研究综述





张

雪

1,2

孙宏宇

1,2

辛东兴

1,2

李翠平

1,2

陈

红

1,2

(中国人民大学信息学院,北京 100872)

(数据工程与知识工程教育部重点实验室(中国人民大学),

北京

通讯作者: 李翠平, E-mail: licuiping@ruc.edu.cn

摘要:

自动术语抽取是从文本集合中自动抽取领域相关的词或短语

的关键基础问题和研究热点.特别是,

随着近年来对非结构化文本大数据研究的兴起

得到学者的广泛关注,取得了较为丰富的研究成果.

本文以术语排序算法为主线

现状及优缺点进行研究综述:

首先概述了自动术语抽取问题的形式化定义和解决框架

基础语言信息和关系结构信息两个层面的特征对近年来国内外的研究成果进行分类

取方法的研究进展和面临的挑战.

最后对术语抽取使用的数据资源及实验评价进行分析

能的研究趋势进行了探讨与展望.

关键词: 自动术语抽取;术语识别;文本处理;机器学

习

中图法分类号: TP391

中文引用格式: 张雪,孙宏宇,辛东兴,李翠平,陈红 .

自动术语抽取研究综述

6040.htm

英文引用格式: Zhang X, Sun

HY, Xin DX, Li CP, Chen H

Bao/Journal of Software, (in Chinese).

http://www.jos.org.cn/1000

Research Survey on Automatic Term Extraction

ZHANG Xue

1,2

, SUN Hong-Yu

1,2

, XIN Dong-Xing

1,2

(School of Information, Renmin University of China, Beijing 100872, China)

(Key

Laboratory of Data Engineering and Knowledge Engineering of Ministry of Education (Renmin University of China), Beijing

100872, China)

Abstract: Automatic term extraction is to extract domain-

related words or phrases from

and research hotspot

in the fields of ontology construction, text summarization and knowledge graph. I

unstructured text studies in big data,

automatic term extraction technology has been further concerned by researchers and has obtained rich

research results recently. With the terminology sorting algorithm as the main clue, this paper surveys the basic theories, te

current research w

orks, advantages and disadvantages of automatic term extraction methods. First, the formalized definition and solution

framework of automatic term extraction problem are outlined. Then, based on the features of the basic language information an

relati

onal structure information in the "shallow parsing", the latest study results are classified, research progress

existing automatic term extraction methods are summaried systematically. Finally, some

approaches are analyzed and this paper predicts possible research trends in the future.

Key words:

automatic term extraction; term recognition; text processing; machine learning

随着大数据、

移动互联网和社交媒体等技术的迅猛发展



基金项目: 国家自然科学基金

(61772537, 61772536, 61702522, 61532021);

Foundation item: National Natural Science Foundation of China (61772537, 61772536, 61702522, 61532021); National

Research and Development Program of China (2018YFB1004401

)

收稿时间: 2019-09-17; 修改时间: 2020-02-09; 采用时间

E-mail: jos@iscas.ac.cn

http://www.jos.org.cn

Tel: +86-10-62562563

1,2

北京

100872)

自动术语抽取是从文本集合中自动抽取领域相关的词或短语

,是本体构建、文本摘要、知识图谱等领域

随着近年来对非结构化文本大数据研究的兴起

,使得自动术语抽取技术进一步

本文以术语排序算法为主线

,对自动术语抽取方法的理论、技术、

首先概述了自动术语抽取问题的形式化定义和解决框架

.然后围绕“浅层语言分析”中

基础语言信息和关系结构信息两个层面的特征对近年来国内外的研究成果进行分类

,系统总结了现有自动术语抽

最后对术语抽取使用的数据资源及实验评价进行分析

,并对自动术语抽取未来可

习

自动术语抽取研究综述

.软件学报. http://www.jos.org.cn/1000-9825/

HY, Xin DX, Li CP, Chen H

. Research survey on automatic term extraction. Ruan Jian Xue

http://www.jos.org.cn/1000

-9825/6040.htm

Research Survey on Automatic Term Extraction

1,2

, LI Cui-Ping

1,2

, CHEN Hong

1,2

(School of Information, Renmin University of China, Beijing 100872, China)

Laboratory of Data Engineering and Knowledge Engineering of Ministry of Education (Renmin University of China), Beijing

related words or phrases from

document collections. It is a core basic problem

in the fields of ontology construction, text summarization and knowledge graph. I

n particular, under the rise of

automatic term extraction technology has been further concerned by researchers and has obtained rich

research results recently. With the terminology sorting algorithm as the main clue, this paper surveys the basic theories, te

chnologies,

orks, advantages and disadvantages of automatic term extraction methods. First, the formalized definition and solution

framework of automatic term extraction problem are outlined. Then, based on the features of the basic language information an

d the

onal structure information in the "shallow parsing", the latest study results are classified, research progress

and major challenges of

existing automatic term extraction methods are summaried systematically. Finally, some

available data resources are listed, evaluation

approaches are analyzed and this paper predicts possible research trends in the future.

automatic term extraction; term recognition; text processing; machine learning

移动互联网和社交媒体等技术的迅猛发展

,使得网络空间中所蕴含的文本数据量呈指数级增

(61772537, 61772536, 61702522, 61532021);

国家重点研发计划(2018YFB1004401)

Foundation item: National Natural Science Foundation of China (61772537, 61772536, 61702522, 61532021); National

Key

)

2020-04-12; jos 在线出版时间: 2020-04-21

Journal of Software 软件学报

长.因此,如何对这些文本数据进行分析并挖掘出最有价值的内容(例如术语、实体、关系、语义图等)成为当前

备受关注的重要研究领域.其中,从大型文本集合中抽取出描述某一特定领域(例如科技文献、社交推文等领域)

的术语(term,包括单词或短语)是文本挖掘和信息抽取的首要步骤,也是本体构建

[1,2]

、文本分类

[3]

、文本摘要

[4,5]

、

机器翻译

[6,7]

、知识图谱

[8]

等领域的关键基础问题和研究热点.特别是,随着近年来对非结构化文本大数据研究

的兴起,术语抽取问题得到更加广泛的关注和深入研究,一些最新的研究成果出现在信息检索

[9]

、自然语言处理

[10]

、数据库

[11,12]

、人工智能

[13]

、数据挖掘

[14,15]

等相关领域的顶级国际会议和期刊上.

自 20 世纪 30 年代初期奥地利术语学博士 Eugen Wuister 教授正式创立“术语学”起至今 80 余年,大量学者

对术语相关领域展开了广泛的研究.最初,借助于术语学者和领域专家的背景知识人工进行术语识别及抽取,形

成特定领域的术语库,供学术界和工业界使用.但这一时期的术语抽取严重依赖于专家知识,抽取工作繁重、耗

时长且效率低,属于人工术语抽取阶段.

之后,伴随着计算机技术的迅猛发展,自动术语抽取(Automatic Term Extraction,简称 ATE)越来越受到关注,

大量的自动术语抽取方法、框架和工具不断涌现,这些方法取得了一定的成绩和较好的效果.这一阶段(属于经

典方法阶段)的自动术语抽取方法主要分为基于语言学、基于统计学和两者混合的抽取方法三类.基于语言学

的术语抽取方法主要是制定可涵盖领域语言特征的规则集合,然后通过形式化定义的规则集合来抽取术语.如

Bourigault 等人

[16]

通过词性标注(Part-of-speech tagging,简称 POS tagging)来标记目标语料库中的所有文档,根

据已有的术语集使用有限状态机技术自动学习出文档中的规则集合.基于语言学的术语抽取方法准确率很高,

但依赖于特定语言规则,可移植性较差,不能跨领域迁移使用,局限性很大.基于此,继而提出了基于统计学的术

语抽取方法和两者混合的术语抽取方法来解决语言无关性和模型通用性问题.如 Justeson 等人

[17]

最早提出了

基于词频的术语抽取方法.Frantzi 等人

[18]

首次将语言学和统计学方法进行融合,提出了 C-value 方法.

经典方法在自动术语抽取过程中只考虑了术语本身特征及其在目标语料库中的词频特征,使得术语抽取

效果深受目标语料库规模和质量的影响.因此,学者逐渐将外部知识(例如维基百科、WordNet 等)、语义信息、

图结构、主题模型及深度学习等技术应用到自动术语抽取任务中.这一阶段(属于拓展方法阶段)的术语抽取方

法不再局限于“浅层语言分析”中的基础语言信息:即术语本身的构词特征和词频特征.而是考虑较深一层的关

系结构信息:包括术语与常用词之间的频率分布差异、术语与术语之间的语义关联以及更多类型特征的融合

等,因此拓展阶段的自动术语抽取方法分为基于外部知识的术语抽取、基于语义相关的术语抽取、基于机器学

习的术语抽取、基于深度学习的术语抽取、基于图的术语抽取和基于主题模型的术语抽取.如 Vivaldi 等人

[19]

于 2010 年使用维基百科辅助抽取术语,Astrakhantsev 等人

[20]

于 2014 年结合术语候选词与领域关键概念共同计

算语义相似度进行术语抽取及排序,同年 Judea 等人

[10]

使用特征工程及条件随机场模型 CRF 来抽取专利术语,

之后 Wang 等人

[21]

将深度学习模型引入自动术语抽取任务中,Lossio-Ventura 等人

[22]

首次将图结构应用到生物

医学领域进行术语抽取,Bolshakova 等人

[23]

利用主题建模技术(例如聚类,LDA)对特定领域的术语进行抽取,并

证明主题信息可以有效提高术语抽取质量.除此之外,自动术语抽取还结合其他领域的思想来提高抽取效果,如

Liu 等人

[12]

于 2015 年首次将短语分割思想与术语抽取相结合,提出 SegPhrase 模型,Shang 等人

[14]

于 2018 年在

Liu 的基础上添加远程监督技术和 POS 指导的短语分割技术,提出 AutoPhrase 模型,有效避免了额外的手动标

记工作并增强术语抽取效果.

本文不同于已有综述文献

[24,25]

,将所有 ATE 方法按照术语特征进行分类

[24]

或者按照术语抽取的关键技术

进行分类

[25]

,而是创新性得提出利用“浅层语言分析”中基础语言信息和关系结构信息两个层面的特征对近年

来国内外的研究成果进行分类总结,并详细描述各个类别中包含的术语抽取模型、使用特征及优缺点.这样做

的好处是可以从更基础更全面的角度对现有 ATE 解决方案进行了解,有助于综合已有的高效方法、较新的方

法及引入有用的外部资源,进而提出更加高效的自动术语抽取特征及解决方法.与之前的综述论文相比,本文主

要围绕“浅层语言分析”来建立一个尽可能完整的领域术语语义图,然后根据语义图中不同类型的信息对现有

ATE 方法进行分类:1)术语特征,即基础语言信息(类似于图中顶点)和 2)术语间的语义关系,即关系结构信息(类

似于图中的边).这种分类方法补充了之前综述论文均忽略的角度:术语间的语义关系,使得本文更加清晰.

of 32

免费下载

软件学报计算机技术

关注

评论