2
Journal of Software 软件学报
长.因此,如何对这些文本数据进行分析并挖掘出最有价值的内容(例如术语、实体、关系、语义图等)成为当前
备受关注的重要研究领域.其中,从大型文本集合中抽取出描述某一特定领域(例如科技文献、社交推文等领域)
的术语(term,包括单词或短语)是文本挖掘和信息抽取的首要步骤,也是本体构建
[1,2]
、文本分类
[3]
、文本摘要
[4,5]
、
机器翻译
[6,7]
、知识图谱
[8]
等领域的关键基础问题和研究热点.特别是,随着近年来对非结构化文本大数据研究
的兴起,术语抽取问题得到更加广泛的关注和深入研究,一些最新的研究成果出现在信息检索
[9]
、自然语言处理
[10]
、数据库
[11,12]
、人工智能
[13]
、数据挖掘
[14,15]
等相关领域的顶级国际会议和期刊上.
自 20 世纪 30 年代初期奥地利术语学博士 Eugen Wuister 教授正式创立“术语学”起至今 80 余年,大量学者
对术语相关领域展开了广泛的研究.最初,借助于术语学者和领域专家的背景知识人工进行术语识别及抽取,形
成特定领域的术语库,供学术界和工业界使用.但这一时期的术语抽取严重依赖于专家知识,抽取工作繁重、耗
时长且效率低,属于人工术语抽取阶段.
之后,伴随着计算机技术的迅猛发展,自动术语抽取(Automatic Term Extraction,简称 ATE)越来越受到关注,
大量的自动术语抽取方法、框架和工具不断涌现,这些方法取得了一定的成绩和较好的效果.这一阶段(属于经
典方法阶段)的自动术语抽取方法主要分为基于语言学、基于统计学和两者混合的抽取方法三类.基于语言学
的术语抽取方法主要是制定可涵盖领域语言特征的规则集合,然后通过形式化定义的规则集合来抽取术语.如
Bourigault 等人
[16]
通过词性标注(Part-of-speech tagging,简称 POS tagging)来标记目标语料库中的所有文档,根
据已有的术语集使用有限状态机技术自动学习出文档中的规则集合.基于语言学的术语抽取方法准确率很高,
但依赖于特定语言规则,可移植性较差,不能跨领域迁移使用,局限性很大.基于此,继而提出了基于统计学的术
语抽取方法和两者混合的术语抽取方法来解决语言无关性和模型通用性问题.如 Justeson 等人
[17]
最早提出了
基于词频的术语抽取方法.Frantzi 等人
[18]
首次将语言学和统计学方法进行融合,提出了 C-value 方法.
经典方法在自动术语抽取过程中只考虑了术语本身特征及其在目标语料库中的词频特征,使得术语抽取
效果深受目标语料库规模和质量的影响.因此,学者逐渐将外部知识(例如维基百科、WordNet 等)、语义信息、
图结构、主题模型及深度学习等技术应用到自动术语抽取任务中.这一阶段(属于拓展方法阶段)的术语抽取方
法不再局限于“浅层语言分析”中的基础语言信息:即术语本身的构词特征和词频特征.而是考虑较深一层的关
系结构信息:包括术语与常用词之间的频率分布差异、术语与术语之间的语义关联以及更多类型特征的融合
等,因此拓展阶段的自动术语抽取方法分为基于外部知识的术语抽取、基于语义相关的术语抽取、基于机器学
习的术语抽取、基于深度学习的术语抽取、基于图的术语抽取和基于主题模型的术语抽取.如 Vivaldi 等人
[19]
于 2010 年使用维基百科辅助抽取术语,Astrakhantsev 等人
[20]
于 2014 年结合术语候选词与领域关键概念共同计
算语义相似度进行术语抽取及排序,同年 Judea 等人
[10]
使用特征工程及条件随机场模型 CRF 来抽取专利术语,
之后 Wang 等人
[21]
将深度学习模型引入自动术语抽取任务中,Lossio-Ventura 等人
[22]
首次将图结构应用到生物
医学领域进行术语抽取,Bolshakova 等人
[23]
利用主题建模技术(例如聚类,LDA)对特定领域的术语进行抽取,并
证明主题信息可以有效提高术语抽取质量.除此之外,自动术语抽取还结合其他领域的思想来提高抽取效果,如
Liu 等人
[12]
于 2015 年首次将短语分割思想与术语抽取相结合,提出 SegPhrase 模型,Shang 等人
[14]
于 2018 年在
Liu 的基础上添加远程监督技术和 POS 指导的短语分割技术,提出 AutoPhrase 模型,有效避免了额外的手动标
记工作并增强术语抽取效果.
本文不同于已有综述文献
[24,25]
,将所有 ATE 方法按照术语特征进行分类
[24]
或者按照术语抽取的关键技术
进行分类
[25]
,而是创新性得提出利用“浅层语言分析”中基础语言信息和关系结构信息两个层面的特征对近年
来国内外的研究成果进行分类总结,并详细描述各个类别中包含的术语抽取模型、使用特征及优缺点.这样做
的好处是可以从更基础更全面的角度对现有 ATE 解决方案进行了解,有助于综合已有的高效方法、较新的方
法及引入有用的外部资源,进而提出更加高效的自动术语抽取特征及解决方法.与之前的综述论文相比,本文主
要围绕“浅层语言分析”来建立一个尽可能完整的领域术语语义图,然后根据语义图中不同类型的信息对现有
ATE 方法进行分类:1)术语特征,即基础语言信息(类似于图中顶点)和 2)术语间的语义关系,即关系结构信息(类
似于图中的边).这种分类方法补充了之前综述论文均忽略的角度:术语间的语义关系,使得本文更加清晰.
评论