暂无图片
暂无图片
暂无图片
暂无图片
暂无图片
自动术语抽取研究综述-张雪,孙宏宇,辛东兴,李翠平,陈红.pdf
82
32页
0次
2022-05-24
免费下载
软件学报 ISSN 1000-9825, CODEN RUXUEW
Journal of Software, [doi: 10.13328/j.cnki.jos.006040]
©国科学院软件研究所版权所.
自动语抽取研究综
1,2
,
宏宇
1,2
,
东兴
1,2
,
翠平
1,2
,
1,2
1
(国人民大 信息学院, 100872)
2
(据工程与知识工程教育重点实验(中国人民大学),
北京
通讯作者: , E-mail: licuiping@ruc.edu.cn
:
自动术语抽取是从文本集合中自动抽取领域相关的词或短语
的关键基础问题和研究热点.特别是,
随着近年来对非结构化文本大数据研究的兴起
得到学者的广泛关注,取得了较为丰富的研究成果.
本文以术语排序算法为主线
现状及优缺点进行研究综述:
首先概述了自动术语抽取问题的形式化定义和解决框架
基础语言信息和关系结构信息两个层面的特征对近年来国内外的研究成果进行分类
取方法的研究进展和面临的挑战.
最后对术语抽取使用的数据资源及实验评价进行分析
能的研究趋势进行了探讨与展望.
关键词: 自动术语抽取;术语识别;文本处理;机器学
图法类号: TP391
: ,, ,, .
6040.htm
英文引用格式: Zhang X, Sun
HY, Xin DX, Li CP, Chen H
Bao/Journal of Software, (in Chinese).
http://www.jos.org.cn/1000
Research Survey on Automatic Term Extraction
ZHANG Xue
1,2
, SUN Hong-Yu
1,2
, XIN Dong-Xing
1,2
1
(School of Information, Renmin University of China, Beijing 100872, China)
2
(Key
Laboratory of Data Engineering and Knowledge Engineering of Ministry of Education (Renmin University of China), Beijing
100872, China)
Abstract: Automatic term extraction is to extract domain-
related words or phrases from
and research hotspot
in the fields of ontology construction, text summarization and knowledge graph. I
unstructured text studies in big data,
automatic term extraction technology has been further concerned by researchers and has obtained rich
research results recently. With the terminology sorting algorithm as the main clue, this paper surveys the basic theories, te
current research w
orks, advantages and disadvantages of automatic term extraction methods. First, the formalized definition and solution
framework of automatic term extraction problem are outlined. Then, based on the features of the basic language information an
relati
onal structure information in the "shallow parsing", the latest study results are classified, research progress
existing automatic term extraction methods are summaried systematically. Finally, some
approaches are analyzed and this paper predicts possible research trends in the future.
Key words:
automatic term extraction; term recognition; text processing; machine learning
随着数据
动互联网社交体等技术迅猛
基金项目: 家自然科学基
(61772537, 61772536, 61702522, 61532021);
Foundation item: National Natural Science Foundation of China (61772537, 61772536, 61702522, 61532021); National
Research and Development Program of China (2018YFB1004401
)
收稿时间: 2019-09-17; 修改时间: 2020-02-09; 用时
:
E-mail: jos@iscas.ac.cn
http://www.jos.org.cn
Tel: +86-10-62562563
1,2
北京
100872)
自动术语抽取是从文本集合中自动抽取领域相关的词或短语
,是本体构建、文本摘要、知识图谱等领域
随着近年来对非结构化文本大数据研究的兴起
,使得自动术语抽取技术进一步
本文以术语排序算法为主线
,对自动术语抽取方法的理论、技术、
首先概述了自动术语抽取问题的形式化定义和解决框架
.然后围绕浅层语言分析
基础语言信息和关系结构信息两个层面的特征对近年来国内外的研究成果进行分类
,系统总结了现有自动术语
最后对术语抽取使用的数据资源及实验评价进行分析
,并对自动术语抽取未来可
.. http://www.jos.org.cn/1000-9825/
HY, Xin DX, Li CP, Chen H
. Research survey on automatic term extraction. Ruan Jian Xue
http://www.jos.org.cn/1000
-9825/6040.htm
Research Survey on Automatic Term Extraction
1,2
, LI Cui-Ping
1,2
, CHEN Hong
1,2
(School of Information, Renmin University of China, Beijing 100872, China)
Laboratory of Data Engineering and Knowledge Engineering of Ministry of Education (Renmin University of China), Beijing
related words or phrases from
document collections. It is a core basic problem
in the fields of ontology construction, text summarization and knowledge graph. I
n particular, under the rise of
automatic term extraction technology has been further concerned by researchers and has obtained rich
research results recently. With the terminology sorting algorithm as the main clue, this paper surveys the basic theories, te
chnologies,
orks, advantages and disadvantages of automatic term extraction methods. First, the formalized definition and solution
framework of automatic term extraction problem are outlined. Then, based on the features of the basic language information an
d the
onal structure information in the "shallow parsing", the latest study results are classified, research progress
and major challenges of
existing automatic term extraction methods are summaried systematically. Finally, some
available data resources are listed, evaluation
approaches are analyzed and this paper predicts possible research trends in the future.
automatic term extraction; term recognition; text processing; machine learning
动互联网社交体等技术迅猛
,使网络间中所蕴的文数据呈指数级
(61772537, 61772536, 61702522, 61532021);
国家重点研发计划(2018YFB1004401)
Foundation item: National Natural Science Foundation of China (61772537, 61772536, 61702522, 61532021); National
Key
)
:
2020-04-12; jos 在线出版时间: 2020-04-21
2
Journal of Software 软件学报
.,对这文本数据行分并挖掘出有价的内(例如语、实体义图)成为
备受注的要研究领.,从大文本集合抽取描述某一定领(例如技文献、社交文等)
的术(term,包括单词短语)本挖掘和息抽的首步骤,本体构建
[1,2]
文本
[3]
本摘
[4,5]
器翻
[6,7]
知识
[8]
域的基础和研.特别,年来构化大数
的兴,语抽问题到更加广的关和深入研,些最新的究成出现在信检索
[9]
然语言处
[10]
、数
[11,12]
、人智能
[13]
、数挖掘
[14,15]
相关域的级国际会和期.
20 30 代初奥地术语学博 Eugen Wuister 授正创立起至 80 余年,大量
术语关领开了广泛的.,助于学者领域家的知识进行语识及抽,
特定域的,学术工业使用.时期语抽严重于专知识,作繁、耗
时长效率,于人术语抽取.
之后,伴随着计机技的迅猛发,动术语抽(Automatic Term Extraction, ATE)越来受到,
量的动术抽取法、和工不断,些方取得一定成绩较好.这一(属于
方法)术语法主为基、基学和者混取方.言学
术语主要涵盖言特集合,通过义的来抽.
Bourigault
[16]
过词性标(Part-of-speech tagging, POS tagging)记目语料中的所有,
已有使用机技学习的规.的术法准,
于特,植性,跨领使,.,于统
抽取法和混合术语方法解决无关和模通用. Justeson
[17]
早提
基于频的语抽取方.Frantzi
[18]
首次语言和统计学法进融合, C-value .
术语语本,使
效果受目语料库规和质的影.,学者逐渐外部(维基科、WordNet )语义息、
图结、主模型深度习等术应到自术语抽取务中.这一(属于展方阶段)术语取方
不再言信:即术词特.考虑
:频率间的征的
,此拓展阶的自术语抽取法分基于外部识的语抽于语义相的术抽取基于机器
习的语抽、基于深学习术语取、基于的术抽取基于主题型的语抽. Vivaldi 等人
[19]
2010 使用基百科辅抽取,Astrakhantsev
[20]
2014 结合语候选词领域键概共同
算语相似进行术语取及,同年 Judea
[10]
使用征工及条件随场模 CRF 抽取利术,
之后 Wang 等人
[21]
深度学习型引自动术语取任,Lossio-Ventura
[22]
次将图结应用生物
学领进行语抽,Bolshakova
[23]
用主建模(例如,LDA)定领术语行抽,
明主信息有效高术取质.之外,自动语抽还结他领思想提高取效,
Liu
[12]
2015 年首次将语分思想与术抽取结合, SegPhrase 模型,Shang
[14]
2018 年在
Liu 基础添加程监督技 POS 指导短语分割,提出 AutoPhrase ,避免额外手动
记工并增术语抽取.
本文同于有综述文
[24,25]
,所有 ATE 法按术语征进行分
[24]
者按照术抽取关键技术
[25]
,得提浅层语言层面
国内成果总结,详细类别语抽、使优缺.这样
的好是可从更基础全面角度现有 ATE 决方进行了解,于综合已的高方法、较的方
及引有用部资,出更高效动术抽取及解方法.的综文相,文主
层语,
ATE 法进分类:1)术语,即基语言信息(于图中顶) 2)语间语义,即关结构信息(
似于中的).分类方法充了前综述论均忽的角:术语的语关系,使得本更加清晰.
of 32
免费下载
【版权声明】本文为墨天轮用户原创内容,转载时必须标注文档的来源(墨天轮),文档链接,文档作者等基本信息,否则作者和墨天轮有权追究责任。如果您发现墨天轮中有涉嫌抄袭或者侵权的内容,欢迎发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论

关注
最新上传
暂无内容,敬请期待...
下载排行榜
Top250 周榜 月榜