暂无图片
暂无图片
暂无图片
暂无图片
暂无图片
中文文本蕴含类型及语块识别方法研究-于东,金天华,谢婉莹,张艺,荀恩东.pdf
437
15页
0次
2022-05-24
免费下载
软件学报 ISSN 1000-9825, CODEN RUXUEW E-mail: jos@iscas.ac.cn
Journal of Software,2020,31(12):37723786 [doi: 10.13328/j.cnki.jos.005885] http://www.jos.org.cn
©中国科学院软件研究所版权所有. Tel: +86-10-62562563
中文文本蕴含类型及语块识别方法研究
,
金天华
,
谢婉莹
,
,
荀恩东
(北京语言大学 信息科学学院,北京 100083)
通讯作者: 荀恩东, E-mail: edxun@126.com
: 文本蕴含识别(RTE)是判断两个句子语义是否具有蕴含关系的任务.近年来英文蕴含识别研究取得了
大发展,但主要是以类型判断为主,在数据中精确定位蕴含语块的研究比较少,蕴含类型识别的解释性较低.从中文
文本蕴含识别(CNLI)数据中挑选 12 000 个中文蕴含句对,人工标注引起蕴含现象的语块,结合语块的语言学特征分
析归纳了 7 种具体的蕴含类型.在此基础上,将中文蕴含识别任务转化为 7 分类的蕴含类型识别和蕴含语块边界-
型识别任务,在深度学习模型上达到 69.19% 62.09%的准确率.实验结果表明,所提出的方法可以有效发现中文蕴
含语块边界及与之对应的蕴含类型,为下一步研究提供了可靠的基准方法.
关键词: 文本蕴含识别;语块识别;蕴含类型;深度学习
中图法分类号: TP18
中文引用格式: 于东,金天华,谢婉莹,张艺,荀恩东.中文文本蕴含类型及语块识别方法研.软件学报,2020,31(12):37723786.
http://www.jos.org.cn/1000-9825/5885.htm
英文引用格式: Yu D, Jin TH, Xie WY, Zhang Y, Xun ED. Recognition method based on deep learning for Chinese textual
entailment chunks and labels. Ruan Jian Xue Bao/Journal of Software, 2020,31(12):37723786 (in Chinese). http://www.jos.org.
cn/1000-9825/5885.ht m
Recognition Method Based on Deep Learning for Chinese Textual Entailment Chunks and Labels
YU Dong, JIN Tian-Hua, XIE Wan-Ying, ZHANG Yi, XUN En-Dong
(College of Information Science, Beijing Language and Culture University, Beijing 100083, China)
Abstra ct : Recognizing textual entailment (RTE) is a task to recognize whether two sentences have an entailment relationship. In recent
years, RTE in English had made a great progress. The current researches are mainly based on type judgment, and pay less attention to
locate the language chunks that lead to the entailment relationship. More over, it leads to a low interpretability of the RTE models. This
study selects 12 000 Chinese entailment sentence pairs from the Chinese Natural Language Inference (CNLI) data and labeled chunks
which lead to their ent ailment relationship. Then 7 entail ment types are summarized considering Chinese linguis tic features. On the basis,
two tasks are proposed. One is to recognize the seven-category of entailment type for each entailment sentence pairs, another is to
recognize the boundaries of the entailment chunks in it. The proposed deep learning based method reaches an accuracy of 69.19% and
62.09% in the two tasks. The experimental results sho w that proposed approaches can effectively identifying different types of entailment
in Chinese and find the boundaries of the entailment chunks, which demonstrate that the proposed model provides a reliable benchmark
for further research.
Key words: recognizing textual entailment; chunk lab eling; deep l earnin g
人工智能的发展离不开自然语言处理,而深度学习模型的进步,使得机器可以更容易地理解自然语言.自然
语言处理很重要的一点就是实现文本的深度理解,进而在大量文本之间进行语义推理,促进阅读理解、问答系
统、文本摘要等垂直任务的发展.
基金项目: 国家重点研发计划(2018YFB1005105)
Foundation it em: National Key Research and Development Program of China (2018YFB1005105)
收稿时间: 2019-04-02; 修改时间: 2019-06-05; 采用时间: 2019-09-07
于东 :中文文本蕴含类型及语块识别方法研究
3773
在这个过程中,文本蕴含识别(recognizing textual entailment,简称 RTE)是极为基础和重要的环节.文本蕴含
是一对文本之间的有向推理关系
[1]
,其中,蕴含前件记作 P(pre mi se ), 蕴含后件记作 H( hy pothe si s). 作为文本蕴含
的基本任务,文本蕴含识别以语义理解为基础,判断两个句子之间语义关系.如果两个句子具有蕴含关系,那么
这两个句子被称为蕴含句对.例如:
(1) P:一名男子
与一名男孩说话. H:一名成年人与一名儿童说话.
(1),“男子成年人是上下位词,“男孩儿童也是上下位词,所以 P H 是由上下位词导致的蕴
含现象.
(2) P:一位欣赏蝴蝶的年轻女孩
. H:一个女孩很欣赏蝴蝶.
(2),P 是由定中短语构成的陈述句,H 是将定中短语转变成主谓结构的陈述句,两句话的语义内容一致,
但是句法结构不同,所以 P H 是由句法变换导致的蕴含现象.
(3) P:一对年轻夫妇
刚刚订婚. H:一对夫妇刚刚订婚.
(3),P 中主语夫妇的定语修饰语年轻 H 中被省略,所以 P H 是由省略变换引起的蕴含现象.
从以上 3 组例句看到,蕴含关系取决于句子中标有下划线的语言成分.当两个句子中对应的语言成分具有
蕴含关系,那么这两个句子就是蕴含的,反之则不然.这些语言成分被称为语块”,这一概念最早来自美国心理学
家、认知学家 Miller,她于 1956 年首次提出了记忆中组块”,后被语言学家移植到语言领域
[2,3]
.Wray
[4]
认为:语块
是一个存储在大脑中的整体预制块,在使用时从记忆中被整块调用,而不是按照语法规则产出或分析的连续或
非连续的由词汇构成的语串.在文本蕴含研究中,我们把导致蕴含关系的语块称为蕴含语块.蕴含语块介于词和
句子之间,具有独立的语义和语用形式,蕴含语块之间的关系类型决定了蕴含句对之间的关系类型.
但是蕴含语块研究尚未得到广泛关注,很少有研究者尝试用现有模型发现蕴含语,也很少有研究根据语
块解释具体的蕴含类型和其中包含的推理机制.而语言学对于蕴含的研究集中于概念定义和逻辑命题证明
[5,6]
,
因此需要从大规模蕴含数据中标注出蕴含语块,分析其中的语言学特征,归纳形成一套较为系统的中文蕴含类
型体系.该体系有利于直观描述蕴含的本质特征,加强人们对蕴含现象的理解,提升模型对文本蕴含识别的解释
.本文人工标注了 12 000 个中文蕴含句对,从词汇、句法、常识推理等 3 个角度归纳中文文本蕴含类型,并从
3 大类延伸出 7 个具体小类.
我们将文本蕴含识别任务细化为蕴含类型识别和蕴含语块-类型识别两个子任务.蕴含类型识别可以转化
为分类任务.目前的蕴含类型识别受益于大规模数据集和深度神经网络模,通常使用带有注意力机制的
LSTM(long short term memory)模型预测蕴含标签
[79]
.现有针对蕴含语块识别的研究比较少,主要是用对齐的
方法找出蕴含句对中相似部分
[10]
,模型不需要理解句子的语义信息.另一方面,蕴含类型识别可以共享语块识别
任务中得到的语义知识,但不能解决多种蕴含类型同时出现在一组蕴含句对里的情况.因此,我们提出蕴含语块
-类型识别任务,它可以转化为序列标注任务,“位置-类型为标签,标注出语块在句子中的位置信息和蕴含类型.
我们用 ESIM
[11]
,BERT
[12]
等模型作为基线,在标注数据上分别实现了 7 分类的蕴含类型识别任务和 17 分类的蕴
含语块边界识别任务.
本文贡献在于以下 3 .
(1) 数据方面,归纳了 7 个中文文本蕴含的类型,经过人工标注得到 12 000 条中文蕴含语块类型数据,为中
文文本蕴含研究提供新的参考;
(2) 实验方面, ESIM 模型和 BERT 模型迁移到中文蕴含数据上,做了两个相关的任务,证明了带有注意
力机制的模型在中文文本蕴含上是可行的(https://github.c om/ blc unlp/ CTE CL);
(3) 任务方面,提出一个同时预测蕴含语块边界和蕴含类型的新任务,扩展了文本蕴含研究内容,促进了
蕴含研究的发展.
本文第 1 节介绍文本蕴含任务的相关工作. 2 节介绍基于语言学特征的中文文本蕴含分类体系. 3
介绍蕴含语块类型的标注情况,并对数据进行类型和结构分析. 4 节说明使用深度学习模型进行中文文本蕴
含类型识别的算法,进行实验并分析结果. 5 节说明使用深度学习模型进行中文文本蕴含语块-类型识别的算
of 15
免费下载
【版权声明】本文为墨天轮用户原创内容,转载时必须标注文档的来源(墨天轮),文档链接,文档作者等基本信息,否则作者和墨天轮有权追究责任。如果您发现墨天轮中有涉嫌抄袭或者侵权的内容,欢迎发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论

关注
最新上传
暂无内容,敬请期待...
下载排行榜
Top250 周榜 月榜