暂无图片
暂无图片
暂无图片
暂无图片
暂无图片
基于标签语义注意力的多标签文本分类-肖琳,陈博理,黄鑫,刘华锋,景丽萍,于剑.pdf
339
11页
1次
2022-05-24
免费下载
软件学报 ISSN 1000-9825, CODEN RUXUEW E-mail: jos@iscas.ac.cn
Journal of Software,2020,31(4):10791089 [doi: 10.13328/j.cnki.jos.005923] http://www.jos.org.cn
©中国科学院软件研究所版权所有. Tel: +86-10-62562563
基于标签语义注意力的多标签文本分类
,
陈博理
,
,
刘华锋
,
景丽萍
,
(交通数据分析与挖掘北京市重点实验室(北京交通大学),北京 100044)
通信作者: 景丽萍, E-mail: lpjing@bjtu.edu.cn
: 自大数据蓬勃发展以来,多标签分类一直是令人关注的重要问题,在现实生活中有许多实际应用,如文本
分类、图像识别、视频注释、多媒体信息检索等.传统的多标签文本分类算法将标签视为没有语义信息的符号,
,在许多情况下,文本的标签是具有特定语义的,标签的语义信息和文档的内容信息是有对应关系的,为了建立两
者之间的联系并加以利用, 提出了一种基于标签语义注意力的多标签文本分类(LAbel Semantic Attention
Multi-label Classification,简称 LASA)方法,依赖于文档的文本和对应的标签,在文档和标签之间共享单词表示.对于
文档嵌入,使用双向长短时记忆(bi-directional long short-term memory,简称 Bi-LSTM)获取每个单词的隐表示,通过
使用标签语义注意力机制获得文档中每个单词的权重,而考虑到每个单词对当前标签的重要性.另外,标签在语义
空间里往往是相互关联的,使用标签的语义信息同时也考虑了标签的相关性.在标准多标签文本分类的数据集上得
到的实验结果表明,所提出的方法能够有效地捕获重要的单词,并且其性能优于当前先进的多标签文本分类算法.
关键词: 多标签学习;文本分类;标签语义;注意力机制
中图法分类号: TP311
中文引用格式: 肖琳,陈博理,黄鑫,刘华锋,景丽萍,于剑.基于标签语义注意力的多标签文本分类.软件学报,2020,31(4):
10791089. http ://www.jos.org.cn/1000-9825/5923.htm
英文引用格式: Xiao L, Chen BL, Huang X, Liu HF, Jing LP, Yu J. Multi-label text classification method based on label semantic
information. Ruan Ji an Xue Bao/Jo urnal of Software, 2020,31 (4):10791089 (in Chin ese). http://www.jos.org.cn/1 000-9825/5923.
htm
Multi-label Text Classifica tion Metho d Based on Label Semanti c Informa tion
XIAO Lin, CHEN Bo-Li, HUANG Xin, LIU Hua-Feng, JING Li-Ping, YU Jian
(Beijing Key Laboratory of Traffic Data Analysis and Mining (Beijing Jiaotong University), Beijing 100044, China)
Abstra ct : Multi-label classification has been a practical and important problem since the boom of big data. There are many practical
applications, such as text classification, i mage recognition, vid eo annotation, multimedia information r etrieval, etc. Tr aditional multi-label
text classification algorithms regard l abels as symbols without inherent semantics. However, in many scenarios these labels have spe cific
semantics, and the semantic information of l abels have corresponding relati onship with the content information of the documents, in order
to establish the connection between them and make use of them, a label semantic attention multi-label classification (LASA) method is
proposed based on label semantic attention. The texts and labels of the document are relied on to share the word representation between
the texts and labels. For documents embedding, bi-directional long short-term memory (Bi-LSTM) is used to obtain the hidden
representation of each word. The weight of each word in the document is obtained by using the semantic representation of the label, thus
基金项目: 国家自然科学基金(61822601, 61773050, 61632004); 北京市自然科学基金(Z180006); 北京市科委项目(Z18110000
8918012)
Foundation item: National Natural Science Foundation of China (61822601, 61773050, 61632004); Beijing Natural Science
Foundation of China (Z180006); Beijing Municipal Science & Technology Commission (Z181100008918012)
本文由非经典条件下的机器学习方法专题特约编辑高新波教授、黎铭教授、李天瑞教授推荐.
收稿时间:
2019-05-29; 修改时间: 2019-07-29; 采用时间: 2019-09-20; jos 在线出版时间: 2020-01-10
CNKI 网络优先出版: 2020-01-14 09:53:23, http://kns.cnki.net/kcms/d etail/11.2560.TP.20200114.0953.009.html
1080
Journal of Software 软件学报 Vol.31, No.4, April 2020
taking into account the importance of each word to the current label. In addition, labels are often related to each other in the semantic
space, by using the semantic information of th e labels, the corr elation of the labels is considered to improve th e classification performance
of the model. The experimental results on the standard multi-label classification datasets show that the proposed method can effectively
capture important words, and its perf ormance is b etter than the existing st ate-of-th e-art mult i- label classifi cation algorith ms.
Key words: multi-label; text classification; label seman tic; attention mechanism
随着即时通信、网页等在线内容的快速增长,人们正处在一个海量数据触手可及的信息社会中,各种类型
的数据不断产生,数据量大且又具有多样性,这意味着我们不能使用传统的技术进行处理,如何设计有效的分类
系统来自动处理这些内容成为我们解决问题的关键.在传统的分类方法中,每个样本示例只属于一个类别标记,
即单标记学习.但是现实生活中很多对象是同时属于多个类别,具有多个标签.为了直观反映多义性对象中的多
种标记,人们自然而然地想到了为该对象明确地赋予标记子集.基于以上思想,Schapire
[1]
提出了多标记学习.
标签学习是指从标签集合中为每个实例分配最相关的类标签子集的过程.例如,一个体坛新闻报导很可能既属
体育类别,又属于奥运会类别,还可能属于游泳或者跳水类别.多标签分类在现实生活中有许多实际
应用,例如,文本分类、多媒体信息检索、视频注释、基因功能预测等.
多标签文本分类是多标签分类的重要分支之一,主要应用于主题识别
[2]
、情感分析
[3]
、问答系统
[4]
.多标
签文本数据具有以下特点:(1) 多标签分类允许一个文档属于多个标签,所以标签之间存在相关性;(2) 文档可
能很长,复杂的语义信息可能隐藏在噪音或冗余的内容中;(3) 大多数文档只属于少数标签,大量的尾标签
有少数的训练文档.由于多标签文本数据的特点,研究人员重点关注以下 3 点内容:(1) 如何准确挖掘标签之间
的相关性;(2) 如何从文档中充分捕捉有效信息;(3) 如何从每个文档中提取与对应标签相关的鉴别信息.随着
注意力机制的出现,结合 Bi -L ST M 可有效解决单词远距离依赖的问题同时捕获文档中重要的单词,研究者基于
注意力机制提出了各种多标签文本分类模型
[3,5,6]
,但是传统的注意力机制仅仅是基于文档内容学习单词重要
性权重,将标签看成没有语义信息的原子符号.在多标签文本分类的任务中,标签是文本且含有语义信息,我们
有理由期望利用标签的语义信息指导模型提取文档中重要信息可以进一步提升模型的分类效果.
通过上述分析,虽然多标签学习已经得到了广泛的关注并取得了一系列进步,但仍有若干问题和挑战有待
于进一步地深入研究并解决.其中,如何学习和利用标签的语义信息指导多标签文本分类是关键问题.因此,
文提出了一种融合标签语义信息的标签注意力机制模型,通过使用标签的语义信息,在考虑标签相关性的同时,
获取文档中每个词的重要性.本文使用双向长短时记忆网(Bi-LSTM)获得每个单词的隐表示,再通过标签的
语义表示结合注意力机制获得每个标签和文档中单词的匹配得分,得分与单词表示融合得到每个标签在当前
文档下的文档表示,通过全连接层获得每个标签的概率,最后,利用交叉熵损失进行训练.
本文的主要贡献如下.
1) 本文提出基于标签语义信息的注意力机制,利用标签语义注意力机制捕获每个标签关注的单词,为当前
文档中每个标签学习一个文档表示.
2) 本文提出的模型通过使用标签的语义信息,考虑了标签的相关性,同时有效地缓解了多标签分类中的尾
标签问题,从而大大提升了模型的预测效果.
3) 本文与当前具有代表性的多标签文本分类方法进行了比较评估,通过使用 3 个基准数据集,对提出的算
法性能进行了全面的评估,实验结果表明,我们提出的方法在很大程度上优于基线算法.
1 相关工作
许多分类方法已被提出来以解决多标签学习问题,前期工作主要集中在基于传统机器学习算法的研究,
要包括问题转换方法和算法适应方法两大类.
1 类方法中的算法独立,它通过将多标记学习的任务转化为传统的一个或多个单标记学习任务来进行
处理,而完成单标记分类任务已有很多成熟算法可供选择,Binary Relevance(BR)
[7]
是一种典型的问题转换型方
,将多标签学习问题分解为多个独立的二元分类问题,但是由于 BR 缺乏发现标签之间相互依赖性的能力,
of 11
免费下载
【版权声明】本文为墨天轮用户原创内容,转载时必须标注文档的来源(墨天轮),文档链接,文档作者等基本信息,否则作者和墨天轮有权追究责任。如果您发现墨天轮中有涉嫌抄袭或者侵权的内容,欢迎发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论

关注
最新上传
暂无内容,敬请期待...
下载排行榜
Top250 周榜 月榜