暂无图片
暂无图片
暂无图片
暂无图片
暂无图片
CMvSC__知识迁移下的深度一致性多视图谱聚类网络-张熠玲,杨燕,周威,欧阳小草,胡节.pdf
76
17页
0次
2022-05-19
免费下载
软件学报 ISSN 1000-9825, CODEN RUXUEW E-mail: jos@iscas.ac.cn
Journal of Software, 2022,33(4):13731389 [doi: 10.13328/j.cnki.jos.006474] http://www.jos.org.cn
©中国科学院软件研究所版权所有. Tel: +86-10-62562563
CMvSC: 知识迁移下的深度一致性多视图谱聚类网络
张熠玲
,
,
,
欧阳小草
,
(西南交通大学 计算机与人工智能学院, 四川 成都 611756)
通信作者: 杨燕, E-mail: yyang@swjtu.edu.cn
: 谱聚类是聚类分析中极具代表性的方法之一, 由于其对数据结构没有太多假设要求, 受到了研究者们的
广泛关注. 但传统的谱聚类算法通常受到谱嵌入的可扩展性和泛化性的限制, : 无法应对大规模设置和复杂数
据分布. 为克服以上缺陷, 旨在引入深度学习框架提升谱聚类的泛化能力与可扩展能力, 同时, 结合多视图学习
挖掘数据样本的多样性特征, 从而提出一种知识迁移下的深度一致性多视图谱聚类网络(CMvSC). 首先, 考虑到
单个视图的局部不变性, CMvSC 采用局部学习层独立学习每个视图的特有嵌入; 其次, 由于多视图具有全局一致
, CMvSC 引入全局学习层进行参数共享与特征迁移, 学习多视图间的共享嵌入; 同时, 考虑到邻接矩阵对谱聚
类性能的重要影响, CMvSC 通过训练孪生网络和设计对比损失来学习成对数据间的近邻关系, 以替代传统谱聚类
算法中的距离度量; 最后, 4 个数据集上的实验结果证明了 CMvSC 对多视图谱聚类任务的有效性.
关键词: 谱嵌入; 近邻学习; 知识迁移; 多视图聚类; 深度聚类
中图法分类号: TP181
中文引用格式: 张熠玲, 杨燕, 周威, 欧阳小草, 胡节. CMvSC: 知识迁移下的深度一致性多视图谱聚类网络. 件学报,
2022, 33(4): 1373–1389. http://www.jos.org.cn/1000-9825/6474 .htm
英文引用格式: Zhang YL, Yang Y, Zhou W, Ouyang XC, Hu J. CMvSC: Knowledge Transferring Based Deep Consensus Network
for Multi-view Spectral Clustering. Ruan Jian Xue Bao/Journal of Software, 2022, 33(4): 13731389 (in Chinese). http://www.jos.
org.cn/ 1000-9825/6474.htm
CMvSC: Knowledge Transferring Based Deep Consensus Network for Multi-view Spectral
Clustering
ZHANG Yi-Ling, YANG Yan, ZHOU Wei, OUYANG Xiao-Cao, HU Jie
(School of Computing and Artifici al Intellig ence, South west Jiaotong University, Chengdu 611756, Chin a)
Abstra ct : Spectral clustering, which is one of the most representative methods in clustering analysis, receives much attention from
scholars, because it does not constrain th e data structure of the origin al samples. However, traditional spectral clustering algorithm usually
contains two major limitations, i.e., it is unable to cope with th e large-scale settings and complex dat a distribution. To overcome the above
shortcomings, this study introduces a deep learning framework to improve the generalization and scalability of spectral clustering, and
combines the multi-view learning to mine diverse features among data samples, finally proposes a knowledge transferring based deep
consensus network for multi-v iew spectral clustering (CMvSC). First , considering the local invariance of sing le view, CMvSC adopts the
local learning layer to learn the specific embedding of each view individually. Then, because of the global consistency among multiple
views, CMvSC introduces the glob al learning layer to achieve p arameter sh aring and f eatur e transferring, and l earns the sh ared embedding
in different views. Meanwhile, taking the effect of affinity matrix for spectral clustering into consideration, CMvSC learns the affinity
correlation between the paired samples by training the Siamese network and designing the contrastive loss, which replaces the distance
metric in traditional spectral clustering. Finally, the experimental results on four datasets demonstrate the effectiveness of the proposed
基金项目: 国家自然科学基金(61976 247)
本文由面向开放场景的鲁棒机器学习专刊特约编辑陈恩红教授、李宇峰副教授、邹权教授推荐.
收稿时间: 2021-05-29; 修改时间: 2021-07-16; 采用时间: 2021-08-27; jos 在线出版时间: 2 021-10-26
1374
软件学报 2022 年第 33 卷第 4
CMvSC for multi-view clustering.
Key words: spectral embedding; affinity l earning; kno wledge tr ansferring ; multi-vi ew clust ering; deep clustering
聚类分析旨在从无标签数据中准确有效地发现样本类簇, 其具有重要的科学意义与实际价值. 大数据时
代的到来和新媒体的发展, 催生出了大规模的数据样本, 但为其标记类别标签无疑需要耗费大量人力物力.
聚类技术的发展, 为这些数据的特征提取与潜在结构发现提供了强有力的帮助
[1]
.
目前, 主流的机器学习研究框架大多关注样本数据的某一种形式, 我们称其为单视图学习, 其中, 文本和
图片等某种形式被称为视图
[2]
, 不同的文本表示或不同的图片增广均可被视为不同视图. : 同一条新闻经
由不同媒体报道可能有不同的文字描述, 由此可生成不同的文本表示, 这样的不同表示通常被视为多视图数
. 对人类而, 我们的大脑往往可以同时处理多种视图的信, 提取不同视图间的互补信息和一致信息并
融合, 从而做出更准确、客观的决策. : 我们可以对不同媒体报道的同一新闻在大脑中进行整合和提取,
而推论出新闻事件的较全面的细节. 换言之, 多个视图的信息输入, 使得我们人类可以更全面、客观、多样化
地看待问题. 真实世界中的多视图数据各种各样, 不同视图可能有相同的表达形式, 也可能不尽相同. 例如,
上述提到的同样新闻可以被不同的新闻媒体报道, 因此产生了来自不同视图的文本特征; 同样的情感极性既
可以通过不同图片来表达, 如微笑、大笑等不同表情图片均可表示开心的情绪, 也可以直接用文字表达, 由此
产生了具有不同特征表示形式的视图数据. 当视图之间具有不同表达形式时, 通常被称为多模态数据. 本篇
工作主要关注具有相同表达形式的多视图数据. 但不可否认的是, 无论视图特征的形式如何变, 他们都只
是同一样本对象的不同表示. 因而, 不同视图之间必然存在着某种程度的联系
[3]
. 为了探索不同视图的相关
, 同时挖掘多个视图的特征, 发现其一致性与差异性知识, 使得机器学习算法进一步接近人类智能,面向多
视图学习的研究应运而生.
多视图聚类学习旨在从多个视图中探索并利用互补信息和一致信息, 从而生成一个相比单视图聚类更准
确、更鲁棒的数据划分结果
[4]
. 谱聚类方法由于其对数据结构没有太多假设要求且学习性能优秀, 一直是无监
督数据分析中的极受欢迎的技术之一
[5]
. 多视图谱聚类方法首先从所有视图的邻接矩阵中学习一个融合图,
然后对融合图进行聚类, 得到最后的划分结果. 近年来, 多视图谱聚类算法已经取得了较好的性能, 但是仍存
在一些不足: 首先, 其面向复杂数据分布时的时间效率以及性能均不理想; 其次, 大多数方法是基于传统机
器学习或者只着眼于浅层模型, 无法充分挖掘样本数据的深层特征, 因此所构建的邻接图的知识表示能力有
[6]
. 为进一步提高多视图谱聚类算法解决真实场景问题的能力, 同时考虑尽可能完善上述不足, 众多学者
考虑利用深度学习框架提升多视图谱聚类算法的深层特征学习能力. 而多视图谱聚类算法与深度神经网络结
合的关键性难点在于谱聚类损失函数与神经网络的联合优化问题. 具体来说, 谱聚类要求解决矩阵分解问题
使得联合优化异常困难, 因为矩阵分解的梯度无法被后向传播以达到优化神经网络的目的. 谱网(spectral
clustering using deep neural networks, SpectralNet)
[7]
采用约束随机优化技术训练神经网络, 同时优化谱聚类损
, 有效解决了联合优化问题. 但是 SpectralNet 仅考虑了单视图场景, 忽略了多视图之间的互补信息和关联
知识. 多视图谱聚类网络(multi-view spectral clustering network, MvSCN)
[6]
将其拓展到多视图场景, 挖掘视
内一致性与视图间差异性特征, 大大提升了算法性能. MvSCN 类似, 本篇工作同样关注深度多视图谱聚类
网络, 但与之不同的是: 本文主要考虑多视图数据之间既存在单视图局部不变性, 也隐含多视图全局一致性,
因此分别针对单视图和多视图引入局部学习层与全局学习层以获得特有嵌入和共享嵌入, 保证多视图特征的
特有性和一致性, 增强算法鲁棒性.
解决深度多视图谱聚类任务的关键挑战主要有以下两点.
1) 如何建立有效的多视图框架并获得包含足够丰富特征的一致性谱嵌入? 与传统多视图谱聚类算法类
, 深度多视图谱聚类利用神经网络层(如全连接层)学习原始数据样本的低秩表示, 并对多视图谱嵌入进行
融合;
2) 如何构建样本对间的近邻关系? 邻接矩阵对谱聚类算法有重要影响, 其不仅需要包含丰富的近邻关
of 17
免费下载
【版权声明】本文为墨天轮用户原创内容,转载时必须标注文档的来源(墨天轮),文档链接,文档作者等基本信息,否则作者和墨天轮有权追究责任。如果您发现墨天轮中有涉嫌抄袭或者侵权的内容,欢迎发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论

关注
最新上传
暂无内容,敬请期待...
下载排行榜
Top250 周榜 月榜