暂无图片
暂无图片
暂无图片
暂无图片
暂无图片
基于跨模态自蒸馏的零样本草图检索-田加林,徐行,沈复民,申恒涛.pdf
330
14页
0次
2022-05-19
免费下载
软件学报 ISSN 1000-9825, CODEN RUXUEW E-mail: jos@iscas.ac.cn
Journal of Software, [doi: 10.13328/j.cnki.jos.006620] http://www.jos.org.cn
©中国科学院软件研究所版权所有. Tel: +86-10-62562563
基于跨模态自蒸馏的零样本草图检索
田加林
1
,
徐行
1
,
沈复民
1
,
申恒涛
1
1
(电子科技大学 计算机科学与工程学院, 四川 成都 611731)
通讯作者: 申恒涛, E-mail: shenhengtao@hotmail.com
: 零样本草图检索将未见类的草图作为查询样本,用于检索未见类的图像。因此,这个任务同时面临
个挑战:草图和图像之间的模态差异以及可见类和未见类的不一致性。过去的方法通过将草图和图像投射到一个
公共空间来消除模态差异,还通过利用语义嵌入(如词向量和词相似度)来弥合可见类和未见类的语义不一致。
在本文中,我们提出了跨模态自蒸馏方法,从知识蒸馏的角度研究可泛化的特征,无需语义嵌入参与训练。具体
而言,我们首先通过传统的知识蒸馏将预训练的图像识别网络的知识迁移到学生网络。然后,通过草图和图像的
跨模态相关性,跨模态自蒸馏将上述知识间接地迁移到草图模态的识别上,提升草图特征的判别性和泛化性。
了进一步提升知识在草图模态内的集成和传播,我们进一步地提出草图自蒸馏。通过为数据学习辨别性的且泛化
的特征,学生网络消除了模态差异和语义不一致性。我们在三个基准数据集, SketchyTU-Berlin QuickDraw
进行了广泛的实验,证明了我们提出的跨模态自蒸馏方法与当前方法相比较的优越性。
关键词: 零样本草图检索;零样本学习;跨模态检索;知识蒸馏
中图法分类号: TP311
中文引用格式: 田加林, 徐行, 沈复民, 申恒涛. 基于跨模态自蒸馏的零样本草图检索. 软件学报,2022.
http://www.jos.org.cn/1000-9825/6620.htm
英文引用格式: Tian JL, Xu X, Shen FM, Shen HT. Cross-Modal Self-Distillation for Zero-Shot Sketch-Based Image Retrieval.
Ruan Jian Xue Bao/Journal of Software, 2022 (in Chinese). http://www.jos.org.cn/1000-9825/6620.htm
Cross-Modal Self-Distillation for Zero-Shot Sketch-Based Image Retrieval
TIAN Jia-Lin
1
, XU Xing
1
, SHEN Fu-Min
1
, SHEN Heng-Tao
1
1
(School of Computer Science and Engineering, University of Electronic Science and Technology of China 611731, China)
Abstract: Zero-Shot sketch-based image retrieval uses sketches of unseen classes as query samples for retrieving images of unseen
classes. Thus, this task faces two challenges simultaneously: modal gap between sketches and images and inconsistencies between seen
and unseen classes. Previous approaches have tried to eliminate the modal gap by projecting sketches and images into a common space,
and bridged the semantic inconsistency between seen and unseen classes by using semantic embeddings (e.g., word vectors and word
similarity). In this paper, we propose a Cross-Modal Self-Distillation approach to study generalizable features from the perspective of
knowledge distillation without the involvement of semantic embeddings in training. Specifically, we first transfer the knowledge of the
pre-trained image recognition network to the student network through traditional knowledge distillation. Then, through the cross-modal
correlation of sketch and image, cross-modal self-distillation indirectly transfer the above knowledge to the recognition of sketches to
enhance the discriminative and generalizable features of sketch features. To further enhance the integration and propagation of knowledge
within the sketch modality, we further propose sketch self-distillation. By learning discriminative and generalizable features for the data,
the student network eliminates the modal gap and semantic inconsistencies. We conduct extensive experiments on three benchmark
datasets, namely Sketchy, TU-Berlin, and QuickDraw, to demonstrate the superiority of our proposed cross-modal self-distillation
approach compared to the state-of-the-art.
Key words: zero-shot sketch-based image retrieval; zero-shot learning; cross-modal retrieval; knowledge distillation
基金项目: 国家自然科学基金(61976049, 62072080, 61632007)
收稿时间: 2021-06-27; 修改时间: 2021-08-15; 采用时间: 2022-01-14; jos 在线出版时间: 2022-02-22
2
Journal of Software
软件学报
融媒体旨在整合存在共同点又存在互补性的媒体,需要充分各种媒介载体,实现“资源通融、内容兼融、
宣传互融、利益共融”的新型媒体。在这种需求之下,针对各种媒体数据的智能处理是必然要面临的挑战。
近年来,移动互联网的蓬勃发展带来了多媒体数据爆发式的增长。这些数据不仅来源广泛,而且内容和媒体
形式也复杂多变。在这种环境下,如何更加精准地进行内容分析、建立不同媒体数据间的联系并服务于数据
检索分析等应用场景,是实现融媒体的重要一环当今时代,随着触摸屏设备的流行,电子数据化的手绘
草图变得越来越容易获取。由于草图几乎可以由任何人费很小的代价画出,且不涉及隐私和版权的问题,
于融媒体实现具有很高的利用价值。
草图检索是利用草图的一个重要方向。尽管草图表现出高度的抽象性,它仍然包含足够的结构和外形
息来描述对象,催生出使用草图从庞大的图像集中检索出所需内容的需求。因此,基于草图的图像检索
(Sketch-Based Image Retrieval,简称 SBIR)任务得到了越来越多的关注和研究。现有的 SBIR 方法在可见类(即
训练时所用数据的类别集合)数据上的检索效果表现良好,但却难以应用到实际的应用场景。第一原因在于
“类别这个概念广泛存在于现实场景中,不可能收集到所有类别的数据。第二原因在于这些方法在设计时只
考虑训练数据的特点,却未考虑方法的泛化性。因此,它们在零样本草图检索(Zero-Shot Sketch-Based Image
Retrieval,简称 ZS-SBIR)
[1]
任务中证实性能表现不佳
对于 ZS-SBIR 任务,模型训练于可见类数据,但却测试于未见类数据。这样的行为差异要求我们在模型
设计和训练时,既要考虑草图和图像数据形态上的模态差异,也要考虑可见类和未见类的语义不一致性问题
[2]
最近,一些工作大部分只专注于解决模态差异
[3]
问题,对语义不一致性问题不够重视。它们中的大部分
工作
[4–8]
都采取深度生成模型作为主要框架,学习从模态的原始表征到公共嵌入空间
[9]
的投影忽略了之前
由预训练模型获得的知识。虽然 Liu 等人
[10]
率先尝试利用知识蒸馏过程来保留丰富的视觉特征,但他们的方
法依旧是基于单模态知识蒸馏的想法。由于目前没有大规模预训练的草图识别模型,单模态知识蒸馏方法只
能针对图像模态,忽略了对草图的泛化性的重要性
此外,这些 ZS-SBIR 方法(除了 Kiran 等人的工作
[5]
)期望通过简单地利用语义嵌入,以消除可见类和未见
类的语义不一致性问题。它们或者是词向量模型中提取类名的词向量
[1,6,8]
通过分层模型衡量类名的
相似性
[10]
或者以上二者的结合
[4]
然而,这有两方面的问题。一方面是语义嵌入编码的信息大部分是
文本信息, ZS-SBIR 是视觉任务,它的引导作用不是最优的。另一方面在于,从类名提取语义嵌入需要预
先定义准确的类名,并且需要额外的语言模型和时间消耗,导致训练资源获取方面的负担。然而,在一些
际的应用场景中,数据只能被数字标记(例如,出于隐私原因)或者类名是稀有词或复合词,因而无法从语
言模型中提取语义嵌入。
为了解决上述问题,本文提出了一种新的方法,即跨模态自蒸馏方法(Cross-Modal Self-Distillation, 简称
CMSD)用于零样本草图检索。本论文提出的 CMSD 方法可以通过跨模态知识迁移而无需语义嵌入来实现
越现有方法的性能如图 1 所示,CMSD 方法解决了现有的单模态知识蒸馏的限制,将知识流通过跨模态迁
移从图像模态引入其他模态。 2 展示 CMSD 方法具体流程框架,在该框架中,学生网络同时处理图像
和草图通过特征的相似性和加权概率实现跨模态知识迁移
为了从图像和草图数据中学习具有判别性、又不失泛化性的特征,我们从分类和蒸馏两大方面进行模型
训练。首先,图像和草图必须被正确的分类,这将保证特征的判别性。其次,知识蒸馏将避免训练中的模型
迅速地过拟合到特定于模态的信息,造成预训练知识的遗忘。我们采用和设计了三种知识蒸馏损失第一
我们通过传统的知识蒸馏损失,使学生网络模仿教师模型图像分类能力第二,我们提出跨模态自蒸馏损
失。跨模态自蒸馏利用草图和图像的特征相似度作为桥接模态差异的手段,以集成和传播的方式教师模
型的图像分类知识间接迁移到草图模态。具体而言,我们假设具有相近视觉特征的图像和草图也应该具有
一致的分类预测概率;因而对任意草图样本而言,其他图像样本的分类预测概率可以加权集成和传播,形
成软目标
(soft target),作为该草图样本的分类监督信号。通过优化跨模态自蒸馏损失,既可以缩小特征的模
态差异,同时还提升模型在零样本场景下的泛化性。最后,我们进一步假设特征相近的草图也有上述的性质,
of 14
免费下载
【版权声明】本文为墨天轮用户原创内容,转载时必须标注文档的来源(墨天轮),文档链接,文档作者等基本信息,否则作者和墨天轮有权追究责任。如果您发现墨天轮中有涉嫌抄袭或者侵权的内容,欢迎发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论

关注
最新上传
暂无内容,敬请期待...
下载排行榜
Top250 周榜 月榜