基于对象位置线索的弱监督图像语义分割方法-李阳，刘扬，刘国军，郭茂祖.pdf

上善若水

17页

0次

2022-05-24

免费下载

软件学报 ISSN 1000-9825, CODEN RUXUEW E-mail: jos@iscas.ac.cn

Journal of Software,2020,31(11):3640−3656 [doi: 10.13 328/j.cnki.jos.005828] http://www.jos.org.cn

基于对象位置线索的弱监督图像语义分割方法

∗

李

阳

1,2

刘

扬

刘国军

郭茂祖

1,2,3

(北京建筑大学电气与信息工程学院,北京 100044)

(哈尔滨工业大学计算机科学与技术学院,黑龙江哈尔滨 150001)

(建筑大数据智能处理方法研究北京市重点实验室(北京建筑大学),北京 100044)

通讯作者: 刘扬, E-mail: yliu76@hit.edu.cn; 郭茂祖, E-mail: guomaozu@bucea.edu.cn

摘要: 深度卷积神经网络使用像素级标注,在图像语义分割任务中取得了优异的分割性能.然而,获取像素级标

注是一项耗时并且代价高的工作.为了解决这个问题,提出一种基于图像级标注的弱监督图像语义分割方法.该方法

致力于使用图像级标注获取有效的伪像素标注来优化分割网络的参数.该方法分为 3 个步骤:(1) 首先,基于分类与

分割共享的网络结构,通过空间类别得分(图像二维空间上像素点的类别得分)对网络特征层求导,获取具有类别信

息的注意力图;(2) 采用逐次擦除法产生显著图,用于补充注意力图中缺失的对象位置信息;(3) 融合注意力图与显

著图来生成伪像素标注并训练分割网络.在 PASCAL VOC 2012 分割数据集上的一系列对比实验,证明了该方法的

有效性及其优秀的分割性能.

关键词: 图像语义分割;弱监督;深度卷积神经网络;注意力图;显著图

中图法分类号: TP391

中文引用格式: 李阳,刘扬,刘国军,郭茂祖.基于对象位置线索的弱监督图像语义分割方法.软件学报,2020,31(11):3640−3656.

http://www.jos.org.cn/1000-9825/5828.htm

英文引用格式: Li Y, Liu Y, Liu GJ, Guo MZ. Weakly supervised image se mantic segmentation method based on object location

cues. Ruan J ian Xue Bao /Journal of Software, 2020 ,31(11):3640−3656 (in Ch inese). h ttp://www.jos.org.cn/ 1000-9825/5828.ht m

Weakly Supervised Image Semantic Segmentation Method Based on Object Location Cues

LI Yang

1,2

, LIU Yang

, LIU Guo-Jun

, GUO Mao-Zu

1,2,3

(School of Electrical and Information Engineering, Beijing University of Civil Engineering and Architecture, Beijing 100044, China)

(School of Computer Science and Technology, Harbin I nstitute of Technology, Harbin 15000 1, Chin a)

(Beijing Key Laboratory of Intelligent Processing for Building Big Data (Beijing University of Civil Engineering and Architecture),

Beijing 100044, China)

Abstra ct : Deep convolutional neural networks have achieved excellent performance in image semantic segmentation with strong

pixel-level annotations. However, pixel-level annotations are very expensive and time-consuming. To overcome this problem, this study

proposes a new weakly supervised image semantic segmentation method with image-level annotations. The proposed method consists of

three steps: (1) Based on th e sharing network for classification and seg mentation t ask, the class-specifi c attention map is obtained which is

the derivative of th e sp atial class s cores (th e class scor es of pix els in th e two-di mensional i mage sp ace) with r espect to th e network feature

maps; (2) Saliency map is gotten by successive erasing method, which is used to supplement the object localization information missing

by attention maps; (3) Attention map is combined with s aliency map to generate ps eudo pixel-level annotations and tr ain the segmentation

∗ 基金项目: 国家自然科学基金(61671188, 61571164); 国家重点研发计划(2016YFC0901902)

Foundation item: National Natural Science Foundation of China (61671188, 61571164); National Key Research and Development

Program of China (2016YFC0901902)

收稿时间: 2018-0 4-28; 修改时间: 2018-11-06; 采用时间: 2019-02-28; jos 在线出版时间: 2019-08-09

CNKI 网络优先出版: 2019-08-12 12:08:06, http://kns.cnki.net/kcms/d etail/11.2560.TP.20190812.1207.006.html

李阳等:基于对象位置线索的弱监督图像语义分割方法

3641

network. A series of comparative experiments demonstrate th e effectiveness and better segmentation performan ce of the proposed method

on the challenging PASCAL VOC 2012 image segmentation dataset.

Key words: image semantic segmentation; weakl y supervised; d eep convolutional n eural networks; attention map; sali ency map

图像语义分割是指利用计算机的特征表达来模拟人类对图像的识别过程,为每个像素分配语义空间中的

一个类别.其研究在场景理解、自动驾驶、机器人感知、气象预测、交通控制、人脸识别等领域具有广泛的应

用价值.但是由于图像中对象的尺度、位置、光照、颜色等信息具有无穷多的变化形式,所以图像分割是计算

机视觉领域极具挑战性的研究课题

[1]

近年来,以卷积神经网络为代表的深度学习技术

[2−7]

的重大突破带来了图像语义分割性能的巨大提升

[8−10]

但是,此类方法的分割准确度很大程度上依赖于大量的像素级标注(pixel-level annotation)数据集

[8−13]

.然而,收

集这类数据集是一项昂贵和耗时的任务:平均需要耗时 4min 来标注一幅图像中的所有像素

[14]

.此外,这也间接

地反映出像素级标注是增强分割模型泛化能力的障碍.

为了克服这个问题,一些研究者尝试放宽图像标注的程度,提出了弱监督的语义分割方法

[15−19]

.此类方法仅

使用图像级标注(image-level annotation,明确地标注出图像中对象的类别),一方面,图像级标注的数据集更容易

获得——平均仅需要 1s 来标注图像中对象的类别

[20]

;另一方面,用于模型拓展的新类别图像集也更容易获取.

因此,本文基于图像级标注提出了一种弱监督语义分割方法.

近两年,一些弱监督分割方法

[16,21,2 2]

通过引入有效的对象位置线索,使得其模型的分割性能得到显著地提

升.这类方法的计算过程大体分为两个步骤:(1) 基于图像级标注获取对象的位置线索,构建伪像素标注(pseudo

pixel-level annotation);(2) 利用伪像素标注训练深度卷积神经网络(deep convolutional neural network,简称

DCNN).所谓“伪”像素标注指的是并不是真实的准确的标注,但是它提供了对象在图像中的位置线索.可见,步

骤(1)获取的伪像素标注将直接影响最后分割网络的性能.本文同样采用这个计算过程,主要关注如何通过图像

级标注生成高质量的伪像素标注.

自顶向下策略在弱监督对象定位任务中发挥了很好的性能

[23−26]

,因此,此类方法也被广泛地用于生成伪像

素标注来指导弱监督语义分割任务.本文受 Simony an 等人

[25]

启发,提出一种新的挖掘对象位置信息的方法,本

文称这些具有类别信息的对象线索为注意力图(attention map,简称 AM).Simonyan 等人

[25]

通过计算类别得分对

输入图像的导数获取注意力图,其结果并不理想,并且识别出的对象区域较为模糊.本文通过改进该方法,提出

了分类与分割共享网络结构的注意力图获取方法.在同一网络结构上,通过计算空间类别得分对网络中间层特

征的导数而生成注意力图,从而避免了网络的重复构建过程.本文(1) 采用空间类别得分(图像二维空间上像素

的类别得分)对中间层特征求导,在很大程度上保存了对象的空间结构,使得识别出的对象更加完整;(2) 从目标

类别注意力图中去除其他类别对象的噪声,生成更明确的目标类别对象位置信息,从而提高像素标注的准确性.

注意力图用于推理不同类别对象的位置信息,它挖掘出对于图像分类任务起关键作用的对象判别性区域.

然而,虽然本文提出了空间类别得分的概念,但是由于网络中存在连续池化层,使得最后网络输出的尺度要远远

小于图像的原始尺度,因此该方法还不足以检测出对象的全部区域,从而注意力图不足以作为伪像素标注训练

分割网络.为了解决这个问题,我们借助于显著图检测模型

[27,28]

,提出逐次擦除法来识别图像的前景对象.显著

图与注意力图的区别是:(1) 注意力图上的对象具有语义类别信息;(2) 显著图上的前景对象是类别不可知的,

它用于区分背景和前景信息.显著图和注意力图相互补充,并挖掘出对象的完整轮廓.最后,融合注意力图与显

著图生成伪像素标注并训练分割网络.相比于其他弱监督图像语义分割方法,本文提出的方法有以下创新点:

(1) 提出了一种分类与分割共享网络结构的注意力图获取方法,避免重复构建网络结构,并且该注意力图更具

有判别性和准确性;(2) 提出了逐次擦除的显著图获取方法,使得模型在无需重复训练的基础上,能够检测出图

像中存在的多个前景对象;(3) 通过融合注意力图与显著图生成高质量的伪像素标注,使得注意力图与显著图

的信息相互补充,提供更精准的像素标注,从而提升分割网络的性能;(4) 采用了一个简单有效的计算框架,没有

启发式的迭代训练挖掘的过程,从而提升了方法的可扩展性.

实验结果表明,本文提出的弱监督图像语义分割方法在 PASCAL VOC 2012 数据集合上表现出很好的性

of 17

免费下载

软件学报计算机技术

关注

评论