视频显著性检测研究进展-丛润民 , 雷建军 , 付华柱 , 王文冠 , 黄庆明 , 牛力杰.pdf

上善若水

354

18页

0次

2022-05-19

免费下载

软件学报 ISSN 1000-9825, CODEN RUXUEW E-mail: jos@iscas.ac.cn

Journal of Software,2018,29(8):2527−2544 [doi: 10.13328/j.cnki.jos.005560] http://www.jos.org.cn

视频显著性检测研究进展

∗

丛润民

雷建军

付华柱

王文冠

黄庆明

牛力杰

(天津大学电气自动化与信息工程学院,天津 300072)

(Institute for Infocomm Research, Agency for Scien ce, Technology and Research, Singapo re 138632, Singapo re)

(北京理工大学计算机学院,北京 100081)

(中国科学院大学计算机与控制学院,北京 100190)

通讯作者: 雷建军, E-mail: jjlei@tju.edu.cn

摘要: 视频显著性检测是计算机视觉领域的一个热点研究方向,其目的在于通过联合空间和时间信息实现视频

序列中与运动相关的显著性目标的连续提取.由于视频序列中目标运动模式多样、场景复杂以及存在相机运动等,

使得视频显著性检测极具挑战性.对现有的视频显著性检测方法进行梳理,介绍相关实验数据集,并通过实验比较分

析现有方法的性能.首先,介绍了基于底层线索的视频显著性检测方法,主要包括 5 类:基于变换分析的方法、基于稀

疏表示的方法、基于信息论的方法、基于视觉先验的方法和其他方法.然后,对基于学习的视频显著性检测方法进

行了总结,主要包括传统学习方法和深度学习方法,并着重对后一类方法进行了介绍.随后,介绍了常用的视频显著

性检测数据集,给出了 4 种算法性能评价指标,并在不同数据集上对最新的几种算法进行了定性和定量的比较分析.

最后,对视频显著性检测的关键问题进行了总结,并对未来的发展趋势进行展望.

关键词: 视频显著性检测;底层线索;机器学习;深度学习

中图法分类号: TP391

中文引用格式: 丛润民,雷建军,付华柱,王文冠,黄庆明,牛力杰.视频显著性检测研究进展.软件学报,2018,29(8):2527−2544.

http://www.jos.org.cn/1000-9825/5560.htm

英文引用格式: Cong RM, Lei JJ, Fu HZ, Wang WG, Huang QM, Niu LJ. Research progress of video saliency detection. Ruan

Jian Xue Bao/Journal of Software, 2018,29(8):2527−2544 (in Chin ese). http ://www.jos.org.cn/1 000 -9825/5560.ht m

Research Progress of Video Saliency Detection

CONG Run-Min

, LEI Jian-Jun

, FU Hua-Zhu

, WANG Wen-Guan

, HUANG Qing-Ming

, NIU Li-Jie

(School of Electrical and Information Engineering, Tianjin University, Tianjin 300072, China)

(Institute for Infocomm Research, Ag ency for S cience, Technology and Research, Sing apore 138632, S ingapore)

(School of Computer Science and Technology, Beijing Institute of Technology, Beijing 100081, China)

(School of Computer and Control Engineering, University of Chinese Academy of Sciences, Beijing 100190, China)

Abstra ct : As a hot topic in computer vision community, video saliency detection aims at continuously discovering the motion-related

salient objects from the video sequences by considering the spatial and temporal information jointly. Due to the complex backgrounds,

diverse motion patterns, and camera motions in video sequences, video saliency det ection is a more challenging task than image saliency

detection. This paper summarizes the existing methods of video saliency detection, introduces the relevant experimental datasets, and

∗ 基金项目: 国家自然科学基金(61722112, 61520106002, 61332016, 61620106009, 61602344); 国家重点研发计划(2017YFB

1002900)

Foundation item: National Natural Science Foundation of China (61722112, 61520106002, 61332016, 61620106009, 61602344);

National Key Research and Development Program of China (2017YFB1002900)

收稿时间: 2017-10-30; 修改时间: 2018-01-04; 采用时间: 2018-01-22; jos 在线出版时间: 2018-02-08

CNKI 网络优先出版: 2018-02-08 11 :56:06, http: //kns.cnki.net/kcms/d etail/11.2560.TP.20180208.1155 .012.html

2528

Journal of Software 软件学报 Vol.29, No.8, August 2018

analyze the performance of some state-of-the-art methods on different datasets. First, an introduction of low-level cues based video

saliency detection methods including transform analysis based method, sparse representation based method, information theory based

method and visual prior based method, is presented. Then, the learning-based video saliency detection methods, which mainly include

traditional methods and depth learning based methods, are discussed. Subsequently, the commonly used datasets for video saliency

detection are presented, and four evaluation measures are introduced. Moreover, some state-of-the-art methods with qualitative and

quantitative comparisons on different datasets are analyzed in experiments. Finally, the key issues of video saliency detection are

summarized, and the future development trend is discussed.

Key words: video saliency detection; lo w-level cue; machine l earning; d eep l earning

人类通过视觉感知系统捕获客观世界中的重要物体和场景信息,如景深、外貌、颜色、形状等属性.无论

置身于简单场景或是复杂环境,人类都可以迅速定位场景中的感兴趣区域,抓住关键信息,快速、有效地完成信

息的处理和综合.为使计算机系统也具备快速定位重要目标、感知场景重要信息的功能,视觉显著性检测任务

应运而生.场景的显著性区域通常包含了人类感兴趣的重要目标或最能表达图像的内容,是能够在较短时间内

吸引人的视觉注意力的区域,而显著性检测就是找出这些感兴趣目标或区域的过程.显著性检测作为一种有效

的预处理技术已被广泛应用于检索

[1]

、识别

[2]

、分割

[3]

、重定向

[4]

、增强

[5]

、行人检测

[6]

、评价

[7]

、压缩

[8]

等

众多计算机视觉任务.

根据处理对象的不同,显著性检测可以分为图像显著性检测、协同显著性检测和视频显著性检测方法等.

经过十余年的发展,面向图像的显著性检测方法

[9−31]

已经形成了较为完善的检测体系,可以分为两大类:一类是

由任务驱动的、慢速的、任务依赖的自顶向下(top-down)的检测方法,这类方法往往需要训练过程和特定的先

验知识;另一类是由数据驱动的、快速的、下意识的自底向上(bottom-up) 的检测方法,这类方法主要利用底层

线索(颜色、形状、深度等)直接进行显著性模型构建.此外,随着成像设备的进步与发展,深度信息的获取方式

越来越简单、越来越便捷,这为 RGBD 图像显著性检测算法的兴起和发展奠定了基础.相对于 2D 图像显著性检

测的飞速发展,RGBD 图像显著性检测算法研究虽然起步较晚,也取得了一定的成果

[32−36]

.但是,研究人员在深度

信息对人类感知系统的作用机理、如何有效利用深度信息等方面还未达成共识,仍需进一步深入研究.

协同显著性目标(co-salient object)是指多张图像中重复出现的同一或近似的视觉显著性物体.与传统的图

像显著性检测模型不同,协同显著性检测的目的在于提取图像组中共有的显著性目标.由于图像组中显著性目

标的类别、内部特性和位置等因素是完全未知的,使得协同显著性检测成为一项更具挑战性的任务.基于此,协

同显著性目标需同时具备两个特性:(1) 协同显著性目标在单张图像中应该是显著的;(2) 协同显著性目标在同

组图像之间应该具有较高的相似性.协同显著性目标检测方法

[37−42]

已广泛应用于协同分割、近似目标检测、

目标协同识别以及图像简报生成等众多领域.图 1(a)给出了图像显著性检测与协同显著性检测的区别,其中,第 1

行为输入的一组图像,第 2 行为单图显著性检测结果真图,第 3 行为协同显著性检测结果真图.从图中可以看出,

如果将每幅图像单独进行显著性检测,那么两只狗都应该被检测出来;如果将 3 张图像看作 1 个图像组进行协同

显著性检测,那么应该只有黑色的狗才是共有显著性目标.也就是说,在单一图像中显著的目标不一定为协同显

著性目标,还需利用图间约束关系进一步判断,以确定显著性目标是否共有.

随着大数据时代的来临,数据形式发生了翻天覆地的变化,传统的图像数据已不足以满足人们日益增长的

感官需求,视频数据量呈现出井喷式的增长,如何准确、一致地提取视频数据中的显著性目标成为亟待解决的

新课题.鉴于视频显著性检测技术良好的可扩展性,已被广泛应用于视频目标检测、视频摘要、基于内容的视

频检索等领域.不同于图像显著性检测,视频显著性检测需要同时结合时间信息和空间信息,连续地定位视频序

列中与运动相关的显著性目标.与协同显著性检测相比,视频显著性检测还需考虑运动信息和时序特性,而且具

有“相邻视频帧之间相关性较大”的先验.几种不同的显著性检测模型之间的联系如图 1(b)所示.因此,如何充分

挖掘视频序列的运动信息和时序关系成为视频显著性检测研究的关键.由于视频数据量大、场景变化明显、

目标大小不一致等问题,使得视频显著性检测研究难度较大,算法性能整体较低.视频显著性检测通常包含两个

研究方向,即视频显著性目标检测(video salient object detection)和动态视觉显著性检测(dy

namic visual saliency

of 18

免费下载

软件学报计算机技术

关注

评论