
2528
Journal of Software 软件学报 Vol.29, No.8, August 2018
analyze the performance of some state-of-the-art methods on different datasets. First, an introduction of low-level cues based video
saliency detection methods including transform analysis based method, sparse representation based method, information theory based
method and visual prior based method, is presented. Then, the learning-based video saliency detection methods, which mainly include
traditional methods and depth learning based methods, are discussed. Subsequently, the commonly used datasets for video saliency
detection are presented, and four evaluation measures are introduced. Moreover, some state-of-the-art methods with qualitative and
quantitative comparisons on different datasets are analyzed in experiments. Finally, the key issues of video saliency detection are
summarized, and the future development trend is discussed.
Key words: video saliency detection; lo w-level cue; machine l earning; d eep l earning
人类通过视觉感知系统捕获客观世界中的重要物体和场景信息,如景深、外貌、颜色、形状等属性.无论
置身于简单场景或是复杂环境,人类都可以迅速定位场景中的感兴趣区域,抓住关键信息,快速、有效地完成信
息的处理和综合.为使计算机系统也具备快速定位重要目标、感知场景重要信息的功能,视觉显著性检测任务
应运而生.场景的显著性区域通常包含了人类感兴趣的重要目标或最能表达图像的内容,是能够在较短时间内
吸引人的视觉注意力的区域,而显著性检测就是找出这些感兴趣目标或区域的过程.显著性检测作为一种有效
的预处理技术已被广泛应用于检索
[1]
、识别
[2]
、分割
[3]
、重定向
[4]
、增强
[5]
、行人检测
[6]
、评价
[7]
、压缩
[8]
等
众多计算机视觉任务.
根据处理对象的不同,显著性检测可以分为图像显著性检测、协同显著性检测和视频显著性检测方法等.
经过十余年的发展,面向图像的显著性检测方法
[9−31]
已经形成了较为完善的检测体系,可以分为两大类:一类是
由任务驱动的、慢速的、任务依赖的自顶向下(top-down)的检测方法,这类方法往往需要训练过程和特定的先
验知识;另一类是由数据驱动的、快速的、下意识的自底向上(bottom-up) 的检测方法,这类方法主要利用底层
线索(颜色、形状、深度等)直接进行显著性模型构建.此外,随着成像设备的进步与发展,深度信息的获取方式
越来越简单、越来越便捷,这为 RGBD 图像显著性检测算法的兴起和发展奠定了基础.相对于 2D 图像显著性检
测的飞速发展,RGBD 图像显著性检测算法研究虽然起步较晚,也取得了一定的成果
[32−36]
.但是,研究人员在深度
信息对人类感知系统的作用机理、如何有效利用深度信息等方面还未达成共识,仍需进一步深入研究.
协同显著性目标(co-salient object)是指多张图像中重复出现的同一或近似的视觉显著性物体.与传统的图
像显著性检测模型不同,协同显著性检测的目的在于提取图像组中共有的显著性目标.由于图像组中显著性目
标的类别、内部特性和位置等因素是完全未知的,使得协同显著性检测成为一项更具挑战性的任务.基于此,协
同显著性目标需同时具备两个特性:(1) 协同显著性目标在单张图像中应该是显著的;(2) 协同显著性目标在同
组图像之间应该具有较高的相似性.协同显著性目标检测方法
[37−42]
已广泛应用于协同分割、近似目标检测、
目标协同识别以及图像简报生成等众多领域.图 1(a)给出了图像显著性检测与协同显著性检测的区别,其中,第 1
行为输入的一组图像,第 2 行为单图显著性检测结果真图,第 3 行为协同显著性检测结果真图.从图中可以看出,
如果将每幅图像单独进行显著性检测,那么两只狗都应该被检测出来;如果将 3 张图像看作 1 个图像组进行协同
显著性检测,那么应该只有黑色的狗才是共有显著性目标.也就是说,在单一图像中显著的目标不一定为协同显
著性目标,还需利用图间约束关系进一步判断,以确定显著性目标是否共有.
随着大数据时代的来临,数据形式发生了翻天覆地的变化,传统的图像数据已不足以满足人们日益增长的
感官需求,视频数据量呈现出井喷式的增长,如何准确、一致地提取视频数据中的显著性目标成为亟待解决的
新课题.鉴于视频显著性检测技术良好的可扩展性,已被广泛应用于视频目标检测、视频摘要、基于内容的视
频检索等领域.不同于图像显著性检测,视频显著性检测需要同时结合时间信息和空间信息,连续地定位视频序
列中与运动相关的显著性目标.与协同显著性检测相比,视频显著性检测还需考虑运动信息和时序特性,而且具
有“相邻视频帧之间相关性较大”的先验.几种不同的显著性检测模型之间的联系如图 1(b)所示.因此,如何充分
挖掘视频序列的运动信息和时序关系成为视频显著性检测研究的关键.由于视频数据量大、场景变化明显、
目标大小不一致等问题,使得视频显著性检测研究难度较大,算法性能整体较低.视频显著性检测通常包含两个
研究方向,即视频显著性目标检测(video salient object detection)和动态视觉显著性检测(dy
namic visual saliency
评论