论文地址:https://arxiv.org/pdf/1511.03995.pdf
论文翻译及原文百度云链接:关注本账号并在后台回复【论文1】即可获得
Abstract
本文提出了一种基于深层自动编码器的方法,可从低光图像中识别信号特征并自适应地增亮图像,而不会过度放大/饱和高动态范围图像中的较亮部分。在监视,监视和战术侦察中,从动态环境中收集视觉信息并准确处理此类数据对于做出明智的决定并确保任务成功至关重要。相机传感器通常受到成本限制,以捕获在光线不足的环境中拍摄的清晰图像或视频。许多设备旨在以机载实时的方式来增强亮度和对比度以及减少图像中的噪声含量。我们展示了一种堆叠稀疏去噪自动编码器的变体,可以从合成的变暗和添加噪声的训练示例中学习如何自适应地增强和去噪。该模型可以应用于从自然光线不足的环境中拍摄的图像和/或经过硬件降级的图像。结果显示,该方法在视觉上以及与各种图像增强技术的定量比较中均具有很高的可信度。
1. Introduction and motivation
高质量的图像和视频对于完成安全应用程序,军事任务,路径规划,医疗诊断和商业推荐系统等各种任务的关键自动化和人员级别决策至关重要。摄像机系统捕获的清晰,高清图片为明智的操作提供了更好的证据。然而,成本限制限制了这种系统的大规模应用,因此通常采用便宜的传感器。除传感器质量低外,照明不足还会产生图像噪声,这可能会妨碍情报,监视与侦察(ISR)任务和商业行业。这些应用受益于图像增强算法的改进。
最近,基于深度学习的方法引起了较大的关注,因为它们在许多计算机视觉应用中表现出优于其他最新的机器学习工具,包括目标检测(Krizhevsky等人,2012),场景理解(Couprie等人。(2013年)和遮挡检测(Sarkar等人,2015年)。尽管神经网络已被广泛研究用于图像去噪任务,但是尚无现有工作使用深层神经网络对在光照差的环境中拍摄的图像进行增强与去噪。我们使用深度自动编码器(我们称为低光网络,LLNet)从表示学习的角度解决低光图像增强的问题,这些自动编码器经过训练可以学习低光图像中的基本信号特征并自适应地变亮和降噪。该方法利用了与(Loza等人,2013)中的工作类似的局部路径对比度改进,从而相对于局部邻居进行了改进,以防止过度放大已经明亮的像素。训练同一网络以学习噪声结构,以产生更明亮的去噪图像。
贡献:本文介绍了使用一类深度神经网络(堆叠的稀疏去噪自动编码器(SSDA))来增强自然弱光图像的新应用。我们提出了一种训练数据生成方法,该方法通过综合修改In-ternet数据库中可用的图像来模拟弱光环境。探索了两种类型的深度架构-(i)同时学习对比度增强和去噪(LLNet),以及(ii)使用两个模块(分段LLNet或SLLNet)顺序学习对比度增强和去噪。对经过训练的网络的性能进行评估,并将其与其他方法在合成噪声和人工变暗的测试数据上进行比较。在自然弱光图像上重复相同的步骤,以证明在低光照环境下,用常规手机相机获得的一组真实图像上应用的综合训练模型的增强功能。可视化深层网络的隐藏层权重,以洞悉模型学习到的功能。
2. Related work
有众所周知的对比度增强方法,例如通过直方图均衡化来改善图像对比度(Trahanias和Venetsanopoulos,1992;Cheng和Shi,2004;Pizer等,1987)。限制对比度的自适应直方图均衡化(CLAHE)(Pisano et al。,1998)属于直方图拉伸方法类别,用于限制直方图均衡化的对比度增强结果的程度。随后,引入了一种优化技术OCTM(Wu,2011年),用于使用数学传递函数映射图像的对比度。但是,这需要对某些领域知识进行加权以及相关的复杂性增加。还使用非线性函数(例如伽玛函数)(Gonzalex和Woods,2001)来探索可用的方案,以增强图像对比度。直方图拉伸方法(Krutsch&Tenorlo,2011)及其变体,如亮度保持双向直方图均衡化(BBHE)和量化双向直方图均衡化(QBHE)(Kaur et al。,2011),在改善直方图均衡化伪影方面得到了重视。
此外,已经使用BM3D(Dabov等,2009;2008;2007),KSVD(Elad和Aharon,2006)和非线性滤波器(Chen等,1999;Chan等, 2005年)。使用深度学习,(Vincent等人,2008)的作者提出了去噪自动编码器的概念,以便从嘈杂的图像中学习特征,而(Jain&Seung,2008)应用卷积神经网络去噪自然图像。该网络已用于修补(Xie等,2012)和去模糊(Schuler等,2014)。此外,(Agostinelli等,2013)的作者实施了一种自适应多列架构,通过训练具有各种类型噪声的模型并对具有任意噪声级别和类型的图像进行测试,从而对图像进行强力去噪。(Burger et al。,2012)使用了堆叠式去噪自动编码器,通过利用多层感知器(MLP)的编码层,从嘈杂的图像中重建出清晰的图像。
3.LLNet
在本节中介绍了所建议的框架以及训练方法和网络参数。
从弱光图像中学习特征:SSDA是深度自动编码器的稀疏性诱发变量,可确保以无监督的方式学习嵌入在数据集适当维空间中的不变特征。早期的支持者(Vincent等人,2008)表明,通过以贪婪的分层方式堆叠几个降噪自动编码器(DA)进行预训练,网络可以在错误反向传播期间找到更好的参数空间。
假设
LLNet框架的灵感来自SSDA,其稀疏性特征有助于对信号进行降噪。我们利用SSDA的去噪功能和深层网络的复杂建模功能来学习弱光图像中的潜在特征,并以最小的噪声和改善的对比度生成增强的图像。关键方面是使用从互联网数据库获得的图像来训练网络,然后对这些图像进行综合处理(即非线性变暗并添加高斯噪声)以模拟弱光条件,因为会收集大量自然的弱光图像(足以用于深层网络训练)和高亮度的他们的对应物是不切实际的。在我们的实验中,合成图像和自然图像都用于评估网络在降噪和增强对比度方面的性能。
除了常规的LLNet以外,我们还用模糊和嘈杂的图像对网络进行训练,我们还提出了分阶段的LLNet(S-LLNet),该阶段的LLNet包含一系列单独的模块,用于对比度增强(阶段1)和降噪(阶段2)。与常规LLNet的主要区别在于,分别使用仅变暗的训练集和仅噪声的训练集分别对模块进行训练。两种结构都显示在图1中。虽然S-LLNet架构提供了更大的训练灵活性(以及第5节中所示的某些性能改进),但它稍微增加了推理时间,这对于某些实时应用程序可能是一个问题。但是,定制的硬件加速可以显着解决此类问题。

网络参数:LLNet由3个DA层组成,第一个DA层尺寸为17×17像素(即289个输入单位)的输入图像。第一DA层具有867个隐藏单元,第二层具有578个隐藏单元,第三层具有289个隐藏单元,成为瓶颈层。在第三DA层之外,形成了前三层的解码对等物,因此分别为第四层和第五层具有578和867个隐藏单元。输出单元的尺寸与输入的尺寸相同,即289。对网络进行了30个epochs的预训练,其前两个DA层的预训练学习率为0.1,而最后一个DA层的预训练学习率为0.01,而使用 前200个finetuning-epochs的学习率为0.1,之后为0.01,并且仅当验证误差的改善小于0.5%时才会停止。对于S-LLNet,每个模块的参数都相同。
训练模型:使用从169个标准测试图像中提取的422,500个patches(图像中的一部分)进行了训练。与当前做法一致,唯一要做的预处理是将图像像素标准化为零到一。在生成patch的过程中,我们从同一张图片的随机位置(以及随机变暗和噪声参数)生成了2500个patch。然后使用MATLAB命令imadjust非线性地使17×17像素块变暗,以随机应用伽玛矫正。伽玛校正是一种简单但通用的情况,将幂律公式应用于具有
选择具有均匀变量的均匀分布
带有随机噪声水平的随机伽马变暗会生成各种训练图像,这些图像可以提高模型的鲁棒性。实际上,自然的低光图像除了高斯噪声外,还可能包括量化和泊松噪声。为了便于分析,我们选择了仅使用针对高斯的模型,并将其作为在合成图像上训练并应用于自然图像的框架的初步可行性研究。此外,由于高斯噪声是许多图像去噪任务非常熟悉但很流行的噪声模型,因此我们可以了解LLNet相对于其他图像增强算法的性能。将patches随机洗牌,然后分为211,250个训练示例和211,250个验证样本。训练包括使用自动编码器学习低光和噪声的不变表示,以最终对这些变暗的色块进行降噪并同时增强其对比度。通过计算均方误差,将重建的图像与干净版本进行比较(即明亮,无噪声的图像)。
在训练LLNet和S-LLNet时,每个DA自动编码器都通过误差反向传播进行训练,以使稀疏性正则化重建损失最小化,如Xie等人所述。(Xie et al.,2012),表示为
解码器的权重初始化后,使用误差反向传播算法对整个预训练网络进行微调,以最小化
图像重建:在推理过程中,首先将测试图像分解为重叠的17×17色块,步幅为3×3。色块集合通过LLNet传递,以获得相应的去噪,增强对比度的色块。将小块重新排列回其原始尺寸,在该尺寸上对重叠区域进行平均。我们发现使用2×2或什至1×1的修补步幅(完全重叠的修补程序)不会产生明显的优越结果。此外,增加DA层的数量可改善网络的非线性建模能力。但是,训练更大的模型在计算上更加昂贵,并且我们确定当前的网络结构足以满足本研究的需求。
4. 评估指标和比较方法
在本节中,我们将简要介绍其他对比度增强方法以及用于评估建议框架性能的性能指标。

4.1评价指标
使用两个度量,即峰值信噪比(PSNR)和结构相似性指数(SSIM)。
峰值信噪比(PSNR):PSNR量化原始图像带有噪声的破坏程度,并近似人类对图像的感知。还建立了它来证明与压缩引入的噪声有直接关系(Santoso等人,2011)。大致上,PSNR越高,去噪图像越好,尤其是在使用相同压缩码的情况下。
结构相似性指数(SSIM):SSIM是一种用于捕获数字图像和视频的感知质量的指标(Loza等,2013; Z.Wang等,2004)。它用于测量两个图像之间的相似度。SSIM相对于原始未压缩或无失真图像作为参考,量化了图像质量的测量或预测。尽管已知PSNR和MSE可以量化结果和参考图像之间的绝对误差,但此类指标可能无法真正量化完全相似性。另一方面,SSIM探索图像结构的变化,并成为一种感知类型的模型,它结合了像素的相互依赖关系以及对对比度和像素强度的掩盖。
4.2 方法比较
本小节介绍了某些用于增强微光图像的流行方法,此处将其用于比较。
直方图均衡化(HE):直方图均衡化通常会提高图像的整体对比度,尤其是当图像的可用数据由接近的对比度值表示时。通过此调整,强度可以更好地分布在直方图上。这允许较低局部对比度的区域获得较高对比度。直方图均衡通过有效分散最频繁的强度值来实现。该方法在背景和前景都亮或都暗的图像中很有用。
对比度限制自适应直方图均衡化(CLAHE):对比度限制自适应直方图均衡化在对比度限制方面不同于普通的自适应直方图均衡化。在CLAHE的情况下,必须对导出变换函数的每个邻域应用对比度限制程序。开发CLAHE的目的是防止自适应直方图均衡化过程中出现的噪声过度放大。
伽玛调整(GA):用
具有3D块匹配(HE + BM3D)的直方图均衡:BM3D是(Dabov et al。2007)提出的当前最新的图像噪声去除算法。通过将相似的2D块分组为3D数据阵列,它将维纳滤波器的协作形式用于高维补丁块。该算法可确保变换后域中的稀疏性,并利用类似于K奇异值分解(KSVD)(Elad&Aharon,2006)(前最佳去噪方法)的像素级超完备性的方式,对分组补丁的联合去噪,确保基于补丁的字典。最后,完成域求逆,并将不同匹配块的结果融合在一起。在这项工作中,我们尝试首先均衡测试图像的对比度,然后使用BM3D作为去噪器,以消除直方图均衡所产生的噪声。我们尝试颠倒顺序,即先使用BM3D去除低光图像中的噪声,然后再应用对比度增强功能。由于BM3D通过修补图像来消除噪声,因此在应用直方图均衡时,修补边界显着放大并变得非常明显,因此产生了非竞争性结果。
5.结果与讨论
在本节中,我们将针对图3中所示的标准图像,按照上面概述的方法评估框架的性能。测试图像在
通过使用MATLAB函数 histeq进行直方图均衡,而使用具有默认参数(8×8图像图块,对比度增强限制为0.01,全范围输出,用于建立对比度增强变换的256个bin,均匀的直方图分布)的功能Adapthisteq进行CLAHE ,分布参数为0.4)。使用
对于混合“ HE + BM3D”方法,在使用Dabov等人开发的BM3D代码之前,我们首先应用了直方图均衡功能来增强图像对比度。(Dabov et al。,2007)作为降噪器,其中BM3D的噪声标准偏差输入参数设置为
LLNet和SLLNet输出均使用步幅为3×3的17×17重叠块进行重构。使用Theano的深度学习框架在NVIDIA TITAN X GPU上进行了训练(Bastien等,2012; Bergstra等,2010)。大约30小时。在GPU上放大512×512像素的图像所需的时间为0.42 s。

算法适应性:理想情况下,已经明亮的图像不应再进一步变亮。为了测试这一点,对正常,非黑暗和无噪声的图像执行了不同的增强算法。图4A显示了通过各种算法运行“镇”图像时的结果。 LLNet输出的图像稍微亮一些,但不会像GA输出那样使所有内容显得过亮和褪色。这表明在学习弱光特征的过程中,LLNet成功地学习了应应用于图像的必要亮度等级。但是,当通过目视检查评估对比度增强时,直方图均衡方法(即HE,CLAHE,HE + BM3D)在给定原始图像的情况下可提供出色的增强效果。如表1所示,在与其他图像(即“鸟”,“女孩”,“房子”,“胡椒粉”等)进行测试时,基于HE的方法通常在PSNR和SSIM较高的情况下效果稍好。

增强人工变暗的图像:图4B显示了将增强应用于

在存在合成噪声的情况下增强暗图像:为了模拟使用常规或低于标准的相机传感器拍摄的暗图像,将高斯噪声添加到合成暗图像中。
图 4C 和 4D 显示了一个伽马变暗的“城镇”图像,分别被
在自然低光图像上的应用:处理下载的图像时,可以使用干净的参考图像来计算 PSNR 和 SSIM。但是,在处理自然暗图像时,参考图像在现实生活中可能不可用。由于这是一个对照实验,我们通过将普通手机 (Nexus 4) 相机安装在三脚架上,在开灯和关灯的室内环境中拍摄照片来规避这个问题。开灯的图片作为 PSNR 和 SSIM 计算的参考图像,而关灯的图片成为自然的低光测试图像。虽然明亮的图片不能被认为是ground truth,但它为评估各种算法的性能提供了一个参考点。每种增强方法的性能如图 5 所示。虽然直方图均衡大大提高了图像的对比度,但它破坏了具有大量噪声内容的输出。此外,该方法在黑暗区域中存在非常高强度亮度的区域存在过度放大,如面板5A(vi)和5A(vii)中计算机显示器上的光晕效应所示。 CLAHE 能够提高对比度而不会出现显着的显示晕染,但与 HE 一样,它往往会放大图像中的噪点。 LLNet 的表现非常好,它能够抑制大多数图像中的噪声,同时提高局部对比度,如图 5 底部的放大补丁所示。
去噪能力、图像清晰度和patch大小:在去噪能力和增强图像的感知清晰度之间需要权衡。虽然较高的 PSNR 表示较高的去噪能力,但该指标有利于更平滑的边缘。因此,不太清晰的图像通常会获得更高的 PSNR。因此,SSIM 被用作评估感知结构信息的增益或损失的补充指标。从实验中,发现去噪能力 (PSNR)、相似度 (SSIM) 和图像清晰度之间的关系取决于去噪补丁相对于测试图像的尺寸。较小的补丁大小意味着对测试图像的更细粒度的增强,而较大的补丁大小意味着更粗略的增强。因为自然图像也可能有不同的高度和宽度,所以相对斑块大小——一个将斑块大小与测试图像的尺寸联系起来的无量纲量,
从结果中可以看出,当相对块大小减小时,对象边缘会显得更清晰,但会产生更多噪声。 然而,存在一个最佳的补丁大小,导致具有最高 PSNR 或 SSIM 的增强图像(如图 6 和图 8 所示)。 如果根据PSNR 选择最佳补丁大小,则生成的图像将具有最低的噪声水平,但不那么清晰。 如果选择了最小的块大小,则生成的图像具有最高的清晰度,可以观察到更多的细节,但会产生更多的噪点。 基于 SSIM 选择最佳的块大小会在去噪能力和图像清晰度方面产生更平衡的结果。
我们包含了一张自然测试图像,其中显示了美国空军 (USAF) 分辨率测试图。 测试图由三组大小不等的条组成,标有数字,符合美国空军在1951 年制定的 MIL-STD-150A 标准。最初,此测试图用于确定光学成像的分辨能力 显微镜、照相机和图像扫描仪等系统。 在本研究中,我们使用此测试图直观地比较了使用不同相对块大小的权衡去噪能力和图像清晰度。 结果如图8所示。

输入先验知识:无需任何输入参数即可轻松对图像执行 HE。与 HE 一样,CLAHE 也可以在没有任何输入参数的情况下使用,其中可以使用各种其他参数(例如图块大小、对比度输出范围等)进一步微调性能。伽马调整和 BM3D 都需要输入参数的先验知识(

低光图像的特征:为了了解模型学习了哪些特征,可以通过将权重矩阵的值绘制为像素强度值来可视化将输入连接到网络第一层的权重(图 7)。在同时学习对比度增强和去噪的常规 LLNet 中,权重包含具有明显粗糙纹理的斑点状结构。解耦学习过程(在 S-LLNet 的情况下)使我们能够获得更好的洞察力。当模型被训练用于对比度增强任务时,会学习到类似 Blob 的结构。特征的形状表明对比度增强考虑了局部特征;如果一个区域是暗的,那么模型会根据补丁中的上下文(即对象的边缘是否存在)来使其变亮。另一方面,去噪任务的特征检测器看起来像噪声,尽管与集成网络中较粗糙的纹理相比,纹理看起来更精细。这些特征表明,去噪任务大多以整体方式执行。请注意,虽然 Burger 等人提出的可视化。 (Burger et al., 2012) 在去噪任务的不同方向上显示出显着的 Gabor 样特征,这些特征在本研究中并不明显,因为训练是在不同的噪声水平下完成的。不同任务的专业化使 S-LLNet 在更高的噪声水平上实现了优于 LLNet 的性能。
6. Conclusions and future works
训练了堆叠稀疏去噪自动编码器的一个变体,以从各种合成示例中学习增亮和去噪功能作为过滤器,然后将其应用于增强自然低光和退化图像。结果表明,基于深度学习的方法适用于处理不同程度退化的自然低光图像的此类任务。所提出的 LLNet(和 S-LLNet)与当前使用的图像增强方法(如直方图均衡化、CLAHE、伽马调整)和混合方法(如首先应用 HE 并随后使用最先进的降噪器等)具有竞争力作为BM3D。虽然其中一些方法的性能在某些情况下仍然具有竞争力,但 LLNet(和 S-LLNet)能够在各种(照明和噪声)情况下适应并始终保持良好的性能。这意味着深度自动编码器是无需手工从低光图像中学习潜在信号特征和噪声结构的有效工具。一些设想的改进和未来的研究方向是:(i)使用泊松噪声和量化伪影进行训练以模拟更真实的情况,(ii)明确包括去模糊能力以提高图像细节的清晰度; (iii) 训练模型对噪声类型的组合具有鲁棒性和适应性,并扩展到低光场景,例如雾和尘土飞扬的场景; (iv) 由一组人类用户进行主观评价。





