论文阅读-去雾-GridDehazeNet-Attention-Based Multi-Scale Network for Image Dehazing
论文阅读-去雾-GridDehazeNet-Attention-Based Multi-Scale Network for Image Dehazing
Abatract
The GridDehazeNet consists of three modules: pre-processing, backbone, and post-processing
- pre-processing: The trainable pre-processing module can generate learned inputs with better diversity and more pertinent features as compared to those derived inputs produced by handselected pre-processing methods.
- backbone: The backbone module implements a novel attention-based multi-scale estimation on a grid network, which can effectively alleviate the bottleneck issue often encountered in the conventional multi-scale approach.
- post-processing: The post-processing module helps to reduce the artifacts in the final output.
摘要
我们提出了一个端到端的可训练卷积神经网络(CNN),名为GridDehazeNet,用于单图像去雾。GridDehazeNet由三个模块组成:预处理,主干网络和后处理。
- 预处理: 与通过手工选择的预处理方法产生的那些衍生输入相比,可训练的预处理模块可以生成具有更好多样性和更相关特征的学习输入。
- 骨干模块: 骨干模块在网格网络上实现了一种新颖的基于注意力的多尺度估计,可以有效缓解传统的多尺度方法经常遇到的瓶颈问题。
- 后处理模块: 有助于减少最终输出中的伪像。
实验结果表明,GridDehazeNet在合成图像和真实图像上均优于最新技术。论文提出的加雾(hazing)方法不依赖于大气散射模型,并且我们提供了一个解释,说明为什么利用大气散射模型降维不一定是有利于来进行图像除雾,即使是在合成图像上的去雾结果也是如此。
Training and Testing Dataset
一般来说,收集大量真实世界中有雾霾的图像和无雾霾的图像是不现实的。因此,数据驱动去雾(dehazing)方法通常需要依赖合成有雾图像。有雾图像基于大气散射模型,通过适当选择散射系数β和大气光强度a,将原本清晰的图像转换而成。在本文中,我们采用一个大规模的 合成数据集 RESIDE,用于GridDehazeNet训练和测试。
RESIDE包含室内和室外场景的合成模糊图像。RESIDE的室内训练集(ITS)共包含13990幅模糊的室内图像,由1399幅清晰图像生成。
此外,为了比较 真实世界的图像 ,我们使用的数据集来自Dehazing using Color-Lines.
PSNR, SSIM 评价指标
PSNR
- PSNR 是“Peak Signal to Noise Ratio”的缩写,即峰值信噪比,是一种评价图像的客观标准,它具有局限性,一般是用于最大值信号和背景噪音之间的一个工程项目。
- PSNR=10*log10((2^n-1)^2/MSE).其中,MSE是原图像与处理图像之间均方误差。
- Peak就是指8bits表示法的最大值255。MSE指MeanSquareError,I(角标n)指原始影像第n个pixel值,P(角标n)指经处理后的影像第n个pixel值。PSNR的单位为dB。所以PSNR值越大,就代表失真越少。
- 优缺点: PSNR是最普遍,最广泛使用的评鉴画质的客观量测法,不过许多实验结果都显示,PSNR的分数无法和人眼看到的视觉品质完全一致,有可能PSNR较高者看起来反而比PSNR较低者差。这是因为人眼的视觉对于误差的敏感度并不是绝对的,其感知结果会受到许多因素的影响而产生变化(例如:人眼对空间频率较低的对比差异敏感度较高,人眼对亮度对比差异的敏感度较色度高,人眼对一个区域的感知结果会受到其周围邻近区域的影响)。
SSIM
- SSIM(structural similarity index),结构相似性,是一种衡量两幅图像相似度的指标。该指标首先由德州大学奥斯丁分校的图像和视频工程实验室(Laboratory for Image and Video Engineering)提出。SSIM使用的两张图像中,一张为未经压缩的无失真图像,另一张为失真后的图像。
- 给定两个图像
x
和y
, 两张图像的结构相似性可按照以下方式求出————结构相似性的范围为0到 1。当两张图像一模一样时,SSIM的值等于1。
- 作为结构相似性理论的实现,结构相似度指数从图像组成的角度将结构信息定义为独立于亮度、对比度的,反映场景中物体结构的属性,并将失真建模为亮度、对比度和结构三个不同因素的组合。用均值作为亮度的估计,标准差作为对比度的估计,协方差作为结构相似程度的度量。
相关工作
早期的图像去雾工作要么需要在不同的条件下拍摄同一场景的多个图像[30,32,20,22,24],要么需要从其他来源获得的侧信息[23,12]。
在没有附加信息的情况下,单幅图像去雾的难度要大得多。人们提出了许多方法来应对这一挑战。传统的方法是根据一定的假设或先验估计透射图t(x)和全球大气光强A(或其变体),然后将式(1)转化为去雾图像。这方面的代表性著作包括[36,5,9,37,42]。具体来说,[36]提出了一种局部对比度最大化的去雾方法,该方法是基于观察到清晰的图像比模糊的图像具有更高的对比度;在假设透射图和表面阴影局部不相关的情况下,通过对反照率的分析实现对[5]霾的去除;[9]中引入的去雾方法利用了暗通道先验(Dark Channel Prior, DCP),该方法断言非霾斑块中的像素在至少一个颜色通道中具有低强度;[37]提出了一种机器学习方法,该方法利用随机森林回归器的四个与雾霾相关的特征;[42]采用颜色衰减先验,发展了一种监督学习的图像去雾方法。虽然这些方法取得了不同程度的成功,但它们的性能在本质上受到所采用的假设/先验对目标场景的准确性的限制。
随着深度学习技术的进步和大型综合数据集[37]的可用性,近年来数据驱动的图像去雾方法越来越受欢迎。这些方法很大程度上遵循了上面提到的传统策略,但是减少了对手工制作的先验的依赖。例如,[1]中提出的去雾方法DehazeNet使用三层CNN从给定的模糊图像直接估计传输图;[26]采用了一个多尺度CNN (MSCNN),它能够执行精确的传输估计。
AOD-Net[13]代表着与传统策略的背离。具体来说,在[13]中引入了公式(1)的一个重新公式,以绕过透射图和大气光强的估计。仔细观察就会发现,这种重新配方实际上使大气散射模型变得完全多余(虽然在[13]中没有认识到这一点)。[27]更进一步,在算法设计中明确放弃了大气散射模型。[27]中提出的门控融合网络(GFN)利用了手工选择的预处理方法和多尺度估计,这些方法本质上是通用的,有待改进。
GridDehazeNet
提出的GridDehazeNet是一个具有三个重要特征的端到端可训练网络。
- 不依赖于大气散射模型
- 可训练的预处理模块
- 以多尺度估计
Network Architecture
GridDehazeNet由预处理模块、主干模块和后处理模块三部分组成。下图给出了该网络的总体结构。
- 预处理模块 由卷积层(w/o激活函数)和残差密集块(RDB)[41]组成。其产生16个feature map ,这些feature map是从含雾图像中学习产生的。
- 主干模块 是GridNet[7]的增强版,最初提出用于语义分割。基于预处理模块产生的学习输入进行基于注意的多尺度估计。在本文中,我们选择了一个三行六列的网格网络。每一行对应不同的比例,由5个RDB块组成,保持特征映射的数量不变。每一列都可以看作是通过上/下采样块连接不同尺度的桥梁。在每个上采样(下采样)块中,特征图的大小减少(增加)了2倍,而特征图的数量增加(减少)了相同的因素。在这里,上/下采样是使用卷积层来实现的,而不是传统的方法,如双线性或双三次插值。图4详细地说明了RDB块,上采样块和下采样块。每个RDB块由5个卷积层组成:前4个层用于增加feature map的数量,而最后一层融合这些feature map,其输出与该RDB块的输入通过通道添加的方式结合。
- 从主干模块的输出直接构造的去雾图像往往含有伪影。因此,我们引入了一个后处理模块来提高去雾图像的质量。后处理模的结构块与预处理模块是对称的。
信息融合与通道自适应的注意力机制
针对不同尺度的特征映射可能具有不同的重要性,我们提出了一种基于[40]的信道感知注意机制,用于生成可训练的特征融合权值。值得注意的是,人们可以通过选择适当的注意力权重来删除(或停用)部分建议的GridDehazeNet,并作为一个特例恢复一些现有的网络。例如,图3中的红色路径展示了一个可以通过修剪GridDehazeNet来获得的编码器-解码器网络。
实验结果
总结
这篇文章可以看到效果不错,但是预处理、后处理步骤复杂。 基础网络也是计算量与参数量非常高,还使用了通道注意力机制。但实验效果很好,不错的刷分论文,但貌似没有看到有趣的点。