基于编码器-解码器的架构来从水下图像重建出清晰的图像

nlfO_thejiangme 2019-08-02 5659

电子说

1.3w人已加入

描述

水下图像在海洋研究和水下机器人领域都具有重要的应用，观察海洋生物、进行水下作业都需要清晰的图像。然而由于水的折射和水中悬浮颗粒的散射对光造成大幅度的衰减，同时水体的多样性也造成了水下图像的质量不尽如人意，很多视觉任务都会在质量较低的水下图像上失效。

来自德州农工大学的研究人员们提出了一种可以在多种水体条件下实现水下图像增强的方法。通过解耦水体种类与图像的内容特征，利用水体无关的内容特征来生成高质量的清晰图像，实现了多种水体通用的水下图像增强。通常水对于长波的光吸收比较强，所以水下的照片都会呈现出蓝色或者绿色的色调；同时不同水质中的微小颗粒也会在图像中引入一系列噪声。此外水下图像的分布由于水质的不同使得图像的分布比较广泛，不同水质中的图像有很大的差别，深海图像与浅水图像有着显著的差别。

要建立针对不同水质下图像提升的通用模型是十分困难的，先前的研究工作都集中在不同光谱衰减和微粒散射上，还没有工作对不同水质下水下图像提升进行系统的研究。

虽然有研究用多个模型来分别处理不同的Jerlov水体模型，但这种方法效率较低并且强烈依赖于水体的先验知识。此外水下图像提升的另一挑战在于没有真实世界中采集的基准数据集，使得研究人员们很难获得真实情况下的水体对成像造成的衰减。

为了解决这一系列问题，研究人员们提出了基于编码器-解码器的架构来从水下图像重建出清晰的图像，同时利用卷积网络实现对于水体的分类。

研究人员首先充分考虑了水下成像过程中的波长相关衰减、光散射和水体的影响，合成了丰富的数据用于模型训练；随后解决水体多样性的挑战，需要利用编码器分离出与水质无关的特征。

训练编码器得到可以重建清晰图像的编码，同时也让编码尽量与水体类别无关，充分训练后就可以得到针对多种水体的图像增强模型了。

UIE-DAL

由于这一研究的目标不仅仅是水下图像质量提升，更重要的是希望得到能在多种水质下稳定工作的单一模型，这就需要从水下图像中学习出与水体种类无关的编码表示，这意味着不同水体条件下从同一场景抽取出的编码要尽可能相同，这样解码器才能从场景相关的特征中重建出清晰的图像。

模型的架构，其中的彩色箭头表明了各种梯度传播的方向和更新的部分。

为了实现这一目标，研究人员在网络中引入了一个作为判别器（nuisance classifier）的分类器，用于从隐变量中区分出水体的种类。这一工作的创造性在于，利用分类器的的不确定性来作为对抗损失训练编码器。如果编码的隐变量让这一分类器的不确定性越高，那就说明编码与水体种类的相关性越低。对抗损失将驱动编码器学习到与水类型无关的编码。在模型中包含了三种损失、包括重建损失、分类器损失和对抗损失。其中重建损失是重建的清晰图像与基准间的均方误差，分类器损失则是水体目标类型与分类器预测水体种类的交叉熵，这一损失仅仅更新分类器本身。

这一模型最重要的损失是整个网络的对抗损失，它的目的在于增加分类器的不确定性（熵），研究人员尝试减少分类器的确定性来实现。这一对抗损失由分类器从隐变量中预测水体类型分布的负熵来构成，这部分的损失仅仅在编码器上进行更新，目的是使得编码器尽可能编码出与水体类型无关的表示。研究人员首先对模型中的编码器和解码器进行了训练，用于保证模型的编码中包含了图像中有意义的信息；随后加入分类器对整个网络进行联合对抗训练。尤为重要的是需要保证分类器足够强大，这样才能够学习出分类器特征迫使编码器编码出与水体类型无关的特征。

算法流程如下图所示：

其中编码器解码器基于U-Net架构，而分类器则利用了如下图所示的7层结构，最后输出水体分类为Jerlov十种水体类型中的六种。训练数据基于NYU-V2数据和水体类型合成而来，真实数据则UIEBD(Underwater Image Enhancement Benchmark Dataset)数据集。

结果

下图显示了模型在合成数据集上的表现，左边是不同水质下的合成数据，中间是算法的结果，右边是基准图像。

下图显示了真实水体下的图像提升效果，可以看到模型对于不同的水体质量都有较好的表现：

最后研究人员还分析了对抗损失对于图像增强的效果，最右侧是加入了与水质无关的损失后得到的结果，比中间原始U-Net输出结果要好：

对于目标检测结果的提升：

打开APP阅读更多精彩内容