IVFuseNet Fusion of infrared and visible light images for depth prediction
Lyndon Wong

论文笔记,原创内容;未经许可,请勿转载

Abstract

深度预测是无人驾驶研究的重要组成部分。现有的研究工作大多仅基于可见光图像或红外图像来预测深度。然而,可见光图像和红外图像都有各自的优势和劣势,在同一场景拍摄的图像中,这两种图像包含互补的信息。为了融合互补信息,预测不同条件下的深度,本文提出了一种基于卷积神经网络的深度预测体系结构,即红外和可见光图像融合网络IVFuseNet。具体而言,我们构建l 共同特征融合子网络全特征融合子网络高分辨率重建子网络,以充分利用这两种图像的互补性。共特征融合子网络采用双流(two stream)多层卷积结构,每层过滤器部分耦合,以融合红外图像和可见光图像提取的共同特征。全特征融合子网络通过自适应融合权值来融合共特征融合子网络生成的双流特征,而不是采用预设的融合权值。此外,高分辨率重建子网络采用残差密集卷积,将融合后的低分辨率特征精确映射到对应的高分辨率特征,增强深度预测细节的重建。所有三个子网协同进行深度预测任务。我们的NUST-SR数据集由无人驾驶车辆驾驶时捕获的实际道路场景组成。提出的IVFuseNet在该数据集上的性能最好。IVFuseNet将均方根误差减小到3.4513,平均相对误差减小到0.1651,优于其他方法。这个模型和数据集可以在这个找到:https://github.com/liyuqi1234/IVFN

Why?:目前的深度预测大多只基于红外或只基于可见光,融合这两者的互补信息能有效提高深度预测的精度

How?:共同特征子网络 + 全特征融合子网络 + 高分辨率重建子网络

What?:在NUST-SR数据集上比其他方法都好

Introduction

P1:基于视觉的自动驾驶简介

  • [1-5]:基于视觉的自动驾驶方法在学术和工业界都吸引了大量的研究热情

获得2维图像的深度信息能帮助理解场景中物体的几何关系,更进一步地强化了自动驾驶的安全性

P2:基于可见光的深度预测

  • [6-8]:大多数研究工作仅基于可见光图像来预测深度。传统的深度预测方法通常需要手动构造特征,如尺度不变特征变换(SIFT)和方向梯度直方图(HOG)。

  • [9-13]:最近,基于卷积神经网络(CNN)的方法可以自动提取更有效的特征来预测深度并实现可观的收益

  • [9]:提出了第一个利用可见光图像来预测深度的基于CNN的多尺度深度网络方法

  • [14-15]:其他基于CNN的方法结合**条件随机场(condition random field ,CRF)**来获得深度图

  • [42]:Li等人利用**深度卷积神经网络(deep convolutional neural network, DCNN)**获取可见光图像的深度图,然后利用CRF对深度图进行细化。

P3:红外图像的优点

可见光进行深度预测受到场景限制大,深夜或者能见度低情况下很难提取出可靠特征。

红外的优势:

  • 红外图像不受亮度变化的影响,在夜间光强变化和弱光条件下都能提取出稳定的特征
  • 红外图像具有很高的穿透力,能够穿透雨、雾、雪,因此解决了遮挡问题。
  • 红外图像的检测距离远高于可见光图像的检测距离。红外图像中非常遥远的物体也是清晰的。

P4:基于红外的深度预测

  • [16-19]:基于红外的方法
  • [16]:Xiao等人基于多尺度和空间上下文信息提取红外图像的特征,弥补红外图像局部信息不足,通过**独立分量分析(independent component analysis, ICA)选择适合红外图像深度预测的特征,然后通过非线性支持向量回归(nonlinear support vector regression, SVR)**预测深度。
  • [18]:Sun等人提出了一种基于核主成分分析(KPCA)和全连接神经网络的方法。在他们的工作中,利用核主成分分析提取适合红外图像的非线性特征,然后利用这些特征和对应的地面真值深度训练BP神经网络。

P5:红外图像的不足及融合的好处

虽然红外图像在某些方面弥补了可见光图像的不足,但由于**红外图像缺乏纹理信息,对比度较低,仅基于红外图像进行深度预测对于小目标和目标边缘的预测效果不够准确。**可见光图像纹理信息丰富,对比度高,弥补了红外图像的不足。通过以上分析,基于红外和可见光图像融合的深度预测可能比单纯基于可见光图像或红外图像的深度预测具有更好的性能

P6:红外与可见光的融合

  • [41-42]:重要问题:两种图像融合的配准
  • [20-27]:一些成功的图像融合方法
  • [20]:使用了拉普拉斯金字塔 Laplacian pyramid
  • [21]:小波变换 wavelet transform
  • [22-24,27]:基于CNN的方法来融合不同种类的图像
  • [24]:Prabhakar等人提出了极值曝光图像对的曝光融合,CNN用于融合曝光图像对的亮度通道,加权融合策略用于融合输入图像的色度通道。

P7:融合的优势及先前融合方法的问题

  • 光学相机-红外融合的优势:
    • 红外:更能预测弱光场景的深度
    • 光学相机:光照充足,物体纹理清晰的时候深度预测更好
  • 先前工作的问题:
    • 先前工作采用等权值或者手动调整的权值进行融合,忽略了两种图像在不同场景中深度预测的贡献不同的问题

P8-9 :本文的主要工作工作及章节介绍

在本文中,我们提出了一种基于CNN的架构,称为IVFuseNet(图1),自适应融合红外和可见光图像的互补信息,进行深度预测,它具有:共特征融合子网络全特征融合子网络高分辨率重建子网络3个子网络。

image-20201116171952710

共特征融合子网络

  • 部分耦合过滤器 : 为了保持显著特征,我们在共特征融合子网络中提出部分耦合过滤器,在自适应加权融合前进一步增强特征。耦合过滤器有助于发现更有鉴别性的特征,这些特征很容易被彼此忽略。
  • 全特征融合子网络
  • 自适应加权融合策略: 首先,我们考虑了红外图像和可见光图像在不同场景下对深度预测的贡献不同。提出了自适应加权融合策略,其中系数矩阵表示两种图像的不同贡献。

高分辨率重建子网络

  • 残差密集卷积 RDC : 此外,融合特征的分辨率在卷积过程中降低,小于ground truth深度图像的分辨率。在深度预测之前,我们需要恢复融合特征的分辨率。受[28,29]的启发,**残差密集卷积(residual dense convolution, RDC)**在高分辨率重建中具有良好的性能。因此在高分辨率重建子网络中,我们在高分辨率重建子网络中采用RDC,也可以增强融合的特征。

我们的主要贡献如下:

  • 在共特征融合子网络中设计了部分耦合过滤器,从红外图像和可见光图像中提取特征,学习红外图像和可见光图像之间的可转移特征。这相当于在子网络学习过程中,保留两类输入图像的单个特征,同时融合共同特征。

  • 自适应加权融合方法考虑了红外和可见光图像在不同场景下的不同贡献,并通过全特征融合子网络训练自适应融合系数矩阵,而不需要预先设置人工加权。

  • 将残差密集卷积块用于高分辨率子网络中进行深度预测,这些残差密集卷积块有助于恢复细节,提高特征融合效果。高分辨率重建子网络将低分辨率特征精确映射到相应的高分辨率特征,用于监督学习。

Related Work

与我们的工作直接相关的是一些预测深度和融合红外和可见光图像的方法。基于CNN的方法已经成为深度预测最重要的方法。

P1:基于CNN的深度预测方法

  • [10]:Eigen等人提出了一个三尺度的卷积网络来预测深度。在他们的工作中,将每个尺度的输出预测传递给下一个尺度。采用三种尺度逐步细化预测深度,提取更多的图像细节。

  • [19]:Gu等人设计了二维残差神经网络和三维CNN组合网络,该网络结合光流信息考虑连续两帧图像之间的信息。

  • [30]:不使用全连通层,Laina等人使用全卷积残差网络预测深度,并提出了一种新的上采样块来提高输出分辨率,

这些方法很难充分利用原始低分辨率特征的所有层次信息。受**[28,29]**的启发,我们在我们的网络中采用了残差密集卷积块。残差密集卷积块允许从前一层的输出直接连接到当前层,以利用所有层次特征。

P2:可见光与红外的融合

融合可见光图像与红外图像的互补信息在图像处理领域得到了广泛的研究[

  • [25-27,31]:可见光与红外融合

  • [22]:Li等人设计了一个DenseFuse网络,从源图像中获取更有意义的特征,并将特征进行等权融合。

  • [27]:Ma等人[27]提出了一种生成式对抗网络FusionGAN,用于融合红外和可见光图像。发生器产生一幅融合了红外信息和附加可见信息的图像。鉴别器使融合后的图像具有更多的可见光图像纹理信息。这些方法主要侧重于特征提取,而不同特征的融合则简单地通过预先设定的权重进行。但是,两种图像的权重在不同光照条件下是可变的,以进行深度预测。

P3:我们的方法

与上述融合方法不同的是,我们首先设计了一种具有部分耦合过滤器的共同特征融合子网络来融合共同特征。其次,采用自适应加权融合策略融合共特征融合子网络中的全特征,使红外图像在弱光条件下贡献更大,可见光图像在充足光条件下贡献更大,从而实现深度预测;

Technical approach

在本节中,我们将介绍用于深度预测的红外和可见光图像融合网络(IVFuseNet)。我们的网络示意图如图2所示。在共特征融合子网络中设计部分耦合过滤器,提取浅层特征,融合两种不同类型图像的共同特征。在全特征融合子网络中,我们提出了一种自适应加权融合策略来融合共特征融合子网络提取的全特征。随后,我们设计一个高分辨率重建子网络来增强地物细节和预测高分辨率深度地图。

共同特征融合子网络

P1 :共同特征和个体特征

如前所述,从单一RGB摄像机获取的图像可能包含的信息不足,无法在特定光照条件下提取深度预测。在提出的IVFuseNet中,红外图像和可见光图像都被使用,以平衡这两种图像的互补性。红外图像和可见光图像互为“辅助变量”。因为每一对红外线-可见光图像代表同一个场景。我们假设这两种图像存在共同特征。Wang等人[32]提出利用耦合过滤器可以将某些相似特征从源域转移到目标域。然而,即使经过高度复杂的操作,红外和可见光图像的所有特征也不是都能被表示和传递。在本文中,能够相互转移的特征称为“共同特征”,不能相互转移的特征称为“个体特征”。在上述分析的基础上,我们首先设计了共特征融合子网络进行共特征融合。

P2 :网络结构

  • 双流程结构:我们的共同特征融合子网络的详细机制如图2中的红色点框所示。我们采用的是双流程结构。
  • AlexNet为每个流的基础:对于每个流,我们使用AlexNet[33]作为基础,因为AlexNet的参数数量相对较小。共特征融合子网络的具体内容如表1所示。此外,我们还可以选择其他网络作为基准,如VggNet[34]。该子网以256×512分辨率的红外图像及其对应的可见光图像作为子网的输入。
  • 部分耦合过滤器:与传统的双流CNN不同,我们在每个卷积层中设计部分耦合过滤器来学习红外和可见光图像之间的可转移特征。耦合比率如表2所示。
    image-20201117024345405

image-20201117024537691

image-20201117024558702

P3:过滤器

image-20201117024747169

  • 如图3所示,共特征融合子网络的过滤器可以分为三类:

    • 红外图像过滤器、

    • 可见光图像过滤器

    • 红外和可见光图像的部分耦合过滤器。

  • 部分耦合过滤器设计用于提取红外和可见光图像的特征。红外图像作为可见光图像的“辅助变量”,有助于发现弱光条件下可见光图像中未捕捉到的更有鉴别性的特征。同样,可见光图像作为红外图像的“辅助变量”,可以通过部分耦合过滤器从红外图像中提取出更多的细节信息(纹理、边缘等)。

  • 未耦和过滤器学习红外图像和可见光图像的单个特征。

  • 部分耦合过滤器数目与过滤器总数之比称为耦合比

image-20201117025130443

其中Ri为第i层的耦合比,ki为第i卷积层部分耦合过滤器的个数,ni为第i卷积层全部过滤器的个数。在本文中,我们使用以下耦合比率:0,0.25,0.5,0.75。我们在第4节中通过粗网格搜索演示了这些耦合比率的性能

P4:耦合比

  • 可以注意到,耦合比随着卷积层的增加而增大。
  • 分析表明,浅层卷积层提取的纹理和细节特征在红外图像和可见光图像中有很大的不同。更深层次的卷积层提取红外图像和可见光图像的结构和形状特征,这些特征共享红外图像和可见光图像的共同信息。

P5:网络训练方法

在共特征融合网络中,利用BP算法更新滤波权值。可以发现,无论红外图像流还是可见光图像流,耦合过滤器的权值在每次训练迭代中更新两次,而非耦合过滤器的权值在每次迭代中更新一次。因此,假设我们先更新红外流的权值,再更新可见光流的权值,过滤器权值更新如下:

image-20201117025536729

image-20201117025940889

其中n为迭代次数,μ为学习率,L为损失函数。耦合过滤器的权值在每次迭代更新如下:

image-20201117030025450

P6:特点和接下来的介绍

综上所述,在共特征融合子网络中设计部分耦合过滤器,学习红外和可见光图像共同特征间的非线性变换关系,相当于增强两种图像的特征,融合共同特征。

从红外图像和可见光图像中提取的特征分为共同特征和个体特征。为了同时利用公共特征和个体特征进行深度预测,我们提出了全特征融合子网络来融合双流结构的所有特征。全特征融合子网络的效率将在第3.2节中进行分析。

全特征融合子网络

自适应特征融合结构

部分耦合过滤器提取公共特征后,需要将公共特征与个体特征进行融合进行深度预测。由于提取的特征具有不同的特性,因此设计一种自适应的特征融合策略至关重要。在本文中,我们在图2所示的全特征融合子网络中提出了一种自适应加权融合策略。

该加权融合策略由三个步骤组成 : 设f_ir∈b×w×h×c和f_vi∈b×w×h×c是从共同特征融合子网络提取的特征

  • 首先:我们将fir和fvi在第三个维度上进行拼接,这相当于融合f_fusion∈b×w×h×2c的红外图像和可见光图像的特征。
  • 第二:将融合特征与核k∈2c×c×1×1进行卷积,其中2c为输入通道数,c为输出通道数,核大小为1×1。受[43]的启发,由于融合特征f_fusion同时考虑了红外和可见光图像的特征,因此该卷积运算的输出与这两种特征都有关。因此,这个程序学习了两种特征之间的相关性。在得到f_ir或f_vi的相同维数的初始系数矩阵M后,我们计算它们的点积,表示它们对不同场景深度预测的不同贡献。
  • 第三,我们设计了一个sigmoid层,将M中的每个元素转换成0到1之间的概率形式。经过这三个步骤,最终得到系数矩阵g。其过程如下:

image-20201117031612216

其中b为批大小,n代表输出通道的数量.我们令红外图像的系数矩阵G_ir = G,可见光图像的系数矩阵为G_vi =1 - G, 其中G_ir和G_vi分别表示红外图像和可见光图像对深度预测的贡献水平。

在不同的条件下,系数矩阵是不同的.例如,G_ir可能在暗光情况下比G_vi大而,G_vi可能在白天下比G_ir大.G_ir和G_vi分别表示红外图像和可见光图像特征的贡献,具体如下:

image-20201117032109864

其中’圈点’代表点积.全融合特征可以这样得到:

image-20201117032217955

全特征融合子网络决定了红外特征和可见光特征对深度预测的依赖程度。

高分辨率重建子网络

P1:网络结构

利用共特征融合子网络和全特征融合子网络,获得了分辨率为真值图1 / 16的融合特征。为了预测深度图,我们需要将低分辨率的深度图映射到与真值图具有相同分辨率的高分辨率深度图上。如果采用传统的反褶积方法进行深度预测,将会产生棋盘状伪影,并丢失详细信息。受[28,29]的启发,我们设计了一种基于残差密集卷积块的高分辨率重构子网络。图4为高分辨率重建子网图。

image-20201117032348017

P2:原理

令f_fusion’为从全特征融合网络中得到的低分辨率特征.

  • 首先, 我们使用卷积层从红外和可见光图像的低分辨率融合特征中学习信息。

image-20201117033007450

其中g()为3×3卷积与批处理归一化(BN)的复合函数。

  • 然后将F0作为残差密集卷积块的输入。在残差密集卷积块中,各层的输出直接与当前残差密集卷积块的后续各层相连。它还允许将前一残差密集卷积块的输出连接到当前残差密集卷积块的各层.

image-20201117033235433

其中n为第n个残密卷积块,i为当前残密卷积块的第i层。如果每个剩余密度卷积的输出块N0特性和每一层的每一块有N个特性,我们连接的特性由前面的块和前层当前的块,导致𝑁0 +(𝑖−1)𝑁特征图的输入层。在这篇文章中,我们设置𝑁0 =𝑁= 32和每一块有三个复合操作的卷积,批量标准化和纠正线性单元

与传统的卷积神经网络相比,残差密集卷积块可以利用原始低分辨率特征的层次特征增强细节特征。在得到拼接的特征图后,我们采用1×1卷积运算自适应地学习各层的特征,并使通道数与F0相同进行残差学习。通过3个残差密集卷积块,使层间信息最大,得到信息更详细的特征图。然后利用残差学习,加上F0和最后一个块的输出,进一步增强了网络的预测能力。最后,我们设计了一个上采样层而不是反卷积层,该层的输出大小为256×512,是我们预测的深度图。我们将在第4节演示高分辨率重建的有效性.

实施细节

  • 深度学习框架:TensorFlow

  • 显卡:NVIDIA GTX 1080Ti, 11G显存

  • 初始参数:为了对不同方法进行比较,尽可能减少参数设置对最终深度预测的影响,本模型中各方法的初始参数设置相同。具体来说,权重都是初始化的截断正态分布的标准差σ= 2∕(𝑘×𝑘×𝑛_𝑖𝑛)image-20201117033928011

  • k是内核大小,外祖母是渠道的数量输入,𝜇是期望和截断范围(a, b)

  • 所有方法的学习率初始为1e−4,每20000次迭代降低0.9倍,所有方法的总迭代次数为80,000次。经过80000次迭代,所有方法都可以收敛;批量大小为4,每个卷积层后使用批量归一化处理。为了防止训练过程中出现过拟合,我们将每个激活函数层后的dropout操作设置为0.8。对于训练损失,选择交叉熵作为我们的损失,利用Adam优化器对网络进行优化。image-20201117034155029

其中L是损失,y_predictedi是实际预测,y_i是预期预测.

Experiments and results

在本节中,我们将介绍我们的NUST-SR数据集和实验的评价指标。通过对数据集的综合分析,我们证明了共特征融合子网络、全特征融合子网络和高分辨率重建子网络的有效性。与全CNN、多尺度CNN等9种方法相比,IVFuseNet在该数据集上的性能最好[9,10,19,30,33 - 37]。

数据集和评估方式

P1-P2:本文的数据集NUST-SR

大多数基于视觉的无人驾驶深度预测研究仅关注白天可见光图像的情况。然而,无人驾驶车辆在低光照条件下行驶的情况也应予以考虑。既包含红外图像又包含可见光图像的开源数据集很少。

本文使用的是NUST-SR数据集,该数据集由无人驾驶车辆在白天和黑夜行驶时拍摄的实际道路场景组成。车载远红外相机、车载RGB相机和Lidar采集的原始NUST-SR数据集,包含分辨率为768×576的红外和可见光图像以及深度雷达数据。在原始数据集中,并非每个点都有深度值,如图5(a)所示,我们首先在NYUDepth development kit[9]中使用Levin等人的着色方案填充不存在深度值的点,如图5(b)所示。

P3:使用分类方法预测深度

image-20201117034731422

此外,我们使用分类方法来预测深度,而不是以往的回归方法[19,38,39]。原因是真实场景比较复杂,预测每个像素的深度值要比预测深度范围困难得多,而且我们对远、近物体深度预测精度的要求也不一样。这种分类方法使得我们对近场景[38]有较高的准确率,而对远场景[38]有较低的准确率。对于不同的层数,如图5所示,级数越大,真值越详细,越接近原始深度图。我们可以发现,16级的深度图相对于32或64级的深度图来说是比较粗糙的,所以我们重点比较了32级和64级的深度图。64级的深度图接近比32层的深度图更接近真值,但获得的参数的数量和失败的训练次数,63级别分别比32级高7%和22%,但预测的深度地图两种方法之间的差别很小。因此,本文将深度图在对数空间划分为32个级别作为训练标签,如图6©所示。最后,我们将红外图像、可见光图像和深度图裁剪到256×512的分辨率。通过对原始数据进行预处理,得到了NUST-SR数据集,该数据集拥有标注红外图像、可见光图像和对应的真值图,白天6529幅, 夜间5612幅。

P4-P5:评价标准

在NUST-SR数据集的测试图像上,我们使用四个指标对提出的IVFuseNet进行评估:

  • 方均根误差(RMSE)
  • 平均相对误差(Rel)
  • 平均对数误差
  • 识别准确率

红外与可见光融合的结果

image-20201117040236519

image-20201117040319129

image-20201117040333233

密集卷积块的结果

image-20201117040356160

image-20201117040448970

和相关方法的对比

image-20201117040605941

image-20201117040624907

Conclusion

主要贡献

  • 我们提出了一种基于CNN的结构,称为IVFuseNet,它可以自适应融合红外和可见光图像的互补性,以解决不同光照条件下的深度预测问题。我们提出的融合方法主要包括两个方面。
    • 首先,我们在共特征融合子网络中设计部分耦合过滤器,利用“辅助变量”增强红外和可见光图像的特征。
    • 其次,为了考虑不同光照条件下红外和可见光图像的不同贡献,设计了自适应加权融合方法。
    • 此外,我们引入3个残差密集卷积块,进一步恢复细节,提高深度预测的准确性.
  • IVFuseNet的有效性已经在我们的NUST-SR数据集上得到了验证。与其他方法相比,我们在该数据集上取得了最好的性能。

未来工作

  • 收集新的数据集和设计新的深度预测结构。目前无人驾驶深度预测主要集中在白天应用,现有的数据集都是在良好的光照条件下设计的。在不同的天气条件和光照条件下,需要开发新的数据集进行进一步的研究。
  • 本文不考虑图像的序列信息。在未来,我们将尝试采用递归神经网络来处理图像序列中不同帧之间的相关信息。
 评论