基于差异双分支编码器的多阶段图像融合方法
洪雨露1, 吴小俊1, 徐天阳1
1.江南大学 人工智能与计算机学院 江苏省模式识别与计算智能工程实验室 无锡 214122
通信作者:

吴小俊,博士,教授,主要研究方向为人工智能、模式识别、计算机视觉.E-mail:xiaojun_wu_jnu@163.com.

作者简介:

洪雨露,硕士研究生,主要研究方向为图像融合、深度学习.E-mail:yulu_hong@163.com.

徐天阳,博士,副教授,主要研究方向为人工智能、模式识别、计算机视觉.E-mail:tianyang_xu@163.com.

摘要

在现有的红外和可见光图像融合方法中,融合图像中的细节信息丢失严重,视觉效果不佳.针对上述问题,文中提出基于差异双分支编码器的多阶段图像融合方法.通过两支不同结构的编码器提取多模态图像的特征,增强特征的多样性.设计多阶段的融合策略,实现精细化图像融合.首先,在差异双分支编码器中,对两个编码分支提取的差异性特征进行初级融合.然后,在融合阶段,对多模态图像的显著性特征进行中级融合.最后,使用远程横向连接将差异双分支编码器的浅层特征传送给解码器,同时指导融合过程和图像重建.对比实验表明,文中算法可增强融合图像的细节信息,并在视觉效果和客观评价上都较优.

关键词: 图像融合; 红外图像; 可见光图像; 卷积神经网络
中图分类号:TN 911.73
Multi-stage Image Fusion Method Based on Differential Dual-Branch Encoder
HONG Yulu1, WU Xiaojun1, XU Tianyang1
1.Jiangsu Provincial Engineering Laboratory of Pattern Recognition and Computing Intelligence, School of Artificial Intelligence and Computer Science, Jiangnan University, Wuxi 214122
Corresponding author:
WU Xiaojun, Ph.D., professor. His research interests include artificial intelligence, pattern recognition and computer vision.

About Author:
HONG Yulu, master student. Her research interests include image fusion and deep lear-ning.
XU Tianyang, Ph.D., associate professor. His research interests include artificial intelligence,pattern recognition and computer vision.

Abstract

In the existing infrared and visible image fusion methods, the details of the fused image are lost seriously and the visual effect is poor. Aiming at the problems, a multi-stage image fusion method based on differential dual-branch encoder is proposed. The features of multi-modal images are extracted by two encoders with different network structures to enhance the diversity of features. A multi-stage fusion strategy is designed to achieve refined image fusion. Firstly, primary fusion is performed on the differential features extracted by the two encoding branches in the differential dual-branch encoder. Then, mid-level fusion on the saliency features of the multi-modal images is conducted in the fusion stage. Finally, the long-range lateral connections are adopted to transmit shallow features of the differential dual-branch encoder implemented to the decoder and guide the fusion process and the image reconstruction simultaneously. Experimental results show the proposed method enhances the detailed information of the fused images and achieves better performance in both visual effect and objective evaluation.

Key words: Key Words Image Fusion; Infrared Image; Visible Image; Convolutional Neural Network

本文责任编委 叶东毅

Recommended by Associate Editor YE Dongyi

图像融合是图像处理中的一个重要课题, 其目的是获得具有重要目标和丰富细节的融合图像.由于成像原理不同, 单个传感器能获取的图像信息相对有限.红外图像可获取图像的热辐射信息, 在视觉昏暗时也不受影响, 但是包括的纹理细节信息较有限, 影响人们对场景的理解.可见光图像可获得丰富的纹理信息和细节信息, 但在昏暗条件下获得的目标信息不明显.因此, 将红外图像和可见光图像进行融合可使融合图像中同时包含红外图像的显著性目标和可见光图像的背景细节信息, 融合后的图像更有利于人类的视觉感知, 也便于后续应用在其它计算机视觉任务中[1].融合技术可应用在检测[2, 3, 4]、目标跟踪[5, 6]、行为识别[7]等许多领域.

现有的图像融合方法一般可分为传统的图像融合方法和基于深度学习的图像融合方法.传统的图像融合方法主要包括基于多尺度变换的方法[8]和基于稀疏/低秩表示学习的方法[9, 10].基于多尺度变换的方法将源图像映射到不同尺度的特征空间, 然后选择合适的融合策略融合多尺度特征, 最后通过逆多尺度变换生成融合图像.基于稀疏/低秩表示学习的图像融合方法是从高质量的输入图像中学习一个过完备字典, 获得稀疏(低秩)的图像表示, 然后选择合适的融合策略, 获得融合的稀疏表示系数, 最后通过图像重构得到融合图像.虽然这些传统的图像融合方法可取得较好的融合质量, 但是学习一个过完备字典就占用融合算法的大部分运行时间, 而且融合质量非常依赖于手工设计的融合规则, 这些融合规则使融合算法越来越复杂.

近年来, 随着深度学习的兴起, 其强大的特征提取能力和重构能力被应用于图像融合中, 学者们提出许多基于深度学习的图像融合方法, 可分为非端到端的图像融合方法和端到端的图像融合方法.非端到端的图像融合方法[11, 12, 13]通常使用深度学习将源图像映射到特征空间, 并使用手工设计的融合规则融合深度特征.常用的融合规则包括取平均值、取最大值、加法等.Li等[12]提出DenseFuse(A Fusion Approach to Infrared and Visible Images), 在训练阶段, 仅通过自动编码器训练网络的重构性能, 不涉及融合策略.在测试阶段, 应用手动设计的融合策略获得多模态图像的融合图像.Li等[13]提出NestFuse(An Infrared and Visible Image Fusion Architecture Based on Nest Connection and Spatial/Channel Atten-tion Models), 为融合图像添加更多的纹理信息.虽然上述方法使用深度学习获得图像特征, 但仍需手动设计融合规则, 增加融合算法的复杂性.

为了避免手动设计融合规则, 让网络自适应地学习融合参数, 学者们提出许多端到端的图像融合方法[14, 15, 16, 17, 18, 19, 20, 21].Prabhakar等[14]提出DeepFuse(A Deep Unsupervised Approach for Exposure Fusion with Ex-treme Exposure Image Pairs), 使用无监督的方式训练多曝光融合网络, 网络包括编码器、融合层和解码器, 在融合层使用相加的方式进行特征融合.由于融合规则过于粗糙, 在复杂的融合任务上, 不具备优势.生成对抗网络(Generative Adversarial Networks, GAN)也被应用于端到端的红外和可见光图像融合中.Ma等[16]提出FusionGAN(A Generative Adver-sarial Network for Infrared and Visible Image Fusion), 使用GAN完成图像融合任务.生成器用于生成红外和可见光图像的融合图像, 判别器用于为融合图像添加纹理信息.但是, 由于损失函数只包括内容损失和对抗损失, 融合后的图像与红外图像接近, 丢失可见光图像的细节.随后, Ma等[17]改进文献[16], 在损失函数中添加细节损失和目标边缘损失, 在一定程度上提高融合质量.

虽然基于GAN的融合方法可实现融合目的, 但是由于GAN的训练不稳定, 网络训练非常困难, 并且融合图像依然丢失大量纹理信息.为了在训练简便的同时提升融合质量, Zhang等[18]提出IFCNN(A General Image Fusion Framework Based on Convolutional Neural Network), 使用两个卷积层作为特征提取模块, 选择简单的融合策略(最大值、平均值、求和)融合提取特征, 最后使用两个卷积层进行图像重建.这种方法虽然可应用于多种图像融合任务, 但网络结构过于简单, 无法提取全面的特征信息, 使融合图像丢失很多内容.此后, Zhang等[19]提出PMGI(A Fast Unified Image Fusion Network Based on Proportional Maintenance of Gradient and Intensity), 梯度分支负责提取纹理特征, 强度路径负责提取强度信息.该方法虽然实现图像融合的任务, 但是仅设计一个卷积核为1的卷积层用于图像重构, 过于简单的重构网络使融合图像较模糊.程春阳等[20]提出基于GhostNet的图像融合方法, 用Ghost模块替换卷积层, 并在损失函数中引入感知损失, 可自适应地学习网络参数, 融合图像中红外目标显著, 但可见光图像的背景信息保留有限, 边缘不清晰.Xu等[21]提出U2Fision(A Unified Unsupervised Image Fusion Net-work), 可解决多种图像融合任务, 但在某些具体的融合任务上表现一般, 缺乏针对性, 在红外和可见光图像数据集上融合图像的目标显著性较弱, 细节信息不足.

针对现有融合方法产生的融合图像细节信息丢失严重的问题, 本文提出基于差异双分支编码器的多阶段图像融合方法, 以端到端的方式训练网络, 避免手工设计融合策略, 降低融合算法的复杂性.本文方法设计编码器的两个分支, 使用不同的网络结构提取源图像的特征, 一个分支使用顺序连接的方式连接卷积层, 另一个分支使用密集连接的方式.差异双分支编码结构可将源图像映射到不同的特征空间, 每个分支能获取源图像的差异性特征信息, 增强特征提取能力.此外, 在现有的一些融合方法[12, 14, 18]中, 仅针对编码器提取的深层特征进行融合, 融合策略较粗糙, 导致融合结果的细节信息丢失严重.因此, 本文设计多阶段精细化融合策略, 不仅可在特征提取阶段对多源特征进行粗略融合, 还在深层特征空间和重构过程中应用融合操作, 使特征融合更充分, 有效增强融合图像的细节信息, 便于理解图像场景, 提升视觉感知效果.实验验证本文方法在视觉效果和客观指标上都较优.

1 基于差异双分支编码器的多阶段图像融合方法

本文提出基于差异双分支编码器的多阶段图像融合方法, 框架如图1所示.方法由三部分组成:差异双分支编码网络、融合层和重构网络.

图1 本文方法框架图Fig.1 Framework of the proposed method

1.1 差异双分支编码网络

如图1所示, 相比现有的图像融合网络, 本文设计差异双分支编码器提取源图像的特征.编码器的2个分支都使用4个卷积层, 分别是EC1、EC2、EC3、EC4.在第1个分支中, 将卷积层的连接方式设计为顺序连接.在第2个分支中, 将卷积层的连接方式设计为密集连接, 以此将源图像映射到不同的特征空间, 提取更丰富、全面的特征, 增强特征提取的多样性.网络输入是级联后的红外图像和可见光图像, 可表示为

$I_{input}=Concat(I_r, I_{vis}), $

其中Concat(·, ·)表示级联操作.这样的结构具有如下2个优点.1)使用两种不同的网络连接方式提取源图像特征的差异双分支编码器, 能学习更全面的信息.2)将不同模态的级联图像作为每个分支的输入, 可在特征提取阶段对多模态特征进行粗略融合.

1.2 多阶段特征融合策略

本文设计精细化的多阶段融合策略, 融合操作分布在网络的三个阶段.在第一阶段, 如图1中的融合层1所示, 在特征提取阶段, 对编码器的两个分支提取的特征进行初步融合, 具体步骤是将前一层中两个编码分支产生的特征进行级联, 然后对级联后的特征分别进行1×1的卷积操作, 以适应两个分支的通道数目, 最后再将融合层1中生成的融合特征传送给编码器的两个分支.这种方式可增强两个分支之间的特征传输, 使多模态特征得到初级融合.在第二阶段, 如图1中的融合层2所示, 在深层特征空间中, 对编码器提取的特征进行融合, 将EC4的输出进行级联, 然后通过一次3×3的卷积融合两个分支的深度特征.在第三阶段, 通过远程横向连接将编码器的浅层特征融入图像重建的过程中, 指导图像重构.

多阶段的融合策略使融合操作分布在网络的多个阶段, 实现精细化特征融合, 获取质量更高的融合图像.

1.3 融合图像重构

本文的图像重建网络简单有效, 包括4个卷积层(DC1、DC2、DC3、DC4).图像重构网络的DC4输出融合图像$I_f$.此外, 将EC2的输出连接到解码器的前两层(DC1, DC2), 增强图像重构能力.DC1和DC2的输出可表示为

$\begin{array}{l} \phi_{\mathrm{DC} 1}=\operatorname{Conv}\left(\phi_{f 2}+\sum_{j=1}^{n} \phi_{\mathrm{EC} 2}^{j}\right) \\ \phi_{\mathrm{DC} 2}=\operatorname{Conv}\left(\phi_{\mathrm{DC} 1}+\sum_{j=1}^{n} \phi_{\mathrm{EC} 2}^{j}\right) \end{array}$

其中, $ϕ_{DC1}$ 和$ϕ_{DC2}$ 分别表示DC1和DC2输出的特征图, Conv(·)表示卷积操作, $ϕ_{f2}$ 表示融合层2输出的特征图, $ϕ_{EC2}$ 表示EC2输出的特征图, n=2, 表示编码器的分支数量.

1.4 损失函数

本文的目标是生成包含多模态图像信息的融合图像.因此, 融合图像中不仅要具有红外目标信息, 还应包含丰富的纹理细节信息.本文使用均方误差计算融合图像和输入图像之间的像素损失.但是, 只使用均方误差作为损失函数会使融合图像过于平滑, 丢失结构信息.

为了解决此问题, 引入结构相似度(Structural Similarity, SSIM)[22]损失, 指导融合图像中包含更多纹理信息.因此, 总的损失函数包括像素强度损失和结构相似度损失:

$L_{total}=L_{pixel}+λL_{ssim}, $(1)

其中, $L_{pixel}$ 表示像素强度损失, $L_{ssim}$ 表示图像的结构相似性损失, λ表示平衡参数.

图像的像素强度损失$L_{pixel}$ 主要是为了使融合后的图像看起来与输入图像相似, 像素损失可表示为

$\begin{array}{l} L_{\text {pixel }}=\frac{1}{C W H}\left\|I_{f}-I_{p}\right\|_{2}^{2}, \\ I_{p}=\frac{1}{2}\left(I_{r}+I_{\text {vis }}\right), \end{array}$

其中, C表示图像的通道数, W、H表示图像的宽、高, $\left\|·\right\|_2$ 表示2范数, $I_f$ 表示融合图像, $I_p$ 表示设置的图像, 为两个模态图像的平均值.

由于可见光图像包含更多的纹理信息, 通过计算可见光图像和融合图像之间的结构相似度损失, 将更多的纹理细节信息反映到融合图像中.结构相似性损失

$L_{ssim}=1-SSIM(I_f, I_{vis}), $

其中, SSIM(, ·, )表示结构相似度, 用于计算融合图像和可见光图像的结构相似度, $I_f$ 表示融合图像, $I_{vis}$ 表示可见光图像.

2 实验及结果分析
2.1 实验设置

在训练阶段, 选择TNO数据集(https://figshare.com/articles/TN_Image_Fusion_Dataset/1008029)中的15对红外和可见光图像, 将这些图像裁剪为 64× 64的图像块, 随机选择8 000对作为训练集.批处理大小为4, 迭代次数为20.学习率为0.000 1.式(1)中的 λ设置为10.实验运行在NVIDIA GTX 1080Ti GPU上.在测试阶段, 使用TNO、VOT-2020-RGBT[23]数据集.

通过融合图像的视觉效果及客观指标评价融合质量.质量较高的融合图像不仅要具有良好的视觉效果, 客观上还要包含充足的来自源图像的信息.因此, 本文选取如下6个客观评价指标:熵(Entropy, En)[24]、视觉信息保真度(Visual Information Fidelity, VIF)[25]、互信息(Mutual Information, MI)[26]、基于离散余弦变换互信息(Discrete Cosine Transform Based Fast-Feature MI, FMIdct)[27]、基于小波特征互信息(Wavelet Based Fast-Feature MI, FMIw)[27]、Qabf(Edge Preservation Value)[28].

本文选择如下对比方法:JSRSD(Infrared and Visible Image Fusion Method Based on Saliency Detec-tion in Sparse Domain)[9]、VggML(VGG-19 and The Multi-layer Fusion Strategy Based Method)[11]、Dense-Fuse[12]、NestFuse[13]、DeepFuse[14]、FusionGAN[16]、IFCNN[18]、PMGI[19]和U2Fusion[21], 对比方法的融合结果都是从原作者提供的代码中得到的.

2.2 消融实验

为了证实多阶段融合策略的有效性, 进行消融实验, 包括:1)单阶段融合策略(简记为1-stage), 融合策略只包含融合层2, 无融合层1和DC1、DC2的横向连接.2)两阶段融合策略(简记为2-stage), 即融合策略包括融合层2和DC1、DC2的横向连接, 无融合层1.2)三阶段融合策略(简记为3-stage), 融合策略包括融合层1、融合层2和DC1、DC2的横向连接.不同网络获得的融合图像如图2所示.

图2 使用不同融合策略获得的融合图像Fig.2 Fused images obtained by different fusion strategies

由图2可知, 在使用单阶段融合策略获得的融合图像中, 红外目标信息突出, 但在光线昏暗时, 纹理细节信息丢失严重.相比使用单阶段融合策略获得的融合图像, 使用两阶段融合策略和三阶段融合策略得到的融合图像不仅拥有突出的红外目标信息, 还包含丰富的可见光图像的纹理信息, 具有良好的视觉效果.

为了更全面客观地验证多阶段融合策略的有效性, 本文使用TNO数据集上21对红外和可见光图像进行定量分析, 计算3种融合策略在21张融合图像上的指标平均值, 结果如表1所示, 表中黑体数字表示最优值.

表1 在TNO数据集上使用不同融合策略获得的指标平均值 Table 1 Average index values obtained by different fusion strategies on TNO dataset

表1可知, 随着融合阶段的增多, 得到的融合图像质量不断提高, 由此验证多阶段融合策略的有效性.

为了验证差异双分支编码器的有效性, 将编码器两个分支的连接方式设置为如下3种方式:都使用顺序连接(简记为seq-seq)、都使用密集连接(简记为dense-dense)、分别使用顺序连接和密集连接(简记为seq-dense).3种方式获得的融合图像如图3所示.

图3 使用不同编码结构获得的融合图像Fig.3 Fused images obtained by different coding structures

由图3可知, 都使用顺序连接结构获得的融合图像中红外信息明显, 都使用密集连接结构获得的融合图像更偏向可见光图像, 而分别使用两种连接的结构可更好地平衡红外图像和可见光图像的信息, 同时保留显著特征和丰富的细节信息.

再使用TNO数据集上21对红外和可见光图像进行定量分析, 结果如表2所示, 表中黑体数字表示最优值.

表3可知, 通过本文的差异双分支编码结构得到的融合图像综合质量最高.

表2 在TNO数据集上使用不同编码结构获得的指标平均值 Table 2 Average index values obtained by different coding structures on TNO dataset
表3 各方法在TNO数据集上的指标值 Table 3 Index values of different methods on TNO dataset
2.3 在TNO数据集上的实验结果

在TNO数据集的21对红外和可见光图像上测试本文方法.各对比方法获得的融合图像如图4所示, 图中红色方框标注细节信息, 并对红色方框内的区域进行放大展示.

图4 各方法在“ street” 图像上的融合图像Fig.4 Fused images obtained by different methods for “ street” images

由图4可知, JSRSD获得的融合图像中包含噪声和伪影, 显著性特征不清晰.VggML、FusionGan和IFCNN获得的融合图像更偏向于红外图像, 字母信息模糊.由于背景信息在融合图像中非常重要, DeepFuse、DenseFuse、NestFuse、U2Fusion的融合结果中保留一定的纹理信息, 但仍较粗糙, 字母边缘不清晰.

本文方法获得的融合图像平衡红外图像和可见光图像的特征, 使融合图像既包含红外图像的显著目标, 又含有可见光图像的纹理, 字母也较清晰, 最终的融合效果更有利于人类的视觉感知.

各对比方法在测试集上获得的融合图像的指标值如表3所示, 在表中, 黑体数字表示最优值, 斜体数字表示次优值.

表3可看出, 本文方法可在EN、MI、Qabf、FMIdct、FMIw指标上获得最优值.这表明在本文方法获得的融合图像中, 既包含丰富的细节信息量(EN、MI), 又拥有充足的特征信息和较高的图像质量(VIF、FMIdct和FMIw).在VIF指标上, 本文方法取得次佳值, 仅次于U2Fusion, 但两种方法的VIF值非常相近.相比U2Fusion, 本文方法的VIF值仅降低0.13%, 仍具有良好的视觉保真度.此实验验证本文方法的有效性.

2.4 VOT2020-RGBT与TNO混合数据集上的融合结果

为了验证本文方法的泛化性, 选择VOT2020-RGBT与TNO数据集上40对红外与可见光图像进行测试.各方法在其中一对图像上的融合效果如图5所示, 图中红色方框标记红外信息, 黄色方框标记可见光图像信息.

图5 各方法在“ river” 图像上的融合图像Fig.5 Fused images of different methods for “ river” images

由图5可知, DeepFuse、DenseFuse、PMGI、U2Fusion的融合图像中红外信息不显著, Nest-Fuse、IFCNN的融合图像中丢失大量可见光图像的纹理信息.本文方法获得的融合图像既有显著的红外特征, 又含有丰富的纹理信息.

各方法在40对图像上获得的融合图像的指标值如表4所示, 表中黑体数字表示最优值, 斜体数字表示次优值.

表4 各方法在VOT2020-RGBT与TNO数据集上的指标值 Table 4 Index values of different methods on VOT2020-RGBT and TNO datasets

表4可知, 本文方法在EN、MI、FMIdct、FMIw指标上获得最优值, 表明本文方法获得的融合图像质量更高, 也验证本文方法具有泛化性.

2.5 RGB与红外图像的融合结果

本文方法还可融合RGB图像与红外图像.首先将RGB图像转换到YCrCb空间, 仅将Y通道(亮度通道)和红外图像作为本文方法的输入, 获取融合后的亮度通道图.然后将融合的亮度通道与CrCb通道一起转换到RGB空间, 获得彩色融合图像.

RGB与红外图像的测试数据来自文献[4]和文献[29].选取本文方法部分融合结果, 如图6所示, 图中红色方框内表示红外显著特征.由图可知, 融合图像中不仅包含红外图像中的显著性目标, 还保留RGB图像的色彩和背景信息, 更有利于人类的视觉感知.

图6 本文方法对RGB与红外图像的融合结果Fig.6 Fusion results of the proposed methods for RGB and infrared images

3 结束语

本文提出基于差异双分支编码器的多阶段图像融合方法, 使用差异双分支编码器提取多模态图像的特征, 弥补特征提取多样性不足的问题.设计多阶段的图像融合策略, 在融合网络的不同阶段融合特征空间的特征, 使融合图像包含更全面的源图像的信息, 提升融合图像中的细节信息.实验表明, 本文方法可较好地保留红外图像的显著目标信息和可见光图像的背景信息, 同时在人类视觉感知和客观评价指标上都取得较优结果.性能较优的融合方法是应用于实际任务的关键之一, 还可应用在其它计算机视觉任务中, 如目标跟踪、检测等, 今后可开展进一步的研究.

参考文献
[1] MA J Y, MA Y, LI C. Infrared and Visible Image Fusion Methods and Applications: A Survey. Information Fusion, 2019, 45: 153-178. [本文引用:1]
[2] LAHMYED R, EL ANSARI M, ELLAHYANI A. A New Thermal Infrared and Visible Spectrum Images-Based Pedestrian Detection System. Multimedia Tools and Applications, 2019, 78(12): 15861-15885. [本文引用:1]
[3] 赵迪, 徐志胜. 基于MRSVD红外热像融合的混凝土结构火灾损伤检测方法. 信息与控制, 2017, 46(1): 19-24, 40.
(ZHAO D, XU Z S. Detection of Fire Damage to Concrete Structures with Infrared Thermal Fusion Based on Multi-resolution Singular Value Decomposition. Information and Control, 2017, 46(1): 19-24, 40. ) [本文引用:1]
[4] 李盼盼, 王朝立, 孙占全. 基于注意力机制的多特征融合人脸活体检测. 信息与控制, 2021, 50(5): 631-640.
(LI P P, WANG C L, SUN Z Q. Face Liveness Detection Based on Multi-feature Fusion with an Attention Mechanism. Information and Control, 2021, 50(5): 631-640. ) [本文引用:2]
[5] LI C L, LIANG X Y, LU Y J, et al. RGB-T Object Tracking: Benchmark and Baseline. Pattern Recognition, 2019, 96. DOI: 10.1016/j.patcog.2019.106977. [本文引用:1]
[6] 汤张泳, 吴小俊, 朱学峰. 多空间分辨率自适应特征融合的相关滤波目标跟踪算法. 模式识别与人工智能, 2020, 33(1): 66-74.
(TANG Z Y, WU X J, ZHU X F. Object Tracking with Multi-spatial Resolutions and Adaptive Feature Fusion Based on Correlation Filters. Pattern Recognition and Artificial Intelligence, 2020, 33(1): 66-74. ) [本文引用:1]
[7] 申晓霞, 张桦, 高赞, . 基于深度信息和RGB图像的行为识别算法. 模式识别与人工智能, 2013, 26(8): 722-728.
(SHEN X X, ZHANG H, GAO Z, et al. Behavior Recognition Algo-rithm Based on Depth Information and RGB Image. Pattern Re-cognition and Artificial Intelligence, 2013, 26(8): 722-728. ) [本文引用:1]
[8] BEN HAMZA A, HE Y, KRIM H, et al. A Multiscale Approach to Pixel-Level Image Fusion. Integrated Computer-Aided Engineering, 2005, 12(2): 135-146. [本文引用:1]
[9] LIU C H, QI Y, DING W R. Infrared and Visible Image Fusion Method Based on Saliency Detection in Sparse Domain. Infrared Physics & Technology, 2017, 83: 94-102. [本文引用:2]
[10] GAO R, VOROBYOV S A, ZHAO H. Image Fusion with Cosparse Analysis Operator. IEEE Signal Processing Letters, 2017, 24(7): 943-947. [本文引用:1]
[11] LI H, WU X J, KITTLER J. Infrared and Visible Image Fusion Using a Deep Learning Framework // Proc of the 24th International Conference on Pattern Recognition. Washington, USA: IEEE, 2018: 2705-2710. [本文引用:2]
[12] LI H, WU X J. DenseFuse: A Fusion Approach to Infrared and Visible Images. IEEE Transactions on Image Processing, 2018, 28(5): 2614-2623. [本文引用:4]
[13] LI H, WU X J, DURRANI T. NestFuse: An Infrared and Visible Image Fusion Architecture Based on Nest Connection and Spatial/Channel Attention Models. IEEE Transactions on Instrumentation and Measurement, 2020, 69(12): 9645-9656. [本文引用:3]
[14] PRABHAKAR K R, SRIKAR V S, BABU R V. DeepFuse: A Deep Unsupervised Approach for Exposure Fusion with Extreme Exposure Image Pairs // Proc of the IEEE International Conference on Computer Vision. Washington, USA: IEEE, 2017: 4724-4732. [本文引用:4]
[15] 肖儿良, 林化溪, 简献忠. 基于生成对抗网络探索潜在空间的医学图像融合算法. 信息与控制, 2021, 50(5): 538-549.
(XIAO E L, LIN H X, JIAN X Z. Medical Image Fusion Algorithm Adopting Generative Adversarial Network to Explore Latent Space. Information and Control, 2021, 50(5): 538-549. ) [本文引用:1]
[16] MA J Y, YU W, LIANG P W, et al. FusionGAN: A Generative Adversarial Network for Infrared and Visible Image Fusion. Information Fusion, 2019, 48: 11-26. [本文引用:4]
[17] MA J Y, LIANG P W, YU W, et al. Infrared and Visible Image Fusion via Detail Preserving Adversarial Learning. Information Fusion, 2020, 54: 85-98. [本文引用:2]
[18] ZHANG Y, LIU Y, SUN P, et al. IFCNN: A General Image Fusion Framework Based on Convolutional Neural Network. Information Fusion, 2020, 54: 99-118. [本文引用:4]
[19] ZHANG H, XU H, XIAO Y, et al. Rethinking the Image Fusion: A Fast Unified Image Fusion Network Based on Proportional Maintenance of Gradient and Intensity. Proceedings of the 34th AAAI Conference on Artificial Intelligence, 2020, 34(7): 12797-12804. [本文引用:3]
[20] 程春阳, 吴小俊, 徐天阳. 基于GhostNet的端到端红外和可见光图像融合方法. 模式识别与人工智能, 2021, 34(11): 1028-1037.
(CHENG C Y, WU X J, XU T Y. End-to-End Infrared and Visible Image Fusion Method Based on GhostNet. Pattern Recognition and Artificial Intelligence, 2021, 34(11): 1028-1037. ) [本文引用:2]
[21] XU H, MA J Y, JIANG J J, et al. U2Fusion: A Unified Unsupervised Image Fusion Network. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2020, 44(1): 502-518. [本文引用:3]
[22] WANG Z, SIMONCELLI E P, BOVIK A C. Multiscale Structural Similarity for Image Quality Assessment // Proc of the 37th Asilomar Conference on Signals, Systems & Computers. Washington, USA: IEEE, 2003: 1398-1402. [本文引用:1]
[23] KRISTAN M, LEONARDIS A, MATAS J, et al. The Eighth Visual Object Tracking VOT2020 Challenge Results // Proc of the European Conference on Computer Vision. Berlin, Germany: Springer, 2020: 547-601. [本文引用:1]
[24] ROBERTS J W, VAN AARDT J A, AHMED F B. Assessment of Image Fusion Procedures Using Entropy, Image Quality, and Multispectral Classification. Journal of Applied Remote Sensing, 2008, 2(1). DOI: DOI:10.1117/1.2945910. [本文引用:1]
[25] SHEIKH H R, BOVIK A C. Image Information and Visual Quality. IEEE Transactions on Image Processing, 2006, 15(2): 430-444. [本文引用:1]
[26] QU G H, ZHANG D L, YAN P F. Information Measure for Performance of Image Fusion. Electronics Letters, 2002, 38(7): 313-315. [本文引用:1]
[27] HAGHIGHAT M, RAZIAN M A. Fast-FMI: Non-reference Image Fusion Metric // Proc of the 8th IEEE International Conference on Application of Information and Communication Technologies. Wa-shington, USA: IEEE, 2014. DOI: 10.1109/ICAICT.2014.7036000. [本文引用:2]
[28] XYDEAS C S, PETROVIC V. Objective Image Fusion Perfor-mance Measure. Electronics Letters, 2000, 36(4): 308-309. [本文引用:1]
[29] HWANG S, PARK J, KIM N, et al. Multispectral Pedestrian Detection: Benchmark Dataset and Baseline // Proc of the IEEE Conference on Computer Vision and Pattern Recognition. Washington, USA: IEEE, 2015: 1037-1045. [本文引用:1]