高新波,博士,教授,主要研究方向为图像内容生成与质量评价、计算机视觉、模式识别.E-mail: xbgao@mail.xidian.edu.cn.
作者简介:
张铭津,博士,教授,主要研究方向为计算机视觉、图像处理、视频压缩.E-mail:mjinzhang@xidian.edu.cn.
臧 璠,硕士研究生,主要研究方向为计算机视觉、图像处理.E-mail:fanzang@stu.xidian.edu.cn.
岳 珂,硕士研究生,主要研究方向为计算机视觉、图像处理.E-mail:keyue@stu.xidian.edu.cn.
许嘉敏,硕士研究生,主要研究方向为计算机视觉、图像处理、模式识别.E-mail:jjiaminxu@163.com.
李云松,博士,教授,主要研究方向为图像/视频处理及传输、计算机视觉、芯片设计.E-mail:ysli@mail.xidian.edu.cn.
红外小目标检测广泛应用于红外检测、红外跟踪等诸多实际领域,但红外小目标检测难度较大,现有红外小目标检测方法不能解决复杂背景问题,并且在特征提取中容易丢失细节信息.因此,文中提出高阶微分方程启发的红外小目标检测网络.在可解释的理论指导下设计四阶Adams引导的特征融合模块,引入自适应权重因子,有效融合不同层级的多尺度信息,并将求解的高阶差分方程应用于网络,通过深层次的学习消除冗杂信息.目标特征增强模块使用不同尺度卷积构成的残差结构,旨在对原始特征进行抑制背景噪声和增强信息量大的多尺度特征操作.在公开数据集SIRST上的小目标检测实验表明,文中网络检测结果的多个评估指标值以及视觉效果均较优.
GAO Xinbo, Ph.D., professor. His research interests include image content generation and quality evaluation, computer vision and pattern recognition.
About Author:
ZHANG Mingjin, Ph.D., professor. Her research interests include computer vision, image processing and video compression.
ZANG Fan, master student. Her research interests include computer vision and image processing.
YUE Ke, master student. His research interests include computer vision and image processing.
XU Jiamin, master student. Her research interests include computer vision, image processing and pattern recognition.
LI Yunsong, Ph.D., professor. His research interests include image/video proce-ssing and transmission, computer vision and chip design.
In the fields of infrared detection and infrared tracking, infrared small target detection is widely applied. However, infrared small target detection poses significant challenges. The existing methods for infrared small target detection fail to address complex background issues while losing detailed information during feature extraction. Therefore, an infrared small target detection network inspired by high-order differential equations is proposed. Under the guidance of the interpretable theory, a fourth-order Adams-guided feature fusion module is designed, incorporating adaptive weight factors to effectively fuse multi-scale information from different levels. High-order difference equations are employed to eliminate redundant information through deep learning. The target feature enhancement module utilizes a residual structure composed of convolutions at different scales to suppress background noise and enhance multi-scale features with high information content. Experiments for small target detection on publicly available SIRST dataset show that the proposed network has advantages in the evaluation metrics and visual quality.
在红外图像目标检测中, 尽早识别并锁定目标具有重要意义[1], 因此, 智能化红外探测系统对小目标的检测与识别能力至关重要.然而在红外探测系统成像过程中, 由于探测距离较远且目标存在一定的反检测技术, 图像中的目标通常表现为缺乏尺度、形状、纹理等特征信息的少像素目标, 甚至会出现只占一个像素的极端情况, 再加上复杂背景干扰的存在, 如大气云层、红外辐射、目标红外干涉手段等, 如何准确、快速、有效地检测复杂场景下的红外小目标成为技术难点之一.因此, 解决复杂背景下低信噪比的红外小目标检测问题具有深远意义.
在传统的红外小目标检测算法中, 常用算法是使用简单空域高通滤波器的Top-hat[2].该算法利用红外小目标与背景间灰度值的差异进行检测, 但并不能较好地滤除孤立的噪点, 导致检测率较低.
基于人类视觉系统机制(Human Visual System, HVS)的红外小目标检测算法模拟人眼感知, 将目光对准小目标导致的局部纹理变化.Chen等[3]充分利用局部区域中小目标显著性的特点, 采用LCM(Local Contrast Measure)进行检测, 但存在不适合暗目标、耗时较长等问题.针对文献[3]的缺陷, Han等[4]结合DoG(Difference of Gaussians)与LCM, 提出ILCM(Improved Local Contrast Measure).Wei等[5]提出MPCM(Multiscale Patch-Based Contrast Measure), 达到进一步增强目标、抑制背景的效果, 但仍存在对暗目标不敏感、耗时较长等问题.Gao等[6]提出IPI(Infrared Patch-Image Model)[6], 但在面对复杂的红外背景时, 存在模糊的小目标会过度收缩、有较强的背景物边缘的问题, 导致检测率降低.Dai等[7]提出NIPPS(Non-negative Infrared Patch-Image Model Based on Partial Sum Minimization of Singular Values), 采用奇异值的部分代替低阶背景块图像, 提供更准确的背景估计, 并且几乎消除分解目标图像的残差.Dai等[8]还提出RIPT(Single-Frame Small Target Detection Framework with Re-weighted Infrared Patch-Tensor Mo-del), 使用稀疏的权重和局部的权重代替全局权重.Zhang等[9]采用新的非凸低秩约束, 引入改进的局部先验地图, 同时编码目标相关信息和背景相关信息, 提出PSTNN(Partial Sum of Tensor Nuclear Norm).上述传统的红外小目标检测算法大多严重依赖于手工设计的特性和超参数的调整, 并且鲁棒性较差.
自2014年以来, 深度学习在计算机视觉各领域迅速发展[10, 11], 学者们也将目光投向基于神经网络的红外小目标检测算法的研究, 并将卷积神经网络(Convolutional Neural Network, CNN)和生成对抗网络(Generative Adversarial Network, GAN)应用到红外小目标检测领域中, 取得不错性能[12].Lin等[11]利用深度卷积神经网络本身固有的多尺度、多层次结构, 构造FPN(Feature Pyramid Network), 设计一种自顶向下的多尺度特征提取结构, 提取不同级别的语义特征.Dai等[13]提出ACM(Asymmetric Contex-tual Modulation), 同时利用自上而下(Top-Down)的全局注意力调制和自下而上(Bottom-Up)的局部注意力调制交换多尺度上下文信息, 以便对语义信息和空间细节进行更丰富的编码, 但未关注网络对不同层级特征的需求, 不能充分提取图像信息.2021年, Dai等[14]将膨胀卷积的概念引入红外小目标检测中, 提出ALCNet(Attentional Local Contrast Net-work), 将局部对比度度量的方法模块化为一个无参数的优化网络层, 并以此打破小卷积核带来的感受野限制, 实现长距离的上下文信息互动.2022年, Zhang等[15]探索红外小目标检测的特征补偿和跨级别相关性, 提出FC3-Net, 其中, F-MFC(Fine-Detail Guided Multi-level Feature Compensation)探索精细细节引导的多层次特征聚合, 补偿下采样和池化层中丢失的目标特征, 允许小目标的特征完全转移到深层中.2023年, Zhang等[16]提出CHFNet(Curvature Half-Level Fusion Network), 设计HLF(Half-Level Fu-sion), 在两个层次的特征之间挖掘半层特征, 曲率注意分支计算图像的加权平均曲率, 获得边界注意, 再将其与各层次的特征融合.此外, Zhang等[17]提出Dim2Clear, 设计基于SFA(Spatial and Frequency Atten-tion)的CMD(Context Mixer Decoder), 根据生成的频率注意图进一步调制特征, 同时提取空间上下文信息和频率上下文信息.
上述网络为红外小目标检测性能带来突破, 很多神经网络的层次结构是根据经典结构进行改进, 依赖于实际经验, 网络结构的可解释性较差.由于红外小目标与背景之间信噪较低, 仍存在难于在复杂背景下提取清晰的细节特征、容易丢失小目标特征等问题造成的漏检和虚警, 检测性能仍有待提高.
针对上述问题, 本文在U-Net结构基础上, 设计高阶微分方程启发的红外小目标检测网络(Infrared Small Target Detection Network Inspired by High-Order Differential Equation, HODE-Net).首先, 联系高阶差分方程与神经网络, 利用四阶Adams方程作为常微分方程的求解方法, 设计四阶Adams引导的特征融合模块(Fourth-Order Adams Based Feature Fusion Mo-dule, FAM), 对赋予特征权重因子聚合的多尺度特征图进行更深层次的学习, 抑制特征叠加带来的冗杂信息, 实现更强的特征提取能力和特征复用效果.然后, 设计目标特征增强模块(Target Feature En-hancement Module, TFEM), 通过线性放大, 从不同感受野获得多尺度特征, 与原始特征进行差分, 获得多尺度增益, 抑制原始特征图中复杂的背景噪声, 为特征提取主网络提供增强的目标信息.在SIRST数据集[8]上进行的大量实验表明, HODE-Net具有较优的检测性能.
本文提出高阶微分方程启发的红外小目标检测网络(HODE-Net), 网络结构如图1所示, 图中, Fin表示来自SIRST数据集的输入红外图像, Fout表示由语义分割网络生成的分割结果.
HODE-Net在U-Net的基础上进行改进, 添加目标特征增强模块(TFEM)、四阶Adams方程引导的特征融合模块(FAM)和预测模块.骨干网络为ResNet-20再加两个转置卷积层, 各层详细信息如表1所示.TFEM使用不同感受野的特征对原始特征进行补偿, 旨在增强目标和抑制背景, 提供特征提取主网络更有利的特征.四阶Adams引导的FAM用于融合和学习U-Net中低层、中层和高层的不同尺度信息, 获取丰富的上下文信息, 弥补下采样操作容易丢失的细节特征.预测模块包含顺次连接的卷积层、归一化层、ReLU激活层、随机失活层和卷积层, 获得红外小目标检测结果.
单一尺度的特征包含的信息是有限的, 因此需要挖掘多尺度特征间的内在联系.利用不同尺度的特征进行交互指导可以达到这一目的, 但如果只是简单使用交互相关进行层级间的特征融合往往效果不佳.低级特征一般具有更高的分辨率、更详细的位置信息和边缘信息, 即小目标的大部分细节信息都包含在低级特征中.而高级特征一般含有的背景噪声更小、语义信息更丰富, 因此多尺度特征进行融合可得到同时具有丰富细节信息和高级语义信息的特征.
现有多尺度特征融合方法大多是通过相乘、相加和通道拼接等方式, 利用特征之间的互补性进行融合, 得到的融合特征具有各尺度特征的优点.例如:FC3-Net[15]中的F-MFC将下采样阶段每层的输入与输出的不同尺度特征进行特征融合, 获取i层特征与i+1层特征, i层特征为低级特征, i+1层特征为中级特征, i+1层特征进行下采样得到高级特征, 将从不同层提取特征不断补偿进中级特征, 得到的融合特征传播到深层网络中.CFC(Cross-Level Feature Correlation)将上采样阶段三层输出的不同尺度特征进行特征融合, 利用高级特征抑制中层特征中的背景噪声, 获得纯净的目标特征, 再与低层次特征进行融合, 但同时不可避免地产生冗杂信息, 大幅影响网络检测性能, 导致虚警率较高.
针对上述问题, 本文提出的四阶Adams引导的特征融合模块(FAM), 将下采样阶段最后一层的输出与上采样阶段两层的输出进行特征融合, 利用自适应权重因子进行特征融合, 减少冗杂信息的产生, 并且利用四阶Adams方法启发式网络加强目标特征, 去除产生的冗杂信息, 最终获得噪声更小、细节信息和语义信息更丰富的特征.FAM结构如图2所示.
FAM输入是具有3个不同维度、不同语义层次的特征, 即细节信息丰富但语义特征较弱的中级特征Fm和低级特征Fl、缺乏细节信息但语义特征较强的高级特征Fh.首先, 将不同尺度特征统一尺度, 以便后续融合, 通过上采样操作将所有不同尺度的特征映射到低层特征尺度, 调整为与低层特征相同尺度的特征:
Fm→ l=Upsample(Fm),
Fh→ l=Upsample(Fh),
其中Upsample(· )表示上采样操作.统一尺度后的三层特征图, 经过大小为1× 1的卷积层, 得到初始因子:
ω l=Conv(Fl),
ω m=Conv(Fm→ l),
ω h=Conv(Fh→ l),
其中Conv(· )表示卷积操作.
然后, 为了抑制特征融合带来的背景混叠现象, 引入自适应学习各尺度特征融合的特征权重因子:
$\begin{array}{l} \theta_{l}=\frac{e^{\omega_{l}}}{e^{\omega_{h}}+e^{\omega_{m}}+e^{\omega_{l}}}, \\ \theta_{m}=\frac{e^{\omega_{m}}}{e^{\omega_{h}}+e^{\omega_{m}}+e^{\omega_{l}}}, \\ \theta_{h}=\frac{e^{\omega_{h}}}{e^{\omega_{h}}+e^{\omega_{m}}+e^{\omega_{l}}}, \\ \theta_{l}+\theta_{m}+\theta_{h}=1 . \end{array}$
θ l、θ m、θ h的取值范围都在[0, 1]内.该权值反映网络对不同级别特征映射的需求.
对获得不同权重的不同层次特征图进行聚合, 得到抗混叠特征:
Ff=θ lFl+θ mFm→ l+θ hFh→ l.
抗混叠特征Ff包含丰富的上下文信息, 语义特征较强、细节信息丰富, 有利于提高检测性能.
在抑制背景混叠的同时也会削弱小目标区域特征, 因此再采用四阶Adams方法启发式网络进行更深层的学习, 使多尺度特征图具有更详细准确的特征.四阶Adams方法启发式网络借鉴数学领域的思想改进网络结构, Weinan等[18]观察ResNet和常微分方程(Ordinary Differential Equations, ODE)之间的关系, 将深层神经网络嵌入离散动力系统, 确定ResNet和ODE的离散化之间的相似性.Chen等[19]利用神经常微分方程(Neural ODE, NODE), 解释普通微分方程的一阶欧拉离散法, 用于构建神经网络, 动态调整不同输入的结构或参数, 进一步提升性能.
具体来说, 此类方法利用有限差分方程实现ODE的离散化, 其中偏导数可以使用一组近似差分代替.由于四阶Adams隐式方程的ODE精度高于欧拉方法, 本文的四阶Adams方法启发式网络采用四阶Adams隐式方程求解的ODE设计得到.网络由三个残差块组成, 每个残差块的结构为顺序连接的卷积层-激活层-卷积层-激活层, 卷积层的卷积核大小为3× 3, 填充和步长均为1, 激活函数均采用ReLU函数, 具体设计过程如下.
四阶Adams隐式公式可表示为
yn+1=yn+
定义
f=y-x,
并令h=1, 得
$\begin{aligned} y_{n+1}= & y_{n}+\frac{9}{24}\left(y_{n+1}-x_{n+1}\right)+\frac{19}{24}\left(y_{n}-x_{n}\right)- \\ & \frac{5}{24}\left(y_{n-1}-x_{n-1}\right)+\frac{1}{24}\left(y_{n-2}-x_{n-2}\right) . \end{aligned}$ (1)
将xn、yn看作某一模块的输入和输出, xn也表示前一模块的输出yn-1, 即xn=yn-1, 类似地,
xn+1=yn, xn-1=yn-2, xn-2=yn-3,
则式(1)可改写为
yn+1=
为了方便深度神经网络的训练, 采用残差学习的思想, 使用Δ yn表示yn和yn-1之间的残差, 即
Δ yn=yn-yn-1,
类似地,
Δ yn-1=yn-1-yn-2,
Δ yn-2=yn-2-yn-3,
则式(2)可改写为
yn+1=yn+
上式建立yn+1、yn、yn-1、yn-2和yn-3这五项之间的关系, 将上述方程应用于3个残差中, 构建更强大的可解释网络.高阶差分方程计算四阶Adams方法启发式网络的输入特征和输出特征之间的残差, 再在输出特征中进行补偿, 在更多特征项之间建立联系, 减少信息在网络传播过程中的流失, 具有更强的特征提取能力和更高效的特征复用.在FAM中, 四阶Adams方法启发式网络可以作为一个信息瓶颈以抑制高频噪声, 同时通过反传播梯度加强目标特征.
在特征提取主网络之前, 目标特征增强模块(TFEM)对原始特征图进行增强目标、抑制背景噪声的初步处理, 具体结构如图3所示.
TFEM首先使用大小为3× 3的卷积层Conv3× 3和5× 5的卷积层Conv5× 5, 从不同空间大小提取特征信息, 越小的卷积核越倾向于关注小尺度的特征.两个卷积层得到的特征在通道维度上串联, 得到合并特征:
Fcat=Cat[Conv3× 3(Fenter), Conv5× 5(Fenter)],
其中Cat(· )表示Concat连接.通过一个1× 1的卷积层Conv1× 1进行融合, 得到多尺度特征:
Fs=Conv1× 1(Fcat).
然后, 将多尺度特征与原始特征进行差分, 获得多尺度增益:
FΔ =Fs-Fenter.
通过线性标度增强有用的多尺度特征, 可在抑制背景噪声的同时增强目标特征.最后, 利用增强后的多尺度特征对原始特征映射进行补偿, 得到具有丰富小目标特征的特征图, 便于后续网络检测的红外小目标的信息更加完整.具体特征图为:
Fi=β ReLU(FΔ )+Fenter,
其中, ReLU(· )表示ReLU激活函数, β 表示线性放大因子.
本文实验使用公开可用的SIRST数据集[8].数据集包含427幅红外图像和480个具有精确注释的实例, 并将50%的图像作为训练集, 30%的图像作为验证集, 20%的图像作为测试集.本文使用ACM[13]和ALCNet[14]中的数据集划分方法, 确保数据集的一致性.此外, 文中所有对比实验和消融实验都以相同的方式划分数据集, 确保实验的公平性.
本文使用交并比(Intersection over Union, IoU)、归一化交并比(Normalization IoU, nIoU)、受试者工作特性曲线(Receiver Operating Characteris-
tic Curve, ROC)、检测率(Pd)和虚警率(Fa)这5个评价指标.IoU、nIoU定义为
$\begin{array}{l} I o U=\frac{T P}{T+P-T P}, \\ n I o U=\frac{1}{N} \sum_{i=1}^{N}\left(\frac{T P(i)}{T(i)+P(i)-T P(i)}\right), \end{array}$
其中, T表示真值像素, P表示预测为正确的像素, TP表示预测为正确且是真值的像素数量.nIoU是专门为红外小目标检测设计的指标, 更适合评估红外小目标检测的性能.
Pd表示被预测为正确的真值占总真值的比例:
Pd=
其中FN表示预测为错误且是真值的像素数量.Fa表示被正确预测的假值占总假值的比例:
Fa=
其中, FP表示预测为正确且是假值的像素, TN表示预测为错误且是假值的像素,
Pd也称作真阳性率(True Positive Rate, TPR), Fa也称作假阳性率(False Positive Rate, FPR), ROC曲线描述真阳性率与假阳性率之间的动态关系.
本文实验使用AdaGrad作为优化器, 学习速率为0.05, 权值初始化策略采用He等[20]提出的一种鲁棒初始化方法.
训练过程共包含3 000个迭代周期, 权值衰减为10-4, 批次大小为32.
HODE-Net采用无需预训练的随机初始化, 在保证网络性能的前提下, 实现网络轻量化.
本节对HODE-Net的各模块进行消融实验, 验证各模块对提高网络性能的有效性.
在相同的实验参数下, 将FAM分别应用于FPN[11]和U-Net上, 研究FAM对红外小目标检测任务检测性能的影响, 结果如表2所示.从表中可以看到, 在加入FAM后, 网络检测性能有明显提升, 相比单一FPN, 加入FAM后网络的IoU和nIoU值分别提升3.83%和4.05%.相比单一U-Net, 加入FAM后网络的IoU和nIoU值分别提升4.68%和4.50%.综上所述, FAM能够合理利用特征信息, 具有较高的特征提取能力, 可大幅提升网络性能.
将TFEM分别应用于ACM+U-Net、ACM+FPN、U-Net+FAM和FPN+FAM上, 进行四组消融实验, 结果如表2所示.由表中可得到, 加入TFEM后网络的IoU和nIoU值均得到较大提升, 验证TFEM对提升网络性能的有效性.
从表2还可得到, 相比单一FAM, FAM和TFEM共同应用于网络上, 性能提升更多.相比单一FPN, 加入FAM和TFEM后网络的IoU和nIoU值分别提升6.08%和5.71%, 相比单一U-Net, 加入FAM和TFEM后网络的IoU和nIoU值分别提升6.35%和6.12%.同时可以得到, 相比FPN+FAM+TFEM, U-Net+FAM+TFEM的IoU和nIoU值更高, 因此选择U-Net作为基础网络的性能更优.
上述实验结果能够验证FAM和TFEM二者相辅相成, TFEM在基础网络前进行特征初步处理, FAM在基础网络后有效融合多尺度特征, 进而达到增强有用信息、抑制无用信息、消除干扰信息的效果.
FAM的特征可视化结果如图4所示.对比抗混叠特征、低级特征、中级特征和高级特征可以发现, 抗混叠特征包含的背景噪声最少且目标特征最清晰.对比FAM的输出特征与抗混叠特征可发现, 抗混叠特征在经过更深层的学习之后, 目标区域得到增强, 输出特征具有更详细准确的目标特征.
在TFEM中, β 为线性放大因子, β 值对重构特征图的质量具有较大影响.定义β =0, 1, 2, 3, 4, 相应的HODE-Net的IoU和nIoU值如表3所示.
由表3可以得到, 相比β =0, 当β =1时, HODE-Net的IoU和nIoU值均有所提高, 说明放大多尺度目标特征确实能提升检测性能.特别地, 当β =2时, IoU和nIoU值均达到最大值, 检测性能最优, 当β =3, 4时, IoU值提高, nIoU值降低, 这是由于在β 值较高时, 进一步放大多尺度目标信息的同时也会放大与红外小目标物理特性相似的高亮噪声, 从而导致nIoU值下降.
本节选择如下对比网络:Top-hat[2], 文献[3]网络, ILCM[4], MPCM[5], IPI[6], NIPPS[7], PSTNN[9], FPN[11], ACM[13], ALCNet[14], FC3-Net[15], CHF-Net[16], GAU(Gated Attention Unit)[21], SK(Selective Ker-nel)[22].各网络的IoU、nIoU、Pd和Fa结果如表4所示.
由表4可知, HODE-Net的指标值显著高于其它网络, 检测性能最优.
当数据集上的正样本和负样本之间存在不平衡时, ROC是一种平衡评估方法, 反映IoU和nloU在固定阈值下的分割性能.ALCNet、PSTNN、FC3-Net、IPI、HODE-Net的ROC曲线如图5所示.由图可以看出, HODE-Net的性能最优.由此表明HODE-Net可大幅提升红外小目标检测性能.
目前性能最优的GAU、ACM、ALCNet、FC3-Net、CHFNet与HODE-Net在SIRST数据集上检测的部分视觉结果如图6所示.
从图6可以看出, 对于真实红外图像, 现有网络都能检测出小目标, 但检测的小目标与标签真实值仍具有较大差异, 并且出现虚警现象, 而HODE-Net的视觉结果明显更优, 能够检测与标签真实值相似的轮廓, 保留小目标的角度和细节信息.综上所述, HODE-Net的视觉效果较优.
本文提出高阶微分方程启发的红外小目标检测网络(HODE-Net).首先, 在可解释的理论指导下设计四阶Adams引导的特征融合模块, 将特征提取主网络获得的低级特征、中级特征、高级特征赋予自适应的权重因子再融合, 进行更精细的特征提取, 抑制特征融合时产生的冗杂信息, 减少特征信息的丢失.然后, 设计的目标特征增强模块对原始特征进行处理, 通过放大不同感受野获得的目标特征补偿原始特征图, 在增强目标特征的同时抑制背景噪声.最后, 在公开的SIRST数据集上进行大量实验, 通过消融实验验证四阶Adams方程引导的特征融合模块和目标特征增强模块的有效性.对比多种现有红外小目标检测方法, HODE-Net的客观评估指标与视觉结果均更优.今后将考虑对边缘细节进行更细致的提取与处理, 提高检测准确率, 并构建更轻量化的模型.
本文责任编委 叶东毅
Recommended by Associate Editor YE Dongyi
[1] |
|
[2] |
|
[3] |
|
[4] |
|
[5] |
|
[6] |
|
[7] |
|
[8] |
|
[9] |
|
[10] |
|
[11] |
|
[12] |
|
[13] |
|
[14] |
|
[15] |
|
[16] |
|
[17] |
|
[18] |
|
[19] |
|
[20] |
|
[21] |
|
[22] |
|