
唐贵进,博士,教授,主要研究方向为图像处理、视频分析、多媒体通信.E-mail:tanggj@njupt.edu.cn.
作者简介:
吴 铖,硕士研究生,主要研究方向为图像处理、水下图像增强.E-mail:1224014427@njput.edu.cn. 
刘小花,博士,高级实验师,主要研究方向为图像恢复、图像重建、模式识别.E-mail:liuxh@njupt.edu.cn.
针对深度学习在水下图像增强任务中缺乏物理可解释性及特征表达存在空间冗余等问题,提出物理模型约束下基于八度卷积(Octave Convolution)的水下图像增强网络.首先,设计八度特征提取模块,通过八度卷积将输入图像显式分解为高频支路、低频支路,通过下采样扩大低频支路感受野在捕获全局退化特征的同时,有效降低计算冗余.然后,构建多尺度背景光模块,从网络瓶颈层提取深层低频特征,并通过三条支路分别提取局部、邻域和全局背景光信息,融合得到对环境背景光的估计图.最后,引入物理约束双域修复模块,利用八度卷积对网络末端的输出特征图进行特征融合,得到估计后的直射透射图和后向散射透射图,并与多尺度背景光模块估计的背景光在Sea-Thru约束下重建初步增强图像.该网络同时从空间域和频率域对物理模型重建结果进行残差校正,补偿物理模型的拟合偏差.在多个数据集上的实验表明,文中网络在客观评价指标和主观图像质量上均较优,同时具备较强的实时处理能力与工程应用价值.
TANG Guijin, Ph.D., professor. His research interests include ima-ge processing, video analysis, and multimedia communication.
About Author:
WU Cheng, Master student. His research interests include image processing and underwater image enhancement.
LIU Xiaohua, Ph.D., senior experimentalist. Her research interests include image restoration, image reconstruction, and pattern recognition.
In underwater image enhancement tasks,deep learning struggles with the lack of physical interpretability and the spatial redundancy in feature representation. To address these issues, an underwater image enhancement network based on Octave convolution with physical model constraints(OCPMNet) is proposed. First, an octave feature extraction block(OFEB) is designed to explicitly decompose the input image into a high-frequency branch and a low-frequency branch via octave convolution. The receptive field of the low-frequency branch is expanded through downsampling to capture global degradation, and meanwhile the computational redundancy is effectively reduced. Then, a multi-scale background light module (MBLM) is constructed to extract deep low-frequency features from the bottleneck layer of the network. Three branches are utilized to extract local, neighbor and global background light information, and the information is fused to obtain an estimated map of the ambient background light. Finally, a physics-constrained dual-domain restoration module(PDRM) is introduced. Octave convolution is adopted to fuse terminal features, yielding the estimations of the direct transmission map and the backscatter transmission map. Moreover, an initial enhanced image is reconstructed under the constraints of the Sea-Thru physical model with the background light estimated by MBLM. Subsequently, residual correction is performed simultaneously in both spatial and frequency domains to compensate for the fitting bias of the physical model. Experiments on multiple datasets demonstrate the superiority of OCPMNet in terms of objective metrics and subjective image quality. Furthermore, OCPMNet shows strong real-time processing capability with engineering application value.
水下光学成像作为人类探索与认识海洋最直接和高效的手段之一, 在海洋生态学研究、生物多样性检测、水下考古勘探、海底地形测绘等多个领域发挥着不可或缺的作用[1].近年来, 随着自主水下航行器(Autono-mous Underwater Vehicle, AUV)和遥控水下机器人(Remotely Operated Vehicle, ROV)等智能水下装备的广泛应用, 清晰可靠的图像信息已成为水下作业的核心基础[2].然而, 相比陆地环境, 水下光学成像面临更严峻的物理挑战.一方面, 光的选择性吸收造成水下图像普遍存在严重的色彩失真; 另一方面, 光的散射效应造成水下图像的细节损失[3].
为了应对上述挑战, 研究者提出多种水下图像增强(Underwater Image Enhancement, UIE)技术.早期的研究主要分为非物理模型方法和基于物理模型的方法.非物理模型方法侧重于通过像素值的空间重分布提升对比度和亮度[4].此类方法虽然能提升视觉能见度, 但由于忽略水下成像的物理机理, 在处理严重色偏和非均匀模糊图像时往往造成明显的噪声放大、颜色过度补偿和光晕伪影, 且难以恢复由于散射丢失的结构细节.基于物理模型的方法尝试反演水下光路传播过程, 恢复清晰图像.尽管此类方法具有较好的物理可解释性, 但往往过度依赖手工设计的先验知识, 仅在特定场景中有效.在面对光场复杂、退化多变的极端水下场景时, 泛化性与稳健性明显不足.
近年来, 以卷积神经网络(Convolutional Neural Network, CNN)和Transformer为代表的深度学习技术凭借卓越的非线性表征能力, 为UIE提供新的范式.通过在大规模数据集上进行端到端的映射学习, 这类数据驱动方法在视觉修复效果上取得突破, 但仍面临如下两个关键挑战.1)物理一致性缺失.多数深度网络被视为“ 黑盒” 映射, 在训练过程中仅关注输入与输出之间的像素级相似度, 忽略水下成像的退化机理, 导致增强结果虽然视觉效果良好, 但可能偏离真实的物理规律, 甚至产生虚假伪影.2)特征表达存在空间冗余.水下图像的不同频率分量承载不同的语义信息, 传统卷积在全分辨率空间内进行计算, 忽略图像频率分布的差异性, 导致巨大的计算开销和空间冗余, 且限制方法对低频全局退化特征的捕捉能力, 在面对大面积色偏校正时, 难以在保持高效计算效率的同时实现精细化的细节恢复.
针对上述问题, 受八度卷积(Octave Convolu- tion)[5]分频处理思想与Sea-Thru[6]的启发, 本文提出物理模型约束下基于八度卷积的水下图像增强网络(Underwater Image Enhancement Network Based on Octave Convolution with Physical Model Constraints, OCPMNet), 旨在通过物理模型约束和数据驱动修复的双轨机制实现具可解释性且高效的图像增强.OCPMNet设计核心是利用物理模型参数的低频特性, 通过将Sea-Thru嵌入八度分频的深度网络, 在数据驱动的基础上满足物理一致性约束, 提升增强结果的可解释性.首先, 设计八度特征提取模块(Octave Feature Extraction Block, OFEB), 在有效降低计算特征空间冗余的同时, 挖掘八度卷积与水下光学成像物理模型之间的内在一致性, 通过显式的高低频分离, 适配水下图像中的高频纹理与低频全局退化, 精确估计物理参数.然后, 构建多尺度背景光模块(Multi-scale Background Light Module, MBLM), 利用网络瓶颈层提取具有最大有效感受野的深层低频特征, 结合三支路并行多尺度融合策略, 实现对不同退化环境下背景光的估计, 增强网络在处理复杂非均匀光照场景时的稳健性.最后, 设计物理约束双域修复模块(Physics-Constrained Dual-Domain Resto-ration Module, PDRM), 引入物理精确的Sea-Thru, 重建初步增强图像, 并引入空间和频率的双域修复支路, 同步补偿物理模型的拟合偏差和八度分频导致的高频细节损失, 实现具备物理可解释性且细节丰富的图像增强.在多个数据集上的实验表明, OCPMNet在客观评价指标和主观图像质量上均较优, 同时具备较强的实时处理能力与工程应用价值.
传统的水下图像增强方法依据其原理可分为非物理模型方法和基于物理模型的方法.
非物理模型方法依赖经验与实验直接调整像素分布, 提升退化图像的色彩与对比度.Xiang等[7]提出AQSCHE(Histogram Equalization Algorithm Based on Optimized Adaptive Image Quadruple Segmentation and Cropping), 结合图像四叉树分割与自适应裁剪处理局部直方图, 保留自然细节的同时抑制过度增强.Zhang等[8]提出CCMF(Color Correction and Multi- scale Fusion), 通过红通道补偿校正色偏, 在对数域中提取细节层进行增强, 并辅以自适应伽马矫正与多尺度金字塔融合, 提升图像亮度且保持结构完整性.此类方法虽然灵活, 但因缺乏成像机理约束, 容易产生伪影或色偏.
基于物理模型的方法旨在对水下光线传播过程进行物理建模, 反向求解清晰图像.经典的Jaffe-McGlamery(JM)模型[9]将水下成像分量解构为直射分量、前向散射分量和后向散射分量.在实际图像增强任务中, 由于前向散射对边缘模糊的影响相对较小且难以精确估计, 故常被忽略, 从而将成像过程简化为如下线性表达:
I(x)=J(x)T(x)+B(1-T(x)),
其中, I(x)表示退化图像, J(x)表示目标的清晰图像, T(x)表示介质透射率.B表示全局背景光, J(x)T(x)表示直射分量, 保留物体的色彩与纹理信息, B(1-T(x))表示后向散射分量, 是导致水下图像对比度低及雾化效应的主要因素.
为了求解该方程, Peng等[10]利用图像模糊度与场景深度的关联性估计透射率.Song等[11]提出ULAP(Underwater Light Attenuation Prior), 基于光衰减先验建立线性回归模型, 估计场景深度.另一方面, Akkaynak等[6]提出Sea-Thru, 指出传统的JM模型忽略直射分量与散射分量间衰减系数的差异, 并修正为更精确的形式:
I(x)=J(x)Td(x)+B(1-Tb(x)),
其中, Td(x)表示直射透射率, Tb(x)表示后向散射透射率.
基于物理模型的方法虽然具有可解释性, 但高度依赖预设先验, 难以涵盖复杂多变的水下光场环境, 导致模型泛化性受限且透射率估算往往存在偏差.
近年来, 深度学习凭借强大的非线性特征提取能力, 已成为水下图像增强领域的主流范式.Li等[12]提出Water-Net, 构建一个精简的CNN架构, 有助于后续监督学习.Peng等[13]提出RAUNE-Net (Residual and Attention-Driven Underwater Image Enhancement Network), 结合残差学习与注意力机制, 实现在多种复杂水下退化场景中图像效果的稳健增强与细节恢复.
与此同时, 基于Transformer的方法利用长程依赖建模能力进一步提升增强效果.Ren等[14]提出URSCT-SESR(U-Net-Based Reinforced Swin-Convs Transformer for Simultaneous Enhancement and Su-perresolution), 结合Swin Transformer与U-Net架构, 通过层级化窗口注意力机制高效捕捉多尺度的上下文信息.Peng等[15]提出U-Shape Transformer, 构建通用的特征融合框架, 有效整合多尺度语义特征.
UGAN(Underwater Generative Adversarial Net-works)[16]和DiffWater[17]在提升图像视觉逼真度方面表现出独特优势.Islam等[18]提出FUnIE-GAN, 在轻量化模型的基础上引入内容与对抗损失, 平衡增强质量与处理速率.Cong等[19]提出PUGAN(Phy- sical Model-Guided Framework Using GAN with Dual- Discriminators), 将物理模型嵌入生成器, 有效抑制增强过程中的失真与伪影.Bach等[20]提出UW- DiffPhys, 将轻量化物理成像组件与DDIM(De- noising Diffusion Implicit Models)结合, 降低计算复杂度.Zhao等[21]提出WF-Diff, 在小波频域内构建扩散过程, 实现对色彩偏差和纹理细节的深度解耦与重构.
值得注意的是, 尽管PUGAN、UW-DiffPhys等现有方法已尝试应用物理先验约束, 但大多基于简化的JM模型, 难以精确表征直射分量与散射分量衰减系数的差异.此外, 多数网络在处理高维特征时忽略图像在空间维度上的频率冗余, 导致在捕捉全局退化特征时面临巨大的计算开销与特征冗余.
Chen等[5]提出八度卷积(Octave Convolution), 旨在减少CNN中的空间冗余, 显著提升模型的计算效率.其核心思想来源于图像特征的频率特性:高频分量表征图像的精细纹理与边缘信息, 低频分量涵盖物体的轮廓、背景等变化平缓的全局结构.
依据Lindeberg[22]提出的尺度空间理论, 八度卷积将网络每层的特征图在通道维度上显式分解为高频支路和低频支路, 如图1所示.图中H、W分别表示原始特征图的高和宽, C表示总通道数.高频支路保持原始空间分辨率, 低频支路通过下采样将空间分辨率减半, 即降低一个八度尺度, 并定义低频通道数占比因子α , 输入与输出的α 可以不同.为了实现不同频域间的信息流动, 八度卷积设计4种并行映射路径:两条路径用于同频内的特征更新, 另两条路径用于跨频域的信息交换.
八度卷积已被证实在去雾等任务上具有良好的表现[23, 24].相比标准卷积, 八度卷积在处理水下图像增强任务时具有独特优势.首先, 低频支路在降低计算开销的同时, 等效扩大感受野, 有利于模型捕获色偏、雾化等全局退化特征.其次, 跨频率的信息交互机制确保全局背景与局部细节的深度融合.
针对现有深度学习方法在水下图像增强任务中物理可解释性不足、全局退化特征提取能力受限等问题, 本文提出物理模型约束下基于八度卷积的水下图像增强网络(OCPMNet), 整体架构如图2所示.
OCPMNet采用类U-Net的对称架构, 主要由八度特征提取模块(OFEB)、多尺度背景光模块(MBLM)及物理约束双域修复模块(PDRM)组成.网络输入为单幅水下退化图像Xin∈ RH× W× 3.在输入端, 通过一个α in=0的初始八度卷积层将图像分解为两路特征流:高频特征分量F
其中OctConv(· )表示八度卷积.
在编码器阶段, OCPMNet堆叠OFEB, 并结合下采样操作提取深层语义信息.在解码器阶段, 本文设计高频跳跃连接(High Frequency Skip Connection, HFSC)策略:仅拼接编码端的高频特征与对应层的解码特征.
该设计思想是低频特征在经过瓶颈层后已具备足够的全局语义信息, 而高频细节信息在下采样过程中极易丢失, 通过定向的高频信息补偿, 可在提升边缘细节修复效果的同时降低内存占用.最后, 通过MBLM和PDRM预测Sea-Thru中3个关键物理参数:背景光B、直射透射图Td和后向散射透射图Tb, 并结合物理公式及后续修复获得增强后的图像Jenhanced.
八度特征提取模块(OFEB)是OCPMNet的核心单元, 结构如图3所示.该模块的设计动机在于水下光学成像模型的物理参数与特征频率分布具有内在一致性.背景光B具有极强的低频属性, 透射图Td、Tb虽包含物体的轮廓信息, 但其主体分量仍由反映场景深度分布的低频信息主导.八度卷积的高低频分离策略天然适配这种物理分量的构成特性, 并且在不增加计算成本的前提下, 通过低频分支的下采样操作有效扩大感受野, 增强对大尺度全局退化特征的感知能力.
OFEB采用多级残差结构.首先, 对输入的两路特征图
其中, GN(· )表示组归一化, Opw(· )表示八度逐点卷积.在此基础上, 利用逐深度卷积(Depthwise Con- volution)与SiLU激活函数, 分别提取高频支路和低频支路的空间特征:
其中, DW(· )表示逐深度卷积, SiLU(· )表示SiLU激活函数.
为了进一步增强特征表示能力, 本文提出跨频率挤压激励模块(Cross-Frequency Squeeze-and-Excitation, CFSE).挤压激励模块(Squeeze-and-Excitation, SE)[25]是一种能增强模型特征表示能力的结构, 通过对通道间的依赖关系进行建模, 自适应地重新校准通道维度的特征响应.SE核心思想是利用全局平均池化(Global Average Pooling, GAP)将空间特征编码为全局特征的描述符, 再通过全连接层学习通道间的非线性关系, 生成每个通道的权重系数, 引导模型强化对当前任务有用的特征并抑制冗余特征.
不同于标准SE模块, CFSE能捕获高频细节与低频全局背景之间的跨频相关性.如图3所示, 对高低频特征图
P=Concat(GAP
其中, GAP(· )表示全局平均池化, Concat(· )表示按通道维度拼接.
然后通过多层感知机(Multilayer Perceptron, MLP)进行频率间的特征对齐与信息融合, 并沿高低频的通道数按原比例拆分, 得到对应的高频通道注意力权重CAh和低频通道注意力权重CAl:
(CAh, CAl)=Split(MLP(P)),
其中, MLP(· )表示多层感知机, Split(· )表示沿通道维度拆分.
最后, 将通道注意力权重分别与输入的特征图进行逐元素相乘, 得到校准后的特征图:
其中☉表示逐元素相乘.
经过CFSE处理后, 两路特征图再次通过一个八度逐点卷积, 将通道数降至输入OFEB时的数量并进行通道间的特征融合, 得到初步特征融合后的特征图:
将上述特征图与输入特征图
为了在保持网络性能的同时尽可能提升推理效率并降低内存占用, OFEB的后半部分采用非对称设计策略, 去除耗时较高的逐深度卷积与CFSE, 仅保留2次八度逐点卷积, 实现特征的进一步融合.
先对
两路特征图分别经过SiLU激活函数后, 直接通过八度逐点卷积进行特征融合并降低通道数, 得到最终的高频特征图和低频特征图:
针对两类特征图再进行一次残差连接, 得到OFEB相应输出特征图:
$ \begin{array}{l} \boldsymbol{F}_{\text {out }}^{\mathrm{h}}=\boldsymbol{F}_{\mathrm{d}}^{\mathrm{h}}+\boldsymbol{F}_{\text {final }}^{\mathrm{h}}, \\ \boldsymbol{F}_{\text {out }}^{\mathrm{l}}=\boldsymbol{F}_{\mathrm{d}}^{\mathrm{l}}+\boldsymbol{F}_{\text {final }}^{\mathrm{l}} . \end{array}$
在OCPMNet中, 编码器和瓶颈层的八度逐点卷积的输入和输出低频通道数占比是一个统一的参数α .在解码器阶段, 由于HFSC策略仅拼接编码器端的高频特征, 导致OFEB输入端仅高频通道数翻倍, 低频通道占比应动态调整为
α in=
而OFEB输出端的低频通道数占比仍为α .
多尺度背景光模块(MBLM)利用网络瓶颈层处输出的低频特征图
瓶颈层由2个OFEB构成, 经由编码器端的多级下采样获得全网络最大的有效感受野.该层提取的特征具有高度抽象的全局场景语义, 能有效捕获水下环境中的复杂光场分布.
MBLM采用三路并行多尺度架构.为了在保持特征语义的同时降低计算复杂度, 首先通过一个逐点卷积, 对瓶颈层输出的低频信息进行初步的特征融合并降低通道数, 经过组归一化与SiLU激活函数后, 得到中间特征图:
Fbase=SiLU(GN(PW
其中PW(· )表示逐点卷积.
随后, Fbase进入三支并行分支.三个分支分别利用不同的感受野范围同时捕获不同空间跨度的光照信息, 应对由于光源分布不均或场景深度变化引起的不均匀光照现象.
局部光照分支采用逐点卷积, 提取局部像素级光照特征:
Blocal=PW(Fbase).
邻域光照分支采用标准3× 3卷积, 关注局部邻域上下文以平滑噪声, 确保光照分布的连续性, 提取的邻域光照特征为:
Bneighbor=Conv(Fbase),
其中Conv(· )表示3× 3普通卷积.全局光照分支采用膨胀率为2的3× 3空洞卷积, 在不增加参数量的前提下显著扩大感受野范围, 捕捉全局背景光特征:
Bglobal=Convd=2(Fbase),
其中, Convd=2(· )表示膨胀率为2的3× 3空洞卷积.
将这三路不同尺度下的背景光特征沿通道维度拼接, 得到多尺度拼接特征:
Bconcat=Concat(Blocal, Bneighbor, Bglobal).
最后, 通过一个卷积层进行特征融合, 实现跨尺度的光照信息互补, 并将通道数降至3.为了符合物理意义, 采用Sigmoid激活函数约束输出范围至(0, 1)区间.考虑到背景光在物理空间上的平滑性, 将得到的图像通过双线性插值上采样至原始水下图像Xin的分辨率, 得到估计的背景光:
B=Upsample(Sigmoid(Conv(Bconcat))),
其中, Sigmoid(· )表示Sigmoid激活函数, Upsam-ple(· )表示双线性插值上采样.
通过MBLM, OCPMNet能输出具有物理一致性的背景光估计结果, 为后续复原计算提供准确的环境基准.
物理约束双域修复模块(PDPM)位于OCPM-Net解码器末端, 结构如图5所示.
解码器输出的两路特征图
$ \begin{array}{l} \boldsymbol{F}_{\mathrm{q}}^{\mathrm{h}}=\operatorname{SiLU}\left(G N\left(\boldsymbol{F}_{\mathrm{p}}^{\mathrm{h}}\right)\right), \\ \boldsymbol{F}_{\mathrm{q}}^{\mathrm{l}}=\operatorname{SiLU}\left(G N\left(\boldsymbol{F}_{\mathrm{p}}^{\mathrm{l}}\right)\right) . \end{array}$
利用一个α out=0的八度逐点卷积进行特征融合并恢复原始空间分辨率, 得到融合后的特征图:
Flast=OctConv
随后, 通过一个普通卷积层, 进一步提取特征并将通道数压缩为2.再经由Sigmoid激活函数将其映射至(0, 1)区间, 沿通道维度拆分为直射透射图Td和后向散射透射图Tb:
(Td, Tb)=Split(Sigmoid(Conv(Flast))).
此时, 结合MBLM估计出背景光B, 根据Sea-Thru可推导初步的增强图像:
Jpred=
尽管Jpred已在物理层面消除大部分水体退化效应, 但仍存在两类不可忽视的局限性.首先, Sea-Thru作为对复杂水下光学成像过程的理想化数学近似, 难以完全拟合所有非线性退化细节.其次, 八度卷积在追求高效计算的同时, 下采样操作可能造成部分高频纹理的损失.因此, 在PDRM后端设计双域修复模块(Dual-Domain Refiner, DDR), 从空间域和频率域同时对Jpred进行二次校正与细节补偿.输入为Jpred, 经由一个普通卷积层扩充通道维度, 提取特征图Jin:
Jin=Conv(Jpred).
DDR采用双支路并行架构.在空间域上, 通过深度可分离卷积对Jin进一步进行色彩一致性的微调, 起到局部平滑与噪声压制的作用, 消除物理模型逆运算可能产生的伪影放大, 使图像在像素层面上更趋于自然.得到的空间域修复特征表示如下:
Js=PW(SiLU(DW(Conv(Jin)))).
在频率域上, 为了弥补丢失的高频信息, 通过二维实数快速傅里叶变换将Jin投影至频率域, 并与一个可学习的频率掩码M执行逐元素相乘, 自适应地补偿特定频段的幅值响应.
由于DDR的输入为初步增强图像的特征图, 具有较高的信噪比, 结合空间域对噪声的抑制, 使M能着重关注高频细节增强而不会过度放大噪声.为了适配实数傅里叶变换的共轭对称性, 对齐M与Jin的频谱图的空间维度, 高度为256, 宽度为129.M的通道数与Jin相同, 从而能分别调整不同通道的不同频率信息, 有效区分有待补充的高频细节和需要抑制的高频噪声.调整后的频谱图经由傅里叶反变换被映射回空间域, 得到频率域修复特征:
Jf=IFFT(M☉FFT(Jin)),
其中, IFFT(· )表示二维实数快速傅里叶反变换, FFT(· )表示二维实数快速傅里叶变换.
为了进一步抑制待消除的噪声并增强有效特征, 两个分支输出的特征图相加后通过标准挤压激励模块自适应调整通道权重, 得到DDR的输出:
Jout=Conv(SE(Js+Jf)),
其中SE(· )表示挤压激励模块.
在经过2次DDR处理初步增强图像后, 利用一个普通卷积层进行通道间的特征融合, 得到最终的增强图像:
Jenhanced=Conv(DDR(DDR(Jin))),
其中DDR(· )表示DDR.
PDRM使OCPMNet能同时结合物理约束和数据驱动校正以增强图像.物理模型负责从全局层面建立稳健的基础恢复, DDR对物理模型的内在局限实施补偿, 不仅确保网络的可解释性, 更提升网络在恢复复杂纹理与真实色彩方面的上限.
为了协同优化图像增强质量与物理参数估计的准确性, 本文在增强损失的基础上, 引入物理重建损失作为约束项, 共同组成联合损失函数.
为了使增强图像在色彩和结构上尽可能接近地面真值GT, 采用L1范数构建增强损失:
LossJ=
相比L2损失, L1损失能更好地保留图像的边缘细节, 避免产生过度平滑的现象.
水下图像增强是一个典型的不适定问题, 仅依赖 LossJ容易陷入解的非唯一性, 预测出不符合物理规律的参数组合, 并且可能导致网络过度依赖PDRM的修复能力而忽略物理约束.为此, 本文引入物理重建辅助损失 LossI, 衡量应用物理参数逆向重建退化图像过程的准确性.
根据Sea-Thru, 利用估计的物理参数将GT重新退化为预测的水下图像:
Ipred=GT☉Td+B☉(1-Tb).
约束重建图像Ipred与原始输入Xin之间的一致性, 可迫使网络在符合物理规律的解空间内进行参数搜索, 保证模型物理特征提取能力的有效性.相应物理重建辅助损失表示如下:
LossI=
综上所述, 定义总损失函数:
Loss=LossJ+λ · LossI.
其中λ 表示重建辅助损失权重系数.实验中根据实际情况, 设置λ =0.1.
在联合损失函数的约束下, 网络自适应寻找满足Sea-Thru的最优物理参数, 输出的B、Td、Tb符合真实水下光学成像规律, 提升自身泛化性, 从而有效还原清晰图像.
为了验证OCPMNet在水下图像增强任务中的有效性和稳健性, 本文在多个主流公开数据集上进行详尽的定性实验与定量实验, 并与当前主流方法进行对比分析.
本文选取的实验数据集涵盖配对参考图像及无参考的真实复杂场景图像两类, 具体如表1所示.LSUI(Large-Scale Underwater Image)数据集[15]包含4 279对真实世界的水下图像及其对应的清晰参考图像, 涵盖极其丰富的水体类型、光照条件和生物场景, 具有较强的多样性.UIEB(Underwater Image Enhancement Benchmark)数据集[12]包含890幅具有高清晰参考图的原始水下图像, 是目前水下图像增强领域的基准, 能有效检验方法对复杂光场退化的修复能力.UIEB-C数据集包含UIEB数据集提供的60幅极具挑战性的无参考真实水下图像, 退化程度极高, 用于评估方法在极端退化环境下的稳健性.U45数据集[26]由45幅具有代表性的真实水下图像组成, 涵盖绿色、蓝色和浑浊场景, 用于测试方法在未知真实场景中的泛化表现.
在训练阶段, 输入图像的分辨率统一调整为256× 256, 并通过随机翻转和随机裁剪进行数据增强.
基于PyTorch深度学习框架实现OCPMNet.实验硬件平台搭载NVIDIA RTX 4090显卡及2.10 GHz Intel Xeon处理器.在训练过程中, 网络权重主要通过He等[27]方法进行初始化, 残差分支末端采用零初始化(Zero Initialization), 双域修复模块(DDR)中的可学习频率掩码M采用全1初始化策略(在训练初期等效于全通滤波器).在优化策略方面, 采用AdamW(Adaptive Moment Estimation with Weight De-cay)优化器进行参数更新, 相比Adam(Adaptive Mo-ment Estimation)优化器, AdamW具有更优的权重衰减效果, 可有效提升模型泛化性能.设置β 1=0.9, β 2=0.999.学习率设为0.000 1, 权重衰减设为0.000 1, 总训练步数设为50 000.
为了评价OCPMNet的有效性, 采用如下9种评价指标, 从不同维度综合衡量图像质量.
1)全参考(Full-Reference, FR)评价指标, 包括:峰值信噪比(Peak Signal-to-Noise Ratio, PSNR)、结构相似性(Structural Similarity Index, SSIM)、LPIPS(Learned Perceptual Image Patch Simila- rity)[28]、色差Δ E.PSNR衡量增强图像与参考图像之间的像素误差.SSIM评估图像在亮度、对比度和结构上的保真度.LPIPS利用深度特征衡量两幅图像在感知上的相似度, 更符合人类视觉主观感受.Δ E采用CIEDE 2000标准定量衡量增强图像与参考图像之间的色差, 数值越小表示颜色还原越精准.
2)无参考(No-Reference, NR)评价指标, 包括:UCIQE(Underwater Color Image Quality Evalu-ation)[29]、UIQM(Underwater Image Quality Mea-sure)[30]、信息熵(Entropy)、MUSIQ(Multi-scale Image Quality Transformer)[31]、CLIP-IQA(CLIP-Based Image Quality Assessment)[32].UCIQE基于色度、饱和度及对比度的线性组合, 专门衡量水下图像的颜色退化与细节锐度.UIQM综合考虑水下图像的色彩、锐度及对比度, 数值越高表示视觉质量越佳.Entropy衡量图像包含的信息丰富程度.MUSIQ基于多尺度Transformer架构捕获全局特征与局部特征, 提供稳健的视觉质量评分.CLIP-IQA利用CLIP(Contrastive Language-Image Pre-training)评估图像的语义与感知质量, 具有极强的感知一致性.
本文选择如下8种水下图像增强方法作为对比方法.1)传统方法:文献[10]方法和ULAP[11].2)基于深度学习的方法:基于CNN的Water-Net[12]和RAUNE-Net[13], 基于GAN的FUnIE-GAN[18], 基于Transformer的U-Shape Transformer[15], 基于扩散模型的UW-DiffPhys[20]和WF-Diff[21].
为了保证对比实验的公平性与结果的严谨性, 所有基于深度学习的对比方法均在相同的数据集和软硬件环境上进行训练和测试, 所有评价指标计算均在统一的代码脚本下完成.
3.3.1 配对数据集上实验结果
各对比方法在UIEB、LSUI测试集上的增强结果如图6所示.由图可见, 传统的物理先验方法(文献[10]方法和ULAP)场景适应能力较差.文献[10]方法在多个场景中出现严重的欠曝光现象, 图像大面积陷入黑暗, 几乎完全丢失物体的色彩与细节.ULAP由于其先验假设, 在复杂水体中引入严重的红色或橘黄色色偏, 使生成的图像色彩极度不自然.这证实依赖单一手工先验的方法难以应对多变的水下光学环境.
在基于深度学习的方法中, Water-Net和RAUNE-Net的增强结果虽然在对比度上有所提升, 但在色彩恢复上仍显不足, 处理后的图像色调偏暗, 增强程度不够彻底.U-Shape Transformer的增强结果具有更好的色彩, 但并未充分去除水下散射和蓝绿色调, 导致生成图像仍偏模糊.FUnIE-GAN和WF-Diff作为生成式方法, 极易受到初始随机噪声的扰动, 造成增强图像色彩出现严重色偏, 增强效果极不稳定, 难以信任其效果.同样作为生成式方法的UW-DiffPhys, 由于引入物理模型的约束, 在不同的水下场景中表现出稳定的适应能力, 未出现严重的色彩偏差, 但增强图像的对比度仍有欠缺, 整体色彩偏暗.
相比之下, OCPMNet在所有测试场景中均获得最佳的视觉效果, 具有与真值图像最接近的色彩与细节.物理模型的约束可有效消除蓝绿背景色及光的散射造成的模糊, 使水中物体呈现原本的色泽.得益于物理约束双域修复模块(PDRM)对高频信息的补偿, OCPMNet在增强对比度的同时, 保持极高的清晰度, 无明显伪影或异常噪声.依靠八度特征提取模块(OFEB)和多尺度背景光模块(MBLM)对全局特征的精准捕获, OCPMNet有效应对场景中光照不均的问题, 使图像整体亮度分布更均匀自然.
各对比方法在UIEB、LSUI测试集上的指标值如表2和表3所示, 表中黑体数字表示最优值, 斜体数字表示次优值.
| 表2 各方法在UIEB测试集上的指标值对比 Table 2 Metric value comparison of different methods on UIEB test set |
| 表3 各方法在LSUI测试集上的指标值对比 Table 3 Metric value comparison of different methods on LSUI test set |
由表2和表3可见, 在衡量图像重建质量的核心全参考指标上, OCPMNet具有显著的领先优势.在UIEB、LSUI测试集上, OCPMNet在PSNR、SSIM指标上取得最高值, 表明物理模型约束与基于八度卷积的特征提取形式的结合使网络能较好地重建水下目标的结构细节.较低的Δ E值表明OCPMNet预测的Sea-Thru物理参数在颜色校正上的高度准确性.LPIPS值较低则反映其增强结果在人类感知层面与真值图像十分接近.
OCPMNet在UCIQE和UIQM等无参考指标上的表现并非最优, 分析原因如下:UCIQE和UIQM是基于图像统计特性的指标, 偏好高饱和度和高对比度的图像.传统方法(文献[10]方法和ULAP)虽在此类指标上得分较高, 但结合图6可知, 这些方法往往产生严重的色偏或过度曝光, 背离真实的物理分布.OCPMNet的优化目标是物理一致性与真值保真度, 优先保证颜色的真实还原和背景光的自然消除, 避免为了提升单一指标而进行盲目的对比度拉伸.这虽然导致其在某些基于对比度定义的无参考指标上得分略低, 但在MUSIQ和CLIP-IQA这类更先进的基于深度学习的感知评价指标上, 依然保持具备竞争力的得分, 由此证实其在整体视觉质量上的优势.
3.3.2 无参考数据集上实验结果
各对比方法在UIEB-C、U45测试集上的增强结果如图7所示.
由图7可见, 在光照极度匮乏的深水场景中, 多数方法表现出明显的局限性.大多数深度学习方法未能有效提升图像亮度, 结果依然被阴影笼罩.传统方法(文献[10]方法)虽然强行提升亮度, 但导致严重的过度曝光.UW-DiffPhys和WF-Diff在此类暗光环境下产生极具破坏性的网格状伪影和伪色块, 这种幻觉细节使得增强结果在实际工程应用中变得不可信.相比之下, OCPMNet在有效提升全局亮度的同时, 保持光影过渡的自然感, 不仅消除暗部雾化感, 还保留清晰的原始纹理, 视觉效果最均衡.
在具有强烈光谱选择性吸收的场景中, 色彩校正的难度显著增加.传统方法(文献[10]方法和ULAP)在严重色偏的情况下几乎失效.生成式方法虽然尝试改变色调, 但引入不真实的彩虹色斑和不均匀的噪点, 破坏图像的语义连续性.RAUNE-Net的增强图像偏暗, 出现明显的不自然光斑伪影.Water-Net和U-Shape Transformer虽然能校正部分色偏, 但结果仍与真实色彩有偏离.
相比之下, OCPMNet处理后的图像最符合物理规律, 较好地清除水下严重的蓝绿色背景光, 准确还原水中物体的质感与色彩基调.这表明通过Sea-Thru约束特征提取, 比纯数据驱动的方法更准确识别并剥离水体退化分量, 从而获得更具物理真实感的增强效果, 并且在各种复杂和未知的水下场景中表现出极强的泛化性与稳健性.
各对比方法在UIEB-C、U45测试集上的指标值如表4和表5所示, 表中黑体数字表示最优值, 斜体数字表示次优值.
| 表4 各方法在UIEB-C测试集上的指标值对比 Table 4 Metric value comparison of different methods on UIEB-C test set |
| 表5 各方法在U45测试集上的指标值对比 Table 5 Metric value comparison of different methods on U45 test set |
结合图7分析可知, 文献[10]方法和ULAP在UCIQE、UIQM指标上虽然取得较高值, 但主要是通过牺牲物理真实性进行过度色彩拉伸, 因此在视觉上会产生严重的色偏和失真.类似的现象发生在部分生成式方法上.从图7中3种生成式方法的结果可看出, 这些方法在面对未知复杂场景时极易产生非自然高频伪影和不均匀色斑, 虽然在视觉上具有明显缺陷, 却也会获得较高无参考指标数值.在Entropy指标上, OCPMNet充分证实其在去除水体退化效果的同时, 可最大限度地保留场景的原始细节与纹理, 避免图像因平滑过度或欠增强导致的信息丢失, 反映PDRM在空间域和频率域具有较强修复能力, 有效弥补物理模型的精确度不足和八度卷积固有的高频损失问题.在更具说服力的深度感知指标MUSIQ、CLIP-IQA上, OCPMNet均取得较优值, 表明其增强结果在语义逻辑和感知层面上均符合高质量图像的特征, 不仅能有效校正严重的色偏, 还能在复杂的真实场景中保持极高的视觉舒适度和感知质量.
3.3.3 复杂度分析
各方法的性能对比如表6所示.由表可知, OCPM-Net的参数量显著低于大部分方法.虽然Water-Net的参数量更小, 但其性能却远低于OCPMNet.这说明OCPMNet在保持轻量化架构的同时, 可实现更高效的特征表达.得益于八度卷积的有效性, OCPMNet在计算开销上展现显著的优越性, 表明其在消除特征空间冗余方面大幅降低卷积运算的代价.在耗时方面, OCPMNet处理单幅图像的速度完全满足水下视频流的实时处理需求.相比之下, 传统方法的耗时无法满足动态作业需求, 而扩散模型相关方法则面临严重的延迟挑战.
| 表6 各方法的性能对比 Table 6 Performance comparison of different methods |
综合考虑性能与复杂度, OCPMNet达到最优的平衡点, 以极低计算量实现更优的增强效果, 有望应用于资源受限的嵌入式设备.
为了验证OCPMNet中各性能增益模块的独立贡献及多模块协同效果, 保留八度特征提取模块(OFEB)与高频跳跃连接策略(HFSC)组成的轻量化主干网络架构并作为基线网络, 在UIEB测试集上进行消融实验, 结果如表7所示.由表可见, 单一模块的引入和多模块的协同均能有效提升网络性能.
| 表7 各模块消融实验结果 Table 7 Ablation experiment results of each module |
当不包含跨频率挤压激励模块(CFSE)时, OCPMNet对特征图像的融合效率较低, 不能恰当地从特征图像中提取关键信息.加入CFSE后, 可有效强化关键的细节特征并抑制冗余的背景噪声, 从而为后续模块提供更准确、纯净的特征输入, 使多尺度背景光模块(MBLM)对背景光的预测及物理约束双域修复模块(PDRM)对图像的修复更精准.
当不包含MBLM时, 模块中原有的多尺度并行架构变为一个普通的3× 3卷积, 并通过全局平均池化将输出的背景光B退化为全局统一的3通道常数.此时网络无法适配复杂多变的真实水下非均匀光照场景, 应用范围与表达能力受限, 难以还原真实的物理信息.MBLM 的引入增强网络还原真实物理光场的能力, 为后续PDRM的修复提供更高质量的物理基准.
当不包含PDRM时, 网络仅依赖物理模型进行推理而不使用双域修复模块(DDR)进行修复, 无法处理因物理模型的不准确导致的恢复偏差.在加入PDRM后, OCPMNet突破物理模型的上限, 利用CFSE和MBLM提供的精确特征图像与背景光预测, 在空间域和频率域对物理推导结果进行同步修正, 成功补偿物理模型的拟合偏差及细节丢失, 取得更优的增强效果.
部分从水下图像提取的物理参数图像如图8所示, 包括背景光B、直射透射图Td及后向散射透射图Tb.由图可看出, 预测的背景光B准确捕获水体环境的全局色调分布, 有效剥离物体的结构信息.值得注意的是, 相比Tb, Td具有更明显的物体边缘和细节, 而Tb更模糊且平滑.这是由于Td用于描述反射光在水体中的直接衰减, 与场景的深度结构相关; 而Tb主要反映水体中悬浮颗粒对光线的散射作用, 具有扩散性和空间连续性.这一现象充分说明OCPMNet对物理信息的提取是符合真实的成像原理的.
为了验证OFEB与HFSC策略在模型复杂度上的作用, 分别计算使用标准卷积的网络及不采取HFSC策略的网络的相关指标, 结果如表8所示.由表可见, 当不使用OFEB及HFSC策略时, 网络针对全分辨率的特征处理时能达到23.48 dB的PSNR.当引入OFEB与HFSC策略时, 虽然由于特征信息的损失, 不可避免地削弱OCPMNet的性能, 导致PSNR值下降0.22 dB, 但参数量下降15.7%, 浮点计算量下降77.1%, 可以以极低的开销达到较优性能.在真实的水下任务(如水下航行器导航、遥控水下机器人)中, 水下装备由于体积、重量和功耗(Size, Weight and Power, SWaP)的严格限制, 通常仅能搭载算力受限的嵌入式边缘计算单元[18].在这些极度受限的场景中, OCPMNet 在精度上的损失是人类视觉较难察觉的, 却换取极低的模型复杂度, 具备在水下任务中实时处理图像和视频的潜力.因此, OFEB与HFSC策略是对网络架构做出的合理轻量化改造, 能够适配水下任务的实际应用场景.
| 表8 OFEB与HFSC策略对网络性能的影响 Table 8 Effect of OFEB and HFSC strategy on network performance |
为了获得最优的参数配置, 探索八度卷积中不同的低频通道数占比α 及辅助损失函数LossI的系数λ 的取值, 进行敏感性实验, 结果如表9所示.由表可见, 当α =0.75时, 网络与水下图像的特征提取最适配, 是最适合选取的高低频比例.这一现象充分印证本文的核心思想:水下图像的物理信息主要由低频分量表征, 通过将75%的通道数分配给低频分支, 网络能最大限度且最合理地划分高频与低频的边界, 在低频支路获得更广阔的感受野及更强的建模能力, 捕获关键的物理分量.
| 表9 α 、λ 对OCPMNet性能的影响 Table 9 Effect of α and λ on OCPMNet performance |
随后, 固定α =0.75, 对不同的λ 进行实验.结果表明, 如果λ =0, 即不引入辅助损失函数约束物理过程时, 网络在学习过程中容易忽略水下成像的内在物理逻辑, 导致收敛性较差.如果λ 取值过大, 导致网络过于关注对水下图像的重建, 反而抑制作为主体目标的增强任务.实验表明, λ =0.1时网络能在物理一致性约束与图像增强质量之间达到最佳平衡.
在确定超参数选择后, 网络解码器末端的八度卷积提取的部分高频特征图像和低频特征图像的可视化结果如图9所示.将其与传统数字信号处理方式下的频率成分进行对比, 表明OFEB能有效显式分解图像中的高低频分量.图中低频基准由原始图像的灰度图像经过高斯低通滤波器获得, 高频基准是原始图像的灰度图像与低频基准的差值.由图9可知:高频特征图像与高频基准表现出高度吻合, 能够精确捕获水下场景中的突变信号和结构纹理细节; 低频特征图像与低频基准保持一致, 呈现平滑的视觉特性, 主要显示场景中的色彩分布、整体亮度及全局光场信息.
| 图9 高低频特征图像的可视化结果对比Fig.9 Comparison of visualization results between high-frequency feature maps and low-frequency feature maps |
此外, 为了验证选取的物理模型的合理性, 在保持网络结构一致的前提下, 对比网络在经典JM模型和Sea-Thru上性能, 结果如表10所示.由表可见, JM模型限制网络对复杂水下光学环境的表达能力, 难以准确区分场景深度引起的衰减与水体散射引起的模糊, 导致恢复的图像在细节和色彩平衡上存在偏差.相比之下, OCPMNet采用的Sea-Thru赋予网络更高的拟合自由度与物理建模精度, 能更真实地还原水下成像的物理过程, 引导网络学习更具物理一致性的特征表征, 从而提升网络性能.
本文提出物理模型约束下基于八度卷积的轻量化水下图像增强网络(OCPMNet), 引入Sea-Thru与八度卷积架构, 实现对背景光及透射率的精准估计, 在保证增强过程可解释性的同时, 大幅降低计算开销.多尺度背景光模块(MBLM)与物理约束双域修复模块(PDPM)协同工作, 使网络能有效补偿物理先验的局限性, 在处理真实世界极端退化场景时展现出强大的泛化能力.实验表明, OCPMNet在保持高速推理的同时, 在公开数据集上的性能较优.然而, OCPMNet是对输入图像现有信息的映射与增强, 面对极度浑浊、结构纹理损失的极端退化场景时仍存在局限性, 难以恢复原始图像丢失的信息.今后将引入扩散模型等生成式网络架构, 在延续物理模型约束思路的基础上通过条件生成机制补全严重退化区域的不可见信息.同时, 当前八度卷积的高低频通道数比例固定时, 可能导致不同浊度水体中网络的泛化性能下降.未来将探索自适应的频率感知方法, 使网络能根据输入图像的浑浊度动态调节高低频比例, 在真实海洋探索任务中实现更稳健的增强效果.
本文责任编委 徐 勇
Recommended by Associate Editor XU Yong
| [1] |
|
| [2] |
|
| [3] |
|
| [4] |
|
| [5] |
|
| [6] |
|
| [7] |
|
| [8] |
|
| [9] |
|
| [10] |
|
| [11] |
|
| [12] |
|
| [13] |
|
| [14] |
|
| [15] |
|
| [16] |
|
| [17] |
|
| [18] |
|
| [19] |
|
| [20] |
|
| [21] |
|
| [22] |
|
| [23] |
|
| [24] |
|
| [25] |
|
| [26] |
|
| [27] |
|
| [28] |
|
| [29] |
|
| [30] |
|
| [31] |
|
| [32] |
|

