基于轻量级对称CNN-Transformer的图像超分辨率重建方法
王庭伟1, 赵建伟1, 周正华2
1.中国计量大学 信息工程学院 杭州 310018
2.浙江财经大学 数据科学学院 杭州 310018
通讯作者:

赵建伟,博士,教授,主要研究方向为深度学习、图像处理等.E-mail:zhaojw@cjlu.edu.cn.

作者简介:

王庭伟,硕士研究生,主要研究方向为深度学习、图像处理等.E-mail:wtw22067@163.com.

周正华,博士,副教授,主要研究方向为深度学习、图像处理等.E-mail:zzh2023@zufe.edu.cn.

摘要

针对现有基于Transformer的图像超分辨率重建方法存在参数量过大和训练成本过高等问题,提出基于轻量级对称CNN-Transformer的图像超分辨率重建方法.首先,利用权值共享设计对称CNN-Transformer模块,经由通道注意模块充分融合上、下分支提取的信息,提高对局部特征和全局特征的捕获和利用.同时,通过深度可分离卷积并计算自注意跨通道的协方差矩阵,有效减少Transformer的参数量,降低计算成本和显存消耗.然后,引入HFERB(High-Frequency Enhancement Residual Block),进一步关注高频区间的纹理和细节信息.最后,探讨Transformer生成自注意时所需激活函数的选择,分析可知GELU激活函数能较好地促进特征聚合,提升网络性能.实验表明文中方法在保持轻量化的同时,能有效重建图像更多的纹理与细节.

关键词: 图像超分辨率重建; 深度学习; Transformer; 对称网络
中图分类号:TP391
Image Super-Resolution Reconstruction Method Based on Lightweight Symmetric CNN-Transformer
WANG Tingwei1, ZHAO Jianwei1, ZHOU Zhenghua2
1. College of Information Engineering, China Jiliang University, Hangzhou 310018
2. School of Data Sciences, Zhejiang University of Finance & Economics, Hangzhou 310018
Corresponding author:
ZHAO Jianwei, Ph.D, professor. Her research interests include deep learning and image processing.

About Author:
WANG Tingwei, Master student. His resear-ch interests include deep learning and image processing.
ZHOU Zhenghua, Ph.D, associate profe-ssor. His research interests include deep lear-ning and image processing.

Abstract

To address the issues of large parameter sizes and high training cost in existing image super-resolution reconstruction methods based on Transformer, an image super-resolution reconstruction method based on lightweight symmetric CNN-Transformer is proposed. Firstly, a symmetric CNN-Transformer block is designed using weight sharing, and the information extracted from the upper and lower branches is fully integrated through channel attention block to improve the ability of the network to capture and utilize both local and global features. Meanwhile, based on the depthwise separable convolution and the calculation of the self-attention cross-channel covariance matrix, the number of parameters in Transformer is effectively decreased, as well as calculation cost and memory consumption. Secondly, a high-frequency enhancement residual block is introduced into the network to further focus on the texture and detail information in the high-frequency area. Finally, the selection of the best activation function for generating the self-attention in Transformer is explored. Experimental analysis demonstrates that GELU function can better promote feature aggregation and improve network performance. Experimental results show that the proposed method effectively reconstructs richer textures and details of the image while maintaining the lightweight of the network.

Key words: Image Super-Resolution Reconstruction; Deep Learning; Transformer; Symmetric Network

图像超分辨率(Super-Resolution, SR)重建技术是指从观测到的单帧或多帧低分辨率(Low Resolu-tion, LR)图像中重建对应的高分辨率(High Reso-lution, HR)图像, 这是当前计算机视觉领域研究的热点问题之一, 被广泛应用于安全监控[1]、医疗诊断[2]、遥感成像[3]等领域.由于图像超分辨率重建是一个不适定问题, 并且随着放大因子的增大, 伪影、边缘模糊、像素丢失等问题越发明显, 因此, 图像超分辨率重建的研究极具挑战性.

随着深度学习在计算机视觉领域取得的突破性进展, 学者们将其引入图像超分辨率重建领域, 并取得比传统的基于插值或重建的方式更优的视觉效果[4, 5, 6].为了进一步提高重建性能, 学者们提出许多更深或更宽的网络模型.受残差思想的启发, Kim等[7]设计VDSR, 将3层卷积层的网络拓展至20层.Lai等[8]运用逐级重建的策略, 提出LapSRN(Laplacian Pyramid Super-Resolution Network).Zhang等[9]利用残差和通道关注, 提出RCAN(Residual Channel Attention Networks).Zhang等[10]结合残差与密集的思想, 提出RDN(Residual Dense Network).Mei等[11]利用动态稀疏注意的非局部稀疏注意思想, 设计NLSA(Non-local Sparse Attention).Wu等[12]结合多尺度思想与非局部关注机制, 提出MSNLAN(Multi-scale Non-local Attention Network).

虽然随着网络加深或加宽, 重建性能有所提高, 但是会导致参数量增加, 提高内存占用.因此, 学者们开始寻求减轻网络规模的重建方式, 其中, 引入递归机制是实现网络轻量化的策略之一. Kim等[13]采用递归思想, 提出DRCN(Deeply-Recursive Convo-lutional Network).在此基础上, Tai等[14]结合残差思想, 提出DRRN(Deep Recursive Residual Network).张大宝等[15]融合模型驱动与数据驱动的思想, 提出基于l1诱导轻量级深度网络(l1 Induced Lightweight Deep Networks, l1ILDN)的图像超分辨率重建方法.

虽然递归结构在一定程度上可减少网络权值数量, 但依旧未能明显减少网络计算成本.因此, 平衡网络权值数量和重建性能, 构建轻量级网络成为当前深度学习研究的主流.Hui等[16]根据信息蒸馏的思想, 提出IMDN(Lightweight Information Multi-disti-llation Network).Zha等[17]利用密集和关注机制, 提出LDCASR (Lightweight Dense Connected Approach with Attention for Single Image Super-Resolution).进一步, Lan等[18]结合多尺度的思想, 提出MADNet.Peng等[19]利用跳跃残差连接和通道关注, 设计LCRCA (Lightweight Skip Concatenated Residual Cha-nnel Attention Network).周登文等[20]提出区域互补注意力和多维注意力的轻量级图像超分辨率网络(Lightweight Image Super-Resolution Network Based on Regional Complementary Attention and Multi-dimen-sional Attention, RCA-MDA).Gao等[21]利用轻量级残差块和卷积块, 提出VLESR(Very Lightweight and Efficient Image Super-Resolution Network).

上述网络尽管在网络轻量化和重建性能上取得较大提升, 但都是基于卷积神经网络(Convolutional Neural Network, CNN)进行局部特征信息的提取, 对全局特征信息的学习能力较弱.

近年来, 随着Transformer[22]在自然语言处理中的成功应用, 学者们将其引入计算机视觉领域, 并取得突破性进展[23, 24, 25].不同于传统的CNN主要提取局部特征, Transformer的核心思想是通过自注意力机制, 提取全局特征信息.特别地, 在图像超分辨率重建领域, 学者们结合CNN与Transformer, 提取更丰富的特征信息.Wang等[26]将多尺度引入Trans-former, 提出MSTN(Multi-scale Multi-stage Single Image Super-Resolution Reconstruction Algorithm Based on Transformer).Lu等[27]融合轻量的CNN和Transfor-mer, 提出ESRT(Efficient Super-Resolution Transfor-mer).Fang等[28]引入增强空间注意机制, 提出HNCT(Hybrid Network of CNN and Transformer).Li等[29]基于Restormer[30], 提出DLGSANet(Effective Lightweight Dynamic Local and Global Self-Attention Network).上述网络结合CNN与Transformer, 在重建性能和视觉效果上取得较大提升.

然而, 上述基于CNN与Transformer的重建方法结构主要为单支网络, 对提取的信息存在利用和融合不充分等问题, 并且上述Transformer在提取全局信息的过程中, 容易忽略高频区域的纹理细节.因此, 本文提出基于轻量级对称CNN-Transformer的图像超分辨率重建方法(Image Super-Resolution Re-construction Method Based on Lightweight Symmetric CNN-Transformer, LSCT).首先, 利用权值共享设计对称CNN-Transformer模块, 经CA(Channel Attention Block)[31]充分融合上、下分支提取的信息, 提高对局部信息和全局特征的捕获和利用.同时, 通过深度可分离卷积及计算自注意跨通道的协方差矩阵, 有效减少Transformer的参数量, 降低计算成本和显存消耗, 实现对称CNN-Transformer的轻量化.然后, 针对Transformer提取特征过程中容易丢失高频信息的问题, 引入HFERB(High-Frequency Enhancement Re-sidual Block)[32], 进一步关注高频区域细节信息, 获得更多的纹理细节.最后, 探讨Transformer生成自注意时所需激活函数的选择, 发现GELU激活函数能较好地促进特征聚合, 提升网络性能.

1 基于轻量级对称CNN-Transformer的图像超分辨率重建方法

本文提出基于轻量级对称CNN-Transformer的图像超分辨率重建方法(LSCT), 结构如图1所示.

图1 LSCT结构图Fig.1 Structure of LSCT

LSCT包含浅层特征提取模块、对称CNN-Trans-former模块、稠密特征融合(Dense Feature Fusion, DFF)模块和上采样重建模块.

首先, 给定输入的低分辨率图像ILR, 经过3× 3卷积提取浅层特征F0.再将F0传递到对称CNN-Trans-former模块, 进行深度特征提取, 即获得深度特征:

Fn=FCNN-Transformer(F0),

其中FCNN-Transformer(· )表示对称CNN-Transformer模块.

然后, 将Fn传递到DFF模块, 平滑细化和密集融合深层特征, 得到密集融合特征:

FDFF=Conv3× 3* (Conv1× 1* Fn)+F0.

最后, 将FDFF输入上采样重建模块, 得到重建图像:

ISR=FUP(Conv3× 3* FDFF),

其中FUP为亚像素卷积.

1.1 对称CNN-Transformer模块

如图1所示, 对称CNN-Transformer模块由混合特征融合模块(Hybrid Feature Fusion Block, HFFB)和CA(Channel Attention Block)[31]组成.为了降低参数量, 上、下两个对称的HFFB权值共享.CA具体结构如图2所示.

图2 CA结构图Fig.2 Structure of CA

具体地, 对称CNN-Transformer模块的输出特征Fn为上、下两个分支中各个HFFB特征输出的级联.上分支中经过第i个HFFB的输出特征为:

FHFFBU, 1=fHFFBU, 1(F0), FHFFBU, i=fHFFBU, i(FHFFBU, i-1), i=2, 3, ···, n,

其中 fHFFBU, i(· )表示上分支中第i个HFFB的操作.

下分支中经过第i个HFFB的输出特征为:

FHFFBD, 1=fHFFBD, 1(fCA1(FHFFBU, 1)), FHFFBD, i=fHFFBD, i(FHFFBD, i-1+fCAi(FHFFBU, i)), i=2, 3, ···, n,

其中, fHFFBD, i(· )表示下分支中第i个HFFB的操作, fCAi(· )表示第i个CA的操作.

CA首先通过全局平均池化获得每个通道上所有元素的均值.然后, 利用1× 1卷积对通道特征图进行降维, 经ReLU函数作用后, 利用第2个1× 1卷积和Sigmoid函数获得通道注意的权重.最后, 将权重与输入特征相乘, 获得加权后的特征图.

为了减少网络训练中权值的数量, 保持网络轻量化, 上、下两个分支的第i个HFFB权值共享, 即

fHFFBU, i(· )= fHFFBD, i(· ), i=1, 2, ···, n.

1.2 混合特征融合模块

本文的混合特征融合模块(HFFB)融合注意机制、密集连接、Transformer和网络轻量化的思想, 设计多个密集连接的双注意特征细化模块(Dual Atten-tion Feature Refinement Block, DAFRB)、轻型Trans-former模块和HFERB[32], 实现对局部信息和全局特征信息的提取, 以及对高频区域信息的增强.具体HFFB结构如图3所示.

图3 HFFB结构图Fig.3 Structure of HFFB

具体地, 为了增强局部特征提取能力, 融合通道注意和增强空间注意, 设计DAFRB.为了保持网络的轻量化, 在DAFRB前引入1× 1的组卷积, 实现通道数减半, 从而减少参数量.为了提高不同层次特征信息的深度融合, 所有的DAFRB提取的特征利用密集的方式进行连接.

进一步地, 为了学习更丰富的全局特征信息, 同时保持轻量化, LSCT基于深度可分离卷积设计轻型Transformer.为了加强对高频区域细节信息的补偿, 在残差连接上引入HFERB.

对于HFFB的输入特征F, 其输出特征:

FHFFB=fHFERB(F)+fTransformer(Conv1× 1([F, FDAFRB1, FDAFRB2])),

其中,

FDAFRB1=fDAFRB1(F), FDAFRB2=fDAFRB2(fGC1([F, FDAFRB1])), FDAFRB3=fDAFRB3(fGC2([F, FDAFRB1, FDAFRB2])),

表示HFFB中第i个DAFRB的输出特征, i=1, 2, 3, fGCj表示组卷积层, j=1, 2, fTransformer表示轻型Trans-

former模块的作用.

1.3 双注意特征细化模块

为了充分提取局部特征信息, 本文提出DAFRB.DAFRB的输入特征经3× 3卷积层提取特征, 分别输入通道注意分支和ESA(Enhanced Spatial Atten-tion)分支[33], 实现对通道维度和像素分别重新加权.最后, 将两种注意融合输出, 获得细化的双通道特征信息.DAFRB具体结构如图4所示.

图4 DAFRB结构图Fig.4 Structure of DAFRB

现有的双通道注意模块通常采用通道注意和空间注意, 而本文为了增强对空间像素的关注, 采用ESA模块.

ESA模块首先采用1× 1卷积降低特征空间尺寸(卷积层的步幅为3).再通过最大池化、卷积群和上采样函数构成的卷积组进一步提取特征.然后, 将两者级联后, 经1× 1卷积和Sigmoid函数获得权重.最后, 将权重与输入特征相乘, 获得加权后的空间注意特征.

为了进一步扩大感受野范围, 本文使用的ESA模块中的卷积群由7× 7最大池化和步幅为3的卷积组成, 从而实现对空间像素的自适应缩放.

1.4 轻型Transformer模块

不同于CNN的架构, Transformer基于图像的自相似特性, 以自注意机制捕获全局信息.然而, 由于其内在的两两内积运算, Transformer面临内存消耗较大和计算显存消耗较高的问题.LSCT基于自注意跨通道的协方差矩阵和GELU激活函数, 设计轻型Transformer模块, 具体结构如图5所示, 图中r为通道扩展比.

图5 轻型Transformer模块结构图Fig.5 Structure of lightweight Transformer block

与传统的ViT(Visual Transformer)采用滑动窗口计算特征自注意不同[23, 24, 25], LSCT的轻型Trans-former利用深度可分离卷积代替普通卷积, 并通过计算自注意跨通道的协方差矩阵, 实现网络参数和计算的轻量化.

具体地, 对输入特征X∈ RH× W× C, 经过1× 1点卷积和3× 3深度卷积生成查询(Q)、键(K)和值(V):

Q=WdconvQ(WpconvQ(LN(X))), K=WdconvK(WpconvK(LN(X))), V=WdconvV(WpconvV(LN(X))),

其中, LN(· )表示归一化层, Wpconv(·)(· )表示逐点卷积, Wdconv(·)(· )表示深度卷积.经过重组变换R, 得到 Q¯∈ RHW× C, K¯∈ RC× HW, V¯∈ RHW× C.

值得注意的是, 对于卷积核k× k、通道数为C的输入特征(输入通道数和输出通道数不变), 普通卷积的参数量ck× k× C× C.而深度可分离卷积由深度卷积(每个通道的卷积核k× k× 1)和1× 1的点卷积组成, 其参数量dsc分别为k× k× 1× C和1× 1× C× C, 即

dscc= k×k×1×C+1×1×C×Ck×k×C×C= 1C+ 1k2.

由上式可知, 深度可分离卷积核的参数量约为普通卷积核参数量的1/k2, 大幅减少参数量.

再点积生成转置注意图:

$\boldsymbol{A}=\operatorname{Attention}(\overline{\boldsymbol{Q}}, \overline{\boldsymbol{K}}, \overline{\boldsymbol{V}})=\overline{\boldsymbol{V}} \cdot G E L U\left(\overline{\boldsymbol{K}} \cdot \frac{\overline{\boldsymbol{Q}}}{\alpha}\right) $,

其中, GELU(· )表示生成概率图的激活函数, α 表示可学习的缩放因子, 调整 Q¯K¯的点积大小.将A与输入X融合, 得到输出:

X¯=Wpconv(A)+X.

值得关注的是, 现有的Transformer使用Softmax作为激活函数, 保留查询(Q)和键(K)间所有标记的相似性进行特征聚合.然而, 并非所有Q的标记都与K中的标记相关, 使用所有的相似性并不能有效促进特征聚合.考虑到GELU函数相对Softmax具有更好的稀疏性, 本文采用GELU作为生成自注意的激活函数, 提出简单有效的稀疏全局自注意(Sparse Global Self-Attention, SGSA), 使稀疏区域的像素通过交互, 选择相似性最高的像素, 从而有效促进特征聚合.

SGSA利用深度可分离卷积得到注意力映射, 其 K¯Q¯矩阵运算后的维度为RC× C而不是RHW× HW, 即计算自注意跨通道的协方差矩阵, 进而与 V¯相乘得到一个具有全局信息的特征注意图.对于输入为H× W× C的特征图, 其中, H为宽, W为高, C为通道数, 现有的Transformer计算复杂度为O(W2H2), 而LSCT通过自注意跨通道, 将计算复杂度从O(W2H2)降至O(C2), 大幅节省计算成本与显存消耗.

为了有效恢复信息特征, 采用Restormer中的GDFN(Gated-Dconv Feed-forward Network)[30]代替多层感知器, 由两个并行分支实现对信息流的控制.其中一分支保留原始输入维度, 另一分支用于扩展通道数(r=2), 帮助恢复上下文细节信息.

总之, Transformer模块利用深度可分离卷积和计算自注意跨通道协方差矩阵, 有效减少参数量和计算消耗, 实现网络的轻量化.

2 实验及结果分析
2.1 实验设置

本文实验选用DIV2K数据集[34]中的前800幅图像, 经过旋转和水平翻转等操作, 构造训练集.同时, 选用Set5[35]、Set14[36]、BSD100[37]、Urban100[38]、Manga109[39]数据集作为测试集.

实验中采用峰值信噪比(Peak Signal-to-Noise Ratio, PSNR)和结构相似度(Structural Similarity, SSIM)[40]评价重建网络性能.使用参数量和FLOPs(Floating-Point Operations per Second)评价重建网络计算复杂度.

在训练阶段, 将DIV2K数据集上的高分辨率图像进行双三次下采样后得到的图像作为低分辨率图像.同时, 将高、低分辨率图像裁剪成48s× 48s和48× 48的图像块, 其中s为放大倍数.训练采用Adam(Adaptive Moment Estimation)[41]优化器, 设置指数衰减率分别为β 1=0.9, β 2=0.999, 数值稳定常数ε =10-8.训练时批处理大小为16, 训练迭代轮次为1 000, 初始学习率为10-4, 每迭代200次后学习率减半.

所有实验均基于Pytorch 2.0.0框架, 在NVI-DIA RTX 2080Ti和Windows 10系统上实施.

2.2 参数分析

本节讨论对称CNN-Transformer模块中HFFB对称组数n、上下分支间不同特征融合方式及Transformer生成自注意时不同激活函数对重建性能的影响.

对称CNN-Transformer模块中包含n个HFFB, 在BSD100数据集上进行放大4倍的实验, 探讨对称组数n对重建性能的影响, 对比结果如表1所示.

表1 放大倍数为4时对称组数n对重建性能的影响 Table 1 Effect of different n on reconstruction performance at a magnification factor of 4

表1可知, 当HFFB对称组数越多, 即网络深度越深, PNSR的性能越优.考虑到网络轻量化和计算成本, 文中后续的实验均选取3组HFFB构建对称CNN-Transformer模块.

在对称CNN-Transformer模块中, 上下分支中的HFFB主要通过CA进行特征融合.为了验证融合的有效性, 使用无融合模块连接(记为NF)、SA(Spa-tial Attention)、ESA、CA四种不同的特征融合方式, 在Manga109数据集上放大4倍的结果如表2所示.由表可知, 上、下分支中的HFFB采用CA进行特征融合时, 重建性能最优.因此, 文中实验选用CA融合上下分支的特征信息.

表2 放大倍数为4时上下分支特征融合方式对重建性能的影响 Table 2 Effect of feature fusion methods of upper and lower branches on reconstruction performance at a magnifi-cation factor of 4

现有Transformer主要采用Softmax作为激活函数生成自注意.考虑到不同激活函数可能会对生成自注意有不同的影响, 例如, DLGSANet(Effective Light-weight Dynamic Local and Global Self-Attention Net-work)[30]采用ReLU作为激活函数, 有效去除无用的自注意信息, 取得比Softmax更佳的重建效果.

实验选择SoftmaxSigmoid、ReLU、GELU激活函数, 在5个数据集上的结果如表3所示, 表中黑体数字表示最优值.由表可知, 当Transformer中生成自注意采用GELU函数作为激活函数时, 在5个数据集上几乎全取得最佳的PSNR值和SSIM值.究其原因, 相比ReLU等激活函数, GELU为高斯误差函数, 更平滑, 训练时收敛速度更快, 能更好地实现对特征信息的聚合.

表3 Transformer中不同激活函数生成自注意时对重建性能的影响 Table 3 Effect of different activation functions for generating self-attention in Transformer on reconstruction performance
2.3 消融实验

本节通过消融实验分析LSCT中对称结构、Transformer和HFERB的有效性.定义网络1表示无Transformer、无HFERB、无特征交互融合和非对称结构的基础网络; 网络2表示无Transformer、无HFE-RB、无特征交互融合、有对称结构网络; 网络3表示无Transformer、无HFERB、有CA交互融合和对称结构网络; 网络4表示无HFERB, 有Transformer、CA交互融合和对称结构的网络; LSCT表示有Trans-former、HFERB、CA交互融合和对称结构.

具体消融实验结果如表4所示, 表中黑体数字表示最优值.

表4 不同模块的消融实验结果 Table 4 Ablation experiment results of different blocks

表4可知, 网络2比网络1获得更佳的重建性能, 究其原因, 对称网络结构更能充分挖掘深度特征信息.网络3比网络2取得更好的重建结果, 究其根源, 增加的特征交互融合能提升上、下分支提取网络对全局特征信息的捕获能力.LSCT比网络4 获得更优的重建结果, 是因为引入的HFERB能更好地关注高频区域的特征信息, 使重建的图像细节和纹理更丰富和清晰.

2.4 对比实验

本节选择SRCNN(Super-Resolution CNN)[4]、ES-PCN(Efficient Sub-Pixel CNN)[6]、Lap-SRN[8]、DR-CN[13]、MADNet[18]、LCRCA[19]、VLESR[21]、HNCT[28]、IDN(Information Distillation Network)[42]、PAN(Pixel Attention Network)[43]l1-MRMDN(l1 Model-Driven Re-cursive Multi-scale Denoising Network)[44]、SMSR(Sparse

Mask Super-Resolution)[45]、RiRSR(Resnet in Resnet Architecture)[46]和轻量化逆可分离残差信息蒸馏网络(Lightweight Inverse Separable Residual Information Distillation Network, LIRDN)[47]进行定量对比.

放大倍数为2, 3, 4时, 各网络的PSNR和SSIM指标值结果如表5~表7所示, 表中黑体数字表示最优值.

表5 放大倍数为2时各网络性能对比 Table 5 Performance comparison of different networks at a magnification factor of 2
表6 放大倍数为3时各网络性能对比 Table 6 Performance comparison of different networks at a magnification factor of 3
表7 放大倍数为4时各网络性能对比 Table 7 Performance comparison of different networks at a magnification factor of 4

表5~表7可知, 放大倍数为2时, LSCT在5个数据集上重建性能均最佳; 放大倍数为3或4时, 重建性能都能达到最优或次优.特别地, 在Urban-100测试集上, 放大倍数分别为2, 3, 4时, 相比HNCT, LSCT的PSNR和SSIM值都有所提高.究其原因, LSCT充分利用CNN和Transformer不同的特征提取能力, 利用对称结构增强网络对局部特征和全局特征信息的捕获能力, 引入的HFERB促进网络对高频区域细节信息的提取.

LSCT、ESPCN、DRCN、l1-MRMDN、RiRSR、HNCT和VLESR在放大倍数为3时重建的高分辨率图像如图6所示.

图6 放大倍数不同时各网络重建图像对比Fig.6 Reconstruction image comparison of different networks with different magnification factors

由图6(a)可知, HR图像下半部分的斜纹方向朝右下方.由ESPCN、DRCN、RiRSR和HNCT重建的这部分图像呈现方格状; 由l1-MRMDN和VLESR重建的这部分斜纹方向朝左下方; 只有LSCT重建的斜纹方向是正确且清晰的.

从图6(b)可知, LSCT能重建出全局较清晰的纹理, 其它网络重建图像在松子的右上角出现不同程度的伪影.

从图6(c)可看出, HR图像呈现方格状, 其它网络都出现右半部分不同程度的失真和模糊, 而LSCT重建出更多、更清晰的纹理.究其根本, LSCT不仅结合CNN和Transformer各自优势, 还通过HFERB促进对高频区域细节信息的关注, 使重建图像具有更清晰的纹理和细节信息.

2.5 参数量和计算复杂度分析

本节通过对比参数量和计算复杂度, 说明LSCT的轻量化.在Urban100数据集上放大倍数为2时, 各网络结果如表8所示.由表可看出, LSCT使用最少的参数量和较小的FLOPs, 获得最优的PSNR和SSIM.

表8 放大倍数为2时各网络的复杂度对比 Table 8 Complexity comparison of different networks at a magnification factor of 2

各网络在Urban100数据集上PSNR与参数量对比结果如图7所示.由图可见, LSCT可使用较少的参数量, 达到最优的PSNR值.究其原因, LSCT通过深度可分离卷积和权值共享, 实现网络的轻量化, 同时在重建过程中融合局部信息和全局信息, 并增强高频区域特征, 从而更好地平衡模型复杂度和重建性能.

图7 放大倍数为2时各网络的PSNR与参数量对比Fig.7 Comparison of PSNR and parameters of different networks at a magnification factor of 2

3 结束语

针对现有图像超分辨率重建网络存在网络参数量较大和计算成本较高等问题, 本文提出基于轻量级对称CNN-Transformer的图像超分辨率重建方法(LSCT).首先, 利用权值共享设计对称CNN-Trans-former模块, 经CA充分融合上、下分支提取的信息, 提高对局部特征和全局特征的捕获和利用.同时, 通过深度可分离卷积及计算自注意跨通道的协方差矩阵, 有效减少Transformer的参数量, 降低计算成本和显存消耗, 实现网络的轻量化.然后, 针对Trans-former提取特征过程中容易丢失高频信息的问题, 引入HFERB, 进一步关注高频区域细节信息, 获得更多的纹理细节.本文也尝试探讨Transformer生成自注意时所需激活函数的选择, 发现GELU激活函数能较好地促进特征聚合, 提升性能.大量实验表明, LSCT在保持网络轻量化的同时, 能有效重建出具有更多纹理与边缘细节的图像.

当然, 从视觉效果上看, LSCT重建的高分辨率图像也存在伪影、细节模糊等问题.今后将对上述存在的问题进行更深入地研究, 在实现网络轻量化的同时, 更有效地提高重建图像的质量和视觉效果.

本文责任编委 高隽

Recommended by Associate Editor GAO Jun

参考文献
[1] GARCÍA-AGUILAR I, GARCÍA-GONZÁLEZ J, LUQUE-BAENA R M, et al. Automated Labeling of Training Data for Improved Object Detection in Traffic Videos by Fine-Tuned Deep Convolutional Neu-ral Networks. Pattern Recognition Letters, 2023, 167: 45-52. [本文引用:1]
[2] DHAREJO F A, ZAWISH M, DEEBA F, et al. Multimodal-Boost: Multimodal Medical Image Super-Resolution Using Multi-attention Network with Wavelet Transform. IEEE/ACM Transactions on Com-putational Biology and Bioinformatics, 2023, 20(4): 2420-2433. [本文引用:1]
[3] LIU Y F, XIONG Z T, YUAN Y, et al. Distilling Knowledge from Super-Resolution for Efficient Remote Sensing Salient Object Detection. IEEE Transactions on Geoscience and Remote Sensing, 2023, 61. DOI: 10.1109/TGRS.2023.3267271. [本文引用:1]
[4] DONG C, LOY C C, HE K M, et al. Learning a Deep Convolu-tional Network for Image Super-Resolution // Proc of the European Conference on Computer Vision. Berlin, Germany: Springer, 2014: 184-199. [本文引用:2]
[5] DONG C, LOY C C, TANG X O. Accelerating the Super-Resolu-tion Convolutional Neural Network // Proc of the European Confe-rence on Computer Vision. Berlin, Germany: Springer, 2016: 391-407. [本文引用:1]
[6] SHI W Z, CABALLERO J, HUSEÁR F, et al. Real-Time Single Image and Video Super-Resolution Using an Efficient Sub-Pixel Convolutional Networks // Proc of the IEEE Conference on Computer Vision and Pattern Recognition. Washington, USA: IEEE, 2016: 1874-1883. [本文引用:2]
[7] KIM J, LEE J K, LEE K M. Accurate Image Super-Resolution Using Very Deep Convolutional Networks // Proc of the IEEE Confe-rence on Computer Vision and Pattern Recognition. Washington, USA: IEEE, 2016: 1646-1654. [本文引用:1]
[8] LAI W S, HUANG J B, AHUJA N, et al. Deep Laplacian Pyramid Networks for Fast and Accurate Super-Resolution // Proc of the IEEE Conference on Computer Vision and Pattern Recognition. Washing-ton, USA: IEEE, 2017: 5835-5843. [本文引用:2]
[9] ZHANG Y L, LI K P, LI K, et al. Image Super-Resolution Using Very Deep Residual Channel Attention Networks // Proc of the Eu-ropean Conference on Computer Vision. Berlin, Germany: Sprin-ger, 2018: 294-310. [本文引用:1]
[10] ZHANG Y L, TIAN Y P, KONG Y, et al. Residual Dense Net-work for Image Super-Resolution // Proc of the IEEE/CVF Confe-rence on Computer Vision and Pattern Recognition. Washington, USA: IEEE, 2018: 2472-2481. [本文引用:1]
[11] MEI Y Q, FAN Y C, ZHOU Y Q. Image Super-Resolution with Non-local Sparse Attention // Proc of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Washington, USA: IEEE, 2021: 3516-3525. [本文引用:1]
[12] WU X, ZHANG K B, HU Y T, et al. Multi-scale Non-local Atten-tion Network for Image Super-Resolution. Signal Processing, 2024, 218. DOI: 10.1016/j.sigpro.2023.109362. [本文引用:1]
[13] KIM J, LEE J K, LEE K M. Deeply-Recursive Convolutional Network for Image Super-Resolution // Proc of the IEEE Conference on Computer Vision and Pattern Recognition. Washington, USA: IEEE, 2016: 1637-1645. [本文引用:2]
[14] TAI Y, YANG J, LIU X M. Image Super-Resolution via Deep Re-cursive Residual Network // Proc of the IEEE Conference on Com-puter Vision and Pattern Recognition. Washington, USA: IEEE, 2017: 2790-2798. [本文引用:1]
[15] 张大宝, 赵建伟, 周正华. 基于 l1诱导轻量级深度网络的图像超分辨率重建. 模式识别与人工智能, 2022, 35(12): 1101-1110.
(ZHANG D B, ZHAO J W, ZHOU Z H. Image Super-Resolution Reconstruction Based on l1 Induced Lightweight Deep Networks. Pattern Recognition and Artificial Intelligence, 2022, 35(12): 1101-1110. ) [本文引用:1]
[16] HUI Z, GAO X B, YANG Y C, et al. Lightweight Image Super-Resolution with Information Multi-distillation Network // Proc of the 27th ACM International Conference on Multimedia. New York, USA: ACM, 2019: 2024-2032. [本文引用:1]
[17] ZHA L, YANG Y, LAI Z C, et al. A Lightweight Dense Connec-ted Approach with Attention on Single Image Super-Resolution. Electronics, 2021, 10(11). DOI: 10.3390/electronics10111234. [本文引用:1]
[18] LAN R S, SUN L, LIU Z B, et al. MADNet: A Fast and Light-weight Network for Single-Image Super Resolution. IEEE Transa-ctions on Cybernetics, 2021, 51(3): 1443-1453. [本文引用:2]
[19] PENG C M, SHU P, HUANG X Y, et al. LCRCA: Image Super-Resolution Using Lightweight Concatenated Residual Channel Attention Networks. Applied Intelligence, 2022, 52(9): 10045-10059. [本文引用:2]
[20] 周登文, 王婉君, 马钰, . 基于区域互补注意力和多维注意力的轻量级图像超分辨率网络. 模式识别与人工智能, 2022, 35(7): 625-636.
(ZHOU D W, WANG W J, MA Y, et al. Lightweight Image Super-Resolution Network Based on Regional Complementary Attention and Multi-dimensional Attention. Pattern Recognition and Artificial Intelligence, 2022, 35(7): 625-636. ) [本文引用:1]
[21] GAO D D, ZHOU D W. A Very Lightweight and Efficient Image Super-Resolution Network. Expert Systems with Applications, 2023, 213. DOI: 10.1016/j.eswa.2022.118898. [本文引用:2]
[22] VASWANI A, SHAZEER N, PARMAR N, et al. Attention Is All You Need // Proc of the 31st International Conference on Neural Information Processing Systems. Cambridge, USA: MIT Press, 2017: 6000-6010. [本文引用:1]
[23] LI Y W, ZHANG K, CAO J Z, et al. LocalViT: Bringing Locality to Vision Transformers[C/OL]. [2024-03-16]. https://arxiv.org/pdf/2104.05707 [本文引用:2]
[24] LIU Z, LIN Y T, CAO Y, et al. Swin Transformer: Hierarchical Vision Transformer Using Shifted Windows // Proc of the IEEE/CVF International Conference on Computer Vision. Washington, USA: IEEE, 2021: 9992-10002. [本文引用:2]
[25] LIANG J Y, CAO J Z, SUN G L, et al. SwinIR: Image Restoration Using Swin Transformer // Proc of the IEEE/CVF Interna-tional Conference on Computer Vision. Washington, USA: IEEE, 2021: 1833-1844. [本文引用:2]
[26] WANG W, ZHU Y F, DING D W, et al. Multi-scale Multi-stage Single Image Super-Resolution Reconstruction Algorithm Based on Transformer // Proc of the 21st International Symposium on Distri-buted Computing and Applications for Business Engineering and Science. Washington, USA: IEEE, 2022: 111-114. [本文引用:1]
[27] LU Z S, LI J C, LIU H, et al. Transformer for Single Image Super-Resolution // Proc of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Washington, USA: IEEE, 2022: 456-465. [本文引用:1]
[28] FANG J S, LIN H J, CHEN X Y, et al. A Hybrid Network of CNN and Transformer for Lightweight Image Super-Resolution // Proc of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Washington, USA: IEEE, 2022: 1102-1111. [本文引用:2]
[29] LI X, DONG J X, TANG J H, et al. DLGSANet: Lightweight Dynamic Local and Global Self-Attention Network for Image Super-Resolution // Proc of the IEEE/CVF International Conference on Computer Vision. Washington, USA: IEEE, 2023: 12746-12755. [本文引用:1]
[30] ZAMIR S W, ARORA A, KHAN S, et al. Restormer: Efficient Transformer for High-Resolution Image Restoration // Proc of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Washington, USA: IEEE, 2022: 5718-5729. [本文引用:3]
[31] HU J, SHEN L, SUN G. Squeeze-and -Excitation Networks // Proc of the IEEE/CVF Conference on Computer Vision and Pattern Re-cognition. Washington, USA: IEEE, 2018: 7132-7141. [本文引用:2]
[32] LI A, ZHANG L, LIU Y, et al. Feature Modulation Transformer: Cross-Refinement of Global Representation via High-Frequency Prior for Image Super-Resolution // Proc of the IEEE/CVF International Conference on Computer Vision. Washington, USA: IEEE, 2023: 12480-12490. [本文引用:2]
[33] LIU J, ZHANG W J, TANG Y T, et al. Residual Feature Aggregation Network for Lightweight Image Super-Resolution // Proc of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Washington, USA: IEEE, 2020: 2356-2365. [本文引用:1]
[34] TIMOFTE R, AGUSTSSON E, VAN GOOL L, et al. NTIRE 2017 Challenge on Single Image Super-Resolution: Methods and Results // Proc of the IEEE Conference on Computer and Pattern Recognition Workshops. Washington, USA: IEEE, 2017: 1110-1121. [本文引用:1]
[35] BEVILACQUA M, ROUMY A, GUILLEMOT C, et al. Low-Com-plexity Single-Image Super-Resolution Based on Nonnegative Neigh-bor Embedding // Proc of the British Machine Vision Conference. Bristol, UK: BMVA, 2012. DOI: 10.5244/C.26.135. [本文引用:1]
[36] ZEYDE R, ELAD M, PROTTER M. On Single Image Scale-Up Using Sparse-Representations // Proc of the 7th International Con-ference on Curves and Surfaces. Berlin, Germany: Springer, 2010: 711-730. [本文引用:1]
[37] ARBELÁEZ P, MAIRE M, FOWLKES C, et al. Contour Detec-tion and Hierarchical Image Segmentation. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2011, 33(5): 898-916. [本文引用:1]
[38] HUANG J B, SINGH A, AHUJA N. Single Image Super-Resolu-tion from Transformed Self-Exemplars // Proc of the IEEE Confe-rence on Computer Vision and Pattern Recognition. Washington, USA: IEEE, 2015: 5197-5206. [本文引用:1]
[39] MATSUI Y, ITO K, ARAMAKI Y, et al. Sketch-Based Manga Retrieval Using Manga10Dataset. Multimedia Tools and Appli-cations, 2017, 76(20): 21811-21838. [本文引用:1]
[40] GAO X B, LU W, TAO D C, et al. Image Quality Assessment Based on Multiscale Geometric Analysis. IEEE Transactions on Image Processing, 2009, 18(7): 1409-1423. [本文引用:1]
[41] KINGMA D P, BA J L. Adam: A Method for Stochastic Optimi-zation[C/OL]. [2024-03-16]. https://arxiv.org/pdf/1412.6980 [本文引用:1]
[42] HUI Z, WANG X M, GAO X B. Fast and Accurate Single Image Super-Resolution via Information Distillation Network // Proc of the IEEE/CVF International Conference on Computer Vision and Pattern Recognition. Washington, USA: IEEE, 2018: 723-731. [本文引用:1]
[43] ZHAO H Y, KONG X T, HE J W, et al. Efficient Image Super-Resolution Using Pixel Attention // Proc of the European Confe-rence on Computer Vision. Berlin, Germany: Springer, 2020: 56-72. [本文引用:1]
[44] SUN Z F, ZHAO J W, ZHOU Z H, et al. L1 Model-Driven Recur-sive Multi-scale Denoising Network for Image Super-Resolution. Know-ledge-Based Systems, 2021, 225(1). DOI: 10.1016/j.knosys.2021.107115. [本文引用:1]
[45] WANG L G, DONG X Y, WANG Y Q, et al. Exploring Sparsity in Image Super-Resolution for Efficient Inference // Proc of the IEEE/CVF International Conference on Computer Vision and Pattern Recognition. Washington, USA: IEEE, 2021: 4915-4924. [本文引用:1]
[46] PANG S R, CHEN Z, YIN F L. Image Super-Resolution Based on Generalized Residual Network. Arabian Journal for Science and Engineering, 2022, 47(2): 1903-1920. [本文引用:1]
[47] 赵小强, 李希尧, 宋昭漾. 轻量化逆可分离残差信息蒸馏网络的图像超分辨率重建. 模式识别与人工智能, 2023, 36(5): 419-432.
(ZHAO X Q, LI X Y, SONG Z Y. Lightweight Inverse Separable Residual Information Distillation Network for Image Super-Resolu-tion Reconstruction. Pattern Recognition and Artificial Intelligence, 2023, 36(5): 419-432. ) [本文引用:1]