Processing math: 100%
基于结构变换补全的边缘纹理双特征聚合图像修复方法
张荣国1, 文译浩1, 胡静1, 王丽芳1, 刘小君2
1.太原科技大学 计算机科学与技术学院 太原 030024
2.合肥工业大学 机械工程学院 合肥 230009
通讯作者:

张荣国,博士,教授,主要研究方向为图像处理、计算机视觉、模式识别.E-mail:rg_zh@163.com.

作者简介:

文译浩,硕士研究生,主要研究方向为图像处理、计算机视觉.E-mail:wyh200327@163.com.

胡 静,博士,教授,主要研究方向为图像处理、模式识别.E-mail:279641292@qq.com.

王丽芳,博士,副教授,主要研究方向为图像处理、计算机视觉.E-mail:wanglifang@tyust.edu.cn.

刘小君,博士,教授,主要研究方向为现代设计理论与方法、模式识别.E-mail:liuxjunhf@163.com.
第二十七届中国科协年会学术论文

摘要

现有神经网络在修复受损图像缺失区域时,仍存在边缘结构不合理、纹理不完整等缺陷.为此,文中提出基于结构变换补全的边缘纹理双特征聚合图像修复方法.首先,设计基于轴向注意力与上下文Transformer的结构变换补全器,结合结构平滑器进一步补全优化边缘结构,增强对边缘局部细节与全局结构的捕捉能力,抑制边缘噪声和伪影,修复受损的边缘结构.然后,构建边缘引导特征对齐器和边缘纹理双特征聚合器,自适应学习缩放和偏移参数,有效解决在不同特征空间层次上边缘结构特征和纹理特征动态聚合时的尺度偏移问题,提升图像修复的整体质量.最后,在3个数据集上的实验表明文中方法的可行性和有效性.

关键词: 图像修复; 边缘引导; 结构补全; 特征空间; 双特征聚合
中图分类号:TP391
Edge-Texture Dual Feature Aggregation for Image Inpainting via Structural Transformation Completion
ZHANG Rongguo1, WEN Yihao1, HU Jing1, WANG Lifang1, LIU Xiaojun2
1. College of Computer Science and Technology, Taiyuan University of Science and Technology, Taiyuan 030024
2. School of Mechanical Engineering, Hefei University of Technology, Hefei 230009
Corresponding author:
ZHANG Rongguo, Ph.D., professor. His research interests include image processing, computer vision and pattern recognition.

About Author:
WEN Yihao, Master student. His research interests include image processing and computer vision.
HU Jing, Ph.D., professor. Her research interests include image processing and pattern recognition.
WANG Lifang, Ph.D., associate profe⁃ssor. Her research interests include image processing and computer vision.
LIU Xiaojun, Ph.D., professor. Her research interests include modern design theories and methods, and pattern recognition.
Academic Papers of the 27th Annual Meeting of the China Association for Science and Technology

Abstract

The deficiencies in restoring plausible edge structures and complete textures within missing regions still emerge in existing neural network-based approaches for image inpainting. To address these issues, a method for edge-texture dual feature aggregation for image inpainting via structural transformation completion(ETSTC) is proposed. First, a structure transform completer module integrating axial attention and contextual transformer is designed. The module is combined with a structure smoother module to further complement and optimize edge structures. Thus, both local edge details and global structural patterns are effectively captured while edge noise and artifacts are suppressed. Second, an edge-guided feature aligner and an edge-texture dual-feature aggregator are developed. Scaling and offset parameters are adaptively learned to effectively resolve scale and offset discrepancies in dynamic aggregation of edge structural features and texture features across different feature space levels, and thereby the image inpainting performance is improved. Finally, experiments on three datasets verify the feasibility and effectiveness of ETSTC.

Key words: Image Inpainting; Edge Guidance; Structure Completion; Feature Space; Dual Feature Aggregation

图像修复是指修复给定的损坏图像, 并使修复后的图像与原图近似一致且具有一定的照片逼真度.如何在图像修复中生成具有特色、看起来自然的纹理是图像修复的一大挑战, 也是图像修复的研究热点[1].

现有的图像修复方法大致分为传统的图像修复方法和基于深度学习的方法[2].传统的图像修复方法大多基于偏微分方程或启发式搜索相似的图像块, 重建缺失的图像区域, 虽然能保持局部一致性, 但仅利用内部信息捕捉像素或图像块, 修复时缺乏对图像语义的全面理解, 不足以处理复杂的修复任务.

基于深度学习的方法得益于卷积神经网络(Convolutional Neural Network, CNN)和生成对抗网络(Generative Adversarial Network, GAN)的优越性能, 可在一些常见情况下有效执行图像修复任务[3, 4].传统CNN的局部感受野和归纳偏置虽然有利于局部纹理生成, 但难以建立全局语义关联, 导致弱纹理区域的恢复效果不佳, 出现长程结构断裂现象, 即使是扩张卷积也难以处理大面积损坏区域或高分辨率图像.GAN在修复时计算较复杂、资源消耗较大, 可能导致在高分辨率图像上的修复性能下降, 在处理不规则大面积缺失时, 缺乏有效的空间位置编码机制, 容易重复生成无意义的伪影[5].

Transformer从自然语言处理领域扩至计算机视觉领域, 展现出强大的全局建模能力[6].相比CNN, Transformer放弃内置的局部归纳先验, 通过注意力机制支持长距离交互, 按照注意力分数加权未受损区域的特征块以填充受损区域, 但当图像缺失区域过大时, 注意力机制可利用的上下文信息衰减较大, 修复效果不佳.还有一些方法利用辅助信息作为额外约束, 增强修复后图像的视觉合理性, 边缘引导方法是解决语义一致性问题的有效途径[7], 但普遍采用静态特征拼接, 难以处理边缘与纹理之间特征的动态交互关系.

为了有效解决现有方法存在的局限与不足, 本文提出基于结构变换补全的边缘纹理双特征聚合图像修复方法(Edge-Texture Dual Feature Aggregation for Image Inpainting via Structural Transformation Completion, ETSTC), 建立注意力机制与CNN技术互补方法, 解决受损边缘长距离预测及上下文信息衰减问题, 利用边缘结构和纹理分布特征之间的相关性, 在不同特征空间层次上完成边缘纹理双特征的精准对齐与动态聚合, 重建图像.在Facade[8]、CelebA[9]和Places2[10]标准数据集上的实验表明本文方法性能较优.

1 相关工作

早期图像修复方法主要基于偏微分方程的结构传播或基于相似样本图像块匹配修复.Shen等[11]基于欧拉弹性理论, 建立四阶偏微分方程模型, 通过最小化弹性能量函数实现大范围缺失区域的结构连贯性修复.Tschumperlé 等[12]建立矢量图像的偏微分方程统一框架, 将标量图像的扩散模型推广至多通道数据, 实现彩色图像的结构保持修复.此类方法容易产生过平滑问题, 难以处理复杂纹理.

Criminisi等[13]提出优先级函数, 填充具有最高优先级的边界块, 在源区域搜索最优匹配块进行填充, 实现结构和纹理的协同修复.Ruž ć i等[14]将马尔可夫随机场建模引入基于上下文感知相似块的图像修复中.上述方法主要依赖低层次的图像特征, 大部分仅适用于缺失区域较小的破损图像, 由于难以理解图像的语义内容, 在复杂场景下的修复结果往往不符合视觉感知.

深度学习的兴起为图像修复领域带来突破性的进展.CNN与GAN在图像修复领域表现出色, 可显著提升修复效果.Context Encoders[15]是在图像修复中最早将CNN的编码器-解码器结构与GAN的对抗训练结合的研究模型之一, 为使用像素级损失和对抗损失优化奠定基础.Chen等[16]提出Multi-scale Patch-GAN, 在判别器中引入多尺度CNN 分支, 结合边缘检测先验约束生成器, 强制修复区域与真实图像保持结构一致性.

为了进一步处理大面积复杂缺失区域的修复, Wang等[17]提出MAPs(Multi-scale Adaptive Priors), 但仍受限于局部语义理解不足的问题.针对语义一致性挑战, 邵新茹等[18]设计基于三阶段生成网络的图像修复, 重建受损图像的全局色彩信息作为先验指导修复, 确保修复后的图像在整体上的语义真实性.Guo等[19]提出CTSDG, 利用图像结构和纹理分离的思想, 同时结合语义信息, 提高修复效果, 但高频纹理恢复能力会受限于边缘先验的统计缺失.Liu等[20]提出PUT, 引入语义和结构条件作为图像修复时的双条件指导, 性能较优, 但由于全局注意力机制弱化局部纹理细节, 在追求全局一致性和减少信息损失的同时存在一定的局限性.Wang等[21]提出SDI-Net(Style-Guided Dual-Branch Inpainting Network), 有效解决图像修复中风格与内容分离的难题, 显著提升艺术图像修复效果.

随着Transformer架构的兴起, Wan等[6]提出ICT, 使用创新的双流Transformer设计, 实现全局语义与空间位置协同建模, 但固定生成顺序限制模型对空间结构的自然理解, 影响复杂结构的生成.Li等[22]提出MAT(Mask-Aware Transformer), 直接处理高分辨率图像, 然而窗口注意力机制可能割裂长距离依赖关系, 影响超大缺失区域的全局结构连贯性.Ko等[23]提出CMT(Continuously Masked Trans-former), 利用Transformer架构的强大建模能力, 引入连续掩码生成模块, 动态调整掩码区域, 确保每次修复都能利用已生成的高质量信息, 但迭代修复机制使得早期的错误修复结果会传递并累积至后续步骤.Zhang等[24]借助多模态引导图像修复, 同时利用图像和文本作为引导信号, 解决现有方法在语义推断和内容生成上的局限性.

传统的图像修复方法过度依赖结构先验而弱化纹理细节, 现有的深度学习方法虽然引入语义指导, 可显著提升图像修复效果, 但多数网络通过简单拼接或注意力机制融合特征, 对边缘结构复杂区域的细化处理不足, 导致后续引导纹理修复时复杂边界处出现结构扭曲或模糊.同时, 由于缺乏对边缘与纹理的跨尺度协同优化机制, 未能充分建模边缘结构与纹理特征间的动态交互关系, 难以实现从边缘结构补全到纹理区域生成的端到端一致性.

2 基于结构变换补全的边缘纹理双特征聚合图像修复方法

本文提出基于结构变换补全的边缘纹理双特征聚合图像修复方法(ETSTC), 整体架构如图1所示.ETSTC主要包括边缘结构补全模块(Edge Structure Completion Module, ESCM)和纹理重构修复模块(Texture Reconstruction Restoration Module, TRRM).

图1 ETSTC整体架构Fig.1 Overall architecture of ETSTC

在训练阶段, ETSTC使用模拟生成的受损图像及其对应的模拟受损边缘信息进行训练.在测试阶段, 直接接收真实受损图像及从该受损图像中利用CATS(Context-Aware Tracing Strategy)[25]提取得到的受损边缘信息作为输入, 进行图像修复.

具体来说, ESCM将受损图像的边缘结构进行粗略补全及精细化处理, 并为后续模块提供精确边缘引导信息.TRRM利用边缘引导特征对齐器(Edge-Guided Feature Aligner, EGFA)和边缘纹理双特征聚合器(Edge-Texture Dual-Feature Aggrega-tor, ETFA), 实现边缘与纹理双特征的精准聚合, 达到图像缺失区域修复目的.

2.1 边缘结构补全模块

边缘结构补全模块(ESCM)是整个修复过程中的关键步骤, 通过层级化补全被损图像的边缘结构, 为后续纹理重构过程提供准确、细致的边缘特征信息.ESCM具体架构如图2所示, 核心思想是通过结构补全和平滑操作, 逐步恢复受损区域的边缘结构信息.ESCM通过CATS得到原始图像I的原始边缘E, 并选用现有不规则掩码数据集[26]设定中的多孔洞二进制掩码M模拟对图像的遮挡.合成EM, 模拟受损边缘图Em, 将所有信息连接并输入网络中进行边缘结构修补.

图2 ESCM架构图Fig.2 Architecture of ESCM

ESCM由两个组件构成:结构变换补全器(Stru-cture Transform Completer Module, STCM)和结构平滑器(Structure Smoother Module, SSM).

2.1.1 结构变换补全器

受损边缘结构修复的结构变换补全器(STCM)作为ESC的核心部件, 全面综合CNN和Transformer的优势.对于一组256× 256的预输入信息, 先利用CNN对输入特征进行下采样, 以减少后续计算量, 通过轴向注意力机制(Axial Attention)[27]和整合CNN与注意力机制的上下文CoT(Contextual Trans-former) Block[28], 有效捕捉边缘结构的局部信息与全局信息, 避免修复后的边缘细节区域出现模糊失真.

在STCM的较高层, 利用CoT Block中的上下文感知注意力机制, 提升模块对整体边缘结构的理解能力.在STCM的较低层, 使用轴向注意力机制在行列方向上分别计算注意力, 有效整合局部结构信息.轴向注意力机制将经过CNN下采样后的特征图信息X∈ Rh× w× c转换为适合注意力机制的形式, 并进行归一化处理, 其中, hw表示特征图的行数、列数, c表示通道数.对行方向进行计算时, 将每行视为独立序列, 利用张量重塑reshape(X)操作将特征图转换为XrowRMh×(Mw×c), 其中, MhMw表示输入特征图的行数、列数, Mw× c表示序列中每个位置的特征维度.

同时在轴向注意力机制内部, 对待处理特征添加一个可学习的相对位置编码(Relative Position Encoding, RPE), 通过编码相对位置, 使当前注意力机制感知像素间的空间关系.这些嵌入可表示为

R=Wi-j+L.

其中:Wi-j 表示可学习向量, ij分别表示序列中两个元素的位置索引; L表示RPE的覆盖尺度, 约束可学习的相对位置偏移范围.在此基础上计算当前特征图行方向上的注意力权重:

Arow =softmax(Qrow KTrow +Rrow dk),

其中, Qrow表示行方向查询矩阵, KTrow表示行方向键矩阵, Rrow表示当前行位置的编码信息, dk表示自注意力机制的维度.列方向同理, 即最终行轴、列轴注意力的最终输出如下:

Zrowaxis=ArowVrow,Zcolaxis=AcolVcol,

其中, Vrow表示行轴注意力的值向量, Vcol表示列轴注意力的值向量.

拼接行轴和列轴的输出, 得到最终输出:

Ztotal axis =Zrow axis +Zcol axis .

在完成轴向注意力的局部细节捕捉后, 输出 Ztotalaxis恢复为原始空间维度h× w× c, 进一步利用CoT Block中的卷积层及上下文感知注意力机制, 整合更广泛的全局上下文信息, 基于每个像素的自适应上下文关系捕捉图像中的长距离依赖关系, 优化和完善图像整体的边缘结构修复.

为了稳定特征分布, 将经过归一化处理后的特征图信息 Ztotalaxis作为当前输入, 使用卷积层在输入特征中提取局部上下文信息, 得到局部上下文键:

Klocal =Conv3×3(Ztotal axis ),

其中Conv3× 3(· )表示标准的3× 3卷积层操作.

通过线性投影生成自注意力所需的生成查询Q、全局键Kglobal和值V, 并融合Klocal和全局键Kglobal, 得到上下文感知键:

K=Linear(Concat(Klocal, Kglobal)),

其中, Concat(· )表示沿通道维度拼接, Linear(· )表示通过1× 1卷积降维, 同时确保维度匹配.

使用QK计算注意力权重矩阵Acot, 并利用Acot对值V加权, 得到全局上下文感知特征:

Zcot=AcotV.

Zcot提供更丰富的全局上下文信息, 以此优化边缘结构修复结果.再利用残差连接(Residual Con-

nection)结合两种注意力机制的输出, 将轴向注意力机制的输出 Ztotalaxis与CoT Block的输出Zcot按元素相加, 得到总输出特征图信息:

Zout= Ztotalaxis+Linear(Zcot)∈ Rh× w× c.

Linear(Zcot)确保与 Ztotalaxis维度匹配, 通过残差链接促进梯度流动以防止深层网络退化, 同时保留局部结构细节与全局上下文信息.最终通过反卷积恢复细节, 实现高效精准的边缘结构补全.生成的粗略边缘修复结果为:

˜E=STCM(E,M,Em),

其中, STCM(· )表示受损边缘修补函数, ˜E作为后续模块的输入, 可进一步优化˜E.

2.1.2 结构平滑器

由于STCM的输出是一个初步补全的边缘图, 虽然已尽可能补全缺失区域的边缘结构, 但仍存在一些噪声或结构性断连, 主要表现在某些边缘结构本应连贯, 但由于STCM或输入受损边缘图Em的局限性, 被分割成若干不相连的片段.

这种断连现象不仅降低边缘结构的完整性, 还可能导致后续纹理修复网络生成大面积不合理的纹理区域.为了解决上述问题, 本文提出结构平滑器(SSM), 通过多层卷积块提取并增强边缘细节信息, 同时利用残差卷积块(Residual Convolutional Block, RCB)保留输入特征并捕捉高频信息, 避免过度平滑导致的信息损失.

对于平滑后的精细边缘 ˇE, 传统的边缘细化方法通常采用像素级损失优化修复后的边缘轮廓, 将粗略边缘细化为精细边缘, 但这种方法通常忽略区域级别信息, 无法充分捕捉不同区域之间的结构关联.

因此SSM在互相关(Cross-Correlation, CC)函数的基础上设计交叉相关损失函数(Cross Correla-tion Loss, CCL), 约束修复边缘 ˇE与目标边缘E的区域相关性.CCL具体原理如图3所示.

图3 CCL原理图解Fig.3 Illustration of CCL

受互相关函数思想启发, 设计归一化互相关约束, 通过滑动窗口计算细化边缘图 ˇE与目标边缘图E的局部均值偏离幅度相关性, 保证局部边缘密度与全局分布一致.对于修复后的细化边缘结果 ˇE, 利用滑动步长动态覆盖整幅图像以计算局部均值, 遍历所有可能的局部区域, 具体修复后的细化边缘在局部窗口pi内的均值强度为:

¯ˇErpi=1N2Ni=1Nj=1vi,j,

其中, pi表示给定大小的滑动局部窗口, vi, j表示pi范围内的第i行、第j列像素值.

类似地, 对于输入的目标边缘图E, 也在相同的滑动窗口pi内分别计算局部均值, 记作 ˉEpi.

N=1时, LCCL退化为像素级损失计算:

L1CCL(ˇE,E)=ˇEE.

N> 1时, 互相关值CC(ˇE,E)表示细化边缘图和目标边缘图之间的更好对准, 将互相关值设置为负以公式化损失函数.CCL定义为交叉相关函数的负值, 具体计算方式如下:

LNCCL(ˇE,E)=CC(ˇE,E)=pΩpipˇErpi¯Ep¯Epi¯Ep[pip(ˇErpi¯Ep+ϵ)][pip(¯Erpi¯Ep+ϵ)].

其中:Ω 表示目标边缘图E的全部区域; ·表示欧几里得距离; p1, p2, …, pn表示在E中的全局固定窗口, pi在固定区域p中进行滑动计算; ˉEp表示目标边缘图E在固定区域 p 内的均值.同时在分母中添加平滑因子ϵ, 有效避免分母趋于零或分子失控导致梯度不稳定.pi遍历p内的所有像素, 而p遍历Ω 中的所有区域.

如图3所示, 计算目标边缘图E中当前固定窗口p3的均值 ˉEp、当前滑动窗口中的局部均值¯ˇErpiˉEpi, 利用CCL函数使细化边缘图 ˇE的局部均值分布与目标边缘图E最大程度对齐, 避免修复后的某些边缘区域过于密集或稀疏.

SSM逐步连接和消除粗略边缘˜E中的空缺区域, 同时结合 LNCCL, 提升边缘结构的精确度.经过SSM处理后的细化边缘结果如下:

ˇE=fssm(˜E).

其中fssm(· ) 表示SSM对粗略边缘进行优化与断裂修补的函数.经过处理后生成的细化边缘 ˇE更符合真实目标边缘E的结构特点.

2.2 纹理重构修复模块

为了进一步重构图像的纹理信息, 纹理重构修复模块(TRRM)利用经ESCM修复后的细化边缘 ˇE作为引导, 完成对受损图像Im的纹理修复.TRRM具体架构如图4所示.

图4 TRRM架构图Fig.4 Architecture of TRRM

目前多种方法将像素级的边缘信息输入深层网络时, 会因特征提取过程的抽象化而发生特征信息间丢失和对准困难, 在最终的修复图像中容易发生错位修复问题.同时, 随着深层网络中的下采样操作, 边缘结构信息会被逐渐削弱, 导致修复过程未能有效利用边缘结构与纹理修复之间的协同关系, 尤其是在后续的下采样和特征聚合阶段, 会影响纹理修复的整体效果.

因此, 为了更精准地将边缘信息融入整个纹理重构过程中, 在TRRM内部设计相互关联的两个组件:边缘引导特征对齐器(EGFA)和边缘纹理双特征聚合器(ETFA).

2.2.1 边缘引导特征对齐器

在边缘引导下对图像纹理进行修复时, 重要的一点是将边缘结构与纹理分布的特征信息在不同特征空间层次上相互对准, 避免发生错位修复现象.

边缘引导特征对齐器(EGFA)首先将精细边缘 ˇE投影至特征空间中, 以便和后续模块的相应纹理特征对齐.将 ˇE送入编码器, 可有效提取全局的多尺度特征和局部的多尺度特征, 降低特征维度, 并为后续残差卷积块的处理提供一个更压缩、易处理的特征输入.

RCB通过卷积、激活函数和残差连接的组合, 有效地将输入特征转换为高维特征表示, 实现特征空间的投影.边缘引导特征对齐器(EGFA)将精细边缘 ˇE编码为一组特征表示:

fEGFA(ˇE)={Fe1,Fe2,Fe3,,Fei,,Fen},

其中 Fei(i=1, 2, …, n)表示第i层残差卷积块提取的边缘特征.通过这种方式, 精细边缘信息 ˇE被逐步映射至不同层次的特征空间, 使得高层特征不仅能捕捉全局的结构信息, 同时低层特征也能保留局部细节.每个层次的特征{ Fe1, Fe2, …, Fei, …, Fen}通过在多尺度上的卷积操作, 保留边缘的细粒度细节, 并确保后续双特征聚合阶段能更精准地与图像纹理特征信息对齐.

2.2.2 边缘纹理双特征聚合器

基于LaMa[29]的边缘纹理双特征聚合器(ETFA)通过边缘引导纹理完成双特征聚合, 修复图像受损区域.

ETFA包括一个生成器和一个判别器, 生成器采用编码器-解码器架构, 利用核心组件特征聚合器(Feature Aggregator, FA)修复图像的缺失区域, 并使用LaMa中的默认解码器进行解码.

精细边缘 ˇE与受损图像Im被传入编码器, FA在编码器中聚合精细边缘特征{ Fe1, Fe2, …, Fei, …, Fen}和受损图像纹理特征{ Fr1, Fr2, …, Fri, …, Frn}.具体FA结构如图5所示.

图5 FA架构图Fig.5 Architecture of FA

在FA中, 精细边缘特征 Fei与图像纹理特征 Fri的聚合能有效结合精细边缘 ˇE的结构信息与受损图像Im的纹理信息, 确保修复既能保持纹理细节, 又遵循精细的边缘结构.聚合后的特征信息为:

FFAi=αi(Fei)(Fei+Fri)δiμi+βi(Fei)+(Fei+Fri).

其中:( Fei+ Fri)表示初步的特征聚合; α i( Fei)、β i( Fei)表示可训练的张量, 自适应地学习聚合过程的尺度和移位; δ iμ i表示( Fei+ Fri)的平均值和标准差, 用于标准化添加的特征.

由FA产生的特征 FFAi随后进入设计的傅里叶通道注意力模块(Fourier Channel Attention Module, FCAM).FCAM包括两个组件:D-SEM(Dynamic Squeeze-and-Excitation Module)和快速傅里叶卷积(Fast Fourier Convolution, FFC).

在SE(Squeeze-and-Excitation)[30]的基础上, D-SEM具体结构如图6所示.

图6 D-SEM架构图Fig.6 Architecture of D-SEM

D-SEM进一步优化图像特征间的关系, 对聚合后的特征 FFAi进行Squeeze操作, 得到一个C维的通道c的压缩特征:

zc=1H×WHh=1Ww=1FFAi(h,w,c).

接下来传统做法是通过全连接层学习每个通道的注意力权重, 但本文引入动态门控机制, 调整每个通道的加权, 经过Sigmoid激活的通道权重向量为:

s=σ(Wdynamic 2ReLU(Wdynamic 1z)),

其中, Wdynamic1Wdynamic2会根据输入特征动态调整, 进一步优化特征通道间的关系.最后进行Reweight的操作, 对聚合后的特征图 FFAi的每个通道进行加权重标定, 得到经过注意力调节后的特征:

˜FFAi(h,w,c)=sCFFAi(h,w,c),

其中, sC表示通道权重向量s中的第C个通道的权重值, 用于调整第C个通道特征强弱的缩放因子.

FFC对调节后的特征˜FFAi进行局部和全局的混合操作.将特征˜FFAi分解为局部特征˜FFAi,L和全局特征˜FFAi,G:

˜FFAi=˜FFAi,L+˜FFAi,G.

最后逐元素相加融合局部卷积结果ˇFFAi,L和全局频域结果ˇFFAi,G, 输出最终的特征信息ˇFFAi.

ETFA中的解码器由上采样层组成, 处理 ˇFFAi并预测损坏区域的缺失像素, 得到最终的修复结果图:

ˇI=fTRRM (E,ˇE,I,Im).

通过精细化的边缘引导, TRRM的训练过程同时优化生成器和判别器, 达到GAN的效果.将修复结果 ˇI传入判别器, 利用判别器评估与真实图像I是否相似, 为ETFA提供反馈, 提升受损图像的修复质量.

2.3 损失函数

在ESCM中, STCM主要为后续模块提供粗略边缘信息, 采用二值交叉熵损失函数(Binary Cross-En- tropy, BCE)监督边缘结构补全过程, 确保生成边缘在像素级别上与真实边缘的精确对齐, 具体损失函数为:

LSTCM=1NNi=1[yilnpi+(1yi)ln(1pi)],

其中, N表示图像中像素总数, yi表示第i个样本的真实标签, pi表示第i个样本的预测概率值, 目的是衡量模型的预测值pi和真实值yi之间的差异.

SSM采用 LNCCL, 同时引入低秩稀疏先验作为正则化项, 从而优化全局结构和细节修复的平衡, SSM整体损失函数:

LSSM=LNCCL(ˇE,E)+α(L+λS1+ρ2ˇE(L+S)2F).

其中:S表示当前边缘图的稀疏分量; L表示当前边缘图的低秩分量; LNCCL(ˇE,E)用于衡量细化边缘˘E与目标边缘E之间差异的损失; α λ 表示超参数, α 控制正则化项在整体损失中权重, λ 控制稀疏分量S的正则化强度; ρ 表示二次惩罚系数.

TRRM的损失包括像素损失L1、对抗性损失Ladv、特征匹配损失Lfm和高感受野感知损失Lhrf.

像素损失

L1=(1M)|ˇII|1,

其中, ˇI表示生成图像, I表示真实图像, M表示二进制掩码.

对抗性损失包括判别器损失LD、生成器损失LG和带有权重λ GP的梯度惩罚损失LGP, 用于提升生成图像的逼真度, 具体公式如下:

Ladv=LD+LG+λ GPLGP,

其中,

LD=EI[lnD(I)]EˇI[ln(1D(ˇI))],LG=EˇI[lnD(ˇI)],LGP=EˆI[(ˆID(ˆI)21)2],

ˇI表示插值图像, 为真实图像I和生成图像ˇI之间随机插值得到的样本, ˆID(ˆI)表示判别器D(· )输出相对于输入图像ˇI的梯度, D(· )表示判别器对输入图像真实性的概率估计.

特征匹配损失Lfm用于衡量生成图像和真实图像在判别器的中间特征层上的差异, 具体公式如下:

Lfm=E[Ti=11NiD(i)(ˇI)D(i)(I)1],

其中, E表示对当前样本的平均值, D(i)(· )表示判别器在不同深度层次上对生成图像和真实图像的特征提取结果.

高感受野感知损失Lhrf使用预训练的ResNet50提取图像的高层特征, 衡量真实图像和生成图像之间的差异, 具体公式如下:

Lhrf=E[ϕhrf(I)ϕhrf(ˆI)22],

其中ϕ hrf(· )表示预训练的ResNet50特征提取函数.

最终

LTRRM=λL1L1+λadvLadv+λfmLfm+λhrfLhrf,

为上述各损失函数的加权和, 权重λ L1λ advλ fmλ hrf决定每种损失在最终训练目标中的重要性.

3 实验及结果分析
3.1 实验环境

实验硬件配置为单个Intel(R) Xeon(R) Plati-num 8362 CPU、单个NVIDIA GeForce RTX 3090 24 GB GPU、64.0 GB RAM.软件环境为Windows 10、PyThon v3.12、Pytorch v2.3.0、CUDA v12.1.

本文选择在Facade[8]、CelebA[9]、Places2[10]这3个公开数据集上进行训练和评估.数据集具体信息如表1所示.

表1 实验数据集 Table 1 Experimental datasets

在掩码数据集设定上, 按照不规则掩码[26]设置, 取用1.5× 104幅具有不同掩码比例的多孔洞掩码图像, 模拟不同复杂度的修复场景, 训练过程中随机选取掩码遮挡图像.

ETSTC采用 PyTorch, 在训练测试和验证测试中, 图像I和掩码图M都调整为256× 256, 以便进行后续实验和评估.在ESCM中, 使用Adam(Adaptive Moment Estimation)优化器, 学习率为4.24e-4, 预热1 500步, 训练批量大小为16.在TRRM中, 也使用Adam优化器, 生成器的学习速率为2e-4, 判别器的学习速率为1e-4, 预热步数为2 000, 训练过程中采用学习率衰减策略, 衰减率为0.5, 批量大小为16.

3.2 评估指标

为了测试ETSTC的检测性能, 选择如下5种常用的图像修复评估指标.

1)峰值信噪比(Peak Signal-to-Noise Ratio, PS-NR).通过均方误差(Mean Square Error, MSE)衡量图像质量, 公式如下:

PSNR=10lg(MAX2MSE),

其中, MAX表示像素的最大值,

MSE=1NNi=1(yiˆyi)2,

N表示像素总数, yi表示真实图像的像素值, ^yi表示修复图像的像素值.

2)结构相似性(Structural Similarity, SSIM).从亮度、对比度和结构三个维度评估相似性, 公式如下:

SSIM(x,y)=(2μxμy+C1)(2σxy+C2)(μ2x+μ2y+C1)(σ2x+σ2y+C2),

其中, σ x表示图像x的方差, σ y表示图像y的方差, σ xy表示图像xy的协方差, μ x表示图像x的均值, μ y表示图像y的均值,

C1=(k1MAX)2,C2=(k2MAX)2,

表示稳定常数.

3)平均绝对误差(Mean Absolute Error, MAE).直接计算像素级绝对误差的均值, 公式如下:

MAE=1NNi=1|yiˆyi|.

4)LPIPS(Learned Perceptual Image Patch Simi-larity).通过预训练神经网络提取特征并计算距离, 公式如下:

LPIPS(x,y)=l1HlWlh,wwl(F(x)l(h,w)F(y)l(h,w))22,

其中 F(x)l表示图像x在第l层的特征图, F(y)l表示图像y在第l层的特征图, wl为第l层的权重向量, HlWl表示特征图的尺寸.

5)相似性度量(Fré chet Inception Distance, F- ID).计算真实图像和生成图像在特征空间中的分布相似性, 公式如下:

FID=μxμy22+tr(Σx+Σy2(ΣxΣy)12),

其中, μ xμ y分别表示真实图像和生成图像在In- ception网络特征空间的均值, Σ xΣ y表示真实图像和生成图像在Inception网络特征空间中提取特征的协方差矩阵.

3.3 对比实验

为了定量评估ETSTC的效率, 选择如下对比方法:ICT[6]、EdgeConnect[7]、CTSDG[19]、PUT[20]、M-AT[22]、CMT[23].

各方法均采用在不规则掩码数据集上随机抽取并遮罩真实图像的策略进行训练、验证与测试, 在Facade、CelebA、Places2数据集上的评估结果如表2~表4所示, 表中黑体数字表示最优值.

表2 各方法在Facade数据集上的指标值对比 Table 2 Metric value comparison of different methods on Facade dataset
表3 各方法在CelebA数据集上的指标值对比 Table 3 Metric value comparison of different methods on CelebA dataset
表4 各方法在Places2数据集上的指标值对比 Table 4 Metric value comparison of different methods on Places2 dataset

表2~表4可得, ETSTC在5个指标值上普遍高于对比方法, 特别是在需要精细结构保持的Facade数据集上, 这表明ETSTC在修复面部细节、处理高度结构化对象及复杂场景上的优势.这是由于ETSTC能对受损边缘结构进行精细化修复并为纹理重构阶段提供完整的边缘结构先验, 同时结合边缘结构与纹理分布特征之间的相关性, 通过双特征间的有效聚合实现图像重建.

下面通过可视化对比, 评估各方法针对修复图像在纹理细节、边缘平滑过渡和颜色分布一致性方面的表现.为了充分展示ETSTC在特定类型遮挡条件下的视觉表现, 额外设计由方法生成的中心矩形掩码图.

各方法在Facade数据集上的修复结果如图7所示.由图可见, 相比对比方法, ETSTC在边缘清晰度、结构完整性和纹理自然度上表现更佳.Edge-Connect因结构预测不完整, 导致边缘模糊和纹理失真, 如(c)中第1行门框区域.CTSDG在复杂场景中容易生成网格伪影, 结构不连续, 如(d)中第2行屋顶结构呈现断裂伪影.ICT尽管全局建模能力较强, 但在较大缺失区域的细节部分重建不足, 如(e)中第2行门窗区域.MAT在局部复杂纹理恢复方面仍有缺陷, 生成图像纹理不协调, 如(f)中第3行墙面纹理表现突兀.CMT在局部纹理精细化上存在不足, 修复图像纹理显得呆板, 如(g)中第1行围栏区域.PUT使用非量化的Transformer提高图像质量, 虽然修复大体轮廓, 但纹理较平坦, 局部区域仍存在伪影, 在(h)中第1行和第3行窗户和墙壁区域修复效果缺乏真实感.相比之下, ETSTC能生成清晰边缘和自然纹理, 整体修复效果更真实自然.

图7 各方法在Facade数据集上的修复结果Fig.7 Inpainting results of different methods on Facade dataset

CelebA数据集上包含具有相似语义的人脸图像, 各方法的修复结果如图8所示.由图可见, ETSTC在理解全局语义和保留更真实的人脸细节方面表现出色.各方法在包含不同语义图像的Places2数据集上的修复结果如图9所示.由图可见, ETSTC得到较高质量的纹理恢复效果.

图8 各方法在CelebA数据集上的修复结果Fig.8 Inpainting results of different methods on CelebA dataset

图9 各方法在Places2数据集上的修复结果Fig.9 Inpainting results of different methods on Places2 dataset

3.4 收敛性分析

在Facade数据集上, ETSTC训练过程中的损失变化趋势如图10所示.在整个训练过程中, 每轮记录最新一批数据的损失值, ESCM进行256 轮训练, TRRM进行512轮训练.

图10 ETSTC中两阶段训练损失曲线Fig.10 Two-stage training loss curves of ETSTC

在ESCM训练期间, 交叉相关损失LCCL和二值交叉熵损失LBCE的变化趋势如图10(a)所示.初步边缘修复阶段中LBCE在第1~60轮左右逐渐下降, 并逐渐接近平衡状态, 表明网络能较快收敛并生成较稳定的初步边缘结果.边缘细化使用的LCCL由-0.46降至-0.62左右逐渐平稳, 表明修复后的边缘结构相关性逐步提高, 网络对边缘的细化处理取得良好效果.

在TRRM训练期间, 基于预设的合理权重区间进行损失权重组合实验, 以PSNR、SSIM、MAE、LPI- PS指标为优化目标进行最终的权重组合选取, 最终得到的最优损失权重组合如下: λ L1=15, λ adv=8, λ fm=85, λ hrf=35.

如图10(b)所示, 随着训练的进行, 对抗性损失Ladv稳定在(0.85, 1.10)范围内波动, 表明生成器和判别器之间的博弈逐渐平衡.像素损失L1、特征匹配损失Lfm和高感受野感知损失Lhrf逐渐下降, 表明在特征图或像素级上修复样本与真实样本之间的差距正在缩小, 修复图像质量正在稳步提高.

3.5 消融实验

在Facade数据集上分别进行边缘结构补全模块(ESCM)和纹理重构修复模块(TRRM)的消融实验, 分析2个组件之间的差异.

在ESCM上全面分析整合CNN与Transformer的结构变换补全器(STCM)的有效性.指标包含边缘精确度、边缘召回率和边缘F1分数, 结果如表5所示.由表可见, 结合使用轴向注意力与CoT Block的STCM可有效提升边缘结构补全信息的精准性与完整性.

表5 STCM在Facade数据集上的消融实验结果 Table 5 Ablation experiment results of STCM on Facade dataset %

针对ESCM进行可视化分析, 结果如图11所示.

图11 ESCM在Facade数据集上的消融实验结果Fig.11 Ablation experiment results of ESCM on Facade dataset

由图11可见, 通过对输入的受损图像(图(b))进行边缘提取, 得到受损边缘(图(c))后输入STCM进行消融实验.分别移除STCM中的轴向注意力和CoT Block, 各自替换为标准自注意力机制后均出现边缘连续性不足现象, 补全结果中产生明显的边缘伪影.相比之下, 应用完整的STCM, 补全后的边缘结构较完整, 这一改进得益于STCM对局部边缘细节与全局结构依赖的有效捕捉.

最后进行ETSTC的消融实验时, 选择STCM、SSM、FA、FCAM模块, 测试各种组合对指标值的影响, 具体如表6所示, 表中黑体数字表示最优值, 未使用FA的组合一律使用SPADE[31]支持模型训练.

表6 ETSTC在Facade数据集上的消融实验结果 Table 6 Ablation experiment results of ETSTC on Facade dataset

表6可见, 当仅利用STCM进行初步边缘修补时, STCM虽具有基础边缘补全能力, 但缺乏精细化处理.引入SSM后, 结构更连贯, 各项指标值得到优化.进一步引入FCAM, 增强纹理表达, SSIM值显著提高.使用FA替换SPADE后, 边缘与纹理特征对齐更精准.当应用完整的ETSTC时, 所有模块协同作用, 各项指标达到最优, 由此验证ETSTC的有效性.

各模块在Facede数据集上的可视化结果如图12所示.由图可见, (b)中只使用STCM模块并使用SPADE替换FA, (c)在(b)基础上增加SSM, 使边缘结构过渡更自然, 但纹理细节仍有欠缺.(d)中再加入FCAM, 可进一步提升纹理表达, 使边缘和纹理过渡更顺畅.(e)中引入FA代替SPADE, 实现边缘特征与纹理特征的有效聚合.(f)为ETSCM, 修复效果最优, 这充分表明在所有模块的共同作用下, ETSTC在边缘结构补全、纹理重构修复和整体一致性上达到最佳状态.

图12 ETSTC在Facade数据集上的消融实验结果Fig.12 Ablation experiment results of ETSTC on Facade dataset

4 结束语

针对现有图像修复方法在边缘结构还原与纹理合理性方面的不足, 本文提出基于结构变换补全的边缘纹理双特征聚合图像修复方法(ETSTC).首先, 专注于恢复受损区域的边缘结构信息, 通过补全缺失边缘及消除边缘伪影, 生成拓扑连贯的精细化边缘指导信息.再将边缘与纹理特征通过自适应学习, 解决跨层次特征聚合时的尺度错位问题, 完成对边缘特征与纹理特征的精准聚合, 修复后的图像在纹理细节和视觉真实性上表现出色.由于在目前复杂结构与场景下, 如建筑物周围的树木或人脸图像的头发区域, ETSTC可能出现伪影与明显修复痕迹, 今后将进一步探索更高效准确的图像修复方法, 克服捕捉高复杂度场景边缘结构的能力不足问题, 产生更精细合理的图像修复结果.

本文责任编委 桑 农

Recommended by Associate Editor SANG Nong

参考文献
[1] YANG J, RUHAIYEM N I R. Review of Deep Learning-Based Image Inpainting Techniques. IEEE Access, 2024, 12: 138441-138482. [本文引用:1]
[2] WALI A, NASEER A, TAMOOR M, et al. Recent Progress in Di-gital Image Restoration Techniques: A Review. Digital Signal Processing, 2023, 141. DOI: 10.1016/j.dsp.2023.104187. [本文引用:1]
[3] XIANG H Y, ZOU Q, NAWAZ M A, et al. Deep Learning for Image Inpainting: A Survey. Pattern Recognition, 2023, 134. DOI: 10.1016/j.patcog.2022.109046. [本文引用:1]
[4] CHEN Y T, XIA R L, YANG K, et al. DNNAM: Image Inpainting Algorithm via Deep Neural Networks and Attention Mechanism. Applied Soft Computing, 2024, 154. DOI: 10.1016/j.asoc.2024.111392. [本文引用:1]
[5] YU X X, XU L, LI J, et al. MagConv: Mask-Guided Convolution for Image Inpainting. IEEE Transactions on Image Processing, 2023, 32: 4716-4727. [本文引用:1]
[6] WAN Z Y, ZHANG J B, CHEN D D, et al. High-Fidelity Pluralistic Image Completion with Transformers // Proc of the IEEE/CVF International Conference on Computer Vision. Washington, USA: IEEE, 2021: 4672-4681. [本文引用:3]
[7] NAZERI K, NG E, JOSEPH T, et al. EdgeConnect: Structure Guided Image Inpainting Using Edge Prediction // Proc of the IEEE/CVF International Conference on Computer Vision Workshops. Washington, USA: IEEE, 2019: 3265-3274. [本文引用:2]
[8] TYLEIČEK R, ŠÁRA R. Spatial Pattern Templates for Recognition of Objects with Regular Structure // Proc of the 35th German Conference on Pattern Recognition. Berlin, Germany: Springer, 2013: 364-374. [本文引用:2]
[9] LIU Z W, LUO P, WANG X G, et al. Deep Learning Face Attri-butes in the Wild // Proc of the IEEE International Conference on Computer Vision. Washington, USA: IEEE, 2015: 3730-3738. [本文引用:2]
[10] ZHOU B L, LAPEDRIZA A, KHOSLA A, et al. Places: A 10 Million Image Database for Scene Recognition. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2018, 40(6): 1452-1464. [本文引用:2]
[11] SHEN J H, KANG S H, CHAN T F. Euler's Elastica and Curvature-Based Inpainting. SIAM Journal on Applied Mathematics, 2003, 63(2): 564-592. [本文引用:1]
[12] TSCHUMPERLÉ D, DERICHE R. Vector-Valued Image Regularization with PDEs: A Common Framework for Different Applications. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2005, 27(4): 506-517. [本文引用:1]
[13] CRIMINISI A, PÉREZ P, TOYAMA K. Region Filling and Object Removal by Exemplar-Based Image Inpainting. IEEE Transactions on Image Processing, 2004, 13(9): 1200-1212. [本文引用:1]
[14] RUŽIĆ T, PIŽURICA A. Context-Aware Patch-Based Image Inpainting Using Markov Rand om Field Modeling. IEEE Transactions on Image Processing, 2015, 24(1): 444-456. [本文引用:1]
[15] PATHAK D, KRAHENBUHL P, DONAHUE J, et al. Context Encoders: Feature Learning by Inpainting // Proc of the IEEE Conference on Computer Vision and Pattern Recognition. Washington, USA: IEEE, 2016: 2536-2544. [本文引用:1]
[16] CHEN G, ZHANG G P, YANG Z G, et al. Multi-scale Patch-GAN with Edge Detection for Image Inpainting. Applied Intelligence, 2023, 53(4): 3917-3932. [本文引用:1]
[17] WANG Y F, GUO D S, ZHAO H R, et al. Image Inpainting via Multi-scale Adaptive Priors. Pattern Recognition, 2025, 162. DOI: 10.1016/j.patcog.2025.111410. [本文引用:1]
[18] 邵新茹. 叶海良. 杨冰. 等. 基于三阶段生成网络的图像修复. 模式识别与人工智能, 2022, 35(12): 1047-1063.
(SHAO X R, YE H L, YANG B, et al. Image Inpainting with a Three-Stage Generative Network. Pattern Recognition and Artificial Intelligence, 2022, 35(12): 1047-1063. ) [本文引用:1]
[19] GUO X F, YANG H Y, HUANG D. Image Inpainting via Conditional Texture and Structure Dual Generation // Proc of the IEEE/CVF International Conference on Computer Vision. Washington, USA: IEEE, 2021: 14114-14123. [本文引用:2]
[20] LIU Q K, JIANG Y Q, TAN Z T, et al. Transformer Based Plura-listic Image Completion with Reduced Information Loss. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2024, 46(10): 6652-6668. [本文引用:2]
[21] WANG Q, WANG Z C, ZHANG X P, et al. Art Image Inpainting with Style-Guided Dual-Branch Inpainting Network. IEEE Transactions on Multimedia, 2024, 26: 8026-8037. [本文引用:1]
[22] LI W B, LIN Z, ZHOU K, et al. MAT: Mask-Aware Transformer for Large Hole Image Inpainting // Proc of the IEEE/CVF Confe-rence on Computer Vision and Pattern Recognition. Washington, USA: IEEE, 2022: 10748-10758. [本文引用:2]
[23] KO K, KIM C S. Continuously Masked Transformer for Image Inpainting // Proc of the IEEE/CVF International Conference on Computer Vision. Washington, USA: IEEE, 2023: 13123-13132. [本文引用:2]
[24] ZHANG C, YANG W X, LI X, et al. MMGInpainting: Multi-modality Guided Image Inpainting Based on Diffusion Models. IEEE Transactions on Multimedia, 2024, 26: 8811-8823. [本文引用:1]
[25] HUAN L X, XUE N, ZHENG X W, et al. Unmixing Convolutional Features for Crisp Edge Detection. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2022, 44(10): 6602-6609. [本文引用:1]
[26] CAO C J, FU Y W. Learning a Sketch Tensor Space for Image Inpainting of Man-Made Scenes // Proc of the IEEE/CVF International Conference on Computer Vision. Washington, USA: IEEE, 2021: 14489-14498. [本文引用:2]
[27] WANG H Y, ZHU Y K, GREEN B, et al. Axial-DeepLab: Stand -Alone Axial-Attention for Panoptic Segmentation // Proc of the European Conference on Computer Vision. Berlin, Germany: Springer, 2020: 108-126. [本文引用:1]
[28] LI Y H, YAO T, PAN Y W, et al. Contextual Transformer Networks for Visual Recognition. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2023, 45(2): 1489-1500. [本文引用:1]
[29] KOLODOCHKA D, POLYAKOVA S M, NESTERIUK P D O, et al. LaMa Network Architecture Search for Image Inpainting[C/OL]. [2025-03-17]. https://ceur-ws.org/Vol-3790/paper32.pdf. [本文引用:1]
[30] HU J, SHEN L, SUN G. Squeeze-and -Excitation Networks // Proc of the IEEE/CVF International Conference on Computer Vision and Pattern Recognition. Washington, USA: IEEE, 2018: 7132-7141. [本文引用:1]
[31] PARK T, LIU M Y, WANG T C, et al. Semantic Image Synthesis with Spatially-Adaptive Normalization // Proc of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Washington, USA: IEEE, 2019: 2332-2341. [本文引用:1]