模式识别与人工智能
   首 页     期刊简介     编委会     投稿指南     伦理声明     联系我们                                                                English
模式识别与人工智能
22 学术不端论文认定及处理办法
22 版权转让协议
22 保密证明
22 录用稿件电子版要求
22 修改说明格式
更多....
22 中国自动化学会
22 国家智能计算机研发中心
22 中科院合肥智能机械所
更多....
 
 
2022年 35卷 12期 刊出日期 2022-12-25

“基于深度学习的图像理解及应用”专题
 
“基于深度学习的图像理解及应用”专题
1047 基于三阶段生成网络的图像修复
邵新茹, 叶海良, 杨冰, 曹飞龙
基于深度学习的图像修复研究重点之一是色彩、边缘和纹理的生成,然而,已有研究对色彩、边缘和纹理生成方法还可优化.因此,文中提出三阶段生成网络,每个阶段分别侧重于对色彩、边缘和纹理的合成.具体而言,在HSV色彩生成阶段,可在HSV色彩域中重建图像的全局色彩,为修复过程提供色彩指导.在边缘优化阶段,设计边缘学习框架,可获取更准确的边缘信息.在纹理合成阶段,构建特征双向融合解码器,增强图像的纹理细节.上述三个阶段依次衔接,每个阶段均可提升图像修复性能.大量实验表明文中网络性能较优.
2022 Vol. 35 (12): 1047-1063 [摘要] ( 662 ) [HTML 1KB] [PDF 5120KB] ( 586 )
1064 模态不变性特征学习和一致性细粒度信息挖掘的跨模态行人重识别
石林波, 李华锋, 张亚飞, 谢明鸿
跨模态行人重识别方法主要通过对齐不同模态的像素分布或特征分布以缓解模态差异,却忽略具有判别性的行人细粒度信息.为了获取不受模态差异影响且更具判别性的行人特征,文中提出模态不变性特征学习和一致性细粒度信息挖掘的跨模态行人重识别方法.方法主要包括模态不变性特征学习模块和语义一致的细粒度信息挖掘模块,联合两个模块,使特征提取网络获取具有判别性的特征.具体地,首先利用模态不变性特征学习模块去除特征图中的模态信息,缓解模态差异.然后,使用语义一致的细粒度信息挖掘模块,对特征图分别进行通道分组和水平分块,在充分挖掘具有判别性的细粒度信息的同时实现语义对齐.实验表明,文中方法性能较优.
2022 Vol. 35 (12): 1064-1077 [摘要] ( 436 ) [HTML 1KB] [PDF 5413KB] ( 535 )
1078 基于重构对比的广义零样本图像分类
许睿, 邵帅, 曹维佳, 刘宝弟, 陶大鹏, 刘伟锋
广义零样本图像分类中常使用生成模型重构视觉信息或语义信息用于再进一步学习.然而,基于变分自编码器的方法对重构样本利用不够充分,表示性能欠缺.因此,文中提出基于重构对比的广义零样本图像分类模型.首先,使用两个变分自编码器将视觉信息和语义信息编码为同维度的低维隐向量,再将隐向量分别解码到两种模态.然后,使用投影模块投影视觉信息与语义模态的隐向量重构的视觉模态信息.最后,对投影后的特征进行重构对比学习.在保持变分自编码器重构性能的基础上增强编码器重构的判别性能,提高预训练特征在广义零样本图像分类任务上的应用能力.在4个标准数据集上的实验证实文中模型的有效性.
2022 Vol. 35 (12): 1078-1088 [摘要] ( 332 ) [HTML 1KB] [PDF 1449KB] ( 602 )
1089 基于相邻特征融合的红外与可见光图像自适应融合网络
徐少平, 陈晓军, 罗洁, 程晓慧, 肖楠
为了获得目标边缘清晰且细节丰富的红外与可见光融合图像,以前馈去噪卷积神经网络(Denoising Convolutional Neural Network, DnCNN)的骨干网络为基础,从网络架构和损失函数两方面对其进行全面改进,提出基于相邻特征融合的红外与可见光图像自适应融合网络(Adjacent Feature Combination Based Adaptive Fusion Network, AFCAFNet).具体地,采取扩大通道数及双分支特征交换机制策略将DnCNN前段若干相邻卷积层的特征通道进行充分交叉与融合,增强特征信息的提取与传递能力.同时,取消网络中所有的批量归一化层,提高计算效率,并将原修正线性激活层替换为带泄露线性激活层,改善梯度消失问题.为了更好地适应各种不同场景内容图像的融合,基于VGG16图像分类模型,分别提取红外图像和可见光图像梯度化特征响应值,经过归一化处理后,分别作为红外图像和可见光图像参与构建均方误差、结构化相似度和总变分三种类型损失函数的加权系数.在基准测试数据库上的实验表明,AFCAFNet在主客观评价上均具有一定优势.在各项客观评价指标中综合性能较优,在主观视觉效果上,在特定目标边缘上较清晰、纹理细节也较丰富,符合人眼视觉感知特点.
2022 Vol. 35 (12): 1089-1100 [摘要] ( 290 ) [HTML 1KB] [PDF 2820KB] ( 473 )
1101 基于l1诱导轻量级深度网络的图像超分辨率重建
张大宝, 赵建伟, 周正华
现有的基于深度学习的超分辨率重建方法主要通过加深网络以提高网络的重建性能,但是加深网络会导致网络权值数量急剧增加,给网络训练和存储带来巨大负担.考虑到噪声的稀疏性、网络训练的成本及重建图像边缘的清晰度,文中融合模型驱动与数据驱动的思想,提出基于l1诱导轻量级深度网络的图像超分辨率重建方法.先利用分裂Bregman算法和软阈值算子,构建边缘正则的l1重建模型,并推演有效的迭代算法.再在迭代算法的指导下,设计相应的递归深度网络进行图像重建.因此,文中网络是在优化模型指导下设计的,推导出的递归结构由于其权值共享的特性,可减少网络权值的数量.实验表明,文中方法在网络权值数量较少时,仍能取得较优的图像重建性能.
2022 Vol. 35 (12): 1101-1121 [摘要] ( 406 ) [HTML 1KB] [PDF 2411KB] ( 441 )
1111 基于Vision Transformer的中文唇语识别
薛峰, 洪自坤, 李书杰, 李雨, 谢胤岑
唇语识别作为一种将唇读视频转换为文本的多模态任务,旨在理解说话者在无声情况下表达的意思.目前唇语识别主要利用卷积神经网络提取唇部视觉特征,捕获短距离像素关系,难以区分相似发音字符的唇形.为了捕获视频图像中唇部区域像素之间的长距离关系,文中提出基于Vision Transformer(ViT)的端到端中文句子级唇语识别模型,融合ViT和门控循环单元(Gate Recurrent Unit, GRU),提高对嘴唇视频的视觉时空特征提取能力.具体地,首先使用ViT的自注意力模块提取嘴唇图像的全局空间特征,再通过GRU对帧序列时序建模,最后使用基于注意力机制的级联序列到序列模型实现对拼音和汉字语句的预测.在中文唇语识别数据集CMLR上的实验表明,文中模型的汉字错误率较低.
2022 Vol. 35 (12): 1111-1121 [摘要] ( 719 ) [HTML 1KB] [PDF 1611KB] ( 506 )
1122 基于全局多尺度特征融合的伪装目标检测网络
童旭巍, 张光建
在伪装目标检测中,由于伪装目标的外观与背景相似度极高,很难精确分割伪装目标.针对上下文感知跨级融合网络中,高层次语义信息在向浅层网络融合传递时因被稀释及丢失而导致精度降低的问题,文中提出基于全局多尺度特征融合的伪装目标检测网络.先设计全局增强融合模块,捕捉不同尺度下的上下文信息,再通过不同的融合增强分支,将高层次语义信息输送至浅层网络中,减少多尺度融合过程中特征的丢失.在高层网络中设计定位捕获机制,对伪装目标进行位置信息提取与细化.在浅层网络中对较高分辨率图像进行特征提取与融合,强化高分辨率特征细节信息.在3个基准数据集上的实验表明文中网络性能较优.
2022 Vol. 35 (12): 1122-1130 [摘要] ( 712 ) [HTML 1KB] [PDF 1812KB] ( 795 )
模式识别与人工智能
 

主管:中国科学技术协会
主办:中国自动化学会
   国家智能计算机研究开发中心
   中国科学院合肥智能机械研究所
出版:科学出版社
 
版权所有 © 《模式识别与人工智能》编辑部
地址:安微省合肥市蜀山湖路350号 电话:0551-65591176 传真:0551-65591176 Email:bjb@iim.ac.cn
本系统由北京玛格泰克科技发展有限公司设计开发 技术支持:support@magtech.com.cn