模式识别与人工智能
2025年4月3日 星期四   首 页     期刊简介     编委会     投稿指南     伦理声明     联系我们                                                                English
模式识别与人工智能  2023, Vol. 36 Issue (7): 661-670    DOI: 10.16451/j.cnki.issn1003-6059.202307007
研究与应用 最新目录| 下期目录| 过刊浏览| 高级检索 |
基于融合池化和注意力增强的细粒度视觉分类网络
肖斌1, 郭经伟1, 张兴鹏1, 汪敏2
1.西南石油大学 计算机科学学院 成都 610500;
2.西南石油大学 电气信息学院 成都 610500
Fine-Grained Visual Classification Network Based on Fusion Pooling and Attention Enhancement
XIAO Bin1, GUO Jingwei1, ZHANG Xingpeng1, WANG Min2
1. School of Computer Science, Southwest Petroleum University, Chengdu 610500;
2. School of Electrical Engineering and Information, Southwest Petroleum University, Chengdu 610500

全文: PDF (2512 KB)   HTML (1 KB) 
输出: BibTeX | EndNote (RIS)      
摘要 细粒度视觉分类核心是提取图像判别式特征.目前大多数方法引入注意力机制,使网络聚焦于目标物体的重要区域.然而,这种方法只定位到目标物体的显著特征,无法囊括全部判别式特征,容易混淆具有相似特征的不同类别.因此,文中提出基于融合池化和注意力增强的细粒度视觉分类网络,旨在获得全面判别式特征.在网络末端,设计融合池化模块,包括全局平均池化、全局top-k池化和两者融合的三分支结构,获得多尺度判别式特征.此外,提出注意力增强模块,在注意力图的引导下通过注意力网格混合模块和注意力裁剪模块,获得2幅更具判别性的图像参与网络训练.在细粒度图像数据集CUB-200-2011、Stanford Cars、FGVC-Aircraft上的实验表明文中网络准确率较高,具有较强的竞争力.
服务
把本文推荐给朋友
加入我的书架
加入引用管理器
E-mail Alert
RSS
作者相关文章
肖斌
郭经伟
张兴鹏
汪敏
关键词 细粒度视觉分类融合池化注意力机制数据增强    
Abstract:The core of fine-grained visual classification is to extract image discriminative features.In most of the existing methods, attention mechanisms are introduced to focus the network on important regions of the object.However, this kind of approaches can only locate the salient feature and cannot cover all discriminative features. Consequently, different categories with similar features are easily confusing. Therefore, a fine-grained visual classification network based on fusion pooling and attention enhancement is proposed to obtain comprehensive discriminative features. At the end of the network, a fusion pooling module is designed with a three-branch structure to obtain multi-scale discriminative features. The three-branch structure includes global average pooling, global top-k pooling and the fusion of the previous two. In addition, an attention enhancement module is proposed to gain two more discriminative images through attention grid mixing module and attention cropping module under the guidance of attention maps. Experiments on fine-grained image datasets, CUB-200-2011, Stanford Cars and FGVC-Aircraft, verify the high accuracy rate and strong competitiveness of the proposed network.
Key wordsFine-Grained Visual Classification    Fusion Pooling    Attention Mechanism    Data Augmentation   
收稿日期: 2023-05-23     
ZTFLH: TP391  
基金资助:四川省科技创新人才基金项目(No.2022JDRC0009)、西南石油大学自然科学“启航计划”项目(No.2022QHZ023)资助
通讯作者: 张兴鹏,博士,讲师,主要研究方向为图像识别、目标检测、医学图像分割等.E-mail:xpzhang@swpu.edu.cn.   
作者简介: 肖 斌,硕士,教授,主要研究方向为模式识别.E-mail:xiaobin@swpu.edu.cn. 郭经伟,硕士研究生,主要研究方向为细粒度视觉分类.E-mail:guojingwei459@163.com. 汪 敏,硕士,教授,主要研究方向为人工智能、信号分析与处理.E-mail:wangmin80616@163.com.
引用本文:   
肖斌, 郭经伟, 张兴鹏, 汪敏. 基于融合池化和注意力增强的细粒度视觉分类网络[J]. 模式识别与人工智能, 2023, 36(7): 661-670. XIAO Bin, GUO Jingwei, ZHANG Xingpeng, WANG Min. Fine-Grained Visual Classification Network Based on Fusion Pooling and Attention Enhancement. Pattern Recognition and Artificial Intelligence, 2023, 36(7): 661-670.
链接本文:  
http://manu46.magtech.com.cn/Jweb_prai/CN/10.16451/j.cnki.issn1003-6059.202307007      或     http://manu46.magtech.com.cn/Jweb_prai/CN/Y2023/V36/I7/661
版权所有 © 《模式识别与人工智能》编辑部
地址:安微省合肥市蜀山湖路350号 电话:0551-65591176 传真:0551-65591176 Email:bjb@iim.ac.cn
本系统由北京玛格泰克科技发展有限公司设计开发 技术支持:support@magtech.com.cn