模式识别与人工智能
2025年4月11日 星期五   首 页     期刊简介     编委会     投稿指南     伦理声明     联系我们                                                                English
模式识别与人工智能  2022, Vol. 35 Issue (12): 1078-1088    DOI: 10.16451/j.cnki.issn1003-6059.202212003
“基于深度学习的图像理解及应用”专题 最新目录| 下期目录| 过刊浏览| 高级检索 |
基于重构对比的广义零样本图像分类
许睿1, 邵帅2, 曹维佳3, 刘宝弟1, 陶大鹏4, 刘伟锋1
1.中国石油大学(华东) 控制科学与工程学院 青岛 266580;
2.之江实验室 基础理论研究院 杭州 311121;
3.中国科学院空天信息创新研究院 遥感卫星应用国家工程研究中心 北京 100094;
4.云南大学 信息学院 昆明 650500
Generalized Zero-Shot Image Classification Based on Reconstruction Contrast
XU Rui1, SHAO Shuai2, CAO Weijia3, LIU Baodi1, TAO Dapeng4, LIU Weifeng1
1. College of Control Science and Engineering, China University of Petroleum(East China), Qingdao 266580;
2. Research Institute of Basic Theories, Zhejiang Laboratory, Hangzhou 311121;
3. National Engineering Research Center of Remote Sensing Satellite Applications, Aerospace Information Research Institute, Chinese Academy of Sciences, Beijing 100094;
4. School of Information Science and Engineering, Yunnan University, Yunnan 650500

全文: PDF (1449 KB)   HTML (1 KB) 
输出: BibTeX | EndNote (RIS)      
摘要 广义零样本图像分类中常使用生成模型重构视觉信息或语义信息用于再进一步学习.然而,基于变分自编码器的方法对重构样本利用不够充分,表示性能欠缺.因此,文中提出基于重构对比的广义零样本图像分类模型.首先,使用两个变分自编码器将视觉信息和语义信息编码为同维度的低维隐向量,再将隐向量分别解码到两种模态.然后,使用投影模块投影视觉信息与语义模态的隐向量重构的视觉模态信息.最后,对投影后的特征进行重构对比学习.在保持变分自编码器重构性能的基础上增强编码器重构的判别性能,提高预训练特征在广义零样本图像分类任务上的应用能力.在4个标准数据集上的实验证实文中模型的有效性.
服务
把本文推荐给朋友
加入我的书架
加入引用管理器
E-mail Alert
RSS
作者相关文章
许睿
邵帅
曹维佳
刘宝弟
陶大鹏
刘伟锋
关键词 广义零样本图像分类变分自编码器对比学习语义信息视觉信息    
Abstract:In generalized zero-shot image classification, generative models are often exploited to reconstruct visual or semantic information for further learning. However, the representation performance of the methods based on variational autoencoders is poor due to the underutilization of the reconstructed samples. Therefore, a generalized zero-shot image classification model based on reconstruction and contrastive learning is proposed. Firstly, two variational self-encoders are utilized to encode visual information and semantic information into low dimensional latent vectors of the same dimension, and then the latent vectors are decoded into two modes respectively. Next, the project modules are utilized to project both the original visual information and the visual information reconstructed from semantic modal latent vectors. Then, reconstruction contrastive learning is performed to learn the features after projection. The reconstruction performance of the encoder is maintained, the discriminative performance of the encoder is enhanced, and the application ability of pre-training features on the generalized zero-shot task is improved by the proposed method. The effectiveness of the proposed model is verified on four benchmark datasets.
Key wordsGeneralized Zero-Shot Image Classification    Variational Autoencoders    Contrastive Lear-ning    Semantic Information    Visual Information   
收稿日期: 2022-05-20     
ZTFLH: TP391  
  TP18  
基金资助:国家自然科学基金项目(No.61671480)、中国石油天然气集团公司重大科技项目(No.ZD2019-183-008)、模式识别国家实验室开放项目(No.202000009)、中国石油大学项目(华东)研究生创新基金项目(No.YCX2021123)资助
通讯作者: 刘伟锋,博士,教授,主要研究方向为模式识别、机器学习.E-mail:liuwf@upc.edu.cn.   
作者简介: 许 睿,博士研究生,主要研究方向为小样本学习、零样本学习.E-mail:ruixu@s.upc.edu.cn.邵 帅,博士,主要研究方向为字典学习、小样本学习.E-mail:shaoshuai0914@gmail.com.曹维佳,博士,助理研究员,主要研究方向为图像加密、图像压缩、图像分类.E-mail:caowj@aircas.ac.cn.刘宝弟,博士,副教授,主要研究方向为计算机视觉、机器学习.E-mail:thu.liubaodi@gmail.com.陶大鹏,博士,教授,主要研究方向为机器学习、计算机视觉、云计算.E-mail:dapeng.tao@gmail.com.
引用本文:   
许睿, 邵帅, 曹维佳, 刘宝弟, 陶大鹏, 刘伟锋. 基于重构对比的广义零样本图像分类[J]. 模式识别与人工智能, 2022, 35(12): 1078-1088. XU Rui, SHAO Shuai, CAO Weijia, LIU Baodi, TAO Dapeng, LIU Weifeng. Generalized Zero-Shot Image Classification Based on Reconstruction Contrast. Pattern Recognition and Artificial Intelligence, 2022, 35(12): 1078-1088.
链接本文:  
http://manu46.magtech.com.cn/Jweb_prai/CN/10.16451/j.cnki.issn1003-6059.202212003      或     http://manu46.magtech.com.cn/Jweb_prai/CN/Y2022/V35/I12/1078
版权所有 © 《模式识别与人工智能》编辑部
地址:安微省合肥市蜀山湖路350号 电话:0551-65591176 传真:0551-65591176 Email:bjb@iim.ac.cn
本系统由北京玛格泰克科技发展有限公司设计开发 技术支持:support@magtech.com.cn