模式识别与人工智能
2025年3月13日 星期四   首 页     期刊简介     编委会     投稿指南     伦理声明     联系我们                                                                English
模式识别与人工智能  2021, Vol. 34 Issue (11): 1017-1027    DOI: 10.16451/j.cnki.issn1003-6059.202111005
“深度学习设计与应用”专题 最新目录| 下期目录| 过刊浏览| 高级检索 |
基于双流网络的多模态多标签漫画情感检测方法
林镇涛1, 曾碧1, 潘志豪1, 文松1
1.广东工业大学 计算机学院 广州 510006
Multi-modal and Multi-label Emotion Detection for Comics Based on Two-Stream Network
LIN Zhentao1, ZENG Bi1 , PAN Zhihao1, WEN Song1
1. School of Computers, Guangdong University of Technology, Guangzhou 510006

全文: PDF (3921 KB)   HTML (1 KB) 
输出: BibTeX | EndNote (RIS)      
摘要 近年来,社交媒体常会以漫画的形式隐喻社会现象并倾述情感,为了解决漫画场景下多模态多标签情感识别存在的标签歧义问题,文中提出基于双流结构的多模态多标签漫画情感检测方法.使用余弦相似度对比模态间信息,并结合自注意力机制,交叉融合图像特征和文本特征.该方法主干为双流结构,使用Transformer模型作为图像的主干网络提取图像特征,利用Roberta预训练模型作为文本的主干网络提取文本特征.基于余弦相似度结合多头自注意力机制(COS-MHSA)提取图像的高层特征,最后融合高层特征和COS-MHSA多模态特征.在EmoRecCom漫画数据集上的实验验证文中方法的有效性,并给出方法对于情感检测的可视化结果.
服务
把本文推荐给朋友
加入我的书架
加入引用管理器
E-mail Alert
RSS
作者相关文章
林镇涛
曾碧
潘志豪
文松
关键词 漫画情感检测余弦相似度多头自注意力机制多模态融合    
Abstract:Comic is widely applied for metaphorizing social phenomena and expressing emotion in social media. To solve the problem of label ambiguity in multi-modal and multi-label emotion detection of comic scenes, a multi-modal and multi-label emotion detection model for comics based on two-stream network is proposed. The inter-modal information is compared using cosine similarity and combined with a self-attention mechanism to merge image features and text features. Then, the backbone of the method is a two-stream structure taking the Transformer model as the image backbone network to extract image features and taking the Roberta pre-training model as the text backbone network to extract text features. The improved cosine similarity is combined with cosine self-attention mechanism and multi-head self-attention mechanism(COS-MHSA) to extract the high-level features of the image. Finally, the multi-modal features of the high-level features and COS-MHSA are fused. The effectiveness of the proposed method is verified on EmoRecCom dataset, and the emotion detection result is presented in a visual manner.
Key wordsComic Emotion Detection    Cosine Similarity    Multi-head Self-Attention Mechanism    Multi-modal Fusion   
收稿日期: 2021-07-05     
ZTFLH: TP 391  
基金资助:国家自然科学基金项目(No.61672169)、广东省自然科学基金项目(No.2021A1515012233)资助
通讯作者: 曾 碧,博士,教授,主要研究方向为机器学习、大数据应用.E-mail:zb9215@gdut.edu.cn.   
作者简介: 林镇涛,硕士研究生,主要研究方向为多模态情感分析、模式识别.E-mail:2112005050@mail2.gdut.edu.cn.
潘志豪,硕士研究生,主要研究方向为自然语言处理、情感分析.E-mail:pzh@mail2.gdut.edu.cn.
文 松,硕士研究生,主要研究方向为多模态融合、大数据.E-mail:ws@mail2.gdut.edu.cn.
引用本文:   
林镇涛, 曾碧, 潘志豪, 文松. 基于双流网络的多模态多标签漫画情感检测方法[J]. 模式识别与人工智能, 2021, 34(11): 1017-1027. LIN Zhentao, ZENG Bi , PAN Zhihao, WEN Song. Multi-modal and Multi-label Emotion Detection for Comics Based on Two-Stream Network. , 2021, 34(11): 1017-1027.
链接本文:  
http://manu46.magtech.com.cn/Jweb_prai/CN/10.16451/j.cnki.issn1003-6059.202111005      或     http://manu46.magtech.com.cn/Jweb_prai/CN/Y2021/V34/I11/1017
版权所有 © 《模式识别与人工智能》编辑部
地址:安微省合肥市蜀山湖路350号 电话:0551-65591176 传真:0551-65591176 Email:bjb@iim.ac.cn
本系统由北京玛格泰克科技发展有限公司设计开发 技术支持:support@magtech.com.cn