模式识别与人工智能
2025年4月2日 星期三   首 页     期刊简介     编委会     投稿指南     伦理声明     联系我们                                                                English
模式识别与人工智能  2024, Vol. 37 Issue (5): 459-468    DOI: 10.16451/j.cnki.issn1003-6059.202405007
研究与应用 最新目录| 下期目录| 过刊浏览| 高级检索 |
基于视觉语言模型的跨模态多级融合情感分析方法
谢润锋1, 张博超1, 杜永萍1
1.北京工业大学 信息学部 北京 100124
Cross-Modal Multi-level Fusion Sentiment Analysis Method Based on Visual Language Model
XIE Runfeng1, ZHANG Bochao1, DU Yongping1
1. Faculty of Information Technology, Beijing University of Technology, Beijing 100124

全文: PDF (1078 KB)   HTML (1 KB) 
输出: BibTeX | EndNote (RIS)      
摘要 

图文多模态情感分析旨在通过融合视觉模态和文本模态预测情感极性,获取高质量的视觉模态表征和文本模态表征并进行高效融合,这是解决图文多模态情感分析任务的关键环节之一.因此,文中提出基于视觉语言模型的跨模态多级融合情感分析方法.首先,基于预训练的视觉语言模型,通过冻结参数,采用低阶自适应方法微调语言模型的方式,生成高质量的模态表征和模态桥梁表征.然后,设计跨模态多头互注意力融合模块,分别对视觉模态表征和文本模态表征进行交互加权融合.最后,设计混合专家网络融合模块,将视觉、文本的模态表征和模态桥梁表征结合后进行深度融合,实现多模态情感分析.实验表明,文中方法在公开评测数据集MVSA-Single和HFM上达到SOTA.

服务
把本文推荐给朋友
加入我的书架
加入引用管理器
E-mail Alert
RSS
作者相关文章
谢润锋
张博超
杜永萍
关键词 视觉语言模型多模态融合多头注意力混合专家网络情感分析    
Abstract

Image-text multimodal sentiment analysis aims to predict sentimental polarity by integrating visual modalities and text modalities. The key to solving the multimodal sentiment analysis task is obtaining high-quality multimodal representations of both visual and textual modalities and achieving efficient fusion of these representations. Therefore, a cross-modal multi-level fusion sentiment analysis method based on visual language model(MFVL) is proposed. Firstly, based on the pre-trained visual language model, high-quality multimodal representations and modality bridge representations are generated by freezing the parameters and a low-rank adaptation method being adopted for fine-tuning the large language model. Secondly, a cross-modal multi-head co-attention fusion module is designed to perform interactive weighted fusion of the visual and textual modality representations respectively. Finally, a mixture of experts module is designed to deeply fuse the visual, textual and modality bridging representations to achieve multimodal sentiment analysis. Experimental results indicate that MFVL achieves state-of-the-art performance on the public evaluation datasets MVSA-Single and HFM.

Key wordsVisual Language Model    Multimodal Fusion    Multi-head Attention    Mixture of Experts Network    Sentiment Analysis   
收稿日期: 2024-02-15     
ZTFLH: TP391.1  
基金资助:

国家重点研发计划项目(No.2023YFB3308004)、国家自然科学基金项目(No.92267107)资助

通讯作者: 杜永萍,博士,教授,主要研究方向为信息检索、信息抽取、自然语言处理.E-mail:ypdu@bjut.edu.cn.   
作者简介: 谢润锋,硕士研究生,主要研究方向为自然语言处理、多模态情感分析.E-mail:XRandomForest@emails.bjut.edu.cn.张博超,硕士研究生,主要研究方向为自然语言处理.E-mail:zhangbochao555@126.com.
引用本文:   
谢润锋, 张博超, 杜永萍. 基于视觉语言模型的跨模态多级融合情感分析方法[J]. 模式识别与人工智能, 2024, 37(5): 459-468. XIE Runfeng, ZHANG Bochao, DU Yongping. Cross-Modal Multi-level Fusion Sentiment Analysis Method Based on Visual Language Model. Pattern Recognition and Artificial Intelligence, 2024, 37(5): 459-468.
链接本文:  
http://manu46.magtech.com.cn/Jweb_prai/CN/10.16451/j.cnki.issn1003-6059.202405007      或     http://manu46.magtech.com.cn/Jweb_prai/CN/Y2024/V37/I5/459
版权所有 © 《模式识别与人工智能》编辑部
地址:安微省合肥市蜀山湖路350号 电话:0551-65591176 传真:0551-65591176 Email:bjb@iim.ac.cn
本系统由北京玛格泰克科技发展有限公司设计开发 技术支持:support@magtech.com.cn