图文多模态情感分析旨在通过融合视觉模态和文本模态预测情感极性,获取高质量的视觉模态表征和文本模态表征并进行高效融合,这是解决图文多模态情感分析任务的关键环节之一.因此,文中提出基于视觉语言模型的跨模态多级融合情感分析方法.首先,基于预训练的视觉语言模型,通过冻结参数,采用低阶自适应方法微调语言模型的方式,生成高质量的模态表征和模态桥梁表征.然后,设计跨模态多头互注意力融合模块,分别对视觉模态表征和文本模态表征进行交互加权融合.最后,设计混合专家网络融合模块,将视觉、文本的模态表征和模态桥梁表征结合后进行深度融合,实现多模态情感分析.实验表明,文中方法在公开评测数据集MVSA-Single和HFM上达到SOTA.