模式识别与人工智能
2025年4月11日 星期五   首 页     期刊简介     编委会     投稿指南     伦理声明     联系我们                                                                English
模式识别与人工智能  2024, Vol. 37 Issue (1): 73-84    DOI: 10.16451/j.cnki.issn1003-6059.202401006
研究与应用 最新目录| 下期目录| 过刊浏览| 高级检索 |
基于多重视觉注意力的唇语识别
谢胤岑1, 薛峰2, 曹明伟3
1.合肥工业大学 计算机与信息学院 合肥 230601;
2.合肥工业大学 软件学院 合肥 230601;
3.安徽大学 计算机科学与技术学院 合肥 230601
Lipreading Based on Multiple Visual Attention
XIE Yincen1, XUE Feng2, CAO Mingwei3
1. School of Computer Science and Information Engineering, Hefei University of Technology, Hefei 230601;
2. School of Software, Hefei University of Technology, Hefei 230601;
3. School of Computer Science and Technology, Anhui University, Hefei 230601

全文: PDF (2836 KB)   HTML (1 KB) 
输出: BibTeX | EndNote (RIS)      
摘要 唇语识别是将单个说话人嘴唇运动的无声视频翻译成文字的一种技术.由于嘴唇运动幅度较小,现有唇语识别方法的特征区分能力和泛化能力都较差.针对该问题,文中分别从时间、空间和通道三个维度研究唇语视觉特征的提纯问题,提出基于多重视觉注意力的唇语识别方法(Lipreading Based on Multiple Visual Attention Network, LipMVA).首先利用通道注意力自适应校准通道级别的特征,减轻无意义通道的干扰.然后使用两种粒度不同的时空注意力,抑制不重要的像素或帧的影响.CMLR、GRID数据集上的实验表明LipMVA可降低识别错误率,由此验证方法的有效性.
服务
把本文推荐给朋友
加入我的书架
加入引用管理器
E-mail Alert
RSS
作者相关文章
谢胤岑
薛峰
曹明伟
关键词 唇语识别视觉语音识别注意力机制深度神经网络特征提取    
Abstract:Lipreading is a technology that translates the silent video of a single speaker's lip motion into text. Due to the small amplitude of lip movements, the feature differentiation ability and the generalization ability of the model are both weak. To address this issue, the purification of lipreading visual features is studied from three dimensions including time, space and channel. A method for lipreading based on multiple visual attention network(LipMVA) is proposed. Firstly, channel-level features are calibrated adaptively by channel attention to mitigate the interference from meaningless channels. Then, two spatio-temporal attention modules with different granularities are employed to suppress the effect of unimportant pixels or frames. Finally, experiments on CMLR and GRID datasets demonstrate LipMVA can reduce the error rate and therefore its effectiveness is verified.
Key wordsLipreading    Visual Speech Recognition    Attention Mechanism    Deep Neural Network    Feature Extraction   
收稿日期: 2023-09-26     
ZTFLH: TP391.41  
基金资助:国家自然科学基金项目(No.62272143)、安徽省重大科技专项项目(No.202203a05020025)、安徽高校协同创新项目(No.GXXT-2022-054)、安徽省第七届创新创业人才特殊支持计划资助
通讯作者: 薛峰,博士,教授,主要研究方向为人工智能、多媒体分析、推荐系统.E-mail:feng.xue@hfut.edu.cn.   
作者简介: 谢胤岑,硕士研究生,主要研究方向为计算机视觉.E-mail:hfut.xieyincen@foxmail.com. 曹明伟,博士,副教授,主要研究方向为三维重建、虚拟现实.E-mail:cmwqq2008@163.com.
引用本文:   
谢胤岑, 薛峰, 曹明伟. 基于多重视觉注意力的唇语识别[J]. 模式识别与人工智能, 2024, 37(1): 73-84. XIE Yincen, XUE Feng, CAO Mingwei. Lipreading Based on Multiple Visual Attention. Pattern Recognition and Artificial Intelligence, 2024, 37(1): 73-84.
链接本文:  
http://manu46.magtech.com.cn/Jweb_prai/CN/10.16451/j.cnki.issn1003-6059.202401006      或     http://manu46.magtech.com.cn/Jweb_prai/CN/Y2024/V37/I1/73
版权所有 © 《模式识别与人工智能》编辑部
地址:安微省合肥市蜀山湖路350号 电话:0551-65591176 传真:0551-65591176 Email:bjb@iim.ac.cn
本系统由北京玛格泰克科技发展有限公司设计开发 技术支持:support@magtech.com.cn