基于多重视觉注意力的唇语识别
谢胤岑1, 薛峰2, 曹明伟3
1.合肥工业大学 计算机与信息学院 合肥 230601
2.合肥工业大学 软件学院 合肥 230601
3.安徽大学 计算机科学与技术学院 合肥 230601
通讯作者:

薛峰,博士,教授,主要研究方向为人工智能、多媒体分析、推荐系统.E-mail:feng.xue@hfut.edu.cn.

作者简介:

谢胤岑,硕士研究生,主要研究方向为计算机视觉.E-mail:hfut.xieyincen@foxmail.com.

曹明伟,博士,副教授,主要研究方向为三维重建、虚拟现实.E-mail:cmwqq2008@163.com.

摘要

唇语识别是将单个说话人嘴唇运动的无声视频翻译成文字的一种技术.由于嘴唇运动幅度较小,现有唇语识别方法的特征区分能力和泛化能力都较差.针对该问题,文中分别从时间、空间和通道三个维度研究唇语视觉特征的提纯问题,提出基于多重视觉注意力的唇语识别方法(Lipreading Based on Multiple Visual Attention Network, LipMVA).首先利用通道注意力自适应校准通道级别的特征,减轻无意义通道的干扰.然后使用两种粒度不同的时空注意力,抑制不重要的像素或帧的影响.CMLR、GRID数据集上的实验表明LipMVA可降低识别错误率,由此验证方法的有效性.

关键词: 唇语识别; 视觉语音识别; 注意力机制; 深度神经网络; 特征提取
中图分类号:TP391.41
Lipreading Based on Multiple Visual Attention
XIE Yincen1, XUE Feng2, CAO Mingwei3
1. School of Computer Science and Information Engineering, Hefei University of Technology, Hefei 230601
2. School of Software, Hefei University of Technology, Hefei 230601
3. School of Computer Science and Technology, Anhui University, Hefei 230601
Corresponding author:
XUE Feng, Ph.D., professor. His research interests include artificial intelligence, multimedia analysis and recommendation system.
About Author:
XIE Yincen, Master student. His research interests include computer vision.
CAO Mingwei, Ph.D., associate profe-ssor. His research interests include 3D reconstruction and virtual reality.

Abstract

Lipreading is a technology that translates the silent video of a single speaker's lip motion into text. Due to the small amplitude of lip movements, the feature differentiation ability and the generalization ability of the model are both weak. To address this issue, the purification of lipreading visual features is studied from three dimensions including time, space and channel. A method for lipreading based on multiple visual attention network(LipMVA) is proposed. Firstly, channel-level features are calibrated adaptively by channel attention to mitigate the interference from meaningless channels. Then, two spatio-temporal attention modules with different granularities are employed to suppress the effect of unimportant pixels or frames. Finally, experiments on CMLR and GRID datasets demonstrate LipMVA can reduce the error rate and therefore its effectiveness is verified.

Key words: Lipreading; Visual Speech Recognition; Attention Mechanism; Deep Neural Network; Feature Extraction

唇语识别是从视频里说话人轻微的嘴唇运动中解码出所说的内容(文本)的一种技术, 在公共安全等领域具有广泛的应用价值.

现有的唇语识别方法可分为两类:单词级别唇语识别方法和句子级别唇语识别方法.单词级别唇语识别方法的目标是识别视频在词库中对应的单词类别, 相当于视频分类任务.句子级别唇语识别方法的目标是将视频翻译成一句完整的话.本文研究内容属于句子级别的唇语识别, 并且基于深度学习方法实现.

现有的基于深度学习的唇语识别方法一般由两部分组成:视觉编码前端和文本解码后端.视觉编码前端用于提取唇语的视觉特征, 主流的方法是采用卷积神经网络(Convolutional Neural Network, CNN)进行特征提取.一些研究[1, 2, 3, 4]使用2D CNN, 如VGG(Visual Geometry Group)[5]或ResNet-18(Residual Net-work)[6], 从视频中提取空间维度的特征.也有研究[7, 8, 9]使用3D CNN对视频的整体进行运动建模[10].此外, 还有少数工作[11, 12]采用2D CNN和3D CNN结合的策略.

对于文本解码后端, 以句子级别唇读识别方法为例, 一些研究[1, 2, 4]采用基于循环神经网络(Recu-rrent Neural Network, RNN)的序列到序列模型(Se-quence to Sequence, Seq2Seq)[13]实现视频特征序列到文本序列的转换, 也有研究[11, 14]采用基于多头注意力的Transformer[15]架构对文本进行解码, 并行处理训练数据.

根据输入数据的类别, 唇语识别还可划分为视觉语音识别(Visual Speech Recognition, VSR)和视听语音识别(Audio-Visual Speech Recognition, AV-SR).VSR的输入数据是视频数据, AVSR的输入数据既包含视频数据又包含音频信息.

Assael等[7]提出Bidirectional LipNet, 结合3D CNN、Bi-GRU(Bidirectional Gated Recurrent Unit)和CTC(Connectionist Temporal Classification Loss)[16], 结构简单, 在GRID数据集[17]上准确率较高, 但在CMLR数据集[2]上无法收敛.Zhang等[3]提出LipCH-Net, 基于CTC实现从视频到拼音的转换, 基于RNN transducer[18]实现从拼音到汉字的转换, 两个阶段在训练时可同时优化.Zhao等[2]提出CSSMCM(Cascade Sequence-to-Sequence Model for Chinese Mandarin), 预测拼音和音调的中间状态, 大幅增加中文预测的准确率.由于LipCH-Net和CSSMCM均使用中文的语言特性, 仅适用于中文数据集, 无法泛化到其它语言的数据集.

Xu等[8]提出LCANet(Cascade Attention-CTC Deep Learning Model), 在LipNet前端引入高速公路网络[19], 增强模型的特征选择能力.Xue等[9]提出LCSNet(End-to-End Deep Neural Network-Based Liprea-ding Model), 在LipNet上加入选择性内核网络[20], 弥补高速公路网络的不足.Chen等[21]设计DualLip, 实现唇部运动视频和对应文本的相互生成.

Chung等[1]基于音频和视频模态构建WLAS(Watch, Listen, Attend and Spell), 但未考虑视频和音频对齐的问题.Afouras等[11]基于交叉熵损失函数和CTC损失函数, 设计基于Transformer的深度AVSR, 并证实唇语识别在嘈杂环境下能对语音识别起到辅助作用.Petridis等[12]采用混合CTC/注意力模型, 融合音频和视频两种模态, 并对比2种不同的模态融合策略(早期融合与晚期融合)对性能的影响.Zhao等[4]提出LIBS(Lip by Speech), 使用在大规模音频语料库上预训练的语音识别模型指导唇语识别的训练.Huang等[22]提出CALLip, 通过对比学习[23]解决出现近音词时唇形相近的问题.Ma等[14]基于Conformer模块, 提出基于视频和音频双模态训练的AVSR, 在CMLR数据集上性能较优.

现有的唇语识别方法尽管在一些开源数据集上取得不错的效果, 但仍存在如下问题:视觉编码前端捕获的低级特征往往混杂一些与唇读任务无关的信息, 降低唇语识别的精度.这些与任务无关的信息存在于视觉特征的不同维度中.

1)在空间维度上, 单帧图像内并非在所有区域都能提供有用的视觉特征.对于唇语识别任务而言, 唇部区域的像素更值得关注.即使在处理视频数据时, 针对每帧的唇部区域进行裁剪, 图像中依然存在一些与唇部无关的像素, 这些非唇部信息会影响唇语识别中解码器的性能.

2)在时间维度上, 一个视频数据中并非所有的视频帧都能提供较关键的信息.例如:在一些视频的开始或结束位置, 说话人并没有发言, 唇部没有发生运动, 因此对唇语的运动建模作用并不明显.

3)在通道维度上, 并非所有的通道都能提供有价值的信息.一般来说, 随着训练模型过程中参数的更新, 视觉特征的多数通道都能捕获唇部区域的关键细节, 但也会有少数通道提取的轮廓信息较模糊, 影响唇语识别的准确性.

为了解决上述问题, 本文提出基于多重视觉注意力的唇语识别方法(Lipreading Based on Multiple Visual Attention, LipMVA).首先, 受文献[24]、文献[25]中相关工作的启发, 设计通道注意力(Channel Attention, CA)模块, 为每个通道分配权重, 自适应校准通道级特征.然后, 设计联合时空注意力(Joint Spatial-Temporal Attention, JSTA)模块, 用于抑制视频中一些不重要的像素和视频帧[26, 27].此外, 还设计分散时空注意力(Separate Spatial-Temporal Atten-tion, SSTA)模块, 与JSTA模块作用类似, 但是实现的粒度不同.两者最主要的区别在于:JSTA模块同时利用时空的3个维度THW直接计算时空注意力的整体权重, 而SSTA模块将时空维度进行拆分, 分别计算时间权重和空间权重.因此, 在一定程度上, SSTA模块能比JSTA模块实现更细的优化粒度.通过两种作用相同但粒度不同的组件, LipMVA可在时空维度上先通过联合注意力对视觉特征进行粗粒度的提纯, 再通过分散注意力进行细粒度的精炼, 从而实现由浅入深的优化效果.此外, 这3种注意力模块仅需要少量的卷积操作即可实现, 具有较高的计算效率.在CMLR[2]、GRID[17]数据集上的实验验证LipMVA的有效性.

1 基于多重视觉注意力的唇语识别

本文提出基于多重视觉注意力的唇语识别方法(LipMVA), 整体架构如图1所示.

图1 LipMVA的整体架构图Fig.1 Architecture of LipMVA

LipMVA由3个模块组成.第1个模块是一个三层的3D CNN, 用于提取原始的视觉特征, 该部分的设计与LipNet[7]的视觉主干网络保持一致, 每层CNN的后面都有一个最大池化层和批量归一化层.

第2个模块是本文设计的多重注意力模块, 依次为CA模块、JSTA模块、SSTA模块, 主要用于抑制模型中的特征冗余信息, 并对关键信息进行增强.

CA模块是将文献[25]中的通道注意力扩展到三维, 并采用3D CNN取代全连接层进行通道的压缩和恢复操作.该模块主要能对原始的唇语视觉特征进行通道筛选, 对特征轮廓模糊的通道进行抑制, 对特征清晰的通道进行增强.

JSTA模块是在CA模块的基础上再次进行改造, 通过一层3D CNN对视觉特征的时空维度分配一个整体的权重, 从而实现对时空维度特征的粗粒度优化.

SSTA模块可进一步弥补JSTA模块的不足, 能先将视觉特征转换为时间维度特征和空间维度特征, 再分别使用1D CNN和2D CNN分配时间权重和空间权重, 即对关键的帧或像素进行增强, 并对不重要的帧和像素进行削弱, 从而实现对时空维度特征的细粒度优化.

第3个模块是结合编码器-解码器注意力[28]的Seq2Seq网络, 作为模型的后端, 负责将过滤后的视觉特征转译为目标语言的句子序列.

下面分别介绍3种视觉注意力模块和Seq2Seq后端解码的详细信息.此外, 为了便于阐述LipMVA, 记

B× C× T× H× W表示输入到模型的原始视频维度以及输入到所有注意力模块的特征维度, 其中, B表示网络训练时批处理大小, T表示视频帧长度, C表示通道数, H表示帧高度, W表示帧宽度.

1.1 通道注意力模块

通道注意力(CA)模块能为特征图的所有通道自适应分配权重.例如:对唇部轮廓清晰的通道分配较高的关注度, 以增强其特征的表达; 对少数轮廓模糊的通道分配较低的权重, 以削弱这些通道的影响.为了实现这一点, 需要对时空维度T、H、W进行压缩.如图1的CA模块所示, 给定原始视觉特征 XRB×C×T×H×W作为输入, 首先通过3D最大池化和平均池化处理, 将X的全局时空信息分别压缩到两个通道描述符 FmaxFavg中:

Fmax=max1iT1jH1kWX[, , i, j, k]RB×C×1×1×1, Favg=1THWi=1Tj=1Hk=1WX[, , i, j, k]RB×C×1×1×1.

然后, 使用两层卷积核大小均为1× 1× 1的3D CNN分别对两个通道描述符在通道维度上进行压缩和恢复.在这一过程中, FmaxFavg的通道数先被第1层卷积压缩到C/r(r表示通道的缩放比例, 此处设置为16), 再由第2层恢复到C, 从而实现通道层面的自适应校准.随后, 对两个描述符进行加法运算, 并通过Sigmoid函数激活, 得到通道注意力的权 ACRB×C×1×1×1.最终将权重A_C 与X相乘, 实现通道级别的特征过滤.CA模块的输出结果为:

YCA=ACX.

1.2 联合时空注意力模块

联合时空注意力(JSTA)模块通过自适应调整特征图在时空维度T、H、W下的整体权重, 既可增强对唇部像素以及说话帧的权重分配, 又可抑制非唇部像素和未说话帧的影响.为了实现这一目标, 需要对通道维度C进行压缩.如图1的 JSTA模块所示, 对于输入的视觉特征 XRB×C×T×H×W, 首先使用基于通道维度的最大池化和平均池化方法, 将视觉特征X的全局通道信息分别压缩到2个时空描述符 FmaxFavg中:

Fmax=max1iCX[, i, , , ]RB×1×T×H×W, Favg=1Ci=1CX[, i, , , ]RB×1×T×H×W.

然后, 将2个时空描述符F_max 和F_avg 沿着通道维度拼接, 使通道数变为2.再通过一层卷积核大小为1× 1× 1的3D CN N, 将通道数压缩为1.随后经过Sigmoid函数的激活, 得到视觉特征在时空维度上的联合注意力权重 AJRB×1×T×H×W.最终将该权重A_J 与X相乘, 实现对时空级别特征的初步过滤:

YJSTA=AJX.

1.3 分散时空注意力模块

分散时空注意力(SSTA)模块作为对JSTA模块的补充, 可进一步增强模型对时空噪声的过滤能力.SSTA模块能对视频特征先进行维度变换, 再分别从时间维度和空间维度进行相应的权重分配, 具有多分支的可控粒度.

如图1所示, SSTA模块主要包括上下两个分支, 上方的分支专注于计算空间注意力的权重, 而下方的分支用于分配时间注意力的权重.两个分支均由N个子分支组成, 其中, 上分支包含N个卷积核大小为3× 3的2D CNN, 下分支包含N个卷积核大小为3的1D CNN.超参数N表示时间分支和空间分支中分别实施注意力操作的次数.图1给出N=3的情况, 可通过控制N的大小调节SSTA模块的粒度, 达到最优效果.

SSTA模块具体的计算流程如下.给定输入的视觉特征 XRB×C×T×H×W, 首先将其分别转置为空间级别的特征XS 以及时间级别的特征 XT:

XXSRB×C×T×H×WRBT×C×H×W, XXTRB×C×T×H×WRB×CHW×T.

再将XS 传递给空间注意力分支, 将XT 传递给时间注意力分支.分别经过卷积操作和Sigmoid函数激活后, 在上分支获得空间注意力的权重 ASiRBT×1×H×W, i=1, 2, , N.在下分支获得时间注意力的权重 ATiRB×1×T, i=1, 2, , N.然后分别计算空间维度和时间维度的加权特征:

YSi=ASiXS, YTi=ATiXT.

最后, 将所有 YSiYTi的向量维度统一转置为B× T× CHW, 得到 ZSiZTi:

YSiZSiRBT×C×H×WRB×T×CHW, YTiZTiRB×CHW×TRB×T×CHW.

并将每个ZSi都和一个与之匹配的ZTi相加, 得到N个完整的时空上下文向量, 再分别进行L2范数归一化处理后求和, 获得最终的输出:

YSSTA=i=1N(ZSi+ZTiZSi+ZTi2),

从而实现相对于JSTA模块更深度的时空特征过滤.

1.4 编码器-解码器注意力

如图1所示, LipMVA的后端采用基于编码器-解码器注意力的Seq2Seq架构.设输入视频的帧长为T, 预测序列的长度为L:图中的 [x1, x2, , xT]作为视频解码器的输入, 表示视频的每帧对应的视觉特征; y1, y2, , yL作为文本解码器的输出, 表示预测的文本序列.

视频编码器GRe 为一个双层的双向GRU, 用于建立嘴唇运动的长期时序关系.在第i个时间步下, 编码器的隐藏层向量为:

hie=GRUe(hi-1e, xi).

文本解码器 GRUd为一个双层的单向GRU, 用于在每次循环时预测一个中文字符或英文单词.在第i个时间步下, 解码器的隐藏层向量为:

hid=GRUd(hi-1d, Emb(yi-1)),

其中, Emb为词嵌入矩阵, 可将文本字符映射到向量空间.

在预测阶段的第i个时间步下, 解码器首先会根据所有的编码器状态 [h1e, h2e, , hTe]和当前的解码器状态 hid计算编码器状态的注意力权重, 再将该权重与所有的编码器状态相乘, 得到当前的编码器上下文向量:

ctxi=Attn(hid, [h1e, h2e, , hTe])·[h1e, h2e, , hTe],

其中 Attn(·)表示编码器-解码器注意力. 最终, 将上下文向量和当前解码器的隐藏层向量拼接, 经过线性变换后, 得到当前预测的字符概率:

P(yi|y< i, x)=softmax(FC(ctxi, hid)).

至此, 整个模型的损失函数定义如下:

Loss=-i=1LlnP(yi|x, y1, y2, ., yi-1).

2 实验及结果分析
2.1 实验数据集与评价指标

本文在CMLR[2]、GRID[17] 数据集上进行实验. CMLR(https://www.vipazoo.cn/CMLR.html)是目前最大的开源中文句子级别唇语识别数据集, 采自央视新闻联播节目, 包含102 072条视频, 涉及11位说话人、3 517个汉字, 每个视频最长223帧, 每个句子最长29个汉字, 不包含任何英文字母、数字和标点符号. GRID(https://spandh.dcs.shef.ac.uk/gridcorpus/)是一个被广泛使用的英语句子级别唇读语料库, 共包含32 823条视频, 涉及34位说话人.每个视频长度均为75帧, 每个句子长度均为6个单词, 每个单词都是一些特定的词汇.由于句子长度固定且词典规模较小, 大多数唇语识别方法在GRID数据集上可获得比在CMLR数据集上更好的性能.

错误率是句子级别唇语识别常用的评价指标, 值越小表明性能越优.CMLR数据集采用字符错误率(Character Error Rate, CER), GRID数据集采用单词错误率(Word Error Rate, WER), 两者计算方法相同:

Error=S+D+IN,

其中, N表示标签语句的长度, S+D+I表示预测语句到标签语句的字符串编辑距离, 即预测语句变换为标签语句所需的最少操作次数, S表示替换操作次数, D表示删除操作次数, I表示删除操作次数.

2.2 实验细节设置

对于视频的每帧, 首先, 使用Dlib人脸检测器检测面部的68个特征点.然后, 参照唇部轮廓的20个特征点的位置, 从唇部及其周边区域裁剪80× 160的子图像.最后, 使用仿射变换将每帧子图像的分辨率调整为64× 128, 作为输入数据.

LipMVA各层参数详见表1.在CMLR数据集上, 训练轮次设置为60, 批处理大小设置为8, 初始学习率为0.000 2, SSTA模块中参数N设置为3.在GRID数据集上, 训练轮次设置为30, 批处理大小设置为16, 初始学习率为0.000 3, SSTA模块中的参数N设置为4.

表1 LipMVA各层的参数设置 Table 1 Parameter settings of different LipMVA layers

训练过程在单张NVIDIA RTX 3070上完成, 并使用Adam[29]优化器进行优化.每当错误率在连续2个轮次内没有下降时, 将学习率减少一半.在训练过程中, 使用计划采样(Scheduled Sampling)[30], 减少解码器在训练和预测中的差异, 采样率设置为0.5.在预测时, 采用束搜索(Beam Search)[13]进行解码, 扩大搜索范围, 避免贪婪搜索(Greedy Search)带来的局限性.

2.3 对比实验

为了评价LipMVA性能, 选择如下一些经典方法进行对比.

1)WLAS[1].基于编码器-解码器注意力的Seq-2Seq方法.在WLAS的基础上去除音频分支, 只保留视频模态.

2)CSSMCM[2].基于编码器-解码器注意力的三重Seq2Seq方法, 实现视频到拼音再到声调最后到汉字的流程.

3)LipCH-Net[3].端到端的中文句子级唇语方法, 训练流程包括视频到拼音、拼音到汉字两个阶段.

4)LIBS[4].基于视频和音频的知识蒸馏方法, 使用预训练的语音识别方法作为教师模型, 指导唇语识别方法的训练.

5)LipNet[7].端到端的句子级别唇语识别方法, 基于3D CNN和CTC实现, 结构简单.

6)LCANet[8].基于高速公路网络和CTC实现的句子级别唇语方法.

7)LCSNet[9].基于编码器-解码器注意力的Seq2Seq方法, 使用选择性内核网络, 增强模型的特征选择能力.

8)DualLip[21].基于生成对抗网络的双向系统, 实现唇语视频和文本的相互生成.

9)CALLip[22].基于视频和音频之间的对比学习, 解决说话人在说近音词时唇形相近的问题.

10)LipFormer[31].基于编码器-解码器注意力的Seq2Seq方法, 使用视频和特征点两个模态作为输入, 通过交叉注意力实现跨模态对齐与融合.

各方法在CMLR、GRID数据集上的指标值如表2所示, 表中“ -” 表示该方法在原文献中没有实验结果.由表可知, LipMVA在CMLR测试集上的CER达到21.49%, 相比单模态模型CSSMCM, 降低10.99%, 相比双模态模型LipFormer, 降低6.3%.LipMVA在GRID测试集上的WER达到1.09%, 为目前最优结果, 相比单模态模型WAS, 降低1.91%, 相比双模态模型CALLip, 降低1.39%.其主要原因在于, LipMVA的多重视觉注意力模块能分别在通道、时间、空间维度上增强关键信息的表达, 抑制冗余信息的干扰, 显著降低错误率.

表2 各方法在2个数据集上的指标值对比 Table 2 Index value comparison of different methods on 2 datasets %
2.4 排列实验

为了探究注意力模块的排列方式对方法性能的影响, 设计若干组变体实验, 如图2所示.

图2 排列实验的模型变体Fig.2 Model variants of permutation experiment

排列实验只针对3种注意力模块的摆放进行调整, 参数及除3种模块的其余部分均保持一致.其中, 变体d的CA模块和JSTA模块需要分别再做一次线性变换才能和SSTA模块的结果相加.

排列实验结果如表3所示.由表可知, 变体a和变体b的效果优于变体c和变体d, 说明3种注意力模块在串行排列时的性能要优于并行排列时的性能.变体a的性能略优于变体b, 说明通道注意力放在前面的效果更优.因此, 本文后续的所有实验都是基于变体a开展的.

表3 在2个数据集上的排列实验结果 Table 3 Permutation experiment on 2 datasets %
2.5 消融实验

为了进一步验证多重视觉注意力模块的有效性, 在CMLR、GRID数据集上设计一系列消融变体实验, 用于评估每个子模块的性能.消融结果如表4所示, 表中以完全移除多重注意力模块的变体作为基线模型(Baseline), 且各变体均没有使用Beam Search[13]策略.

表4 在2个数据集上的消融实验结果 Table 4 Results of ablation experiment on 2 datasets %

首先, 通过Baseline+CA、Baseline+JSTA、Baseline+SSTA与Baseline的对比可知, 3种注意力模块都可降低错误率, SSTA模块的贡献程度最大, 而CA模块与JSTA模块的贡献程度相近.然后, 通过Baseline+JSTA和Baseline+SSTA与Baseline的对比(或Baseline+CA+JSTA、Baseline+CA+SSTA与Base-line+CA的对比)可知, SSTA模块对性能的提升要比JSTA模块更明显, 因为SSTA模块能在时空维度中实现比JSTA模块更精细的优化粒度.

此外, 由LipMVA(w/o Beam Search)可知, 当3种注意力模块同时使用时, 性能提升更加显著, 这表明3种模块可在唇语识别性能上实现互补, 即通过对视频特征的多维度联合优化, 获得更具有鲁棒性的唇部运动特征.同时, 由LipMVA可知, Beam Search也能进一步提升方法的性能.

最后, 绘制Baseline、Baseline+CA、Baseline+JSTA、Baseline+SSTA和LipMVA(w/o Beam Search)在2个数据集上训练时的错误率下降曲线, 具体如图3所示.

图3 各模块在2个数据集上的错误率下降曲线Fig.3 Decline curves of error rate of different modules on 2 datasets

由图3可知, 3种注意力模块均能加快模型的收敛, 当3种模块同时使用时, 收敛速度也进一步加快.

2.6 超参数实验

2.6.1 注意力次数N

调节SSTA模块中注意力次数N的值, 可改变分散时空注意力的优化粒度.为了进一步探究N的大小对LipMVA整体性能的影响, 在CMLR、GRID数据集上分别设置若干组超参数实验, 并且移除Beam Search解码策略, 实验结果如表5所示, 其中, 当N=0时, 模型等价于Baseline+CA+JSTA.

表5 SSTA模块中注意力次数N对错误率的影响 Table 5 Effect of attention times N in SSTA module on error rate %

表5可知, 在CMLR数据集上, 随着N的增大, 错误率呈现先下降后上升的趋势, 在N=3时达到最低值24.90%.在GRID数据集上, 随着N的增大, 错误率呈现出类似的变化趋势, 在N=4时达到最低值1.56%.

产生这种现象的原因可能是:随着N的增大, SSTA模块的注意力分支数也随之增多, 筛选的关键信息不断丰富, 并在N达到某个值时趋于饱和; 一旦N超过极值点, SSTA模块的某些注意力分支可能会将一些不重要的帧或像素误认为是关键信息, 从而使错误率回升.

2.6.2 束搜索宽度K

为了探究束搜索宽度K对LipMVA性能的影响, 在CMLR、GRID数据集上分别进行一系列实验, 结果如表6所示.其中, 当K=1时, 方法等价于不使用Beam Search的LipMVA.

表6 束搜索宽度K对错误率的影响 Table 6 Effect of beam search width K on error rate %

表6可知, 随着K的增大, 模型的错误率显著下降.这是因为在Beam Search策略下, 解码器每次预测时会保存前K个概率最高的预测结果, 从而扩大搜索的范围和容错性.当K增大到一定程度时, 搜索空间趋于完善, 错误率的下降速率会趋于稳定.

2.7 可视化分析

本节从空间、时间、通道三个层面分别进行可视化分析, 验证本文设计的三种注意力机制分别能在不同维度对冗余信息进行抑制, 对关键信息进行增强.

如图4所示, 本文选取某一个视频的若干帧, 并分别使用表4中的Baseline、Baseline+JSTA、Baseline+SSTA、Baseline+JSTA+SSTA和LipMVA(w/o Beam Search)绘制视觉特征的显著性图[32].图像的颜色越红, 表明模型对该部位的关注度越高.

图4 各模型的显著性图对比Fig.4 Saliency map comparison of different models

由图4可知, 由于Baseline未使用时空注意力, 关注的像素难以集中在唇部.相比Baseline, Baseline+JSTA、Baseline+SSTA、Baseline+JSTA+SSTA和Lip-MVA(w/o Beam Search)更关注唇部的像素.其中, Baseline+SSTA对唇部区域的关注程度要比Baseline+JSTA更集中, 说明SSTA模块对嘴唇区域分配的权重要比JSTA模块更多.由Baseline+JSTA+SSTA和LipMVA(w/o Beam Search)结果可知, 当两种时空注意力模块叠加使用时, 对唇部像素的关注能得到进一步提升.

如图5所示, 选取某一个视频的若干帧(中间4帧是处于说话状态的帧), 使用表4中的Baseline, Baseline+JSTA、Baseline+SSTA、Baseline+JSTA+SSTA和LipMVA(w/o Beam Search), 分别绘制时间注意力权重图.图像的阴影越深, 表示对该帧分配的权重越低.

图5 各模型的时间注意力权重图对比Fig.5 Comparison of temporal attention maps of different models

由图5可知, 由于Baseline没有使用时空注意力, 因此不存在时间注意力权重.相比Baseline, Baseline+JSTA、Baseline+SSTA、Baseline+JSTA+SSTA和LipMVA(w/o Beam Search)更关注处于说话状态的帧.其中, Baseline+SSTA对不重要帧的抑制效果要优于Baseline+JSTA, 说明SSTA模块对说话帧分配的权重之和高于JSTA模块.由Baseline+JSTA+SSTA、LipMVA(w/o BeamSearch)的结果可知, 当两种时空注意力模块叠加使用时, 对非说话帧的抑制效果能得到进一步增强.

如图6所示, 选取视觉特征图中某一帧的若干通道, 使用Baseline、Baseline+CA、LipMVA(w/o Beam Search), 分别绘制通道注意力的权重图.图像的阴影越深, 表示该通道分配的权重越低.

图6 各模型的通道注意力权重图对比Fig.6 Weight map comparison of channel attention among different models

由图6可知, 由于Baseline没有使用通道注意力, 所有通道的权重相同.而在CA模块的帮助下, Baseline+CA和LipMVA(w/o Beam Search)能更容易判别轮廓信息不明显的通道, 并降低它们的权重, 从而更关注表征清晰的通道, 提高模型的特征区分能力.

3 结束语

为了在唇语识别任务中实现对视觉特征的多维度信息过滤, 本文提出基于多重视觉注意力的唇语识别方法(LipMVA), 设计通道注意力(CA)模块和两种粒度不同的时空注意力模块(JSTA模块和SSTA模块).3种注意力模块能分别在通道、时间、空间维度上增强关键信息的表达, 抑制冗余信息的干扰.在两个句子级别唇语数据集CMLR和GRID上的一系列实验表明, 即使没有音频模态的辅助, LipMVA也能有效降低唇语识别的错误率.

今后将从实际应用的角度出发, 重点研究训练集和测试集上说话人互不重叠的场景, 即在训练集上出现的说话人不出现在测试集上, 进一步提升模型的泛化能力和应用价值.

本文责任编委 封举富

Recommended by Associate Editor FENG Jufu

参考文献
[1] CHUNG J S, SENIOR A, VINYALS O, et al. Lip Reading Sentences in the Wild // Proc of the IEEE Conference on Computer Vision and Pattern Recognition. Washington, USA: IEEE, 2017: 6447-6456. [本文引用:4]
[2] ZHAO Y, XU R, SONG M L. A Cascade Sequence-to-Sequence Model for Chinese Mand arin Lip Reading // Proc of the 1st ACM Multimedia in Asia. New York, USA: ACM, 2019. DOI: 10.1145/3338533.3366579. [本文引用:7]
[3] ZHANG X B, GONG H G, DAI X L, et al. Understand ing Pictograph with Facial Features: End-to-End Sentence-Level Lip Reading of Chinese // Proc of the 33rd AAAI Conference on Artificial Intelligence. Palo Alto, USA: AAAI, 2019: 9211-9218. [本文引用:3]
[4] ZHAO Y, XU R, WANG X C, et al. Hearing Lips: Improving Lip Reading by Distilling Speech Recognizers // Proc of the 34th AAAI Conference on Artificial Intelligence. Palo Alto, USA: AAAI, 2020: 6917-6924. [本文引用:4]
[5] SIMONYAN K, ZISSERMAN A. Very Deep Convolutional Networks for Large-Scale Image Recognition[C/OL]. [2023-08-22]. https://arxiv.org/abs/1409.1556. [本文引用:1]
[6] HE K M, ZHANG X Y, REN S Q, et al. Deep Residual Learning for Image Recognition // Proc of the IEEE Conference on Computer Vision and Pattern Recognition. Washington, USA: IEEE, 2016: 770-778. [本文引用:1]
[7] ASSAEL Y M, SHILLINGFORD B, WHITESON S, et al. LipNet: End-to-End Sentence-Level Lipreading[C/OL]. [2023-08-22]. https://arxiv.org/pdf/1611.01599.pdf. [本文引用:4]
[8] XU K, LI D W, CASSIMATIS N, et al. LCANet: End-to-End Lipreading with Cascaded Attention-CTC // Proc of the 13th IEEE International Conference on Automatic Face and Gesture Recognition. Washington, USA: IEEE, 2018: 548-555. [本文引用:3]
[9] XUE F, YANG T, LIU K, et al. LCSNet: End-to-End Lipreading with Channel-Aware Feature Selection. ACM Transactions on Multimedia Computing, Communications, and Applications, 2023. DOI: 10.1145/3524620. [本文引用:3]
[10] TRAN D, BOURDEV L, FERGUS R, et al. Learning Spatiotemporal Features with 3D Convolutional Networks // Proc of the IEEE International Conference on Computer Vision. Washington, USA: IEEE, 2015: 4489-4497. [本文引用:1]
[11] AFOURAS T, CHUNG J S, SENIOR A, et al. Deep Audio-Visual Speech Recognition. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2018, 44(12): 8717-8727. [本文引用:3]
[12] PETRIDIS S, STAFYLAKIS T, MA P C, et al. Audio-Visual Spee-ch Recognition with a Hybrid CTC/Attention Architecture // Proc of the IEEE Spoken Language Technology Workshop. Washington, USA: IEEE, 2018: 513-520. [本文引用:2]
[13] SUTSKEVER I, VINYALS O, LE Q V. Sequence to Sequence Learning with Neural Networks // Proc of the 27th International Conference on Neural Information Processing Systems. Cambridge, USA: MIT Press, 2014, II: 3104-3112. [本文引用:3]
[14] MA P C, PETRIDIS S, PANTIC M. Visual Speech Recognition for Multiple Languages in the Wild. Nature Machine Intelligence, 2022, 4: 930-939. [本文引用:2]
[15] VASWANI A, SHAZEER N, PARMAR N, et al. Attention Is All You Need // Proc of the 31st International Conference on Neural Information Processing Systems. Cambridge, USA: MIT Press, 2017: 6000-6010. [本文引用:1]
[16] GRAVES A, FERNáNDEZ S, GOMEZ F J, et al. Connectionist Temporal Classification: Labelling Unsegmented Sequence Data with Recurrent Neural Networks // Proc of the 23rd International Conference on Machine learning. New York, USA: ACM, 2006: 369-376. [本文引用:1]
[17] COOKE M, BARKER J, CUNNINGHAM S P, et al. An Audio-Visual Corpus for Speech Perception. An Audio-Visual Corpus for Speech Perception and Automatic. The Journal of the Acoustical Society of America, 2006, 120(5): 2421-2424. [本文引用:3]
[18] GRAVES A. Sequence Transduction with Recurrent Neural Networks[C/OL]. [2023-08-22]. https://arxiv.org/pdf/1211.3711.pdf. [本文引用:1]
[19] SRIVASTAVA R K, GREFF K, SCHMIDHUBER J. Highway Net-works[C/OL]. [2023-08-22]. https://arxiv.org/pdf/1505.00387.pdf. [本文引用:1]
[20] LI X, WANG W H, HU X L, et al. Selective Kernel Networks[C/OL]. [2023-08-22]. https://arxiv.org/pdf/1903.06586.pdf. [本文引用:1]
[21] CHEN W C, TAN X, XIA Y C, et al. DualLip: A System for Joint Lip Reading and Generation // Proc of the 28th ACM International Conference on Multimedia. New York, USA: ACM, 2020: 1985-1993. [本文引用:2]
[22] HUANG Y Y, LIANG X F, FANG C W. CALLip: Lipreading Using Contrastive and Attribute Learning // Proc of the 29th ACM International Conference on Multimedia. New York, USA: ACM, 2021: 2492-2500. [本文引用:2]
[23] CHEN T, KORNBLITH S, NOROUZI M, et al. A Simple Framework for Contrastive Learning of Visual Representations // Proc of the 37th International Conference on Machine Learning. New York, USA: ACM, 2020: 1597-1607. [本文引用:1]
[24] HU J, SHEN L, ALBANIE S, et al. Squeeze-and -Excitation Networks // Proc of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Washington, USA: IEEE, 2018: 7132-7141. [本文引用:1]
[25] WOO S, PARK J, LEE J Y, et al. CBAM: Convolutional Block Attention Module // Proc of the European Conference on Computer Vision. Berlin, Germany: Springer, 2018: 3-19. [本文引用:2]
[26] RAO S, RAHMAN T, ROCHAN M, et al. Video-Based Person Re-identification Using Spatial-Temporal Attention Networks[C/OL]. [2023-08-22]. https://arxiv.org/abs/1810.11261. [本文引用:1]
[27] WANG Z W, SHE Q, SMOLIC A. ACTION-Net: Multipath Excitation for Action Recognition // Proc of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Washington, USA: IEEE, 2021: 13209-13218. [本文引用:1]
[28] BAHDANAU D, CHO K, BENGIO Y. Neural Machine Translation by Jointly Learning to Align and Translate[C/OL]. [2023-08-22]. https://arxiv.org/abs/1409.0473. [本文引用:1]
[29] KINGMA D P, BA J L. Adam: A Method for Stochastic Optimization[C/OL]. [2023-08-22]. https://arxiv.org/abs/1412.6980. [本文引用:1]
[30] BENGIO S, VINYALS O, JAITLY N, et al. Scheduled Sampling for Sequence Prediction with Recurrent Neural Networks // Proc of the 28th International Conference on Neural Information Processing Systems. Cambridge, USA: MIT Press, 2015: 1171-1179. [本文引用:1]
[31] XUE F, LI Y, LIU D Y, et al. LipFormer: Learning to Lipread Unseen Speakers Based on Visual-Land mark Transformers. IEEE Transactions on Circuits and Systems for Video Technology, 2023, 33(9): 4507-4517. [本文引用:1]
[32] ZHOU B L, KHOSLA A, LAPEDRIZA A, et al. Learning Deep Features for Discriminative Localization // Proc of the IEEE Conference on Computer Vision and Pattern Recognition. Washington, USA: IEEE, 2016: 2921-2929. [本文引用:1]