基于深度学习的视频异常检测研究综述
吉根林1, 戚小莎2, 王嘉琦2,3
1.南京师范大学 计算机与电子信息学院/人工智能学院 南京 210023
2.南京师范大学 数学科学学院 南京 210023
3.南京师范大学 外国语学院 南京 210023
通讯作者:

吉根林,博士,教授,主要研究方向为大数据分析、挖掘技术等.E-mail:glji@njnu.edu.cn.

作者简介:

戚小莎,博士研究生,主要研究方向为大数据分析、视频异常检测.E-mail:qixiaosha123@163.com.

王嘉琦,博士研究生,主要研究方向为大数据分析、视频异常检测.E-mail:jqw413@126.com.

摘要

视频异常检测涉及概率统计、机器学习和深度学习等方法.文中旨在综合作者课题组研究成果和其它前沿科研工作,聚焦于基于深度学习的视频异常检测方法,全面探讨该领域的背景、挑战与解决方案.综合领域内的大多数相关论文,对其进行系统分析,以期为学者提供现阶段研究进展的基础认知.对基于深度学习的视频异常检测方法进行分类、分析,总结各类方法的网络模型选择,详细介绍常用数据集和性能评价指标,以性能对比突显各类方法的优势,并对视频异常检测领域的未来研究方向和应用场景进行深入探讨和展望.

关键词: 视频异常检测; 深度学习; 伪异常; 卷积神经网络; 多示例学习
中图分类号:TP391
Review of Deep Learning-Based Video Anomaly Detection
JI Genlin1, QI Xiaosha2, WANG Jiaqi2,3
1. School of Computer and Electronic Information/School of Arti-ficial Intelligence, Nanjing Normal University, Nanjing 210023
2. School of Mathematical Sciences, Nanjing Normal University, Nanjing 210023
3. School of Foreign Languages and Cultures, Nanjing Normal University, Nanjing 210023
Corresponding author:
JI Genlin, Ph.D., professor. His research interests include big data analysis and mining technology.

About Author:
QI Xiaosha, Ph.D. candidate. Her research interests include big data analysis and video anomaly detection.
WANG Jiaqi, Ph.D. candidate. Her research interests include big data analysis and video anomaly detection.

Abstract

The study of video anomaly detection involves the methods such as probabilistic statistics, machine learning and deep learning. The purpose of this paper is to synthesize the research results of the author's group and other advanced researches with a focus on deep learning-based video anomaly detection methods, comprehensively discussing the background, challenges and solutions in this field. Most relevant papers in the field are synthesized and systematically analyzed to provide the scholars with a fundamental understanding of the current research progress. The deep learning-based video anomaly detection methods are classified and analyzed. The network model selection for different methods is summarized. The commonly used datasets and performance evaluation indexes are introduced in detail. The advantages of various methods are highlighted by the performance comparison, and the future research directions and application scenarios in the field of video anomaly detection are deeply explored and forecasted.

Key words: Key Words Video Anomaly Detection; Deep Learning; Pseudo Anomaly; Convolutional Neural Network; Multiple Instance Learning

监控摄像的广泛应用产生大量的视频数据, 这些数据急需处理、分析和挖掘, 人工难以及时应对这一挑战, 因此社会对自动化检测和识别异常事件的需求日益增高[1], 视频异常检测备受关注.

现代计算机及图形处理单元的强大性能为视频异常检测方法提供充足的计算资源, 同时, 随着大数据分析和挖掘技术的发展, 这些方法能够处理和分析大规模视频数据.这一进展使视频异常检测在监控系统、视频分析和智能交通等领域发挥日益重要的作用.

视频异常检测方法可深入分析视频数据, 自动识别和检测其中异常事件或行为[2], 旨在从大规模的视频流中准确辨别与正常事件不符的异常情况.视频异常检测方法包括高斯混合模型等概率统计方法、核密度估计等机器学习方法以及卷积神经网络等深度学习方法.这些方法对视频序列进行建模和分析, 捕获异常事件呈现的不寻常特征或模式, 实现视频中异常事件的检测[3].

现实场景的复杂性和对检测的高要求使视频异常检测面临如下关键性挑战.

1)数据复杂性.视频数据通常呈现高维度和复杂的特征表示, 包括颜色、纹理、运动等多个方面.处理这些复杂数据需要设计有效的特征提取和表示方法.

2)数据稀疏性.一般而言, 异常样本数量远少于正常样本数量, 导致数据的不平衡性和稀疏性, 使得异常检测变得困难.

3)场景复杂性.视频中存在复杂的背景干扰、光照变化和遮挡等因素, 增加异常事件的检测难度.

4)类内变化.正常事件或行为具有多样性和变化性, 使异常检测模型需要具备一定的鲁棒性, 以适应不同的正常行为变化.

5)模型泛化.视频异常检测需要建立能泛化到不同场景和数据集的模型, 这对于在现实世界中的应用非常关键.

6)实时性.许多应用场景对于异常的实时检测有一定要求, 需要高效的算法和较好的实时处理能力.

本文结合国内外相关前沿科研工作和作者课题组的研究成果, 全面概述基于深度学习的视频异常检测, 涵盖视频异常检测的背景、面临的困难与挑战, 对基于深度学习的视频异常检测方法进行分类和深入分析, 说明这些方法如何选择检测网络模型.在常用的视频异常检测数据集和现有的评价指标上, 对各种视频异常检测方法进行对比分析.最后从理论研究和实际应用两方面进行讨论与展望.在理论研究方面, 展望视频异常检测领域未来的研究方向; 在实际应用方面, 讨论检测技术在实际场景中的潜在应用.

1 视频异常检测
1.1 异常检测流程

视频异常检测通过深入分析视频数据, 自动辨识和检测其中的异常事件或行为, 方法基本流程如图1所示.

图1 视频异常检测流程图Fig.1 Schematic diagram of video anomaly detection

视频异常检测基本步骤如下所示.

1)数据采集与预处理.采集视频数据, 进行预处理, 包括去除噪声、标准化、裁剪等操作, 以便后续分析.

2)特征提取.从视频数据中提取关键特征, 表示为适合模型处理的形式.这些特征可能涉及空间、时间、运动和语义信息, 包括目标位置、运动轨迹、颜色分布等, 为建立异常检测模型提供基础.

3)建模与训练.使用提取的特征数据, 训练异常检测模型, 使其能识别正常行为并学习异常行为的模式.这些模型可以是传统机器学习算法, 也可以是深度学习模型, 根据具体情况选择合适的模型架构和训练方法.

4)异常检测.将训练好的模型应用于视频数据中, 进行异常检测和识别.模型分析视频数据, 识别其中的异常事件或行为, 以便做进一步的处理或报警.

1.2 综述文献回顾

基于人、物异常, 早期Kiran等[4]对模型进行一定的分类, 胡正平等[5]从行为表示和模型方法两方面进行视频异常检测分类, Zaheer等[6]梳理常用的网络架构.基于人类异常, Mabrouk等[7]全面分析已有的特征提取和检测模型, Dhiman等[8]对特征提取方法进行详细介绍和分类, Afiq等[9]对检测模型和算法进行全面总结.这些综述的发表时间较早, 未能涵盖近期的异常检测方法.

近年来, 视频异常检测技术发展迅速.基于人、物异常, 王志国等[10]根据算法的演进, 仅对检测算法进行分类; 王思齐等[11]、吉根林等[12]和杨帆等[13]从特征提取和模型建立出发, 对视频异常检测进行分析和总结.基于人类异常, Rezaee等[14]着手实时监控, 详细分析实时的视频异常检测方法; 徐涛等[15]分析现有的网络模型并进行分类; Mu等[16]将视频异常检测分为行为表示和事件建模两部分分别介绍和分析总结.上述综述缺乏对异常的分类, 也缺乏对现阶段发展的总结和未来发展的具体展望.

深度学习的迅速发展促使研究人员将其引入视频异常检测领域.近期的综述文献专注于深度学习技术在视频异常检测中的应用, 并进行深入的讨论和总结.基于人、物异常, 何平等[17]从视频异常检测的概念、模型等出发, 归纳分析基于深度学习的检测方法; Patrikar等[18]将边缘计算引入视频异常检测中, 分类检测方法; Ramachandra等[19]从单场景的角度出发, 分析总结异常检测方法; Jebur等[20]和Anoopa等[21]归纳总结基于深度学习的检测模型和方法; Chandrakala等[22]提出一套包含四种主要类别及多个子类别的主题分类法, 回顾在这些类别下采用的深度学习方法.Duong等[23]和Tran等[24]基于深度学习, 分类异常检测模型; Caetano等[25]回顾视频异常检测方法中的基准算法.基于人、物异常, 张晓平等[26]总结归纳利用深度学习的特征提取方法和检测方法.

上述综述文献对基于深度学习的视频异常检测方法进行归纳和总结, 但存在如下不足.

1)缺乏对异常的具体分类, 这可能导致对异常检测方法的理解和评价存在一定的局限性.

2)相对较少地引入自身的研究工作, 缺乏对自身研究团队在视频异常检测领域贡献的详细介绍.

3)对当前前沿工作的总结和回顾不够全面, 缺乏对视频异常检测领域最新进展的梳理.

1.3 视频异常种类

在视频异常检测中, 异常的定义具有模糊性, 会随场景的不同而不断演变.Nayak等[27]将异常划分为局部和全局异常、点和交互异常、上下文或条件异常.杨帆等[13]分析数据集的特点, 将异常分为外观、短期运动、长期轨迹、群体和时间异常.Ramachandra等[19]将异常分为5类.何平等[17]将异常的基本类型分为局部和全局异常、时间和空间异常.这些异常分类虽然对异常进行初步概括, 但对异常深入理解后仍需要更详细和系统的分类.

基于上述分类标准, 根据异常的不同特征和性质, 本文对其进行更详尽的分类, 具体分类结果如表1所示.这一分类框架旨在更全面考虑异常的多样性, 为进一步的研究提供系统性的基础.

表1 异常的种类 Table 1 Types of anomaly

根据异常发生主体, 视频异常可分为个体异常与群体异常.个体异常指视频中的异常事件由单一目标自身行为引发, 如Avenue数据集中的行人奔跑.群体异常指视频中的异常事件由多个目标共同作用引发, 如UCF-Crime数据集中的打斗、抢劫、车祸等情况.

根据运动状态分类, 视频异常可分为动态异常和静止异常.动态异常表示视频中的运动行为与正常行为不一致, 如CUHK Avenue数据集中的跑步、扔东西等行为.静态异常指视频中的物体或场景处于异常状态, 如消失、遮挡等情况.

根据异常发生位置, 视频异常可分为时间相关异常和空间相关异常.时间相关异常指视频中的事件或行为在某个时间点或时间段内发生异常, 如UCF-Crime数据集中的偷窃、故意破坏等情况.空间相关异常指视频中的物体或场景在空间上出现异常, 如UCSD Pedestrians数据集中的行人在意外区域的运动.

根据异常的先验知识, 视频异常可分为已知异常和未知异常.已知异常是在训练阶段中已定义和标记的异常类型, 模型可根据这些已知异常进行学习和检测.而未知异常指在训练阶段中未出现的异常类型, 模型可能无法准确检测这些未知异常, 如CUHK Avenue数据集中的跑步、扔东西等.

根据异常的多样性程度, 视频异常可分为单一异常和多样异常.单一异常指视频中只存在一种类型的异常.多样异常指视频中存在多种类型的异常, 可能同时或依次发生, 如ShanghaiTech数据集中的行人、车辆等情况.

根据异常的持续时间, 视频异常可分为持续异常和瞬时异常.持续异常指异常事件在视频中持续存在一段时间, 如UCF-Crime数据集中的斗殴、抢劫等情况.瞬时异常指异常事件发生一次或仅持续很短的时间, 如物体的突然出现或消失.

根据异常的特征信息, 视频异常可分为行为异常、外观异常和伪装异常.行为异常指视频中的行为模式与正常行为模式不一致, 如UCSD Pedestrians数据集中的行人骑自行车、滑滑板等行为.外观异常指视频中的对象外观与正常情况下的外观不符, 如UCSD Pedestrians数据集中的卡车、自行车等.伪装异常指视频中的对象与正常情况下对象表现相似.

根据异常发生区域范围, 视频异常可分为局部异常和全局异常.局部异常指视频中的某个局部区域或物体出现异常, 如在工业生产中, 某个设备出现故障.全局异常指整个视频或场景中的整体异常, 如在工业生产中, 整个生产线停止运转.

视频异常的分类取决于应用场景和具体需求.在特定情境下, 可采用多种分类方法进行综合分析和判定.异常分类问题具有开放性, 随着研究的深入和技术的不断进步, 会涌现出新的分类方案和策略.

2 基于深度学习的视频异常检测方法

视频异常检测经历从基于概率统计方法到基于深度学习方法的发展阶段.随着深度学习模型在视频数据处理方面表现出的优秀能力, 研究者们开始将其纳入视频异常检测的研究范畴, 提出多种不同的基于深度学习的视频异常检测方法.这些方法通过构建深度神经网络模型, 直接从原始视频数据中学习特征表示和异常模式, 实现对异常的精准检测.

深度学习方法的引入大幅提升视频异常检测的性能和效率, 为实际应用提供更可靠和有效的解决方案.基于深度学习的视频异常检测流程如图2所示.

图2 基于深度学习的视频异常检测流程图Fig.2 Schematic diagram of deep learning-based video anomaly detection

本节结合视频异常检测领域中其他研究者和课题组提出的不同方法和模型, 在视频数据集的训练集仅存在正常数据的情况下, 对基于深度学习的视频异常检测方法进行细致分类, 总结为4种类型, 具体如图3所示.

图3 基于深度学习的视频异常检测方法分类Fig.3 Classification of deep learning-based video anomaly detection methods

针对图3中的每类方法, 进行深入分析对比, 具体如表2所示.

表2 各类基于深度学习的视频异常检测方法性能对比 Table 2 Performance comparison of different deep learning-based video anomaly detection methods

基于深度学习的视频异常检测具体步骤如下所示.

1)数据准备和预处理.视频帧的加载、采样和预处理, 其中预处理步骤可能包括尺寸调整和分帧等操作.

2)特征提取.从视频数据中提取适当的特征表示.例如:卷积神经网络提取图像特征; 光流算法提取运动特征等.

3)模型构建.设计和构建合适的深度学习检测模型, 如卷积神经网络、循环神经网络或其变体.在大量正常视频数据上训练深度学习模型, 学习视频数据中的正常特征和模式.

4)异常检测和分类.使用训练好的深度学习模型对视频数据进行特征提取, 利用异常检测算法或分类器对视频数据进行异常的判断和识别.

2.1 基于伪异常的视频异常检测方法

基于伪异常的视频异常检测方法作为近期提出的一种策略, 旨在提高模型对异常样本的适应性.方法利用已知的正常样本, 通过伪异常合成器生成伪异常视频帧, 利用合成的伪异常数据对模型进行训练, 使模型更具鲁棒性和泛化能力.在训练过程中, 采用已知的正常样本和生成的伪异常样本对检测模型进行交替训练, 使模型学习正常样本特征和异常样本特征, 实现对输入帧异常与否的准确检测, 有效应对真实场景中的视频异常检测任务.

基于伪异常的视频异常检测方法流程图如图4所示.

图4 基于伪异常的视频异常检测方法流程图Fig.4 Schematic diagram of pseudo anomaly-based video anomaly detection method

伪异常帧构建处于数据预处理阶段, 利用正常数据构造伪异常视频数据.在先前的研究中, Georgescu等[28]随机选取不属于正常事件的对象作为伪异常数据, 将模型分为表观、正向和负向三个分支, 利用正常数据和异常数据进行训练, 较好地重构正常样本并阻止重构伪异常样本.

Pourreza等[29]提出G2D(Generate to Detect Ano-maly), 利用生成对抗网络中生成器的不同阶段生成伪异常数据, 用于检测模型训练.Zaheer等[30]在文献[31]的基础上寻找合适的停止时间点, 使对抗性训练更稳定, 将伪异常的生成方式扩充为早期融合、晚期融合和隐空间融合三种.Astrid等[32]提出STEAL Net, 使用跳帧策略作为时序维度的伪异常, 在最小化正常数据重构误差的同时最大化伪异常数据的重构误差.

不同于他人研究, 作者课题组提出独特的伪异常方法.在数据预处理阶段, 针对仅存在正常样本的训练数据做出改进, 提出多种伪异常生成方法.为了更好地生成伪异常帧, Qi等[33]提出DGGAN(Dual-Generator Generative Adversarial Network), 流程图如图5所示.DGGAN基于生成对抗网络设计双生成器:噪声生成器和重构生成器.在噪声生成器生成伪异常数据后, 交替迭代正常样本和伪异常样本, 训练重构生成器, 使其学习正常样本分布和拉远伪异常样本的重构误差.郭方圆等[34]通过抽帧和遮挡像素处理进行伪异常帧构造, 提出基于双鉴别器和伪视频生成的视频异常检测方法.利用双鉴别器提升对正常帧的预测能力并限制伪视频序列的预测能力, 在生成模型中引入协调注意力改进的U-Net作为生成器, 较好地感知位置和通道信息.

图5 DGGAN流程图[33]Fig.5 Schematic diagram of DGGAN[33]

基于伪异常的视频异常检测方法在生成伪异常数据后, 利用正常数据和伪异常数据共同训练模型, 不仅能使模型学习正常的样本分布, 还增加模型对异常情况的敏感度.该方法在缺乏真实异常数据的情况下较有效, 但是需要确保伪异常数据的质量和有效性, 同时要注意模型的泛化能力和性能.

2.2 基于重构的视频异常检测方法

基于重构的视频异常检测方法利用深度神经网络模型学习正常视频数据的分布模式, 以此建立检测模型.在训练过程中, 模型通过学习正常视频数据, 尝试将输入的视频数据进行重构, 对比原始视频数据与重构视频数据之间的差异, 以便在测试阶段利用重构误差进行异常检测.具体地, 通过计算重构视频数据与原始视频数据之间的差异, 模型能判断视频数据是否与正常行为相符, 以此检测异常.这种方法不需要标注异常样本, 可在无监督的情况下进行异常检测, 具有较强的适用性和灵活性.

基于重构的视频异常检测方法流程图如图6所示.

图6 基于重构的视频异常检测方法流程图Fig.6 Schematic diagram of reconstruction-based video anomaly detection method

基于重构的视频异常检测方法核心在于建立重构模型, 常用模型之一为自编码器.自编码器通过编码器将输入数据映射到低维的潜在空间, 进行特征表示、压缩和降维.随后, 解码器将低维表示重新映射回原始数据空间, 实现数据重构.这种方法能有效学习输入数据的特征表示, 捕捉数据的重要信息和结构, 实现对输入数据的重构和异常检测.自编码器具有多层非线性结构, 能适应复杂的数据分布和模式, 在处理异常数据和重构任务方面具有一定的鲁棒性和灵活性.在训练过程中, 自编码器使用重构误差作为损失函数, 通过最小化重构数据与原始数据之间的差异优化自编码器的参数.这种训练机制为重构方法提供可靠的异常检测指标, 重构误差可反映输入数据与其重构版本之间的差异程度, 识别异常数据.自编码器基于这种优势和训练机制, 经常被应用于视频异常检测任务的重构方法中, 实现对异常事件的准确检测和识别.

Xu等[35]提出AICN(Adaptive Intra-Frame Classi-fication Network), 从事件流中重构低分辨率图像, 增强图像质量并对增强的图像进行上采样, 提高网络性能和图像质量.为了弥补重构网络的弱点并发挥其优势, Wu等[36]提出FSCN(Fast Sparse Coding Net-work), 利用双流神经网络提取隐藏层的空间-时间融合特征, 使用快速稀疏编码网络构建正常字典.为了解决正常行为数据与异常行为数据极度不均衡的问题, 肖进胜等[37]从学习正常模式分布的角度出发, 设计基于概率记忆模型的异常行为检测网络(Probabilistic Memory Auto-Encoding Network, PMAE), 以自编码网络为主干网络, 设计概率模型和记忆模块, 提高主干网络视频帧重构质量.为了解决深度自编码器会捕捉到正常数据和异常数据之间的低层次共享特征的问题, Huang等[38]提出SSR-AE(Self-Supervised Representation-Augmented Auto-Encoder), 引入自编码器, 转换扩大正常样本和异常样本之间的异常得分差距.

针对基于重构的视频异常检测方法, 作者课题组提出多种能提升视频异常检测能力的重构方法.戚小莎等[39]将双交叉注意力模块应用于自编码器中, 提出双交叉注意力自编码器(Dual Crisis-Cross Attention Based Auto-Encoder, DCAE), 通过局部特征关联全局特征, 学习并重构正常样本, 提升异常检测率.李欣璐等[40]提出基于卷积自编码器分块学习的视频异常事件检测与定位方法, 通过重构均匀的区块检测视频帧中是否存在异常事件.

基于均匀分块, Qi等[41]提出MCSCAE(Multi Chunk Learning Based Skip Connected Convolutional Auto Encoder), 流程如图7所示.MCSCAE采用不均匀分块, 将视频帧分成若干大小不一互不重叠的区块, 避免获取不必要的信息和遗漏关键信息, 并对其进行重构.相比均匀分块, 不均匀分块能去除视频帧中的冗余信息, 更好地重构正常帧, 定位到异常事件的具体发生位置并提高视频异常检测的准确性.

图7 MCSCAE流程图[41]Fig.7 Schematic diagram of MCSCAE[41]

针对卷积自编码器在对卷积核的局部感受野进行全局特征提取时存在局限性且无法捕捉视频随时间变化的时间信息问题, Wang等[42]提出CCAE(Criss-Cross Attention Based AutoEncoder), 捕捉连续视频帧的全局视觉特征, 学习正常帧的分布模式, 融合全局特征重构正常帧, 检测异常帧.

在资源有限或难以获得大量标记异常数据的情况下, 基于重构的视频异常检测方法需要仔细选择适当的模型和参数, 以确保其性能, 并注意方法对不同场景的适应性.

2.3 基于预测的视频异常检测方法

基于预测的视频异常检测方法是基于深度学习的视频异常检测方法之一.该方法利用正常视频数据对深度神经网络模型进行训练, 使模型预测下一帧或未来一段时间内的视频内容, 通过对比真实视频数据与预测数据之间的差异检测异常, 具体流程如图8所示.此方法通过训练深度神经网络模型学习视频数据的动态模式和趋势, 检测与预期行为不符的异常.训练方式可采用监督学习或自监督学习的方式, 具有一定的灵活性和适应性.

图8 基于预测的视频异常检测方法流程图Fig.8 Schematic diagram of prediction-based video anomaly detection method

基于预测的视频异常检测方法核心在于预测模型的建立, 常采用生成对抗网络作为网络结构.生成对抗网络以其强大的数据建模能力而闻名, 由生成器和鉴别器构成.通过对抗训练, 生成器可学习数据的分布和模式, 合理预测未来的数据.其特点在于能捕捉数据中的长期依赖关系和时序特征, 尤其在处理时间序列数据时表现出色.生成对抗网络通过学习真实数据分布和生成样本分布之间的差异, 有效捕捉异常模式和变化.此外, 通过生成合成样本, 扩充训练数据集, 提高模型的泛化能力和预测准确性.基于这些优势和机制, 生成对抗网络常应用于视频异常检测任务的预测方法中.

Hao等[43]提出STCEN(Spatiotemporal Consis-tency Enhanced Network), 生成时空一致性预测, 利用正常内容和异常内容之间的预测质量差距推断视频帧中是否发生异常.为了有效处理非静态视频数据, Pillai等[44]采用时间递归差分网络进行预测, 应用自回归滑动平均估计进行视频异常检测, 其中差分网络用于在异常检测过程中有效处理视频数据的非静态性.武光利等[45]提出融合全卷积神经网络和长短期记忆网络的FCN-LSTM, 进行像素级预测和定位异常区域.为了避免正常事件和异常事件预测误差相似, Huang等[46]设计SSAGAN(Self-Super-vised Attentive Generative Adversarial Network), 提高正常帧的预测质量, 其中自监督框架可削弱模型对异常帧的泛化能力, 增大预测误差.为了充分利用判别语义和时间上下文信息, Huang等[47]提出TAC-Net(Temporal-Aware Contrastive Network), 利用深度对比自监督学习捕捉高级语义特征, 通过多个自监督任务解决异常检测问题.

相比其它研究, 作者课题组对预测方法进行不同方面的改进.基于异常事件的不确定性, 孙奇等[48]提出基于非局部注意力生成对抗网络的视频异常事件检测方法, 设计非局部注意力U型网络生成器(Nonlocal Attention Unet Generator, NA-UnetG), 具体流程如图9所示.NA-UnetG使用正常样本训练非局部注意生成器模型, 能准确预测正常的未来帧, 却无法准确预测异常的视频帧.

图9 UA-UnetG流程图[48]Fig.9 Schematic diagram of UA-UnetG[48]

曾静等[49]提出基于多层记忆增强生成对抗网络二次预测(Secondary Prediction of Multi-layer Me-mory Enhancement Generative Adversarial Network, SP-MLMEGAN)的视频异常检测方法, 利用自编码器和多层记忆增强生成式对抗网络进行二次预测, 生成二级预测未来帧, 学习不同层次的正常特征模式, 捕捉上下文语义信息.

对于特定情况, 如缺乏大量标记的异常数据, 基于预测的视频异常检测方法相对有效.然而, 该方法对模型和数据的要求较高, 有一定概率无法区分不同类型的异常, 需要投入额外的工作以选择合适的模型和参数.

2.4 基于多示例学习的视频异常检测方法

鉴于异常事件相对较少且获取帧级别标注较困难, 基于多示例学习的视频异常检测方法备受关注.这种方法仅需视频级的粗粒度标签, 即可检测视频中是否存在异常, 无需具体的时间和位置信息, 方法流程如图10所示.

图10 基于多示例学习的视频异常检测方法流程图Fig.10 Schematic diagram of multiple instance learning-based video anomaly detection method

相比单分类模式, 基于多示例学习的视频异常检测方法能弥补异常信息未知而产生的误报问题.在多示例学习中, 对异常有相对明确的定义, 这有助于增强模型的判别能力, 提高异常检测的准确性.

基于多示例学习的视频异常检测方法将视频包作为整体进行异常检测.为了解决视频异常检测领域中的挑战, 研究人员提出多种创新方法.Sultani等[50]提出利用多示例学习进行视频异常检测, 将每个训练视频看作包, 将包中的视频片段看作示例.Wan等[51]提出AR-Net(Anomaly Regression Net), 利用视频长度动态选择多个最值异常分数以扩大正常样本与异常样本的类间距离, 利用中心损失缩小正常示例的类内距离.为了更好地学习视频段之间的依赖关系, 肖进胜等[52]利用注意力机制对包级特征加权处理, 使用包级池化映射视频的异常分数.Sharif等[53]设计TSAN(Temporal Self-Attention Net-work), 利用卷积神经网络和Vision Transformer提取特征.Li等[54]提出Dy-MIL(Dynamic Multiple-In-stance Learning Framework), 开发一种动态排序方法, 结合k-max选择方案, 仅使用视频级标签就能扩大异常实例和正常实例之间的类间距离.

为了更好地检测长时间的视频异常事件, 作者课题组提出多种基于多示例学习的视频异常检测方法.魏思倩等[55]提出利用注意力机制的多示例学习视频异常检测算法(Attention Mechanism Based Mul-tiple Instance Learning Video Anomaly Detection Algo-rithm, A-MIL), 流程如图11所示.A-MIL利用卷积自编码器从光流特征图中提取特征向量, 然后将特征向量与视频的三维特征C3D输入三层全连接神经网络中, 得到最终示例得分的权重, 用于检测视频中的异常.

图11 A-MIL流程图[55]Fig.11 Schematic diagram of A-MIL[55]

在缺乏单一标记的异常数据或需要处理多样性的异常情况时, 基于多示例学习的视频异常检测方法相对有效.然而, 该方法对计算资源的需求较高、对示例质量敏感、复杂性较高, 需要谨慎选择示例, 以确保性能和鲁棒性.

2.5 网络模型选择

在视频异常检测领域中, 选择适当的网络模型和设计深度网络是一个复杂的过程, 需要综合考虑如下多方面因素.

1)任务的具体需求, 包括异常类型、数据规模、对检测准确性和效率的要求.不同的异常类型可能需要不同类型的网络模型, 以便更好地捕捉其特征和模式.

2)数据的性质, 包括数据分布、维度和特征.合适的网络模型应能有效处理这些数据, 并提取其中的有效信息.

3)计算资源的可用性.应选择适合计算资源的网络结构和参数设置, 实现高效的训练和推理过程.

基于伪异常的视频异常检测方法引入伪异常数据, 增加模型对异常情况的敏感度.模型需要同时学习正常数据和伪异常数据的分布, 以便有效区分异常情况.网络结构可使用深度学习中的分类模型, 如卷积神经网络, 包括卷积层、池化层和全连接层.通过这些层次的组合, 卷积神经网络能有效学习输入数据的特征表示, 进行分类.此外, 可考虑采用二分类模型, 确保模型准确区分正常样本和伪异常样本.此模型结构可更好地适应异常检测任务的需求, 提高模型的性能和准确性.

基于重构的视频异常检测方法通过学习正常视频数据的表示, 重构输入数据, 计算输入数据与重构数据之间的重构误差, 进行异常检测.模型需要有效学习输入数据的有用信息, 以便进行准确的重构和异常检测.自编码器作为常用的重构模型, 包括编码器和解码器两部分.编码器将输入数据映射到潜在空间中, 解码器将潜在表示映射回原始数据空间, 通过最小化重构误差优化模型参数.在选择自编码器时, 可考虑不同类型的自编码器, 如变分自编码器、卷积自编码器等, 满足特定数据类型和任务的需求.此外, 针对时序数据, 可考虑选择适用于时序数据的模型, 如长短期记忆人工神经网络, 更好地捕捉时序信息和数据的长期依赖关系.

基于预测的视频异常检测方法通过训练预测模型预测未来视频帧, 通过计算预测帧与真实帧之间的预测误差以检测视频中的异常.模型需要具备良好的时序建模和预测能力, 以便准确捕获视频数据的动态模式和趋势.生成对抗网络作为常用的预测模型, 包括生成器和鉴别器两部分.生成对抗网络通过对抗训练的方式, 同时训练生成器和鉴别器, 其中生成器负责生成合成样本, 鉴别器负责区分真实样本和生成样本.通过优化生成器和鉴别器的对抗目标, 生成对抗网络能有效学习数据的分布和模式, 实现对未来视频帧的准确预测.此外, 可考虑选择适用于视频预测的其它模型, 如Seq2Seq、Transformer等, 以满足不同数据和任务的需求.

基于多示例学习的视频异常检测方法强调使用视频级别的标签进行训练, 模型需要有效处理整个视频的异常信息.因此, 可选择适合处理整个视频序列的模型, 如2D卷积神经网络或3D卷积神经网络.这些模型具有强大的特征提取和时空建模能力, 能有效捕获视频序列中的关键信息和动态特征.通过合理设计网络结构, 如增加时间维度的卷积核或引入时序注意力机制, 可确保模型充分利用视频序列的时空信息, 准确检测异常样本.选择适合处理整个视频序列的模型对于多示例学习方法的成功应用至关重要, 可提高模型对异常的检测能力和鲁棒性.

在深度网络设计方面, 应根据具体任务的特点进行调整.对于复杂的伪异常数据, 可考虑使用较深的网络结构, 运用正则化技术以避免过拟合.对于基于重构的视频异常检测方法, 需要确保模型能有效捕捉输入数据的特征, 可根据数据性质选择合适的自编码器类型.在基于预测的视频异常检测方法中, 应注意引入适当的注意力机制以处理视频序列中的关键信息, 确保模型准确预测未来的视频帧.对于基于多示例学习的视频异常检测方法, 需要合理设计网络结构, 确保模型有效处理整个视频序列, 避免过拟合的问题.针对不同方法的特点进行网络结构的调整和优化, 可提升视频异常检测模型的性能和泛化能力.

2.6 视频异常检测方法选择

基于深度学习的视频异常检测方法在视频异常检测领域发挥着重要作用[56].深度学习模型以其强大的学习能力而闻名, 能自动学习大规模数据中的特征表示和模式.相比传统方法, 深度学习模型能直接从原始数据中学习特征表示, 减少对人工特征工程的需求, 在处理大规模数据和复杂任务时性能表现较优.然而, 训练深度学习模型需要大量的标注数据, 在标注数据不足时, 模型性能可能会受到限制, 并且深度学习模型的训练过程相对较复杂, 需要调整和优化大量的超参数.深度学习模型虽然在视频异常检测中表现出巨大潜力, 但仍需克服数据标注和训练过程的挑战, 才能发挥最大效益.

在视频异常检测领域, 基于深度学习的视频异常检测方法提供多种选择, 包括基于伪异常的视频异常检测方法、基于重构的视频异常检测方法、基于预测的视频异常检测方法和基于多示例学习的视频异常检测方法.每种方法都有其独特之处和适用性.基于伪异常的视频异常检测方法需要谨慎选择生成的伪异常数据, 确保其能充分覆盖真实异常的情况.基于重构的视频异常检测方法复杂性较高, 需要准确的模型和参数选择, 并且受到场景变化的影响, 需要对模型进行精细的调整和优化.基于预测的视频异常检测方法对模型的准确性有较高要求, 需要连续数据, 并且不能较好地区分不同类型的异常, 在某些情况下可能表现不佳.基于多示例学习的视频异常检测方法需要仔细选择示例, 复杂性较高, 性能高度依赖示例质量, 可能引入噪音, 在应用时需要慎重考虑.

综上所述, 在选择合适的方法时, 需要综合考虑任务需求、资源限制、场景条件和模型特点等方面的因素, 进行适当的调整和优化.

3 常用数据集

视频异常检测数据集是为了解决该领域在真实世界中的挑战而创建, 是由不同的研究人员在不同场景下采集和整理.尽管这些数据集可能在内容和场景上存在差异, 但都致力于提供具有多样性和代表性的实验对象, 以便评估和对比视频异常检测方法的性能.

常用数据集如表3所示, 都为多类别异常数据集, 不局限于人体运动异常, 还包括物体异常, 如小推车、轮椅、车辆等, 以及人与物结合的异常, 如滑冰者、骑自行车的人在人行道上、骑自行车的人在自行车道外等.代表数据集有UCSD Pedestrians[57]、CHUK Avenue[58]、ShanghaiTech Campus[59]和UCF-Crime[50].

表3 视频异常检测数据集 Table 3 Video anomaly detection datasets

这些数据集涵盖多种场景和异常类型, 包括行人、车辆、犯罪活动等, 为视频异常检测方法的评估和对比提供丰富的样本.使用这些多类别异常视频数据集, 研究人员可评估算法在不同场景下的鲁棒性和泛化能力, 促进视频异常检测技术的进步和应用.

表3表明, 随着视频异常检测领域的发展, 公共数据集的数量和质量也在不断提高.在视频异常检测中, 最初的公共数据集主要着重于简单的场景和事件, 以及有限的异常类型, 限制算法在更广泛应用场景下的适用性和泛化能力.随着研究的深入, 近期发布的公共数据集不仅包含更多类型的异常, 还涵盖更丰富的场景和事件, 使算法可在更复杂、真实的环境中进行评估和测试.这些进展有助于推动视频异常检测技术的发展, 并促进其在实际应用中的推广使用.

4 视频异常检测方法性能对比
4.1 评价指标

二分类异常检测常被用于视频异常检测中, 即在一段大部分为正常的视频中寻找异常事件.AUC(Area Under Curve)是评估模型性能的常用指标之一.AUC衡量ROC (Receiver Operating Characteristic)曲线下面积的大小, ROC 曲线以不同的分类阈值为基础绘制模型的真正例率(True Positive Rate, TPR)与假正例率(False Positive Rate, FPR)之间的关系.AUC 的数值范围在0和1之间, 数值越接近1表示模型性能越优, 即能更好地区分正常样本和异常样本.在视频异常检测中, AUC广泛应用于评估模型对异常事件的检测准确率, 帮助研究人员对比不同模型的性能和效果.

ROC曲线分析针对二元分类模型, 适用于模型输出连续值的情况.当观测量的结果是连续值时, 类与类的边界必须使用阈值界定.在视频异常检测中, 会将帧经过模型后得到的异常分数作为连续值, 设置阈值, 划分帧为异常或正常.因此, 可计算真阳性率(True Positive Rate, TPR)和假阳性率(False Posi- tive Rate, FPR), 分别表示模型正确检测到正样本的比例以及将负样本错误分类为正样本的比例.通过调整阈值, 可以绘制不同情况下的ROC曲线, 并计算出其下面积, 即AUC, 作为模型性能的评价指标.

4.2 性能分析

近年来, 研究者在视频异常检测领域提出若干前沿的深度学习方法, 这些方法在各数据集上的AUC值如表4~表7所示.

表4 基于伪异常的视频异常检测方法AUC值对比 Table 4 AUC comparison of pseudo anomaly based video anomaly detection methods %
表5 基于重构的视频异常检测方法AUC值对比 Table 5 AUC comparison of deep reconstruction based video anomaly detection methods %
表6 基于预测的视频异常检测方法AUC值对比 Table 6 AUC comparison of prediction based video anomaly detection methods %
表7 基于多示例学习的视频异常检测方法AUC值对比 Table 7 AUC comparison of multiple instance learning based video anomaly detection methods %

表4~表7清晰展示深度学习在视频异常检测领域的发展历程.在初期阶段, 基于深度学习的方法主要集中在模型建立上, 采用重构或预测等方法, 检测性能较低.到了中期, 这些方法逐渐引入其它模块, 如注意力机制, 丰富网络结构, 性能取得一定的改进.现阶段, 考虑到训练数据的不平衡性和数据隐私问题, 研究者开始在数据预处理和特征提取阶段对视频数据进行优化, 提出伪异常数据生成方法, 用于辅助异常检测模型的学习.

在网络模型选择方面, 不同的视频异常检测方法采用不同的策略和网络结构.基于伪异常的视频异常检测方法具有多种网络模型选择, 常见的包括自编码器、生成对抗网络和卷积神经网络.在基于重构的视频异常检测方法中, 自编码器由于其优势而成为首选的网络架构.基于预测的视频异常检测方法与时间相关, 网络架构选择趋向于时间相关的网络, 如长短期记忆网络、时间递归网络, 或选用生成对抗网络, 以捕捉数据中的长期依赖关系和时序特征.在基于多示例学习的视频异常检测方法中, 首次提出该方法的文献[50]选择3D卷积神经网络和其它网络模型的结合, 更好地区分正常示例与异常示例.

5 研究展望
5.1 理论方法研究

在视频异常检测领域, 未来研究将聚焦于如下关键方向, 目的是进一步提升深度学习模型性能.

1)新型模型和算法.未来的研究核心将聚焦新型深度学习模型和算法的发展, 提高视频异常检测模型的效率、灵活性和准确性, 更好地适应不断变化的异常模式.

2)可解释性和可信度.强调加强视频异常检测算法的可解释性和可信度, 包括深入理解模型的决策过程、提供决策解释以及提高模型决策的可信度, 增强用户对系统的信任.

3)领域自适应.研究如何使视频异常检测模型更好地适应新的领域或场景, 提高模型的泛化能力和鲁棒性.

4)稀有异常检测.着眼于有效处理不常见或新出现的异常情况, 使模型在面对稀有异常时保持高效性能.

5)多模态融合.探索如何更好地利用视频、声音、红外线等多源信息, 提高系统的全面性和准确性.

6)不确定性建模.考虑模型的不确定性, 有望提高异常检测的鲁棒性, 并使系统更具可靠性.通过深入探讨模型决策的不确定性, 研究人员可更好地理解模型对异常事件的响应, 提高系统的整体性能.

7)在线学习理论的引入.研究如何使视频异常检测系统实时适应新的数据分布和场景变化, 维持高效性能.在线学习理论的应用将使系统更具有动态适应性, 及时适应新的异常模式.

这些理论方法的深入研究不仅将推动视频异常检测领域的创新和发展, 为深度学习模型在复杂场景下的应用提供关键的理论支持.随着这些方向的逐步探索和完善, 视频异常检测系统将更智能、灵活, 更准确地应对多样化的异常情况, 为实际应用场景中的安全和监控提供更可靠的解决方案.

5.2 实际应用

未来视频异常检测在实际应用方面有望迎来广泛的创新, 为各领域提供卓越的技术支持.

1)智能城市和交通监管领域.将成为提高交通效率和安全性的关键技术, 实时监测道路交通流、检测交通事故、发现违规停车等异常情况.

2)工业制造和设备监测领域.有望提高设备的可靠性, 及时发现异常或故障, 降低维护成本和生产线停机时间.

3)安防和监控领域.将继续在公共场所、商业区域和重要设施等领域发挥关键作用, 提高安全水平.

4)医疗领域.可用于监测患者的生理参数, 提供更智能和实时的健康监测服务.

5)零售业.可用于分析购物行为、检测窃盗和欺诈行为, 同时提升客户体验.

6)其它.应用于环境监测、教育等领域, 为各行各业提供更智能、高效和安全的监测服务.

未来的发展将受益于与其它先进技术的整合, 如物联网、边缘计算和5G通信等, 使视频异常检测系统更加综合、强大.同时, 深度学习技术和硬件的进步将提升视频异常检测的实时性、准确性和适应性, 为不同领域的实际应用提供更强大的支持.

6 结束语

本文全面介绍视频异常检测领域的背景和挑战, 对异常进行详细分类.基于作者课题组的研究工作和其它前沿研究成果, 系统地对基于深度学习的视频异常检测方法进行分类和对比分析, 满足多样化的应用需求, 为该技术的发展提供清晰的路线图.同时, 对比不同方法的前沿工作, 探讨视频异常检测技术在实际应用中面临的挑战, 为其他研究者提供宝贵的参考, 并为该领域的未来发展提供有益的启示.

视频异常检测作为一个前沿的研究领域, 正面临着监控视频数据快速增长和复杂场景带来的挑战.通过创新的方法和技术, 视频异常检测在实际应用中具有广泛的潜力和价值, 能为保障公共安全和提高监控效率提供有力支持.

本文责任编委 徐 勇

Recommended by Associate Editor XU Yong

参考文献
[1] LIU W J, CAO J X, ZHU Y L, et al. Real-Time Anomaly Detection on Surveillance Video with Two-Stream Spatio-Temporal Generative Model. Multimedia Systems, 2023, 29(1): 59-71. [本文引用:1]
[2] ABERKANE S, ELARBI-BOUDIHIR M. Deep Reinforcement Lear-ning-Based Anomaly Detection for Video Surveillance. Informatica, 2022, 46: 291-298. [本文引用:1]
[3] 胡正平, 赵梦瑶, 辛丙一. 结合全局与局部视频表示的视频异常检测算法. 模式识别与人工智能, 2020, 33(2): 133-140.
(HU Z P, ZHAO M Y, XIN B Y. Video Anomaly Detection Algorithm Combining Global and Local Video Representation. Pattern Recognition and Artificial Intelligence, 2020, 33(2): 133-140. ) [本文引用:1]
[4] KIRAN B R, THOMAS D M, PARAKKAL R. An Overview of Deep Learning Based Methods for Unsupervised and Semi-supervised Anomaly Detection in Videos. Journal of Imaging, 2018, 4(2). DOI: DOI:10.3390/jimaging4020036. [本文引用:1]
[5] 胡正平, 张乐, 李淑芳, . 视频监控系统异常目标检测与定位综述. 燕山大学学报, 2019, 43(1): 1-12.
(HU Z P, ZHANG L, LI S F, et al. Review of Abnormal Behavior Detection and Location for Intelligent Video Surveillance Systems. Journal of Yanshan University, 2019, 43(1): 1-12. ) [本文引用:1]
[6] ZAHEER M Z, LEE J H, LEE S I, et al. A Brief Survey on Contemporary Methods for Anomaly Detection in Videos // Proc of the International Conference on Information and Communication Technology Convergence. Washington, USA: IEEE, 2019: 472-473. [本文引用:1]
[7] MABROUK A B, ZAGROUBA E. Abnormal Behavior Recognition for Intelligent Video Surveillance Systems: A Review. Expert Systems with Applications, 2018, 91(C): 480-491. [本文引用:1]
[8] DHIMAN C, VISHWAKARMA D K. A Review of State-of-the-Art Techniques for Abnormal Human Activity Recognition. Engineering Applications of Artificial Intelligence, 2019, 77: 21-45. [本文引用:1]
[9] AFIQ A A, ZAKARIYA M A, SAAD M N, et al. A Review on Classifying Abnormal Behavior in Crowd Scene. Journal of Visual Communication and Image Representation, 2019, 58: 285-303. [本文引用:1]
[10] 王志国, 章毓晋. 监控视频异常检测: 综述. 清华大学学报(自然科学版), 2020, 60(6): 518-529.
(WANG Z G, ZHANG Y J. Anomaly Detection in Surveillance Videos: A Survey. Journal of Tsinghua University (Science and Technology), 2020, 60(6): 518-529. ) [本文引用:1]
[11] 王思齐, 胡婧韬, 余广, . 智能视频异常事件检测方法综述. 计算机工程与科学, 2020, 42(8): 1393-1405.
(WANG S Q, HU J T, YU G, et al. A Survey of Video Abnormal Event Detection. Computer Engineering and Science, 2020, 42(8): 1393-1405. ) [本文引用:1]
[12] 吉根林, 许振, 李欣璐, . 监控视频中异常事件检测技术研究进展. 南京航空航天大学学报, 2020, 52(5): 685-694.
(JI G L, XU Z, LI X L, et al. Progress on Abnormal Event Detection Technology in Video Surveillance. Journal of Nanjing University of Aeronautics and Astronautics, 2020, 52(5): 685-694. ) [本文引用:1]
[13] 杨帆, 肖斌, 於志文. 监控视频的异常检测与建模综述. 计算机研究与发展, 2021, 58(12): 2708-2723.
(YANG F, XIAO B, YU Z W. Anomaly Detection and Modeling of Surveillance Video. Journal of Computer Research and Development, 2021, 58(12): 2708-2723. ) [本文引用:2]
[14] REZAEE K, REZAKHANI S M, KHOSRAVI R M, et al. A Survey on Deep Learning-Based Real-Time Crowd Anomaly Detection for Secure Distributed Video Surveillance. Personal and Ubiquitous Computing, 2021. DOI: DOI:10.1007/s00779-021-01586-5. [本文引用:1]
[15] 徐涛, 田崇阳, 刘才华. 基于深度学习的人群异常行为检测综述. 计算机科学, 2021, 48(9): 125-134.
(XU T, TIAN C Y, LIU C H. Deep Learning for Abnormal Crowd Behavior Detection: A Review. Computer Science, 2021, 48(9): 125-134. ) [本文引用:1]
[16] MU H Y, SUN R Z, YUAN G, et al. Abnormal Human Behavior Detection in Videos: A Review. Information Technology and Control, 2021, 50(3): 522-545. [本文引用:1]
[17] 何平, 李刚, 李慧斌. 基于深度学习的视频异常检测方法综述. 计算机工程与科学, 2022, 44(9): 1620-1629.
(HE P, LI G, LI H B. A Survey on Deep Learning Based Video Anomaly Detection. Computer Engineering and Science, 2022, 44(9): 1620-1629. ) [本文引用:2]
[18] PATRIKAR D R, PARATE M R. Anomaly Detection Using Edge Computing in Video Surveillance System: Review. International Journal of Multimedia Information Retrieval, 2022, 11(2): 85-110. [本文引用:1]
[19] RAMACHANDRA B, JONES M J, VATSAVAI R R. A Survey of Single-Scene Video Anomaly Detection. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2022, 44(5): 2293-2312. [本文引用:2]
[20] JEBUR S A, HUSSEIN K A, HOOMOD H K, et al. Review on Deep Learning Approaches for Anomaly Event Detection in Video Surveillance. Electronics, 2022, 12(1). DOI: DOI:10.3390/electronics12010029. [本文引用:1]
[21] ANOOPA S, SALIM A. Survey on Anomaly Detection in Surveillance Videos. Materials Today(Proceedings), 2022, 58: 162-167. [本文引用:1]
[22] CHANDRAKALA S, DEEPAK K, REVATHY G. Anomaly Detection in Surveillance Videos: A Thematic Taxonomy of Deep Models, Review and Performance Analysis. Artificial Intelligence Review, 2023, 56(4): 3319-3368. [本文引用:1]
[23] DUONG H T, LE V T, HOANG V T. Deep Learning-Based Ano-maly Detection in Video Surveillance: A Survey. Sensors, 2023, 23(11). DOI: DOI:10.3390/s23115024. [本文引用:1]
[24] TRAN M T, VU N T, VO D N, et al. Anomaly Analysis in Images and Videos: A Comprehensive Review. ACM Computing Surveys, 2023, 55(7). DOI: DOI:10.1145/3544014. [本文引用:1]
[25] CAETANO F, CARVALHO P, CARDOSO J S. Unveiling the Performance of Video Anomaly Detection Models-A Benchmark-Based Review. Intelligent Systems with Applications, 2023. DOI: DOI:10.1016/j.iswa.2023.200236. [本文引用:1]
[26] 张晓平, 纪佳慧, 王力, . 基于视频的人体异常行为识别与检测方法综述. 控制与决策, 2022, 37(1): 14-27.
(ZHANG X P, JI J H, WANG L, et al. Overview of Video Based Human Abnormal Behavior Recognition and Detection Methods. Control and Decision, 2022, 37(1): 14-27. ) [本文引用:1]
[27] NAYAK R, PATI U C, DAS S K. A Comprehensive Review on Deep Learning-Based Methods for Video Anomaly Detection. Image and Vision Computing, 2021, 106. DOI: DOI:10.1016/j.imavis.2020.104078. [本文引用:1]
[28] GEORGESCU M I, IONESCU T R, KHAN S F, et al. A Background-Agnostic Framework with Adversarial Training for Abnormal Event Detection in Video. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2022, 44(9): 4505-4523. [本文引用:1]
[29] POURREZA M, MOHAMMADI B, KHAKI M, et al. G2D: Generate to Detect Anomaly // Proc of the IEEE Winter Conference on Applications of Computer Vision. Washington, USA: IEEE, 2021: 2002-2011. [本文引用:1]
[30] ZAHEER Z M, LEE H J, MAHMOOD A, et al. Stabilizing Adversarially Learned One-Class Novelty Detection Using Pseudo Anomalies. IEEE Transactions on Image Processing, 2022, 31: 5963-5975. [本文引用:1]
[31] ZAHEER Z M, LEE J H, ASTRID M, et al. Old is Gold: Redefining the Adversarially Learned One-Class Classifier Training Paradigm // Proc of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Washington, USA: IEEE, 2020: 14171-14181. [本文引用:1]
[32] ASTRID M, ZAHEER M Z, LEE S I. Synthetic Temporal Anomaly Guided End-to-End Video Anomaly Detection // Proc of the IEEE/CVF International Conference on Computer Vision. Washington, USA: IEEE, 2021: 207-214. [本文引用:1]
[33] QI X S, HU Z S, JI G L. Improved Video Anomaly Detection with Dual Generators and Channel Attention. Applied Sciences, 2023, 13(4). DOI: DOI:10.3390/app13042284. [本文引用:1]
[34] 郭方圆, 吉根林. 基于双鉴别器和伪视频生成的视频异常检测方法[J/OL]. [2023-12-01]. https: //link. cnki. net/urlid/50. 1075. TP. 20231130. 1616. 004.
(GUO F Y, JI G L. Video Anomaly Detection Method Based on Dual Discriminators and Pseudo Video Generation[J/OL]. [2023-12-01]. https://link.cnki.net/urlid/50.1075.TP.20231130.1616.004. ) [本文引用:1]
[35] XU K, SUN T F, JIANG X H. Video Anomaly Detection and Localization Based on an Adaptive Intra-Frame Classification Network. IEEE Transactions on Multimedia, 2020, 22(2): 394-406. [本文引用:1]
[36] WU P, LIU J, LI M M, et al. Fast Sparse Coding Networks for Ano-maly Detection in Videos. Pattern Recognition, 2020, 107. DOI: DOI:10.1016/j.patcog.2020.107515. [本文引用:1]
[37] 肖进胜, 郭浩文, 谢红刚, . 监控视频异常行为检测的概率记忆自编码网络. 软件学报, 2023, 34(9): 4362-4377.
(XIAO J S, GUO H W, XIE H G, et al. Probabilistic Memory Auto-encoding Network for Abnormal Behavior Detection in Surveillance Videos. Journal of Software, 2023, 34(9): 4362-4377. ) [本文引用:1]
[38] HUANG C, YANG Z H, WEN J, et al. Self-Supervision-Augmented Deep Autoencoder for Unsupervised Visual Anomaly Detection. IEEE Transactions on Cybernetics, 2022, 52(12): 13834-13847. [本文引用:1]
[39] 戚小莎, 曾静, 吉根林. 双交叉注意力自编码器改进视频异常检测. 南京师大学报(自然科学版), 2023, 46(1): 110-119.
(QI X S, ZENG J, JI G L. Improved Video Anomaly Detection with Dual Criss-Cross Attention Auto Encoder. Journal of Nanjing Normal University(Natural Science Edition), 2023, 46(1): 110-119. ) [本文引用:1]
[40] 李欣璐, 吉根林, 赵斌. 基于卷积自编码器分块学习的视频异常事件检测与定位. 数据采集与处理, 2021, 36(3): 489-497.
(LI X L, JI G L, ZHAO B. Convolutional Auto-Encoder Patch Learning Based Video Anomaly Event Detection and Localization. Journal of Data Acquisition and Processing, 2021, 36(3): 489-497. ) [本文引用:1]
[41] QI X S, JI G L, ZHANG J, et al. Multi Chunk Learning Based Auto Encoder for Video Anomaly Detection. Intelligent Automation and Soft Computing, 2022, 33(3): 1861-1875. [本文引用:1]
[42] WANG J Q, ZHANG J, JI G L, et al. Criss-Cross Attention Based Auto Encoder for Video Anomaly Event Detection. Intelligent Automation and Soft Computing, 2022, 34(3): 1629-1642. [本文引用:1]
[43] HAO Y, LI J, WANG N N, et al. Spatiotemporal Consistency-Enhanced Network for Video Anomaly Detection. Pattern Recognition, 2022, 121. DOI: DOI:10.1016/j.patcog.2021.108232. [本文引用:1]
[44] PILLAI G V, SEN D. Anomaly Detection in Nonstationary Videos Using Time-Recursive Differencing Network-Based Prediction. IEEE Geoscience and Remote Sensing Letters, 2022, 19. DOI: DOI:10.1109/LGRS.2021.3072191. [本文引用:1]
[45] 武光利, 郭振洲, 李雷霆, . 融合FCN和LSTM的视频异常事件检测. 上海交通大学学报, 2021, 55(5): 607-614.
(WU G L, GUO Z Z, LI L T, et al. Video Abnormal Detection Combining FCN with LSTM. Journal of Shanghai Jiaotong University, 2021, 55(5): 607-614. ) [本文引用:1]
[46] HUANG C, WEN J, XU Y, et al. Self-Supervised Attentive Generative Adversarial Networks for Video Anomaly Detection. IEEE Transactions on Neural Networks and Learning Systems, 2023, 34(11): 9389-9403. [本文引用:1]
[47] HUANG C, WU Z H, WEN J, et al. Abnormal Event Detection Using Deep Contrastive Learning for Intelligent Video Surveillance System. IEEE Transactions on Industrial Informatics, 2022, 18(8): 5171-5179. [本文引用:1]
[48] 孙奇, 吉根林, 张杰. 基于非局部注意力生成对抗网络的视频异常事件检测方法. 计算机科学, 2022, 49(8): 172-177.
(SUN Q, JI G L, ZHANG J. Non-local Attention Based Generative Adversarial Network for Video Abnormal Event Detection. Computer Science, 2022, 49(8): 172-177. ) [本文引用:1]
[49] 曾静, 李莹, 戚小莎, . 多层记忆增强生成对抗网络二次预测的视频异常检测方法. 应用科学学报, 2023, 41(1): 80-94.
(ZENG J, LI Y, QI X S, et al. Video Anomaly Detection Method Based on Secondary Prediction of Multi-layer Memory Enhancement Generative Adversarial Network. Journal of Applied Science-Electronics and Information Engineering, 2023, 41(1): 80-94. ) [本文引用:1]
[50] SULTANI W, CHEN C, SHAH M. Real-world Anomaly Detection in Surveillance Videos // Proc of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Washington, USA: IEEE, 2018: 6479-6488. [本文引用:3]
[51] WAN B Y, FANG Y M, XIA X, et al. Weakly Supervised Video Anomaly Detection via Center-Guided Discriminative Learning // Proc of the IEEE International Conference on Multimedia and Expo. Washington, USA: IEEE, 2020. DOI: DOI:10.1109/ICME46284.2020.9102722. [本文引用:1]
[52] 肖进胜, 申梦瑶, 江明俊, . 融合包注意力机制的监控视频异常行为检测. 自动化学报, 2020, 48(12): 2951-2959.
(XIAO J S, SHEN M Y, JIANG M J, et al. Abnormal Behavior Detection Algorithm with Video-Bag Attention Mechanism in Surveillance Video. Acta Automatica Sinica, 2020, 48(12): 2951-2959. ) [本文引用:1]
[53] SHARIF M H, JIAO L, OMLIN W C. CNN-ViT Supported Weakly-Supervised Video Segment Level Anomaly Detection. Sensors, 2023, 23(18). DOI: DOI:10.3390/s23187734. [本文引用:1]
[54] LI C, CHEN M. Dy-MIL: Dynamic Multiple-Instance Learning Frame-work for Video Anomaly Detection. Multimedia Systems, 2024, 30(1). DOI: DOI:10.21203/rs.3.rs-2906577/v1. [本文引用:1]
[55] 魏思倩, 吉根林, 许振, . 利用注意力机制的多示例学习视频异常检测. 小型微型计算机系统, 2022, 43(12): 2575-2579.
(WEI S Q, JI G L, XU Z, et al. Attention Mechanism Based Multiple Instance Learning Video Anomaly Detection. Journal of Chinese Computer Systems, 2022, 43(12): 2575-2579. ) [本文引用:1]
[56] 黄敏, 尚瑞欣, 钱惠敏. 面向视频中人体行为识别的复合型深度神经网络. 模式识别与人工智能, 2022, 35(6): 562-570.
(HUANG M, SHANG R X, QIAN H M. Composite Deep Neural Network for Human Activities Recognition in Video. Pattern Re-cognition and Artificial Intelligence, 2022, 35(6): 562-570. ) [本文引用:1]
[57] MAHADEVAN V, LI W X, BHALODIA V, et al. Anomaly Detection in Crowded Scenes // Proc of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition. Washington, USA: IEEE, 2010: 1975-1981. [本文引用:1]
[58] LU C W, SHI J P, JIA J Y. Abnormal Event Detection at 150 FPS in MATLAB // Proc of the IEEE International Conference on Computer Vision. Washington, USA: IEEE, 2013: 2720-2727. [本文引用:1]
[59] LUO W X, LIU W, GAO S H. A Revisit of Sparse Coding Based Anomaly Detection in Stacked RNN Framework // Proc of the IEEE International Conference on Computer Vision. Washington, USA: IEEE, 2017: 341-349. [本文引用:1]