模式识别与人工智能
2025年4月2日 星期三   首 页     期刊简介     编委会     投稿指南     伦理声明     联系我们                                                                English
模式识别与人工智能  2022, Vol. 35 Issue (6): 562-570    DOI: 10.16451/j.cnki.issn1003-6059.202206008
“基于深度学习的目标检测与识别”专题 最新目录| 下期目录| 过刊浏览| 高级检索 |
面向视频中人体行为识别的复合型深度神经网络
黄敏1, 尚瑞欣1, 钱惠敏1
1.河海大学 能源与电气学院 南京 211100
Composite Deep Neural Network for Human Activities Recognition in Video
HUANG Min1, SHANG Ruixing1, QIAN Huimin1
1. College of Energy and Electrical Engineering, Hohai University, Nanjing 211100

全文: PDF (640 KB)   HTML (1 KB) 
输出: BibTeX | EndNote (RIS)      
摘要 在视频人体行为识别研究中三维卷积神经网络和双流卷积神经网络均存在不足.针对此种情况,文中提出结合双流网络架构和三维网络架构的复合型深度神经网络.在双流架构的时间流子网络和空间流子网络部分均采用改进的R(2+1)D卷积神经网络,分别从视频的RGB图像序列和光流图像序列中学习行为表示和分类方法,并融合时间流子网络、空间流子网络的分类结果.进一步地,在网络训练过程中,提出基于梯度中心化算法改进的带动量的随机梯度下降算法,在不改变网络结构的情况下提高网络的泛化性能.实验表明,文中网络在UCF101、HMDB51数据集上均获得较高的识别精度.
服务
把本文推荐给朋友
加入我的书架
加入引用管理器
E-mail Alert
RSS
作者相关文章
黄敏
尚瑞欣
钱惠敏
关键词 人体行为识别双流卷积网络三维卷积神经网络梯度中心化    
Abstract:Aiming at the deficiencies of 3D convolutional neural network and two-stream convolutional neural network for human activities recognition in video, a composite deep neural network combining two-stream convolutional network and 3D convolutional network is proposed. The improved residual(2+1)D convolutional neural network is utilized in both the temporal sub-network and the spatial sub-network of two-stream architecture. Behavioral representation and classification methods are learned from RGB and optical flow of video, respectively. The classification results of temporal stream and spatial stream sub-networks are combined. Furthermore, in the process of network training, stochastic gradient descent with the momentum improved by gradient centralization algorithm is proposed to improve the network generalization performance without varying the network structure. Experimental results show that the proposed network achieves higher accuracy on UCF101 and HMDB51.
Key wordsHuman Activity Recognition    Two-Stream Convolutional Network    3D Convolution Neural Network    Gradient Centralization   
收稿日期: 2022-03-08     
ZTFLH: TP 391.41  
通讯作者: 钱惠敏,副教授,博士,主要研究方向为计算机视觉、机器学习.E-mail:qhmin0316@163.com.   
作者简介: 黄 敏,硕士研究生,主要研究方向为人体行为识别.E-mail:2458237010@qq.com.
尚瑞欣,硕士研究生,主要研究方向为人体行为识别.E-mail:525087662@qq.com.
引用本文:   
黄敏, 尚瑞欣, 钱惠敏. 面向视频中人体行为识别的复合型深度神经网络[J]. 模式识别与人工智能, 2022, 35(6): 562-570. HUANG Min, SHANG Ruixing, QIAN Huimin. Composite Deep Neural Network for Human Activities Recognition in Video. Pattern Recognition and Artificial Intelligence, 2022, 35(6): 562-570.
链接本文:  
http://manu46.magtech.com.cn/Jweb_prai/CN/10.16451/j.cnki.issn1003-6059.202206008      或     http://manu46.magtech.com.cn/Jweb_prai/CN/Y2022/V35/I6/562
版权所有 © 《模式识别与人工智能》编辑部
地址:安微省合肥市蜀山湖路350号 电话:0551-65591176 传真:0551-65591176 Email:bjb@iim.ac.cn
本系统由北京玛格泰克科技发展有限公司设计开发 技术支持:support@magtech.com.cn