欢迎来到《每周CV论文推荐》。在这个专栏里,还是本着有三AI一贯的原则,专注于让大家能够系统性完成学习,所以我们推荐的文章也必定是同一主题的。
随着图像识别相关领域的研究与应用逐渐成熟,当下视频分析相关的研究和应用所占比例越来越大,其技术也更加复杂。视频分类和行为识别在视频监控与检索、网络直播、推荐系统等行业中有着广泛的应用,是深度学习在视频分析领域中最底层的问题之一,非常值得关注和学习。
作者&编辑 | 言有三
1 3DCNN模型
视频相对于图像多出了一个维度,而3D卷积正好可以用于处理这个维度,因此也非常适合视频分类任务,不过缺点是计算量比较大,早在2012年就有研究者开始使用3DCNN模型来进行视频分类,这与深度卷积神经网络模型的发展时间脉络基本重合。
文章引用量:12000+
推荐指数:✦✦✦✦✦
[1] Ji S, Xu W, Yang M, et al. 3D convolutional neural networks for human action recognition[J]. IEEE transactions on pattern analysis and machine intelligence, 2012, 35(1): 221-231.
[2] Tran D, Bourdev L, Fergus R, et al. Learning spatiotemporal features with 3d convolutional networks[C]//Proceedings of the IEEE international conference on computer vision. 2015: 4489-4497.
2 RNN与LSTM
视频和语音信号都是时序信号,而RNN和LSTM正是处理时序信号的模型,也是早期用于视频分类的重要模型。
文章引用量:6000+
推荐指数:✦✦✦✦✦
[3] Donahue J, Anne Hendricks L, Guadarrama S, et al. Long-term recurrent convolutional networks for visual recognition and description[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2015: 2625-2634.
3 双流法
视频中的目标往往是运动的,因此光流也是非常重要的信息,从而引出一类专门进行视频处理的模型,双流法。双流法包含两个通道,一个是RGB图像通道,用于建模空间信息。一个是光流通道,用于建模时序信息。两者联合训练,并进行信息融合。
文章引用量:10000+
推荐指数:✦✦✦✦✦
[4] Simonyan K, Zisserman A. Two-stream convolutional networks for action recognition in videos[J]. Advances in neural information processing systems, 2014, 27.
[5] Feichtenhofer C, Pinz A, Zisserman A. Convolutional two-stream network fusion for video action recognition[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2016: 1933-1941.
4 3D与双流法融合
Two-Stream网络和3D网络各有优点,都可以很好的建模时序关系,但是计算量巨大,因此有的框架致力于融合两类框架,并降低计算量。
文章引用量:5000+
推荐指数:✦✦✦✦✦
[6] Carreira J, Zisserman A. Quo vadis, action recognition? a new model and the kinetics dataset[C]//proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2017: 6299-6308.
5 一些数据集
研究视频分类任务需要一些数据集,视频分类数据集的规模随着时间推移也越来越大,其中适合新手朋友们学习使用的有HMDB-51,UCF-101,Kinetics Datasets。
[7] Kuehne H, Jhuang H, Garrote E, et al. HMDB: a large video database for human motion recognition[C]//2011 International conference on computer vision. IEEE, 2011: 2556-2563.
[8] Soomro K, Zamir A R, Shah M. UCF101: A dataset of 101 human actions classes from videos in the wild[J]. arXiv preprint arXiv:1212.0402, 2012.
[9] Kay W, Carreira J, Simonyan K, et al. The kinetics human action video dataset[J]. arXiv preprint arXiv:1705.06950, 2017.
6 如何进行实战
为了帮助大家掌握一些视频分类与行为识别的重要方法,我们推出了相关的专栏课程《深度学习之视频分类与行为识别:理论实践篇》,感兴趣可以进一步阅读:
【视频课】CV必学,超8小时,3大模块,3大案例,循序渐进地搞懂视频分类与行为识别!
总结
本次我们简单介绍了视频分类与行为识别的一些重要内容,这是从事视频分析方向必须掌握的内容,值得所有从业者掌握。
有三AI冬季划-项目实战组
如果想要永久系统性地跟随我们社区学习深度学习项目实战的相关内容,请关注有三AI-CV冬季划项目实战组,阅读了解下文:
【CV冬季划】终极进阶,超30个项目实战+3大基础方向专栏+3本书+3年知识星球(2022年言有三一对一辅导)
转载文章请后台联系
侵权必究
标签:视频,论文,视频分类,action,et,IEEE,CV,recognition From: https://blog.51cto.com/u_14122493/5749357