计算机视觉研究院专栏
作者:Edison_G
计算机视觉技术在越来越多的场景起到重要的作用,现在的视频异常行为检测就可以今早给予警察预警信息,大大减少暴力事件、游行游街行为、聚集性活动等行为的发生。
01
前景
目前社会中始终会出现多多少少的异常行为,在目前人工智能发展的形式中,几乎人均被几个摄像头拍摄到的情况下,本次热点新闻事件中,经过了较长时间都没有得到警力的帮助,无非就是周围群众没有及时报警制止该行为,另一种就是安装的摄像头没有警报功能。如果在此终端的基础上增加除了录像功能外的警报功能,就更加完美。
好比在摄像头实时监控下,如果发现了异常行为,就会及时将报警信息反馈给中心端(一般是警察中心或者安保监控室),当员工看到警报,再通过视频确认,可以针对性作出一些措施,可能会大大减少犯罪的行为,也较大的提升社会安全度。
今天我们就来说说视频实时行为异常检测的一些事!
02
概要
今天分享的干货中,研究者解决了异常检测的问题,即检测视频序列中的异常事件。基于卷积神经网络 (CNN) 的异常检测方法通常利用代理任务(例如重建输入视频帧)来学习描述正态性的模型,而不会在训练时看到异常样本,并在测试时使用重建误差来量化异常的程度。这些方法的主要缺点是它们没有明确考虑正常模式的多样性,而CNN强大的表示能力允许重建异常视频帧。
为了解决这个问题,有研究者提出了一种异常检测的无监督学习方法,它明确地考虑了正常模式的多样性,同时降低了CNN的表示能力。为此,研究者建议使用具有新更新方案的内存模块,其中内存中的项目记录正常数据的原型模式。还提出了新的特征紧凑性和分离损失来训练记忆,提高记忆项目和从正常数据中深度学习的特征的辨别力。标准基准的实验结果证明了新提出方法的有效性和效率,其性能优于现有技术。
03
新框架简述
新模型在CUHK Avenue上的特征和记忆项目分布。特征和项目分别以点和星显示。具有相同颜色的点映射到同一个项目。内存中的项目捕获正常数据的各种原型模式。这些特征具有高度的判别力,并且相似的图像块可以很好地聚类。
在下图中展示了新框架的概述。重建输入帧或预测未来的无监督异常检测。输入四个连续的视频帧来预测第五个用于预测任务。由于预测可以被认为是使用以前的帧重建未来帧,使用几乎相同的网络架构,两个任务的损失相同。在下文中详细描述了研究者用于重建任务的方法。
新模型主要由三个组件组成:编码器、内存模块和解码器。
编码器输入一个正常的视频帧并提取查询特征。然后使用这些特征来检索记忆项目中的原型正常模式并更新记忆。将聚合(即读取)的查询特征和记忆项提供给解码器,以重建输入视频帧。使用端到端的重构、特征紧凑性和特征分离损失来训练新模型。
在测试时,使用加权正则分数来防止内存被异常视频帧更新。计算输入帧与其重建之间的差异以及查询特征与内存中最近项目之间的距离,以量化视频帧中异常的程度。
读取和更新内存图解
04
实验及总结
异常行为应用的领域较广,比如校园车辆行人不规范的异常,交通路口闯红灯行为,广场大面积聚集活动等应用。如下图:
或者在学校,通过该技术监测学生上课听课程度,学生到课率等行为。
本次新框架的实验结果,如下表:
输入帧(左);预测误差(中);异常区域(右)。我们可以看到新模型定位了异常事件的区域。
© THE END
ABOUT
计算机视觉研究院
计算机视觉研究院主要涉及深度学习领域,主要致力于人脸检测、人脸识别,多目标检测、目标跟踪、图像分割等研究方向。研究院接下来会不断分享最新的论文算法新框架,我们这次改革不同点就是,我们要着重”研究“。之后我们会针对相应领域分享实践过程,让大家真正体会摆脱理论的真实场景,培养爱动手编程爱动脑思考的习惯!