ICCV 2021 oral 重构+预测，双管齐下提升视频异常检测性能

2024-04-23 11:05:20

详细信息如下：

论文链接：https://arxiv.org/abs/2108.06852
项目链接：https://github.com/LiUzHiAn/hf2vad

动机

视频异常检测（Video Anomaly Detection，VAD）是一项具有开放特征且具有挑战性的任务，因为异常事件通常要比正常事件发生的少，但是在实际场景中，异常事件的类型是不可预知的。现有针对视频异常检测任务的方法大多以自动编码器为基干模型，这类方法往往使用同一场景中所有的正常事件训练自动编码器，在模型测试阶段，对于异常事件，模型会给出较大的重构误差，以该误差作为标准来判断当前输入是否包含异常事件。

本文方法也是遵循以上设定，在普通自动编码器的基础上进行改进，加入了一系列的记忆模块来对正常事件进行建模，同时整合帧预测任务和光流重建任务。本文的一个亮点是，以重构的光流作为条件，设计了一个条件变分自动编码器（Conditional Variational Autoencoder，CVAE），用来捕获视频帧与光流场之间的相关性，并以此相关性来影响帧预测的质量。当模型遇到异常事件时，光流重建带来的误差会进一步影响帧预测的效果，使异常事件更易于检测。

下图展示了本文方法在CUHK Avenue数据集上的检测效果，其中蓝色框线代表异常事件的ground truth，前两行分别为单独光流重建任务和帧预测任务的检测效果，最后一行为本文集成方法的效果。

方法

下图为本文整体的框架图，整体框架主要由两部分构成：多级记忆增强自动编码器和条件变分自动编码器，整个框架只使用正常数据进行训练，在测试阶段，根据重构得到的光流和预测得到的帧计算误差来判断异常情况。

模型首先输入一系列的光流序列

，经过多级记忆增强自动编码器得到重构的光流序列

，随后将相同时间的视频帧序列

和上一步重构的

一起输入到条件变分自动编码器进行未来帧的预测，当遇到异常事件时，首先重构得到的光流序列就会有较大的重构误差，并以此为条件进行下一步的帧预测，会进一步增大预测的误差，以此来提高检测性能。

2.1 多级记忆增强自动编码器

本文提出的多级记忆增强自动编码器是在ICCV2019提出的MemAE[1]和CVPR2020提出的MNAD[2]基础上进行改进，本文作者发现仅使用单个记忆模块难以建模和记忆所有的正常模式（normal patterns），但是如果暴力的增加的记忆模块的数量，会带来过度的信息过滤，使网络的性能退化以记住最具代表性的正常模式，而忽略了其他表象不明显的正常模式。

为了解决该问题，本文加入了多级跳连（Skip Connections）将编码信息直接传递给解码器，为不同层次的记忆模块提供信息来发现更多的正常模式，下图为上述三种记忆增强自动编码器的示意图。

对于上图中的每个记忆模块

，本质上就是一个存储矩阵，矩阵的每一行表示一种记忆模式，对于输入的编码向量，记忆模块的操作是通过在整个记忆矩阵中查询相似的记忆模式，并以加权求和的方式来得到记忆增强向量，进行随后的重构任务。

多级记忆增强自动编码器通过重构损失和交叉熵损失联合优化，其中重构损失如下：

本文同时仿照MemAE中对每个记忆模块施加匹配概率以计算交叉熵损失：

其中

为记忆模块中存储的记忆模式的总数，

为匹配概率，即为对编码特征进行记忆增强时的加权权重，整体优化目标由上述两项联合得到：

2.2 条件变分自动编码器

本文提出的条件变分自动编码器基于这样的观察：对于连续的两个视频帧

和

，由于时间跨度小，所以两帧的图像内容基本没有差异。基于变分推断理论，可以假设这两帧基于相同的隐变量（hidden variables），根据变分生成模型可以将相同时刻的光流

作为条件，对下一帧

进行生成，表达式为

。

如上图右侧所示，本文提出的条件变分自动编码器包含了两个编码器

，

和一个解码器

。其中

对光流输入编码得到基于先验分布

的光流特征，

首先对光流输入和视频帧输入进行拼接，随后编码得到基于后验分布

的混合特征，再拼接隐变量作为噪声，输入到解码器

生成下一帧的预测

，这样就完成了整个流程。作者假设以上分布的参数都遵循高斯分布，可以由最小化KL散度进行编码器的优化：

此外为了防止生成的视频帧出现模糊的情况，本文仿照之前的方法加入了梯度损失来保证生成图像的锐度：

整体优化模板由以上两项联合得到：

实验效果

本文在三个具有代表性的视频异常数据集上进行了实验，分别是UCSD Ped2，CUHK Avenue和ShanghaiTech，其中Ped2和Avenue的场景固定，且数据量较小。ShanghaiTech数据集包含了13个监控场景，视频长度较长，是目前视频异常检测领域中极具挑战性的数据集。

模型评价指标使用AUROC，指标越高代表模型的异常检测性能越好。需要注意的一点是，在训练和测试阶段，输入模型的并不是视频帧的整个画面，作者首先使用预训练好的目标检测模型对视频数据进行前景RoI提取，对于每个RoI构成时空连续事件块（spatial-temporal cube，STC），随后进行光流场的重构和帧预测，这样做可以有效过滤视频背景噪声带来的误差。

本文方法分别与现有基于重构的方法，基于预测的方法和二者混合的方法进行对比，达到SOTA效果：

为了进一步展示本文方法可以增大传统重构和预测方法检测误差的能力，作者进行了差分图的可视化实验，如下图所示：

其中（a）为测试集中异常事件的ground-truth，（b）为本文方法的帧预测结果，（c）为本文预测结果与ground-truth的差分图，（d）和（e）为其他两种方法与ground-truth的差分图，同时也给出了差分图的平方和误差作为差异指标，可以看出，本文方法对于异常事件产生的预测误差明显高于其他方法，这有效提高了模型的异常检测效果。

总结

本文探索了将重建任务和预测任务结合起来的可能性。实验表明，所提出的方法优于单独使用重构和预测任务的方法。此外，本文的集成策略也经过精心设计，通过先对光流场进行重构，再将视频帧和光流作为输入来预测未来的帧，可以增大异常事件的预测误差。

参考文献

[1] Dong Gong, Lingqiao Liu, Vuong Le, Budhaditya Saha, Moussa Reda Mansour, Svetha Venkatesh, and Anton van den Hengel. Memorizing normality to detect anomaly: Memory-augmented deep autoencoder for unsupervised anomaly detection. In Proceedings of the IEEE International Conference on Computer Vision, pages 1705–1714, 2019.

[2] HyunjongPark, JongyounNoh, and BumsubHam. Learning memory-guided normality for anomaly detection. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 14372–14381, 2020.

END

极市分享|高继扬 Temporal Action Proposal Generation and Detection

上期我们邀请到了悉尼大学孙书洋,为我们讲解CVPR 2018论文<OpticalFlow Guided Feature:...>光流导向特征在视频动作识别中的应用的主要内容,大家受益匪浅. ...
极市干货 | 第51期直播回放-徐晨丰：ICCV2019-人群密度分析与计数

➤分享大纲 1. 人群计数的应用场景 2. 人群计数的简单入门及相关方法 3. 对于密集区域的尺度系数学习模块 4. Demo展示回放视频在这里☟(建议在pc端观看) 部分PPT截图
StegaPos：用不易察觉的位置编码防止剪辑和拼接

重磅干货,第一时间送达小黑导读论文是学术研究的精华和未来发展的明灯.小黑决心每天为大家带来经典或者最新论文的解读和分享,旨在帮助各位读者快速了解论文内容.个人能力有限,理解难免出现偏差,建议对文章 ...
TAR：使用弱监督学习检测深度伪造的广义取证框架

重磅干货,第一时间送达小黑导读论文是学术研究的精华和未来发展的明灯.小黑决心每天为大家带来经典或者最新论文的解读和分享,旨在帮助各位读者快速了解论文内容.个人能力有限,理解难免出现偏差,建议对文章 ...
电弧信号小波去噪分析

点击下面标题,了解通知详情第九届电工技术前沿问题学术论坛征文通知利用小波去噪方法分析电弧信号是小波分析应用于实际工程的重要方面.波变换具有多分辨率的特点,在时域和频域都具有表征信号局部特征的能力, ...
基于LabVIEW的编码器信号自动补偿系统开发

随着我国现代工业技术的蓬勃发展,制造业水平的不断提高,工业.医疗.航空航天等行业对测控系统有了更高的要求.作为测控系统组成的关键元器件,编码器分辨力和计数精度直接影响测控系统运行的精准性.国内对编码器 ...
【论文解读】使用有监督和无监督的深度神经网络进行闭环检测

重磅干货,第一时间送达由上海交通大学发表于2020 Robotics and Autonomous Systems 这篇论文提出了新的回环检测方法,利用所提出的超级字典代替原有的词袋字典,同时通过深 ...
无需检测器提取特征！LeCun团队提出MDETR：实现真正的端到端多模态推理｜ICCV 2021 Oral

作者丨小马编辑丨极市平台极市导读本文提出了MDETR,一种端到端调制检测器,能够根据原始文本query直接来检测图像中的目标,基于Transformer的结构,通过在模型的早期阶段融合这两种模态 ...
CVPR 2021 | 又好又快的视频异常检测，引入元学习的动态原型学习组件

Learning Normal Dynamics in Videos with Meta Prototype Network 作者:Hui lv, Chen Chen, Zhen Cui, Chuny ...
2021高考作文预测题及范文：增强美育教育提升全国素质

2021高考作文预测题及范文:增强美育教育提升全国素质阅读下面材料,根据要求写一篇不少于800字的文章 (1)做好美育工作,要坚持立德树人,扎根时代生活,遵循美育特点,弘扬中华美育精神,让祖国青年 ...
中国包装行业营运能力预测及提升竞争力策略分析报2021年版

第1章:包装行业定义及外部影响因素分析1.1 包装行业定义及分类 1.1.1 行业概念及定义 1.1.2 行业主要产品大类 1.1.3 行业属性分析 (1)按行业生命周期分类 (2)按对经济周期的反应 ...
2021高考作文预测：做新时代的健康青年倡议书

阅读下面的材料,根据要求写作. 中国古代医学典籍<黄帝内经>开篇即阐述了"食饮有节,起居有常,不妄作劳"的健康理念.世界卫生组织对健康的定义是:健康乃是一种在身体上.精 ...
技压群雄！2021 NTIRE @CVPR 2021的三冠一亚视频超分方案：BasicVSR++

论文链接:https://arxiv.org/pdf/2104.13371.pdf 代码链接:https://github.com/open-mmlab/mmediting 注:该文作者Kelvin ...
2021中考作文预测：《风雨路上你陪我走》

作文题目请以"风雨路上你陪我走"为题,写一篇不少于600字的文章. 要求: ①书写规范,卷面整洁. ②大胆选择你最能驾驭的文体进行写作. ③文中不得出现真实的人名.校名.地名. ...
中远海发2021年一季度业绩显著提升深耕产融结合推动资产收购

证券日报网 2021-04-30 10:22 本报记者刘会玲 4月29日晚间,中远海发披露2021年一季度报告.公司2021年一季度实现营业收入为52.67亿元,较去年同期上升52.95%,归 ...
2021高考作文预测，关于青年的话题，人民日报多次报道，应该很准

岁月不居,时节如流.转眼间,就又到了高考最后冲刺的时刻了,回首我们走过的过往,有苦难,也有收获,重要的是少年的收获. 2021年高考,对于高考作文来说,具有不一样的意义,对于少年来说,你需要思考未来的 ...

ICCV 2021 oral 重构+预测，双管齐下提升视频异常检测性能

相关推荐