R-C3D 视频活动检测

2024-06-24 17:49:53

论文作者信息：

算法基本思想：

受目标检测方法Faster R-CNN的启发，论文中提出了一种区域卷积3D网络（Region Convolutional 3D Network,R-C3D）如上图,该方法先进行3D全卷积网络对视频帧进行编码处理，之后提取活动时序片段（action proposal segments）,最后在分类子网络（action classification subnet）并对结果进行分类和细化。

主要贡献

1）论文提出了活动检测模型，即R-C3D,这是一种端到端活动检测模型，结合活动建议和分类阶段，可以检测任意长度的活动。

2）通过在建议生成（proposal generation）和网络分类部分之间共享全卷积的C3D特性，实现快速检测速度（比当前方法快5倍）；

3)对三个不同的活动检测数据集进行了大量的评估，证实了该文提出的模型具有普遍适用性。

关键原理

该网络可以用于连续视频流中进行活动检测。其网络结构图如下，由3部分组成，共享的3D ConvNet特征提取器，时间建议阶段（temporal proposal stage）以及活动分类和细化阶段。

为了实现高效的计算和端到端训练，建议和分类子网共享C3D特征映射。这里的一个关键创新是将Faster R-CNN中的2D RoI pooling扩展到3D RoI pooling,这样做的好处就是，该文的模型能够提取各种分辨率的可变长度建议框的特征。

论文中通过共同优化两个子网的分类和回归任务来训练网络，Softmax损失函数用于分类，平滑L1损失函数用于回归，所以本文的目标函数结合两部分损失函数为：

上式中Ncls和Nreg分别代表批量大小和anchor/proposal段的数量，为损失权衡参数，设置为1,为预测概率，

表示anchor或proposals的预测相对偏移量，

表示anchor或proposals的ground truth的坐标变换。

其变换如下：

实验结果

Experiments on THUMOS’14

Table1是在THUMOS’14上的活动检测结果。在表1中作者在IoU阈值0.1~0.5（表示为a）上对当前存在的方法和R-C3D进行活动检测性能的评估比较。在单向缓冲设置（one-way buffer）的R-C3D,其mAP@0.5为27.0%比当前最先进方法高3.7%。双向缓冲设置（two-way buffer）的R-C3D的mAP在所有IoU阈值下都有了提高，其中mAP@0.5达到28.9%。

Table2展示了R-C3D与其他方法在数据集THUMOS’14上的每一类的AP(Average Precision)。表中可以看出R-C3D在大多数类别中的AP优于其他方法，在一些活动中甚至超过了20%，比如Basketball Dunk, Cliff Diving等。图(a)显示了在数据集THUMOS’14上的两个视频的定性结果。

Experiments on ActivityNet

表3是在数据集ActivityNet上的检测结果。表3.活动网上的检测结果，以mAP@0.5（百分比）表示。从表中可以看出，R-C3D方法在验证集和测试集上分别优于UPC4.3%和4.5%（在mAP@0.5下）。当训练集和验证集都用来训练时，R-C3D方法的检测结果要比只用训练集训练时高1.6%。

图(b)展示了R-C3D在数据集ActivityNet中具有代表性的结果。

Experiments on Charades

表4是关于在数据集Charades上的活动检测结果。如表4所示，该文的模型优于文献[25]中提出的异步时域模型以及在该文章中报告的不同基准线。

按照标准做法，论文中按照mAP@0.5评估了模型，结果为9.3%，性能与在其他数据集中测试的性能结果不同。这个原因可能是数据集Charades固有的问题，比如室内场景光照强度低，或者数据的标签过多等。

图(c)展示了R-C3D在数据集Charades中具有代表性的结果。

结论

1）引入了R-C3D模型，用来活动检测的第一个端对端时间建议分类网络；

2）在3个大规模的数据集中对该文提出的方法进行了评估，结果展示该文的方法比当前基于3D卷积的模型更快且更准确；

3）R-C3D还可以加入其他一些特性，以进一步提高活动检测结果。

最后我们一起来看看作者给出的视频Demo：

活动检测还是蛮有意思的，在智能视频分析领域应该大有用武之地！

论文地址：

https://arxiv.org/pdf/1703.07814.pdf

代码：

http://ai.bu.edu/r-c3d/

视频理解活动识别交流群

基于尺寸划分的RGB显著物体检测方法

作者:明泽Danny 来源:微信公众号|3D视觉工坊(系投稿) SDCNet: Size Divide and Conquer Network for Salient Object Detection ...
【数据】短视频识别，都有那些行业标准？

杨皓博大三在读,计算机视觉爱好者作者 | 杨皓博(微信号Midlurker2017) 编辑 | 杨皓博/言有三当前深度学习中静态图像识别已经做得相当好了,让AI理解视频内容则更加困难,是当前学术 ...
用于孤独症小鼠模型的行为检测方法（3）：刻板运动和狭隘的兴趣活动

1.1 刻板理毛行为孤独症小鼠经常表现出自发的重复活动,包括自发旋转.挖掘.跳跃.理毛等.其中重复的自我修饰( 理毛行为) 行为可能造成病理性损伤,如皮肤和毛发的损伤.理毛行为测试可以在标 ...
Video Analysis 相关领域解读之Temporal Action Detection(时序行为检测)

上一篇笔记介绍了 Action Recognition 领域的研究进展.Action Recognition主要是用于给分割好的视频片段分类,但实际中大部分视频都是未分割的长视频.所以这就引出了今天要 ...
这个项目在 GitHub 火了！一周暴涨 3000 Star！！！

大家好,我是小 G. 今天为大家推荐一个相当牛逼的项目. 粗略估计,这个项目价值超过百万! 当前 star 5.1k,但是大胆预判,这个项目肯定要火,未来 Star 数应该可以到 10k 甚至 20k ...
9月起日本再度放宽入境限制，持有“医疗”在留资格者可入境！

此前为了经济复苏的需要,日本出入境管理局放宽了部分人的出入境限制,对于4月3日前离境并持有在留资格的外国人,经过检查后可入境日本.这一政策出台让很多朋友终于可以顺利返回日本了,但仍限制在4月3日之前离 ...
R语言社区主题检测算法应用案例

原文链接:http://tecdat.cn/?p=5658 使用R检测相关主题的社区创建主题网络我通过分析抽象文本和共同作者社交网络来研究社会科学.计算机和信息学方面的出版物. 我遇到的一个问题是 ...
CVPR 2021 | 又好又快的视频异常检测，引入元学习的动态原型学习组件

Learning Normal Dynamics in Videos with Meta Prototype Network 作者:Hui lv, Chen Chen, Zhen Cui, Chuny ...
R语言Outliers异常值检测方法比较

原文链接:http://tecdat.cn/?p=8502 识别异常值的方法有很多种,R中有很多不同的方法. 关于异常值方法的文章结合了理论和实践.理论一切都很好,但异常值是异常值,因为它们不遵循理 ...
吾爱大神出品：视频高清强迫者福音，MediaInfo V20.09 绿色版（视频参数检测利器）

嘿!持续更新49天,离持续更新目标300天,还有251天. 好多人加了我之后,就问收费吗?我说不收费的模式,当然也会有一点点要求而已,但对于你来说不是门槛. 持续分享出你需要的有价值的东西,也算是一种 ...
生物学家应该这样学R绘图-视频，数据，代码全公开

作者是Maria Nattestad,生物信息学专业的博士,为冷泉港的OMGenomics实验室的创始人. 为什么推荐这个课程作者虽然是生物信息学数据分析领域的实力战将,但是却仍能不忘初心,录制并且 ...
生信技能树-R语言视频课听后感 (10万+的播放量就看这个春节)

应该是我自己的学徒就贡献了一半的学习量吧,距离我夸下海口的10万工程师相差甚远,所以非常有必要放一些导学笔记,这个春节,难度你没有发现特别适合猫在家听视频搞学习吗?而且我们还有一系列免费数据分析提供给 ...
你真的需要这些动辄几十个小时的R教学视频吗

刚才b站提醒我可以参加他们的<新星计划·垂直赛道寻找各品类5万粉以下的优质UP主>,原来我一直引以为傲的10万加视频播放量在b站连个星都算不上,O(∩_∩)O哈哈~ 在b站的提醒下,顺 ...
U-LanD：基于不确定性的视频地标检测

重磅干货,第一时间送达小白导读论文是学术研究的精华和未来发展的明灯.小白决心每天为大家带来经典或者最新论文的解读和分享,旨在帮助各位读者快速了解论文内容.个人能力有限,理解难免出现偏差,建议对文章 ...
ACM第一名：基于轨迹感知多模态特征的视频关系检测

点击上方"深度学习爱好者",选择加"星标"或"置顶" 重磅干货,第一时间送达小白导读论文是学术研究的精华和未来发展的明灯.小白决心每天为 ...