视频目标检测：Flow-based

2024-05-24 12:42:58

作者简介

陀飞轮：复旦大学研究生在读，研究方向是目标检测、分割、跟踪

将图像目标检测直接应用到视频目标检测是一个巨大挑战。不同于图像，在视频中可能会产生目标外观特征的退化，比如移动模糊，视频散焦，怪异姿态等。

针对视频中的目标检测，微软提出了Flow-based的视频目标检测算法，具体如下。

DFF主要通过提取视频中的关键帧来减小计算量提升速度(Sparse Feature Propagation)。
FGFA主要通过时序特征聚合来提升特征质量和识别精度(Multi-frame Feature Aggregation)。
THP（本文对Towards High Performance Video Object Detection的简写）提出3种策略来进一步提升速度和精度(sparsely recursive feature aggregation、spatially-adaptive partial feature updating、temporally-adaptive key frame scheduling)。
THPM（本文对Towards High Performance Video Object Detection for Mobiles的简写）通过3种策略来进一步提升速度，应用于移动端(Light Flow、Flow-guided GRU based feature aggregation、Light image object detector)。

由于THP是在DFF和FGFA的基础上进行改进的，本文将直接从THP开始，顺便回顾DFF和FGFA。

Towards High Performance Video Object Detection

Motivation

DFF使用Sparse feature propagation在大多数帧上节省计算量，在这些帧上的特征由关键帧传播得到。然而传播得到的特征仅仅是近似并且是容易出错的，这会导致识别精度的下降。

FGFA使用多帧dense feature aggregation来改善所有帧的特征质量和检测精度。然而，由于频繁的运动估计、特征传播和聚集导致运行速度很慢。

这两个工作都有一个相同原则：运动估计模块构建再网络结构里面，在所有帧端到端学习所有模块。(Flow-based的视频目标检测算法都基于这个原则)

基于这个原则，为了进一步提升速度、精度和灵活度，THP提出了3种新的策略：

1.sparsely recursive feature aggregation用来保持聚集特征的质量同时减少在关键帧的计算量。

2.spatially-adaptive partial feature updating用来更新非关键帧的特征。

3.temporally-adaptive key frame scheduling用来替换之前固定的关键帧策略。

Revisiting Two Baseline Methods on Video

Sparse Feature Propagation

DFF第一次在视频目标检测领域引入关键帧的概念，认为有相似外观的相邻帧通常导致相似的特征，因此不必要在所有帧计算特征。

推理阶段，复杂的特征网络

只在稀疏的关键帧使用。通过每个像素特征值变换和双线性插值将之前的关键帧

聚集来得到所有非关键帧

的feature maps。帧之间像素级运动表示为2维运动场

。关键帧

聚集到帧

可以表示为：

表示为特征变换函数。随后将检测网络

作用在

上。

运动场通过轻量级的流网络估计得到，

，其中

，

为关键帧和非关键帧的输入。端到端训练所有模块(包括

)能够提升检测精度和改善特征近似的不精确。

Dense Feature Aggregation

FGFA第一次在视频目标检测领域引入时序特征聚集的概念，认为在某些帧的深度特征会受到外观衰退的影响(如运动模糊，遮挡等)，但是可能通过聚集邻近帧的特征来改善。

推理阶段，特征网络

在所有帧上进行密集估计。对于任何帧

来说，在一个时序窗

内的所有帧特征通过DFF的方法首先变换到帧

上，得到一系列的feature maps

。不同于DFF，FGFA的聚集在每一帧上进行。换句话说，可以认为每一帧都是关键帧。

帧

的聚集特征

通过权值平均得到：

其中

表示为枚举的特征位置，权值

通过聚集特征

和实际特征

的相似度计算自适应得到。特征

投射到一个嵌入特征

来计算相似度，并且该投射能够通过一个小的全卷积网络实现。

对于邻近帧，每个位置的权值都进行归一化，

。

和DFF相似，所有模块端到端联合训练。

High Performance Video Object Detection

Sparsely Recursive Feature Aggregation

虽然Dense Feature Aggregation显著提升检测精度，但是速度很慢。一方面，对所有帧进行特征网络

密集估计，然而由于相邻帧的外观非常相似，所以这是没有必要的。另一方面，特征聚集在多个feature maps上进行，并且需要估计多个流场，降低了检测速度。

作者提出Sparsely Recursive Feature Aggregation来估计特征网络

和并且将递归特征聚合应用在稀疏的关键帧上。给定两个连续关键帧

和

，帧

的聚集特征表示为：

其中

，

表示为元素相乘。在每个位置

的权值归一化为

。

原则上，聚集的关键帧特征

聚集了来自所有历史关键帧的丰富信息，并且随后传播到下一个关键帧对原始特征

进行聚集。

Spatially-adaptive Partial Feature Updating

虽然Sparse Feature Propagation通过跟真实特征

近似得到惊人的速度，但是由于相邻帧的外观改变导致聚集特征

是易出错的。

对于非关键帧，作者想要使用特征传播的想法来进行有效计算，然而该过程依赖于传播的质量。为了量化聚集特征是不是一个好的近似，作者引入了一个特征时序一致性。作者在流网络添加了一个子分支用于预测，另一个子分支用于预测运动场，表示为：

如果，那么聚集特征与真实特征是不一致的。也就是说，是一个差的近似，这表明需要来进行更新。

作者考虑对非关键帧进行局部特征更新，帧的特征更新表示为：

其中如果

，那么

且

。实验中，采用更加经济的方式，通过

层的局部更新特征

来计算

层的特征

，

。于是局部特征更新能够通过叠层计算。考虑到不同层之间特征分辨率不同，作者使用最近邻插值来更新。

作者使用一个直接估计器来估计梯度，如果

，那么梯度为

，否则梯度为

。因此是完全可微的。将

作为一个新值用于

的评估，因为

可以认为是

的偏差，这对于

的评估没有影响。为了简单起见，直接将

。

为了进一步的改善非关键帧的特征质量，特征聚集可以表示为：

每个位置

的权值归一化为

。

Temporally-adaptive Key Frame Scheduling

一种自然的关键帧选取策略是以预先固定的间隔选择一个关键帧。而更好的关键帧选取策略是在时间序列上自适应的动态选取。作者提出一种基于特征一致性指标

的关键帧选取策略：

设计一种简单启发式

函数：

是指示函数，

是所有位置

的数量。对于任何位置

，

表示外观改变或者巨大移动(导致差的特征传播质量)，如果所有像素计算得到的区域大于，那么这一帧标记为关键帧。

A Unified Viewpoint

为了有效计算特征，使用Spatially-adaptive Partial Feature Updating(可以推广到所有帧)。给定一帧

和该帧之前的关键帧

，Spatially-adaptive Partial Feature Updating可以表示为：

对于关键帧，

，传播特征

总是和真实特征

不太近似，需要重新计算

。对于非关键帧，

，传播特征

总是和真实特征

非常近似，可以直接使用传播特征

。

为了增强局部更新特征

，使用特征聚集。可以表示为：

为了进一步改善特征计算的效率，使用Temporally-adaptive Key Frame Scheduling。

推理的流程如伪代码所示：

总结

相比于图片，视频多了一个时间维度，大多数帧的信息都是冗余的，并且目标外观特征信息不充分，因此大大增加了目标检测的计算量，并且降低了目标检测的精度。而通过Flow-based的方法，可以很自然的减少视频目标检测的冗余计算并且缓解目标外观特征退化的问题。微软的几篇工作从时间维度出发，基于流对视频目标检测算法进行改善，一步一步的提升计算效率和精度。

Reference

1.Deep Feature Flow for Video Recognition

https://arxiv.org/abs/1611.07715

2.Flow-Guided Feature Aggregation for Video Object Detection

https://arxiv.org/abs/1703.10025

3.Towards High Performance Video Object Detection

https://arxiv.org/abs/1711.11577

4.Towards High Performance Video Object Detection for Mobiles

https://arxiv.org/abs/1804.05830

欢迎交流指正~~

*延伸阅读

CTR学习笔记&代码实现2-深度ctr模型 MLP->Wide&Deep

背景这一篇我们从基础的深度ctr模型谈起.我很喜欢Wide&Deep的框架感觉之后很多改进都可以纳入这个框架中.Wide负责样本中出现的频繁项挖掘,Deep负责样本中未出现的特征泛化.而后续 ...
使用OpenCV内置深度学习人脸模块，几行代码轻松完成人脸检测和识别

作者:冯远滔(OpenCV China),王成瑞(北京邮电大学),钟瑶瑶(北京邮电大学) 最新发布的OpenCV 4.5.4版本收录了一个基于深度学习神经网络的人脸模块(以下称"OpenCV ...
MS-DAYOLO来了！多尺度域自适应的YOLO，恶劣天气也看得见！

转载自:集智书童 Multiscale Domain Adaptive YOLO for Cross-Domain Object Detection 论文:https://arxiv.org/abs/ ...
左手罗氏，右手微软，TCR平台新锐公司募股3亿美元

6月27日,Adaptive Biotechnologies宣布其首次公开发行15,000,000股普通股,定价为$ 20.00每股,总额预计3亿美元. Adaptive开发的免疫测序平台具有高准确性 ...
每日一词：feature

今天我们要学习的词是:feature [ˈfiːtʃə(r)]vt. / n.1.特色,特征an interesting feature of city life 城市生活的一个有趣的特征2. 专题T ...
Google又发大招：高效实时实现视频目标检测

加入极市专业CV交流群,与6000+来自腾讯,华为,百度,北大,清华,中科院等名企名校视觉开发者互动交流!更有机会与李开复老师等大牛群内互动! 同时提供每月大咖直播分享.真实项目需求对接.干货资讯汇总 ...
MMTracking：目标跟踪工具箱开源了（支持单/多目标跟踪、视频目标检测）

本文作者:OpenMMLab https://zhuanlan.zhihu.com/p/341283833 2021年的第一个工作日,OpenMMLab 有新成员加入咯- 太长不看系列 MMTrack ...
DL之Yolov3：基于深度学习Yolov3算法实现视频目标检测

DL之Yolov3:基于深度学习Yolov3算法实现视频目标检测之对<俄罗斯总统普京对沙特王储摊的"友好摊手"瞬间-东道主俄罗斯5-0完胜沙特>视频段实时检测导读 ...
DL之Yolov3：基于深度学习Yolov3算法实现视频目标检测之对《跑男第六季》第四期片视频段进行实时目标检测

DL之Yolov3:基于深度学习Yolov3算法实现视频目标检测之对<跑男第六季>第四期片视频段进行实时目标检测完整视频请观看利用深度学习目标检测之对<跑男第六季>第四期片 ...
【视频课】超20小时理论与3大案例实践，助你彻底掌握目标检测

duo ge 前言目标检测是计算机视觉和数字图像处理的一个热门方向,广泛应用于机器人导航.智能视频监控.工业检测.航空航天等诸多领域,通过计算机视觉减少对人力资本的消耗,具有重要的现实意义.因此,目 ...
用于目标检测的半自动视频标注

重磅干货,第一时间送达小白导读论文是学术研究的精华和未来发展的明灯.小白决心每天为大家带来经典或者最新论文的解读和分享,旨在帮助各位读者快速了解论文内容.个人能力有限,理解难免出现偏差,建议对文章 ...
CVPR2019| 05-07更新14篇论文及代码合集（1篇oral，含目标检测/视频分割/目标跟踪等）

前段时间,计算机视觉顶会CVPR 2019 公布了接收结果,极市也对此做了相关报道:1300篇!CVPR2019接收结果公布,你中了吗?.目前官方已公布了接收论文列表,极市已汇总目前公开的所有论文链接 ...
CVPR2019| 04-23更新7篇论文及代码（1篇oral，含视频目标分割、物体检测、三维点云等）

前段时间,计算机视觉顶会CVPR 2019 公布了接收结果,极市也对此做了相关报道:1300篇!CVPR2019接收结果公布,你中了吗?.目前官方只公布了接收论文ID列表,极市已汇总目前公开的所有论文 ...
CVPR2019| 04-08更新19篇论文及代码（1篇oral、目标检测、行人检测、视频超分辨等）

前段时间,计算机视觉顶会CVPR 2019 公布了接收结果,极市也对此做了相关报道:1300篇!CVPR2019接收结果公布,你中了吗?.目前官方只公布了接收论文ID列表,极市已汇总目前公开的所有论文 ...

视频目标检测：Flow-based

Towards High Performance Video Object Detection

Revisiting Two Baseline Methods on Video

High Performance Video Object Detection

总结

相关推荐