PP-YOLOv2开源，你的目标检测器又该升级了！性能超越YOLOv5且推理耗时保持不变

2024-05-03 18:26:47

作者丨happy

审稿丨邓富城

编辑丨极市平台

极市导读

本文是百度的研究员对PP-YOLO的一次升级，从PP-YOLO出发，通过增量消融方式逐步添加有助于性能提升且不增加推理耗时的措施，取得了更佳的性能(49.5%mAP)-速度(69FPS)均衡，并优于YOLOv4与YOLOv5。 >>加入极市CV技术交流群，走在计算机视觉的最前沿

paper: https://arxiv.org/abs/2104.10419

code: https://github.com/PaddlePaddle/PaddleDetection

本文是百度的研究员对PP-YOLO的一次升级，取得更佳的性能(49.5%mAP)-速度(69FPS)均衡，并优于YOLOv4与YOLOv5。从PP-YOLO出发，通过增量消融方式逐步添加有助于性能提升且不增加推理耗时的模块达到提升PP-YOLO模型性能的目的。本文不仅对起正向作用的改进措施进行了分析，同时还对起负面作用的方案进行了说明。总而言之，一句话：你的目标检测器又该升级了。

Abstract

在实际应用场景中，有效性与高效性对于目标检测器非常重要。为满足这两个问题，我们全面评估了现有提高PP-YOLO性能的改进措施同时保持推理耗时不变。

本文对现有改进措施进行了分析并通过增强消融研究评估了其对最终模型的影响，此外，那些不起作用的也进行了讨论。通过组合多种有效改进，我们将PP-YOLO在COCO2017 test-dev数据上的性能从45.9%mAP提升到了49.5%mAP，并将所得到的模型称之为PP-YOLOv2。在推理速度方面，PP-YOLOv2可以达到68.9FPS@输入尺寸；采用Paddle推理引擎+TensorRT+FP16+bs1，可以进一步将PP-YOLOv2的推理速度提升到106.5FPS。这样优秀的性能碾压了同等参数量的YOLOv4-CSP,YOLOv5l等模型。除此之外，采用ResNet101骨干的PP-YOLOv2可以在COCO2017 test-dev数据集上取得50.3%mAP指标。

Introduction

尽管近年来提出了大量的目标检测算法，但是YOLOv3仍是工业界应用最广泛的算法。这是因为：在实际应用场景中，不仅计算资源有限，软件支持同样不够充分。然而，YOLOv3的性能与两阶段目标检测器的性能仍存在差异，因此，如何提升YOLOv3的有效性同时保持推理速度就成为了其实际应用时的关键问题。

为同时满足有效性与高效性，我们对PP-YOLO添加了大量基于不提升推理耗时的改进措施已提升其整体性能。需要注意的是，尽管有不少方法自称可以独立地改进目标检测器的性能，但实际上某些方法组合后反而失效。因此，这些改进措施的实际组合测试就变的非常有必要。我们基于PaddlePaddle框架采用增强方式逐个评估其有效性。

通过增量方式调整不同的改进措施，我们得到了本文的PP-YOLOv2，它达到了更好的性能(49.5%mAP)-效率(69FPS)均衡。超过了现有同参数量的检测器YOLOv4-CSP与YOLOv5.

Revisit PP-YOLO

我们先对基线模型的实现进行简单说明。

Pre-Processing 首先采用Mixup(服从分布)训练；然后以0.5概率逐个执行如下增广方案RandomColorDistortion、RandomExpand、RandCrop、RandomFlip；接下来进行归一化；最后输出尺寸从中随机抽取进行多尺度训练。

Baseline Model 本文的基线模型为YOLOv3的改进版PP-YOLO，具体来说，它的骨干网络为ResNet50-vd，通过总计10个改进措施(包含Deformable Conv、SSLD、CoordConv、DropBlock、SPP等)改进YOLOv3的性能且几乎不影响推理效率。可参见如下示意图。

Training Schedule 在COCO train2017数据集，采用SGD训练500k迭代，bs=96，在前4k迭代中将学习率线性的从0提升到0.005，然后再400k与450k处除10，weight_decay=0.0005，momentum=0.9，同时采用了梯度裁剪稳定训练。

Selection of Refinements

接下来，我们将介绍本文所用到的改进措施，包含结构、算子、输入尺寸以及损失等。

Path Aggregation Network 对不同尺度的目标进行检测是目标检测的一个基本挑战。实际上，检测Neck需要为所有尺度构建高级语义特征。PP-YOLO采用FPN构建bottom-up通路；近年来也有不少关于FPN的改进，比如BiFPN、PAN、RFP等。本文参考PAN的设计集成了top-down信息。可参见上面图示部分。

Mish Activation Function 已有研究YOLOv4与YOLOv5表明：Mish对于改进目标检测器的性能非常有效。由于我们已经有了一个非常强有力的预训练骨干模型(82.4%top1精度)，为保持骨干结构不变，我们仅将Mish用到了Neck部分。

Larger Input Size 提升输入尺寸可以增强目标面积，因此小尺度的目标信息可以更好的保持，进而可以提升模型性能。然而更大尺寸输入会占用更多内存，为使用这个技巧，我们需要减少batch。具体来说，我们将每个GPU的batch从24下降到12，并将输入尺寸从608提升到768。输入尺寸均匀的从中挑选。

IoU Aware Branch 在PP-YOLO中，IoU损失采用了软加权方式；在这里我们采用软标签形式，IoU损失定义如下：

其中t表示锚点与其匹配真实框之间的IoU，p表示原始IoU分支的输出。注：仅仅正样本的IoU损失进行了计算。通过替换损失函数，IoU损失分支表现更佳。

Experiments

COCO是目标检测领域广泛使用的基准数据，我们采用COCO train2017(包含80类、118k图像)进行训练；我们在COCO minival(包含5k图像)上进行评估，评估准则采用了标准COCO准则mAP。

Ablation Studies

在这部分中，我们主要说明所尝试的哪些有效改进，结果见下表。注：这里的推理速度仅仅考虑Fp32模型的影响，并不包含decoder与NMS。

A 首先，我们参考原始的PP-YOLO构建本文的基线模型，由于CPU端的重度预处理会减慢训练，我们将每个GPU的图像数从24下调到了12，降低bs会导致0.2%mAP指标下降。

PP-YOLO上添加的第一个正向改进为PAN，为稳定训练，我们为PAN模块添加了几个跳过连接，具体可以参见前面的图示部分。可以看到：PAN+Mish的添加可以将模型的性能从45.4%mAP提升到47.1%mAP。尽管B模型要比A模型稍慢，但这种程度的性能提升促使我们将PAN应用到最终的模型中。

由于YOLOv4与YOLOv5评估过程中的输入尺寸为640，我们将训练与评估的输入尺寸同样调整到了640以进行公平对比。可以看到：模型性能得到了0.6%mAP提升。

持续输入尺寸应该受益更多，然而不可能同时采用大输入尺寸与大batch。因此我们采用更大输入尺寸+每个GPU12图像训练模型D。此时可以带来额外的0.6%mAP指标提升。

在训练阶段，改进IoU损失表现更好。通过该损失的替换，模型E的提升提升到了49.1%mAP指标且不造成推理效率的损失。

Comparsion with Other SOTA Detectors

上表给出了所提方法与其他SOTA方案的性能、效率对比，从中可以看到：

PP-YOLOv2显著优于YOLOv4-CSP与YOLOv5；
在同等FPS下，PP-YOLOv2以2%mAP优于YOLOv4-CSP，以1.3%AP优于YOLOv5l；
替换ResNet50为ResNet101后，PP-YOLOv2的性能与YOLOv5x相当且推理速度快15.9%。

Things We Tried That Didn't Work

由于COCO train2017数据上训练(8个V100)PP-YOLO需要花费80小时，因此我们采用COCO minitrain(它是COCO train2017的子集，包含25K图像)加速消融分析。在COCO minitrain数据上总计训练90k迭代并在60k迭代是学习率除10，其他训练配置同前。

在PP-YOLOv2的研发过程中，我们尝试了大量的素材，某些在COCO minitrain上有正向作用但在COCO train2017上反而具有负面作用。接下来，我们对其中一些进行讨论分析。

Cosine Learning Rate Decay 不同于线性方式学习率衰减，cosine方式学习率衰减是一种平滑的学习率调整，会更有益于训练过程。尽管cosine学习率在COCO minitrain表现更佳，但它对于超参(比如初始学习率、warmup迭代次数、最终的学习率)比较敏感。我们尝试了多种超参数组合，但是在COCO train2017上并未发现正向作用。

Backbone Parameter Freezing 当在下游任务微调ImageNet预训练模型，冻结前两阶段的参数是一种常用策略。尽管在COCO minitrain上这种策略可以带来1%mAP的性能增益，然而COCO train2017数据上反而带来了0.8%mAP性能下降。

SiLU Activation Function 我们还尝试在DetectionNeck中采用SiLU替换Mish，在COCO minitrain可以带来0.3%mAP指标提升，但是在COCO train2017上反而带来了0.5%mAP指标下降。

Conclusion

本文对PP-YOLO进行了更新得到了PP-YOLOv2，取得了更高的性能同时保持推理速度不明显提升，在性能-推理速度方面取得了更好的均衡，取得了优于YOLOv4与YOLOv5的性能。我们在PP-YOLO的基础上，通过评估、添加不同的改进措施提升PP-YOLO的性能。

本文亮点总结

1.通过增量方式调整不同的改进措施，我们得到了本文的PP-YOLOv2，它达到了更好的性能(49.5%mAP)-效率(69FPS)均衡。超过了现有同参数量的检测器YOLOv4-CSP与YOLOv5。

2.本文的基线模型为YOLOv3的改进版PP-YOLO，它的骨干网络为ResNet50-vd。

3.与其他SOTA方案的性能、效率对比：

PP-YOLOv2显著优于YOLOv4-CSP与YOLOv5；
在同等FPS下，PP-YOLOv2以2%mAP优于YOLOv4-CSP，以1.3%AP优于YOLOv5l；
替换ResNet50为ResNet101后，PP-YOLOv2的性能与YOLOv5x相当且推理速度快15.9%。

如果觉得有用，就请分享到朋友圈吧！

△点击卡片关注极市平台，获取最新CV干货

YOLO v4：物体检测的最佳速度和精度

重磅干货,第一时间送达 YOLOYOLO v4 1 介绍将YOLOv3的AP和FPS分别提高10%和12%[5](浅蓝色区域的模型被视为实时目标检测器) 可以看出,EfficientDet D4-D ...
PP-YOLO何许模型？竟然超越了YOLOv4

重磅干货,第一时间送达 PP-YOLO评估显示出更快的推断(x轴)和更好的准确性(y轴) PP-YOLO评估指标显示出比现有的最新对象检测模型YOLOv4更高的性能.但是,提出者百度却谦虚的声明: 无 ...
用自己的数据集训练pytorch版的yolo模型

参考资料:https://www.cnblogs.com/pprp/p/10863496.html#3-%E8%AE%AD%E7%BB%83%E6%A8%A1%E5%9E%8B 下载yolo和安装环境 ...
(4条消息) 10分钟学会使用YOLO及Opencv实现目标检测（上）|附源码

计算机视觉领域中,目标检测一直是工业应用上比较热门且成熟的应用领域,比如人脸识别.行人检测等,国内的旷视科技.商汤科技等公司在该领域占据行业领先地位.相对于图像分类任务而言,目标检测会更加复杂一些,不 ...
YOLO v3在Windows下的配置（无GPU） opencv3.2.0 VS2015

邮箱1:marsmarcin@sina.com 邮箱2:2156362475@qq.com GPU版本请直接查看YOLOV3--GPU版本在Windows配置及注意事项怎么训练--YOLO-V3训练 ...
位置蒸馏：针对目标检测提高定位精度的知识蒸馏

论文链接:https://arxiv.org/abs/2102.12252 项目链接:https://github.com/HikariTJU/LD 论文作者来自天津大学.哈尔滨工业大学. ...
Windows下基于VS2019|Opencv4.2.0|CUDA10.0|YOLOv4

一.安装VS2019 由于我只需要用到C++相关功能,所以只勾选了C++那个选项,右侧[安装详细信息]那栏中默认就好了,安装路径可以修改,默认安装在C盘. 如果以后有其他需求需要安装其他的,可以之打开 ...
Yolov5 系列2

上一篇<Yolov5 系列1- Yolo发展史以及Yolov5模型详解>讲了Yolo的发展历史,这一篇的目的是讲述如何使用Yolo v5训练自定的数据集,并会分析一些常见的选项以及背后的故 ...
卧槽！火爆github！超越YOLOv5，1.3M超轻量，高效易用，这个目标检测开源项目太香了！

这个目标检测神器简直香炸了!它不仅连续登录Github全球趋势榜,拥有的全球尖端算法论文也接连登录全球技术趋势榜PaperWithCode. 这个神器就是刚刚全面升级的PaddleDetection2 ...
重磅！2K图像90FPS，中科院开源轻量级通用人脸检测器

加入极市专业CV交流群,与6000+来自腾讯,华为,百度,北大,清华,中科院等名企名校视觉开发者互动交流!更有机会与李开复老师等大牛群内互动! 同时提供每月大咖直播分享.真实项目需求对接.干货资讯汇总 ...
CVPR 2018|Cascade R-CNN：向高精度目标检测器迈进

极市平台是专业的视觉算法开发和分发平台,加入极市专业CV交流群,与6000+来自腾讯,华为,百度,北大,清华,中科院等名企名校视觉开发者互动交流!更有机会与李开复老师等大牛群内互动! 同时提供每月大咖 ...
【YOLOX】新一代 anchor-free 目标检测器，吊打一切！

OLOX 介绍 YOLOX 在 YOLO 系列的基础上做了一系列工作,其主要贡献在于:在 YOLOv3 的基础上,引入了「Decoupled Head」,「Data Aug」,「Anchor Free ...
终于！商汤科技开源DAVIS2017视频目标分割冠军代码

用目标重识别改进视频目标分割. 传统视频分割经常依赖于时序连续来生成mask(目标的掩膜),而真实的视频中的目标位置往往存在着一些跳变,比如在目标快速漂移和被遮挡的时候因为较大的位移而使得这种假设目标 ...
CVPR2021 用更好的目标检测器提取视觉特征！微软提出VinVL，基于更好的视觉特征，达到更强的多模态性能

0 写在前面本文详细研究了视觉语言(VL)任务中更好的视觉表示,并开发了一种目标检测模型,来提供以对象为中心的图像表示.与最广泛使用的bottom-up and top-down模型相比,新模型更大 ...
超越YOLOv5！1.3M超轻量，又好又快！目标检测神器来了

不论你需要通用目标检测.实例分割.旋转框检测,还是行人检测.人脸检测.车辆检测等垂类算法: 不论是精度效果超强,还是超轻量适合在边缘部署的算法: 不论你是学术科研工作者,还是产业开发者: 不论你是刚入 ...
火箭关注！篮网达成3方交易，目标哈登！快船升级，湖人压力来了

北京时间11月19日,2020年NBA选秀大会正式到来.在这样一个日子里,NBA联盟显得异彩纷呈.随着选秀大会的开启,联盟各种交易接踵而至,让球迷们感到目不暇接.这一天,虽然没有什么震撼人心的重量级大 ...
打破Transformer宿命，新秀VOLO开源！横扫CV多项记录，首个超越87%的模型

作者丨Happy 审稿|邓富城编辑丨极市平台极市导读一直以来,Transformer的性能距离最佳的CNN仍存在差距,而今天由颜水成团队开源的新秀VOLO打破了这一宿命,成为了ImageNet数 ...