利用合成图像对热图像进行鲁棒行人检测
重磅干货,第一时间送达
小黑导读
论文是学术研究的精华和未来发展的明灯。小黑决心每天为大家带来经典或者最新论文的解读和分享,旨在帮助各位读者快速了解论文内容。个人能力有限,理解难免出现偏差,建议对文章内容感兴趣的读者,一定要下载原文,了解具体内容。
摘要
在本文中,作者提出了一种在热域中改进行人检测的方法:首先,使用生成数据增强方法,然后使用生成数据的域自适应方法适应RGB行人检测器。作者的模型,基于最小二乘生成对抗网络,被训练合成输入RGB图像的真实热版本,然后用于增加有限数量的标记热行人图像可供训练。作者应用生成数据增强策略,以适应预训练的YOLOv3行人检测器,以检测仅在热领域。实验结果证明了作者方法的有效性:使用不到50%的实际热训练数据,并在域自适应阶段依靠作者的模型合成的数据,作者的检测器在KAIST多光谱行人检测基准上取得了最先进的结果;即使有更多真实的热数据可用,将GAN生成的图像添加到训练数据中也会提高性能,从而表明这些图像是一种有效的数据增强形式。据作者所知,作者的探测器在KAIST上获得了最先进的单模态检测结果。
这项工作的贡献是:
·作者提出了一种基于最小二乘生成对抗网络(LSGAN)[14]的新生成模型,能够从RGB合成热图像;
·作者提出了一种混合真实/合成训练域自适应程序,使用作者的LSGAN将真实热图像与从未标记的RGB行人图像合成的热图像混合,并使用这个增强训练集来适应YOLOv3[15]检测器;
·作者进行了广泛的消融研究,以探索作者方法的有效性,以及真实图像和合成图像的各种混合比例;
·作者进行了大量的实验,将作者的方法与最先进的方法进行了比较,据作者所知,作者的仅热探测器在KAIST多光谱行人检测基准上比所有最先进的单模检测方法表现得更好。
框架结构
系统概述:vis2therm GAN从可见数据生成假热图像;混合了真实和虚假的热图像以及相关的物体边界盒,用来训练一个物体探测器,然后用热成像相机的图像进行测试。
作者的模型是经过对抗和知觉损失训练的LSGAN。最小二乘GAN (LSGAN),改进了标准GAN模型,将损失函数从交叉熵改变为平方距离。它比较稳定,也比较容易训练。Generator G架构使用残差密集块(RRDB)中的残差作为基本单元构建。与[59]一样,作者从传统的convb - bn - lrelu三元组中去掉批处理规范化层。初始降采样卷积后,)顺序堆叠5个RDDB块。每个RDDB块由4个密集块组成。每个密集块的增长率为k = 32,包含5对连续的卷积层,后面是一个漏泄矫正线性单元(LReLU)。
实验结果
使用80%的真实图像和20%的合成图像训练的检测器检测示例。第一行是有感知损失的检测结果,第二行是没有感知损失的检测结果。蓝框表示真阳性检测,绿框表示假阴性,红框表示假阳性。
韩科院热图像与探测的例子
第一行是白天图像,第二行是夜间图像。第一列和第二列分别为纯合成训练和纯真实训练的检测结果。第三列和最后一列分别是全部和混合90%的比例。蓝框表示真阳性检测,绿框表示假阴性,红框表示假阳性。
结论
本文提出了一种基于LSGAN的新型GAN结构,用于将可见光光谱图像转换成热光谱图像。作者还提出了一种新的训练方法,将真实图像和合成图像混合,以适应YOLOv3探测器在热域的检测。大量的实验验证表明,作者的方法在KAIST数据集上的行人检测方面优于最先进的单模态检测器。作者的实验表明,即使只使用50%可用的真实热图像,也有可能获得与使用100%真实热图像训练的最先进方法相媲美的结果。这表明,使用作者提出的GAN生成的图像是有益的,可能有助于调整可见光谱探测器,使其在缺乏训练数据的领域中运行。
论文链接:https://arxiv.org/pdf/2102.02005.pdf
每日坚持论文分享不易,如果喜欢我们的内容,希望可以推荐或者转发给周围的同学。
- END -
#投 稿 通 道#
让你的论文被更多人看到
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。深度学习爱好者 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
深度学习爱好者 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学习心得或技术干货。我们的目的只有一个,让知识真正流动起来。
📝 来稿标准:
· 稿件确系个人原创作品,来稿需注明作者个人信息(姓名+学校/工作单位+学历/职位+研究方向)
· 如果文章并非首发,请在投稿时提醒并附上所有已发布链接
· 深度学习爱好者 默认每篇文章都是首发,均会添加“原创”标志