利用深度信息进行野生动物监测

重磅干货,第一时间送达

小白导读

论文是学术研究的精华和未来发展的明灯。小白决心每天为大家带来经典或者最新论文的解读和分享,旨在帮助各位读者快速了解论文内容。个人能力有限,理解难免出现偏差,建议对文章内容感兴趣的读者,一定要下载原文,了解具体内容。

摘要

相机陷阱是生物学,特别是生物多样性研究中一个已被证实的工具。然而,包括深度估计在内的相机陷阱并没有得到广泛应用,尽管它提供了有关场景的有价值的背景信息,并促进了以前费力的人工生态方法的自动化。

在本研究中,作者提出一种基于相机陷阱的自动方法,利用深度估计来检测和识别动物。为了检测和识别单个动物,作者提出了一种新的方法D-Mask R-CNN,用于所谓的实例分割,这是一种基于深度学习的技术,用于检测和描绘图像或视频剪辑中出现的每个不同的感兴趣的对象。一项实验评估表明,与仅依赖图像信息的标准方法相比,额外的深度估计在提高动物检测的平均精度分数方面有好处。这个新方法也被评估在一个动物园场景中使用RGB-D相机陷阱的概念证明。

框架结构

D-Mask R-CNN的架构

蓝色阴影区域表示对标准掩模R-CNN架构的贡献。

深度骨干。深度主干用与颜色主干相同的参数即网络权值进行初始化,除了在第一层。在这一层中,权重期望一个三通道的RGB颜色图像,而深度通道仅仅是一维的。因此,作者对图像骨干的第一个权值维进行平均,得到深度骨干的第一层适当的初始权值。在训练时,深度骨干的权重当然会与颜色骨干的权重不同,也就是说,作者不使用两个骨干之间的权重共享。或者,作者也可以随机初始化深度骨干的权重。但是,从一个预先训练的模型初始化是可取的,因为某些滤波器,例如专门用于边缘检测的滤波器,对于解释RGB-D图像的深度通道是同样可取和有用的。

色彩与深度特征的融合。在通过两个主干传播输入时,作者提取了深度256的中间特征图,与标准掩码R-CNN中单个主干的情况相同。然后,作者将每个级别(深度512)的两个主干的特征映射连接起来,并将它们通过一个内核大小为3 3的单一卷积层(每个层都有一个专门的层),从而将连接的特征映射的深度从512降低到256。作者称这个操作为特征融合,因为它将所有三个颜色通道和深度通道的特征信息进行融合,以一致的方式进行进一步处理。虽然作者的D-Mask R-CNN架构与Xu等人(2020)的方法相似,两者都使用了两个独立的骨干来进行颜色通道和深度通道,但作者在选择从两个骨干获得的特征方面没有对网络架构施加先验约束。

设备安装方式

建立RGB-D摄像机。(A):英特尔RealSense D435, (B): NVIDIA Jetson Nano开发工具包,(C)被动式红外传感器(PIR,在此图像中不直接可见),(D)用于控制的L298N (E):夜间照明的红外灯,(F): tp-link Archer T4U无线局域网适配器。

实验结果

两帧来自RGB-D相机陷阱数据集的视频剪辑,覆盖了来自D-Mask R-CNN的边界框预测和分割掩码预测。左:强度,右:深度。

结论

在本研究中,作者提出一种基于相机陷阱的自动方法,利用深度估计来检测和识别动物。为了检测和识别个体动物,作者提出了DMask R-CNN用于在RGB-D视频剪辑中检测和描绘不同的动物。一项实验评估表明,与仅依赖图像信息的标准方法相比,额外的深度估计在提高动物检测的平均精度分数方面有好处。D-Mask R-CNN在动物框架合成数据集上显示,与标准Mask R-CNN方法的相应AP得分分别为38.04%和26.47%相比,采用包围盒和分割面具方法检测动物的AP得分分别提高了47.85%和35.49%。

这个新方法D-Mask R-CNN也被评估在一个动物园场景中使用RGB-D相机陷阱的概念证明。D-Mask R-CNN显示,通过包围盒和分割面具检测鹿的AP得分分别为59.94%和37.27%。未来的工作将扩展用于训练和测试的RGB-D相机陷阱数据集。

此外,部署基于立体的RGB-D相机陷阱与更大的基线计划,以改善深度估计更遥远的动物。

论文链接:https://arxiv.org/pdf/2102.05607.pdf

每日坚持论文分享不易,如果喜欢我们的内容,希望可以推荐或者转发给周围的同学。

- END -

(0)

相关推荐