【泡泡一分钟】基于无监督网络的单幅图像深度估计与分割多任务学习
每天一分钟,带你读遍机器人顶级会议文章
标题:Multi-Task Learning for Single Image Depth Estimation and Segmentation Based on Unsupervised Network
作者:Yawen Lu, Michel Sarkis, and Guoyu Lu
来源:2020 IEEE International Conference on Robotics and Automation (ICRA)
编译:林只只
审核:柴毅,王靖淇
这是泡泡一分钟推送的第 640 篇文章,欢迎个人转发朋友圈;其他机构或自媒体如需转载,后台留言申请授权
摘要
深度神经网络显著提高了各类计算机视觉任务的性能,包括单幅图像深度估计和图像分割。但是,大多数现有方法都以监督的方式处理它们,并且需要大量的地面真值标签,这些标签消耗了大量的人工,并且在实际场景中并不总是可用。在本文中,我们提出了一种新型的框架,通过联合训练用于单个图像深度估计的基于编码器-解码器的交互式卷积神经网络(CNN)和用于图像分割的多类别CNN,来同时估计视差图和图像分割。在一项多任务学习框架下,从另一项学习中同时学习可以为一项任务学习神经网络。我们证明了我们提出的模型可以从单个图像输入中学习每像素深度的回归和分割。在可用的公共数据集(包括KITTI,Cityscapes urban和PASCALVOC)上进行的大量实验证明,与其他最新的联合估计方法相比,我们的模型是有效的。
图1 我们的方法对单幅图像进行深度估计和分割的测试图像
图2 提出的学习框架概述。所提出的体系结构包括两个任务(单个图像深度估计和分割)以及从整个任务的光谱和空间角度来看的五个损耗约束。共享编码器与每个任务的相应解码器连接,以生成逐像素级别的深度图和分割图。
图3 其他方法(SfMLearer [46](第二列),Monodepth [13](第三列)和我们的方法(第四列)之间的比较,对KITTI的单图深度估计结果。较亮的颜色表示较近的像素。
图4 在KITTI上进行多类细分的视觉比较。第一列:输入RGB图像;第二栏:FCN ResNet50 [15] [26];第三栏:Segnet[2];第四栏:我们的方法。
图5 KITTI数据集上最典型的场景数量比较
图6 我们在PASCAL VOC 2012和Berkeley分割数据集上的多类别分割预测示例。注意我们的模型仅在KITTI数据集上训练。
表1 与其他单图深度估计最新方法的结果比较。在训练阶段,所有方法都在KITTI数据集上进行训练,以保证公平比较。我们将有监督和无监督的方法进行比较,将单幅图像[8] [25] [10] [13]和单目视频[46] [28]作为输入。
表2 在KITTI数据集上进行联合学习和单任务学习的结果比较。我们发现,当通过我们的联合框架和多任务损失约束进行训练,结果有所改善。
Abstract
Deep neural networks have significantly enhanced the performance of various computer vision tasks, including single image depth estimation and image segmentation. However, most existing approaches handle them in supervised manners and require a large number of ground truth labels that consume extensive human efforts and are not always available in real scenarios. In this paper, we propose a novel framework to estimate disparity maps and segment images simultaneously by jointly training an encoder-decoder-based interactive convolutional neural network (CNN) for single image depth estimation and a multiple class CNN for image segmentation. Learning the neural network for one task can be beneficial from simultaneously learning from another one under a multi-task learning framework. We show that our proposed model can learn per-pixel depth regression and segmentation from just a single image input. Extensive experiments on available public datasets, including KITTI, Cityscapes urban, and PASCALVOC demonstrate the effectiveness of our model compared with other state-of-the-art methods for both tasks.