【泡泡一分钟】基于无监督网络的单幅图像深度估计与分割多任务学习

每天一分钟,带你读遍机器人顶级会议文章

标题:Multi-Task Learning for Single Image Depth Estimation and Segmentation Based on Unsupervised Network

作者:Yawen Lu, Michel Sarkis, and Guoyu Lu

来源:2020 IEEE International Conference on Robotics and Automation (ICRA)

编译:林只只

审核:柴毅,王靖淇

这是泡泡一分钟推送的第 640 篇文章,欢迎个人转发朋友圈;其他机构或自媒体如需转载,后台留言申请授权

摘要

深度神经网络显著提高了各类计算机视觉任务的性能,包括单幅图像深度估计和图像分割。但是,大多数现有方法都以监督的方式处理它们,并且需要大量的地面真值标签,这些标签消耗了大量的人工,并且在实际场景中并不总是可用。在本文中,我们提出了一种新型的框架,通过联合训练用于单个图像深度估计的基于编码器-解码器的交互式卷积神经网络(CNN)和用于图像分割的多类别CNN,来同时估计视差图和图像分割。在一项多任务学习框架下,从另一项学习中同时学习可以为一项任务学习神经网络。我们证明了我们提出的模型可以从单个图像输入中学习每像素深度的回归和分割。在可用的公共数据集(包括KITTI,Cityscapes urban和PASCALVOC)上进行的大量实验证明,与其他最新的联合估计方法相比,我们的模型是有效的。

图1  我们的方法对单幅图像进行深度估计和分割的测试图像

图2 提出的学习框架概述。所提出的体系结构包括两个任务(单个图像深度估计和分割)以及从整个任务的光谱和空间角度来看的五个损耗约束。共享编码器与每个任务的相应解码器连接,以生成逐像素级别的深度图和分割图。

图3 其他方法(SfMLearer [46](第二列),Monodepth [13](第三列)和我们的方法(第四列)之间的比较,对KITTI的单图深度估计结果。较亮的颜色表示较近的像素。

图4 在KITTI上进行多类细分的视觉比较。第一列:输入RGB图像;第二栏:FCN ResNet50 [15] [26];第三栏:Segnet[2];第四栏:我们的方法。

图5 KITTI数据集上最典型的场景数量比较

图6 我们在PASCAL VOC 2012和Berkeley分割数据集上的多类别分割预测示例。注意我们的模型仅在KITTI数据集上训练。

表1 与其他单图深度估计最新方法的结果比较。在训练阶段,所有方法都在KITTI数据集上进行训练,以保证公平比较。我们将有监督和无监督的方法进行比较,将单幅图像[8] [25] [10] [13]和单目视频[46] [28]作为输入。

表2 在KITTI数据集上进行联合学习和单任务学习的结果比较。我们发现,当通过我们的联合框架和多任务损失约束进行训练,结果有所改善。

Abstract

Deep neural networks have significantly enhanced the performance of various computer vision tasks, including single image depth estimation and image segmentation. However, most existing approaches handle them in supervised manners and require a large number of ground truth labels that consume extensive human efforts and are not always available in real scenarios. In this paper, we  propose a novel framework to estimate disparity maps and segment images simultaneously by jointly training an encoder-decoder-based interactive convolutional neural network (CNN) for single image depth estimation and a multiple class CNN for image segmentation. Learning the neural network for one task can be beneficial from simultaneously learning from another one under a multi-task learning framework. We show that our proposed model can learn per-pixel depth regression and segmentation from just a single image input. Extensive experiments on available public datasets, including KITTI, Cityscapes urban, and PASCALVOC demonstrate the effectiveness of our model compared with other state-of-the-art methods for both tasks.

(0)

相关推荐

  • 重磅!MobileNetV3 来了!

    在现代深度学习算法研究中,通用的骨干网+特定任务网络head成为一种标准的设计模式.比如VGG + 检测Head,或者inception + 分割Head. 在移动端部署深度卷积网络,无论什么视觉任务 ...

  • Proceedings of the IEEE:医学影像深度学习(下)

    深度学习(DL)已被广泛用于各种医学成像任务,并在许多医学成像应用中取得了显著成功,从而将我们带入了所谓的人工智能(AI)时代.但人工智能的成功主要归功于单任务标记大数据的可用性以及高性能计算的发展. ...

  • 使用Transformer的无卷积医学图像分割

    重磅干货,第一时间送达 小白导读 论文是学术研究的精华和未来发展的明灯.小白决心每天为大家带来经典或者最新论文的解读和分享,旨在帮助各位读者快速了解论文内容.个人能力有限,理解难免出现偏差,建议对文章 ...

  • 【百战GAN】GAN也可以拿来做图像分割,看起来效果还不错?

    大家好,欢迎来到专栏<百战GAN>,在这个专栏里,我们会进行算法的核心思想讲解,代码的详解,模型的训练和测试等内容. 作者&编辑 | 言有三 本文资源与生成结果展示 本文篇幅:56 ...

  • 利用U-Net上下文融合模块实现高效的手掌线分割

    重磅干货,第一时间送达 小白导读 论文是学术研究的精华和未来发展的明灯.小白决心每天为大家带来经典或者最新论文的解读和分享,旨在帮助各位读者快速了解论文内容.个人能力有限,理解难免出现偏差,建议对文章 ...

  • 10个预训练模型开始你的深度学习(计算机视觉部分)

    重磅干货,第一时间送达 作者:PRANAV DAR编译:ronghuaiyang导读对于希望学习算法或尝试现有框架的人来说,预训练的模型是一个很好的帮助.由于时间限制或计算资源的限制,不可能总是从头构 ...

  • ICCV2019 | SinGAN:从单幅图像学习生成模型,可应用于多种图像处理操作

    本文对ICCV2019论文<SinGAN:Learning a Generative Model from a Single Natural Image>进行解读. 这篇论文提出了一种可以 ...

  • 【总结】循序渐进,有三AI不得不看的技术综述(超过100篇核心干货)

    有三AI很少写零散的报导,因为我们的文章通常都是提炼与总结,一般遇到一个新方向,找技术综述读一读是最合适的开始,大家也可以拓展一下自己的知识边界,今天总结一下有三AI迄今为止发过的技术综述类文章,也欢 ...

  • NVIDIA ECCV18论文:超像素采样网络助力语义分割与光流估计(代码将开源)

    计算机视觉中超像素指具有相似纹理.颜色.亮度等特征的相邻像素构成的具有一定视觉意义的不规则像素块.它利用像素之间特征的相似性将像素分组,用少量的超像素代替大量的像素来表达图片特征,可以大幅度降低图像后 ...

  • HALCON 20.11:深度学习笔记(2)

    HALCON 20.11.0.0中,实现了深度学习方法. 由于上面提到的DL方法在它们的作用和它们如何需要数据方面各不相同,所以您需要知道哪种方法最适合您的特定任务. 一旦清楚了这一点,您就需要收集适 ...

  • 深度神经网络的图像语义分割研究综述

    摘要 随着深度学习的迅速发展并广泛应用到语义分割领域,语义分割效果得到了显著的提 升.本文主要对基于深度神经网络的图像语义分割方法和研究现状进行了详细的综述.根据 网络训练方式的不同,将现有的方法分为 ...

  • 通过对比对象掩码建议的无监督语义分割

    重磅干货,第一时间送达 小白导读 论文是学术研究的精华和未来发展的明灯.小白决心每天为大家带来经典或者最新论文的解读和分享,旨在帮助各位读者快速了解论文内容.个人能力有限,理解难免出现偏差,建议对文章 ...

  • 你读那么多CV论文有什么用,还不如我复现 1 篇!

    深度之眼招募人工智能Paper讲师,兼职时间一年可赚30w,招聘详情见文章底部. 学计算机视觉千万不能错过图像分割! 它是图像理解领域关注的一个热点! 是图像分析的第一步! 是图像理解的基础,也是图像 ...