用于道路场景实时准确语义分割的深度双分辨率网络

2024-06-25 05:01:25

重磅干货，第一时间送达

小白导读

论文是学术研究的精华和未来发展的明灯。小白决心每天为大家带来经典或者最新论文的解读和分享，旨在帮助各位读者快速了解论文内容。个人能力有限，理解难免出现偏差，建议对文章内容感兴趣的读者，一定要下载原文，了解具体内容。

摘要

语义分割是自动驾驶汽车了解周围场景的关键技术。对于实际的自动驾驶汽车来说，为了获得高精度的分割结果而花费大量的推理时间是不可取的。最近的方法使用轻量级架构(编码器、解码器或双通道)或对低分辨率图像进行推理，实现了非常快的场景解析，甚至在单个1080Ti GPU上运行超过100 FPS。然而，这些实时方法和基于膨胀骨架的模型在性能上仍然存在明显的差距。为了解决这一问题，作者提出了一种新型的深度双分辨率网络(DDRNets)用于道路场景的实时语义分割。此外，作者还设计了一种新的上下文信息提取器——深度聚合金字塔池模块(Deep Aggregation Pyramid Pooling Module, DAPPM)，以扩大有效的接受域，融合多尺度上下文。作者的方法在城市景观和CamVid数据集的准确性和速度之间实现了最新的最先进的平衡。特别,在2080Ti GPU，DDRNet-23-slim收益率77.4% mIoU 109 FPS城市测试集和74.4%在230 FPS mIoU CamVid测试集,没有利用注意力机制,pretraining更大的语义分割数据集或推理加速度,DDRNet-39达到80.4%的测试mIoU在城市23 FPS。由于广泛使用的测试增强，作者的方法仍然优于大多数最先进的模型，需要更少的计算。守则和训练过的模型将向公众开放。

论文创新点

本文受HRNet的启发，提出了一种具有深度高分辨率表示能力的深度双分辨率网络，用于高分辨率图像的实时语义分割，特别是针对道路驾驶图像。作者的DDRNet从一个主干开始，然后分成两个不同分辨率的平行深分支。一个深度分支生成相对高分辨率的特征图，另一个通过多次下采样操作提取丰富的上下文信息。为了实现有效的信息融合，在两个分支之间建立了多个双边连接。此外，作者还提出了一种新的模块DAPPM，该模块比普通的PPM模块能更充分地增加接收域，提取上下文信息。在对语义分割数据集进行训练之前，首先在ImageNet上按照常见的范式对双分辨率网络进行训练。

根据在两个流行基准上的大量实验结果，DDRNet在分割精度和推理速度之间取得了很好的平衡，并且在训练过程中比HRNet占用更少的GPU内存。与其他实时算法相比，作者的方法在城市景观和CamVid上实现了新的最先进的mIoU，没有注意机制和任何额外的铃声或口哨。使用标准的测试增强技术，DDRNet可以与最先进的模型相媲美，但需要的计算资源要少得多。

其主要贡献总结如下:

提出了一种新的深度双分辨率双边网络用于实时语义分割。作者的网络获得新的最先进的性能考虑推理速度没有任何额外的铃声或哨子。
设计了一个新的模块，通过将特征聚合与金字塔池相结合来获取丰富的上下文信息。当它与低分辨率的特征映射集成时，推理时间几乎没有增加。
通过简单的增加网络的宽度和深度，DDRNet在现有的方法中实现了mIoU和FPS之间的最大权衡，在cityscape测试集上，从77.4%的mIoU在109 FPS到80.4%的mIoU在23 FPS。

框架结构

双侧融合细节在DDRNet中。在ReLU之前实现了求和融合。

语义分割的DDRNets综述。RB表示顺序剩余基本块。RBB表示单个剩余瓶颈块。DAPPM表示深度聚合金字塔池化模块。赛格。Head表示分割头。黑色实线表示有数据处理的信息路径(包括上采样和下采样)，黑色虚线表示没有数据处理的信息路径。sum表示逐点连接。虚线框表示在推理阶段被忽略的组件。

实验结果

cityscape val set上的可视化分割结果。从左到右的四列分别为输入图像、ground truth、DDRNet-23-slim的输出、DDRNet-23的输出。前四行显示了两种模型的性能，后两行表示了一些分割失败。

结论

本文提出了一种新的用于道路场景实时语义分割的深度双分辨率体系结构，并提出了一种新的多尺度上下文信息提取模块。据作者所知，作者是第一个将深度高分辨率表示引入实时语义分割的公司，作者的简单策略在两种流行基准上优于所有以前的模型，而不需要任何额外的附加功能。现有的实时网络大多是为ImageNet精心设计的或专门为ImageNet设计的高级骨干，这与广泛用于高精度方法的扩张骨干有很大不同。相比之下，DDRNet只利用了基本的残余模块和瓶颈模块，通过缩放模型的宽度和深度，可以提供更大范围的速度和精度权衡。由于作者的方法简单和高效，它可以被视为统一实时和高精度的语义分割的强大基线。

论文链接：https://arxiv.org/pdf/2101.06085.pdf

每日坚持论文分享不易，如果喜欢我们的内容，希望可以推荐或者转发给周围的同学。

- END -

【论文速读】RandLA-Net大规模点云的高效语义分割

文章:RandLA-Net: Efficient Semantic Segmentation of Large-Scale Point Clouds 作者:Qingyong Hu1, Bo Yang1 ...
【DST系列】DST模型介绍

上两篇我们介绍了DST的基本概念,DST挑战,以及DST的模型分类,这一部分我们主要介绍有哪些模型能够解决DST存在的问题,以及能够解决哪些问题,不能解决哪些问题,对应的优缺点,深入理解模型设计的思想 ...
Pylance 性能更新，微软新的VS Code Python 插件已趋于稳定

微软宣布,Pylance -- 其在Visual Studio Code中对Python的快速且功能丰富的语言支持,现已正式完成测试,并达到其第一个稳定版本. 本周早些时候,Pylance 已被列为 ...
计算成本缩减100倍！港中文提出语义分割新方法：张量低秩重建｜ECCV2020

提出背景:上下文信息在语义分割的作用很重要.目前的两种方法:一种是基于非局部自注意力对上下文信息进行收集.这种方法是用2D相似度矩阵描述3D上下文信息,但是这种空间压缩会导致通道方面的注意力的丢失.另 ...
基于相机和低分辨率激光雷达的三维车辆检测

标题:3D Vehicle Detection Using Camera and Low-Resolution LiDAR Zhang, Rui Huang, Le Cui, Siyu Zhu, an ...
多尺度深度特征（上）：多尺度特征学习才是目标检测精髓（干货满满，建议收藏）

计算机视觉研究院专栏作者:Edison_G 深度特征学习方案将重点从具有细节的具体特征转移到具有语义信息的抽象特征.它通过构建多尺度深度特征学习网络 (MDFN) 不仅考虑单个对象和局部上下文,还考 ...
三维点云语义分割总览

标题:三维点云语义分割总览作者:吉祥街欢迎各位加入免费知识星球,获取PDF文档,欢迎转发朋友圈,分享快乐. 希望有更多的小伙伴能够加入我们,一起开启论文阅读,相互分享的微信群.参与和分享的方式:d ...
3D-MiniNet: 从点云中学习2D表示以实现快速有效的3D LIDAR语义分割（2020）

西班牙Zaragoza大学的研究人员提出的最新3D点云语义分割的深度学习方法,网络分为两大部分,提出新的滑动框搜索球形投影后的"像素点",接着使用改进的MiniNetV2网络进行分 ...
用于RGB-D语义分割的全局-局部传播网络

点击上方"深度学习爱好者",选择加"星标"或"置顶" 重磅干货,第一时间送达小白导读论文是学术研究的精华和未来发展的明灯.小白决心每天为 ...
用于语义分割的特征共享协作网络

重磅干货,第一时间送达小白导读论文是学术研究的精华和未来发展的明灯.小白决心每天为大家带来经典或者最新论文的解读和分享,旨在帮助各位读者快速了解论文内容.个人能力有限,理解难免出现偏差,建议对文章 ...
17毫秒每帧！实时语义分割与深度估计

用更小更快的模型达到state-of-the-art效果的多任务学习今天跟大家分享几天前arXiv上的一篇兼顾模型速度与性能的论文<Real-Time Joint Semantic Segme ...
Toronto-3D：用于城市道路语义分割的大规模移动激光雷达数据集

文章:Toronto-3D: A Large-scale Mobile LiDAR Dataset for Semantic Segmentation of Urban Roadways 作者:Wei ...
用于半监督语义分割的基于掩码的数据增强

重磅干货,第一时间送达小白导读论文是学术研究的精华和未来发展的明灯.小白决心每天为大家带来经典或者最新论文的解读和分享,旨在帮助各位读者快速了解论文内容.个人能力有限,理解难免出现偏差,建议对文章 ...
【泡泡点云时空】实时的多机SLAM系统：用于动态场景中的定位和3D建图

泡泡点云时空,带你精读点云领域顶级会议文章标题:Real-Time Multi-SLAM System for Agent Localization and 3D Mapping in Dynami ...
MPASNET：用于视频场景中无监督深度人群分割的运动先验感知SIAMESE网络

重磅干货,第一时间送达小白导读论文是学术研究的精华和未来发展的明灯.小白决心每天为大家带来经典或者最新论文的解读和分享,旨在帮助各位读者快速了解论文内容.个人能力有限,理解难免出现偏差,建议对文章 ...
CVPR 2019 | 微软亚研院提出用于语义分割的结构化知识蒸馏

作者信息: 作者分别来自澳大利亚阿德莱德大学.微软亚洲研究院.北航.Keep公司.三星中国研究院,该文为第一作者Yifan Liu在微软亚洲研究院实习期间的工作. 该文研究了在语义分割模型的知识蒸馏中 ...
新开源！实时语义分割算法Light-Weight RefineNet

文中原作者修改了一篇BMVC2018的论文<Light-Weight RefineNet for Real-Time Semantic Segmentation>中提出的算法,使用知识蒸馏 ...

用于道路场景实时准确语义分割的深度双分辨率网络

相关推荐