【图像分割模型】BRNN下的RGB-D分割—LSTM-CF

2024-05-29 10:16:18

这是专栏《图像分割模型》的第10篇文章。在这里，我们将共同探索解决分割问题的主流网络结构和设计思想。

深度信息的引入往往会给分割带来更好的结果。之前提到的ENet除了直接变成ReSeg分割网络，同样也可以结合RGB-D信息实现更准确的分割。

作者 | 孙叔桥

编辑 | 言有三

本期论文

《LSTM-CF: Unifying Context Modeling and Fusion with LSTMs for RGB-D Scene Labeling》

1 RGB-D分割

前面我们已经讨论过许多基于RGB信息的分割网络了，今天就来谈谈RGB-D分割。RGB-D分割中的D指的是“Depth”，即“深度”，也就是相机到物体在实际空间中的距离。

那么既然RGB信息已经能够实现分割，为什么要用到深度信息呢？原因很简单：引入深度信息后，其提供的额外结构信息能够有效辅助复杂和困难场景下的分割。比如，与室外场景相比，由于语义类别繁杂、遮挡严重、目标外观差异较大等原因，室内场景的分割任务要更难实现。此时，在结合深度信息的情况下，能够有效降低分割的难度。

虽然道理容易，但是如何实现RGB-D分割还是有些问题需要解决的：

如何有效地表述和融合共存的深度和光度（RGB）数据
如何在特征学习过程中有效获取全局场景上下文

下面我们就通过LSTM-CF网络结构来了解一下，如何实现RGB-D下的分割。

2 LSTM-CF

上一篇文章我们已经介绍过了ReNet，这里简单回顾一下。ReNet是通过在两个正交方向上级联应用RNN来获取图像中的2D依赖项。ReNet的具体实现方式如下图所示：

基于ReNet，LSTM-CF利用长短时间记忆和DeepLab实现分割。LSTM-DF主要包括四个部分：用于竖直深度上下文提取的层，用于竖直光度上下文提取的层，用于整合光度和深度上下文成2D全局上下文的记忆融合层，和像素级场景分割层。

下图是LSTM-CF网络模型：

输入深度信息后，LSTM-CF利用HHA描述，将深度信息转换成视差、表面法线和高这三个通道的信息。随后，利用ReNet提取不同方向上的上下文信息，并在两个方向进行双向传播。

与此同时，对于RGB通道信息，网络利用如上图所示的卷积结构提取特征，利用插值将各级特征恢复到相同分辨率下，并级联。之后，同样利用ReNet获取上下文信息。

细心的读者可能注意到了，RGB通道比深度通道多出了两层。这是因为，考虑到光度图像比离散、稀疏的深度图像包含的信息多，网络对光度图像分支给予更多的关注。

概括起来，LSTM-CF的分割流程可以总结为下图的形式：

3 实验结果

为了验证深度信息和长短信息记忆等模块对于分割任务的影响，LSTM-CF对网络结构进行了剥离实验。下图是实验结果：

可见，分割的主要精度还是来源于RGB信息的，但是引入了深度信息和上下文信息后，网络的精度能够得到一定的提升。

下图是LSTM-CF在SUNRGBD数据库下的实验结果：

第一行为图像，第二行为真值，第三行为LSTM-CF分割结果

如果想了解更多，欢迎加入图像分割星球

总结

经过10期的介绍，语义分割问题上应该了解的基础网络结构就基本说完了。下一期我们来聊聊与语义分割稍有差异的实例分割网络结构。

本周直播(点击图片跳转)

今日看图猜技术

今日知识汇总

有三AI生态

用于图像分割的深度学习架构

基于人工智能和深度学习方法的现代计算机视觉技术在过去10年里取得了显著进展.如今,它被用于图像分类.人脸识别.图像中物体的识别.视频分析和分类以及机器人和自动驾驶车辆的图像处理等应用上. 现代图像分割 ...
Google又发大招：高效实时实现视频目标检测

加入极市专业CV交流群,与6000+来自腾讯,华为,百度,北大,清华,中科院等名企名校视觉开发者互动交流!更有机会与李开复老师等大牛群内互动! 同时提供每月大咖直播分享.真实项目需求对接.干货资讯汇总 ...
利用U-Net上下文融合模块实现高效的手掌线分割

重磅干货,第一时间送达小白导读论文是学术研究的精华和未来发展的明灯.小白决心每天为大家带来经典或者最新论文的解读和分享,旨在帮助各位读者快速了解论文内容.个人能力有限,理解难免出现偏差,建议对文章 ...
基于相机和低分辨率激光雷达的三维车辆检测

标题:3D Vehicle Detection Using Camera and Low-Resolution LiDAR Zhang, Rui Huang, Le Cui, Siyu Zhu, an ...
你读那么多CV论文有什么用，还不如我复现 1 篇！

深度之眼招募人工智能Paper讲师,兼职时间一年可赚30w,招聘详情见文章底部. 学计算机视觉千万不能错过图像分割! 它是图像理解领域关注的一个热点! 是图像分析的第一步! 是图像理解的基础,也是图像 ...
用于RGB-D语义分割的全局-局部传播网络

点击上方"深度学习爱好者",选择加"星标"或"置顶" 重磅干货,第一时间送达小白导读论文是学术研究的精华和未来发展的明灯.小白决心每天为 ...
自动驾驶之点云与图像融合综述

导读:这几天偷懒,也确实没有时间来进行更新(更新频率越来越低了),这里接着一篇去年的综述来开始中断的学习之旅<Deep Learning for Image and Point Cloud Fu ...
【图像分割模型】用BRNN做分割—ReSeg

这是专栏<图像分割模型>的第9篇文章.在这里,我们将共同探索解决分割问题的主流网络结构和设计思想. 尽管许多人都知道RNN在处理上下文上多优于CNN,但如何将RNN用于分割任务还是值得讨论 ...
【图像分割模型】全景分割是什么？

这是专栏<图像分割模型>的第12篇文章.在这里,我们将共同探索解决分割问题的主流网络结构和设计思想. 本文是专栏的最后一篇文章,见识过了分割任务中的大量模型,也了解了语义分割与实例分割,这 ...
【图像分割模型】实例分割模型—DeepMask

这是专栏<图像分割模型>的第11篇文章.在这里,我们将共同探索解决分割问题的主流网络结构和设计思想. 本文介绍了用于实例分割任务的模型结构--DeepMask. 作者 | 孙叔桥编辑 | ...
【图像分割模型】快速道路场景分割—ENet

这是专栏<图像分割模型>的第4篇文章.在这里,我们将共同探索解决分割问题的主流网络结构和设计思想. 有了空洞卷积,这篇文章我们通过ENet看看在实际任务中,该怎么用好空洞卷积. 作者 | ...
中考数学——常见相似三角形模型（下）1、...

中考数学--常见相似三角形模型(下) 1.等积式.燕尾模型 2.内角.外角平分线定理 3.一线三等角相似
思路决定出路 | 模型思考下的一题多解精选资料

来源:李清强初中数学工作室,作者:李清强:
一切从涨停板开始.第三篇：一个适合上班族的模型（下）

先给出个人实战从涨停板衍生出来设计的两个操作模型的优缺点: 1,追底部放量突破板(打板或排板) 优点:一旦上手,很可能就此成为一路超短高手(参考令兄).而且稳定后,打板并不限于第一板,一些高位板结合板 ...
初中数学几何模型——三角形全等模型（下）...

初中数学几何模型——三角形全等模型（下）...
初中数学——相似三角形中的模型（下）一线...

一线三等角.A字型.相似比与面积比

【图像分割模型】BRNN下的RGB-D分割—LSTM-CF

相关推荐