【图像分割模型】用BRNN做分割—ReSeg

这是专栏《图像分割模型》的第9篇文章。在这里,我们将共同探索解决分割问题的主流网络结构和设计思想。

尽管许多人都知道RNN在处理上下文上多优于CNN,但如何将RNN用于分割任务还是值得讨论一下。本文我们就来聊聊用BRNN做分割的ReSeg。

作者 | 孙叔桥

编辑 | 言有三

本期论文

《ReSeg: A Recurrent Neural Network-based Model for Semantic Segmentation》

1 简单说说BRNN

(1) 什么是循环神经网络

不同于卷积神经网络(CNN,Convolutional Neural Network)通常以图块(patches)为输入,循环神经网络(RNN,Recurrent Neural Network)的输入是序列形式的。即使在处理图像时,通常也需要对图像矩阵进行展开(flatten)操作,再应用RNN。输入序列数据后,RNN在序列的演进方向递归所有节点,并将其定向链式连接。

下图是一个简单的RNN单元示意图:

(2) 为什么要用RNN

尽管CNN在处理多维数据(如图像)时的表现相当不错,但是其需要依赖人工指定的核函数来完成计算,因此在处理上下文信息的时候受到了限制。相反,RNN本身拓扑结构的设计,使得其能够利用内部记忆处理任意时序的输入序列,从而在长短时间间隔序列的处理上比CNN更具优势。

(3) 什么是BRNN

BRNN是双向循环神经网络(Bi-directional RNN)的缩写,属于循环神经网络的一种。基础RNN只能依据之前时刻的时序信息来预测下一时刻的输出,但是有些问题中需要联系上之前和未来状态,共同进行预测。BRNN由两个方向不同的RNN堆叠而成,同时处理过去和未来信息。下图是BRNN的示意图:

2 ReSeg:用BRNN做分割

ReSeg是基于图像分割模型ReNet提出的。因此,我们首先来看一下ReNet。下图是ReNet的运算示意图:

如图所示,ReNet由两层顺序排列的RNN构成。在给定输入图像(或前层)特征后,ReNet对展开结果分别按列、按行扫描。每个扫描过程由两个相反方向的RNN运算单元实现。具体公式如下:

其中f代表RNN,I为图像子块行数(图像被分割成IxJ块),o是结果,z为之前的状态,p为子图块内的像素点。

给定输入图像后,ReSeg首先用预训练好的VGG-16提取图像的特征,随后开始应用基于SeNet的网络结构进行分割任务。具体网络结构如下图所示:

从网络结构可以看出,ReSeg应用了3次串联的完整ReNet模块,空间分辨率在这个过程中逐渐减小。这么做的目的是,将VGG-16提取的特征进行进一步的处理,从而得到对输入图像更复杂的特征描述。

特征提取结束后,特征图对输入图像的空间分辨率下降为1/8,因此需要恢复空间分辨率以得到稠密的分割结果。因此,在所有ReNet模块结束后,ReSeg应用了若干层由反卷积组成的上采样层,将特征图的空间分辨率恢复成原始输入图像的空间分辨率。

最后,简单应用softmax实现分割。

3 实验结果

ReSeg的实验用到了三个数据库,分别是Weizmann Horses、Oxford Flowers和CamVid。其中,前两个数据库比CamVid要容易一些,因此这里只讨论CamVid下ReSeg的表现,感兴趣的读者可以移步原文看ReSeg在其他数据库下的实验结果。

下表是ReSeg在CamVid数据库下对不同类别的分割结果以及与其他算法的效果比较。

下图是ReSeg在CamVid下的分割结果图:

从左到右:输入、真值、ReSeg结果、带类别平衡的ReSeg结果

本专栏作者维护的深度学习图像分割星球上线了,欢迎大家参与学习与讨论

总结

尽管ReNet和ReSeg的提出时间较早,分割效果相比较state-of-the-art算法也略有不足。但是,其提供的模型设计与卷积操作上的思路是非常新颖的,同时也巧妙地用GRU解决了RNN梯度消失问题,因此对于分割任务的网络设计具有一定的启发性作用。

下期我们继续RNN的讨论,看看如何在ReNet的基础上处理长程上下文信息下的分割问题。下回见!

今晚直播

今日看图猜技术

有三AI生态

(0)

相关推荐

  • 使用多尺度空间注意力的语义分割方法

    作者:Abhinav Sagar 编译:ronghuaiyang 导读 用于自动驾驶的新的state of the art的网络. 本文提出了一种新的神经网络,利用不同尺度的多尺度特征融合来实现精确高 ...

  • 用于道路场景实时准确语义分割的深度双分辨率网络

    重磅干货,第一时间送达 小白导读 论文是学术研究的精华和未来发展的明灯.小白决心每天为大家带来经典或者最新论文的解读和分享,旨在帮助各位读者快速了解论文内容.个人能力有限,理解难免出现偏差,建议对文章 ...

  • 牛!这个工具能将公式图片转化为 LaTeX 格式

    [导语]:将图片中的公式变成 LaTeX 格式. 简介 image-to-latex 是一个能将 LaTeX 数学方程的图像映射到 LaTeX 代码的应用程序. Yuntian Deng 等人在 20 ...

  • 车道线检测技术分析

    针对车道线检测的任务,我们需要弄清楚几个问题: 1.车道线的表示形式? 输出类型:掩码/点集/矢量线条 实例化:每个车道线是否形成实例 分类:是否对车道线进行了分类(单白.双黄等) 提前定义的参数:是 ...

  • 【深度学习】一文概览神经网络模型

    一.神经网络类别 一般的,神经网络模型基本结构按信息输入是否反馈,可以分为两种:前馈神经网络和反馈神经网络. 1.1 前馈神经网络 前馈神经网络(Feedforward Neural Network) ...

  • 系统综述|图像描述问题发展趋势及应用

    图像描述问题发展趋势及应用 马倩霞李频捷宋靖雁张涛 (清华大学) 摘 要 图像描述解决了在给定图像后自动得到相应的描述性文本的难题,是结合计算机视觉.自然语言处理和机器学习的一个交叉领域,也是一个极具 ...

  • 【图像分割模型】BRNN下的RGB-D分割—LSTM-CF

    这是专栏<图像分割模型>的第10篇文章.在这里,我们将共同探索解决分割问题的主流网络结构和设计思想. 深度信息的引入往往会给分割带来更好的结果.之前提到的ENet除了直接变成ReSeg分割 ...

  • 【图像分割模型】快速道路场景分割—ENet

    这是专栏<图像分割模型>的第4篇文章.在这里,我们将共同探索解决分割问题的主流网络结构和设计思想. 有了空洞卷积,这篇文章我们通过ENet看看在实际任务中,该怎么用好空洞卷积. 作者 | ...

  • 【图像分割模型】全景分割是什么?

    这是专栏<图像分割模型>的第12篇文章.在这里,我们将共同探索解决分割问题的主流网络结构和设计思想. 本文是专栏的最后一篇文章,见识过了分割任务中的大量模型,也了解了语义分割与实例分割,这 ...

  • 【图像分割模型】实例分割模型—DeepMask

    这是专栏<图像分割模型>的第11篇文章.在这里,我们将共同探索解决分割问题的主流网络结构和设计思想. 本文介绍了用于实例分割任务的模型结构--DeepMask. 作者 | 孙叔桥 编辑 | ...

  • 【图像分割模型】以RNN形式做CRF后处理—CRFasRNN

    这是专栏<图像分割模型>的第5篇文章.在这里,我们将共同探索解决分割问题的主流网络结构和设计思想. 条件随机场有点复杂,那能不能用神经网络的方式搞定CRF后处理呢?今天我们一起看一看穿上R ...

  • 不要做模型收集爱好者,做一个模型建构者

    我们说模型是外部世界的缩影,包含外部世界的关键特征,了解一个东西就是在头脑中形成心智模型. 那么认识世界就有两条路径: 第一条就是做一个模型收集者,收集尽量多的经过科学方法验证的模型,以量取胜.这是当 ...

  • R数据分析:潜增长模型LGM的做法和解释,及其与混合模型对比

    今天收到了北京大学老师打来的电话,问我如果没有被数据科学方向的导师录取,愿不愿意去读生物统计的博士. 我婉拒了,些许遗憾,但不后悔,原因全是个人选择,读博挺好的,但是我决定换一种环境,去工作了. 从去 ...

  • 班主任:我概括了初中数学重点考点笔记和解题模型|吃透做学霸

    笔记是我们学习生涯中很重要的一部分,笔记不仅仅是用来复习的,这只是它的非常小的一个作用,学习一项东西,最种要的是自己理解,一味的囫囵吞枣,死记硬背最终的结果只会随着时间的流逝而忘记,而做好笔记,就显得 ...

  • 【图像分割应用】医学图像分割(三)——肿瘤分割

    这是专栏<图像分割应用>的第3篇文章,本专栏主要介绍图像分割在各个领域的应用.难点.技术要求等常见问题. 肿瘤的分割是医学图像分析领域的一个重要内容,相比较前面提到过的脑区域分割和心脏分割 ...