【图像分割模型】编解码结构SegNet

这是专栏《图像分割模型》的第2篇文章。在这个专栏里,我们将共同探索解决分割问题的主流网络结构和设计思想。

上篇文章我们学习了分割网络鼻祖FCN,今天我们来看看用解码器踢馆的SegNet。

作者 | 孙叔桥

编辑 | 言有三

1 编解码结构

分割任务中的编码器encode与解码器decode就像是玩“你来比划我来猜”的双方:比划的人想把看到的东西用一种方式描述出来,猜的人根据比划的人提供的信息猜出答案。

其中,“比划的人”叫做编码器,“猜的人”就是解码器

具体来说,编码器的任务是在给定输入图像后,通过神经网络学习得到输入图像的特征图谱;而解码器则在编码器提供特征图后,逐步实现每个像素的类别标注,也就是分割。

通常,分割任务中的编码器结构比较类似,大多来源于用于分类任务的网络结构,比如VGG。这样做有一个好处,就是可以借用在大数据库下训练得到的分类网络的权重参数,通过迁移学习实现更好的效果。因此,解码器的不同在很大程度上决定了一个基于编解码结构的分割网络的效果。

SegNet就讨论了这种不同,并在道路和室内两个场景下比较了不同解码器下,各个算法的表现。

CamVid数据库:《Semantic object classes in video: A high-definition ground truth database》

SUN RGB-D数据库:《SUN RGB-D: A RGB-D scene understanding benchmark suite》

2 SegNet 

SegNet的编码器结构与解码器结构是一一对应的,即一个decoder具有与其对应的encoder相同的空间尺寸和通道数。对于基础SegNet结构,二者各有13个卷积层,其中编码器的卷积层就对应了VGG16网络结构中的前13个卷积层。

下图是SegNet的网络结构,其中蓝色代表卷积+Batch Normalization+ReLU,绿色代表max-pooling,红色代表上采样,黄色是Softmax。

SegNet与FCN的对应结构相比,体量要小很多。这主要得益于SegNet中为了权衡计算量而采取的操作:用记录的池化过程的位置信息替代直接的反卷积操作。具体如下图所示。

图中左侧是SegNet使用的解码方式,右侧是FCN对应的解码方式。可以看到,SegNet的做法是先根据位置信息生成稀疏的特征图,再利用后续的卷积计算恢复稠密特征图。而FCN则直接利用反卷积操作求得上采样后的特征图,再将其与编码器特征图相加。

3 解码器变体

前文已经提到,编解码结构中,解码器的效果和复杂程度对于整个分割网络的影响是非常大的。这里我们就一起来看一下不同解码器结构和它们的效果。

SegNet中一共尝试了8种不同的解码结构,先上结果:

这些变体共用相同的编码器结构,只是在解码器结构上有所不同。比如,将解码器的结构单纯减少层数,改变解码器最后一层通道数,改变编解码器对应结构之间的连接方式(只连接池化信息、保留特征层内信息或全部保留),改变采样方式等。

除上面几种变体外,论文中还尝试了改变上采样方法,或取消池化和下采样过程,但是这些改变都没有带来更好的结果。

4 总结与思考

关于变体的分析,可以总结为以下三点:

  • 保留编码器所有特征图所实现的效果最好,在这一点上语义分割边缘轮廓描述度量(BF)体现最为明显。

  • 当推理过程的内存受限时,可以使用编码器特征图的压缩形式(比如缩小维度、使用池化信息等),但需要搭配合适的解码器形式(比如SegNet类型的)来提升表现。

  • 在给定编码器时,越大的解码器效果越好。

今天的图像分割模型到此结束,下期再见。

转载文章请后台联系

侵权必究

(0)

相关推荐

  • 采用编码器-解码器匹配语义分割的图像压缩

    重磅干货,第一时间送达 小白导读 论文是学术研究的精华和未来发展的明灯.小白决心每天为大家带来经典或者最新论文的解读和分享,旨在帮助各位读者快速了解论文内容.个人能力有限,理解难免出现偏差,建议对文章 ...

  • 谈一谈UNet图像分割

    作者丨呼啦圈正在输入中 来源丨GiantPandaCV 编辑丨极市平台 极市导读 这篇文章主要针对于图像分割的算法的一些理解,主要是一个比较经典的UNet系列的网络的认识.最后希望看完这篇文章的读者可 ...

  • DL之SegNet:SegNet图像分割算法的简介(论文介绍)、架构详解、案例应用等配图集合之详细攻略

    DL之SegNet:SegNet图像分割算法的简介(论文介绍).架构详解.案例应用等配图集合之详细攻略 导读 基于CNN的神经网络SegNet算法可进行高精度地识别行驶环境. 相关文章 DL之SegN ...

  • 社区分享 | SegNet 详解与 TensorFlow 2.0 实现

    转自:https://github.com/Keyird/ 引言 今天为大家带来社区作者的精选推荐<深度学习->语义分割实战(一):SegNet 详解与 TensorFlow 2.0 实现 ...

  • 什么是自编码网络

    一.引言 深度学习是人工智能的基石,正飞速的改变着我们的生活,也是现在最热的研究方向之一.深度学习的传统方法是监督学习,需要提供大量人工标注的样本标签.但像很多时候很难提供准确的样本标签,比如真实地震 ...

  • 经典的图像语义分割模型

         经典的基于 CNN 的图像语义分割模型有 FCN.SegNet.U-Net.PSPNet 和 DeepLab,主要针对 FCN.SegNet 和 DeepLab 三个经典模型进行简要介绍.  ...

  • JSNet:3D点云的联合实例和语义分割

    结合代码理解Pointnet网络结构 第二期B站录播之深度学习在3D场景中的应用 加入星球:可以发送"知识星球"到后台获取二维码,或者扫描下方二维码. 加入QQ群:32749014 ...

  • 医学图像分割:UNet

    作者:Jingles (Hong Jing) 编译:ronghuaiyang 导读 使用一系列的网格状的密集跳跃路径来提升分割的准确性. 在这篇文章中,我们将探索UNet++: A Nested U- ...

  • (推荐阅读)H264, H265硬件编解码基础及码流分析

    需求 在移动端做音视频开发不同于基本的UI业务逻辑工作,音视频开发需要你懂得音视频中一些基本概念,针对编解码而言,我们必须提前懂得编解码器的一些特性,码流的结构,码流中一些重要信息如sps,pps,v ...

  • 数字中间片格式GoPro CineForm成为SMPTE标准化编解码

    文件格式,跨平台,跨软件,压缩非压缩编码,这些要素给后期制作带来了不少困扰,如今GoPro CineForm成为SMPTE标准化编解码,小编曾在多年前就领教过CINEFORM的威力,现在大家可以来试着 ...

  • 数字视频编解码基础

    数字视频编解码基础

  • 直播源码APP,不同场景中最合适的编解码方式

    直播源码APP适合的封装格式有很多种,不同格式对应了不同的应用场景,不仅仅是视频,音频同样也采用这种方式. 一.视频封装格式 直播源码APP常用的封装格式有mp4.flv.ogv等,用来实现将视频流以 ...

  • 视频编解码技术VP8

    VP8,是On2 Technologies于2008年9月13日推出的.旨在取代其前任VP7的视频编解码器.相对于目前的VC-1.H.264等视频压缩格式,WebM VP8具有明显的技术提升,其加入了 ...

  • 谷歌新的Lyra语音编解码 AV1可以实现56kbps低带宽视频聊天

    谷歌的人工智能团队宣布了一种非常低比特率的语音压缩编解码器'Lyra',设计用于WebRTC和其他视频聊天等用途.Lyra的比特率非常低,当与AV1视频编解码器结合时,有可能允许通过56kbps的互联 ...

  • LDPC编解码初探

    目前SSD中ECC纠错代码主要两种BCH和LDPC.不过,随着SSD对ECC纠错技术要求越来越高,BCH纠错码开始有些吃力,所以,LDPC纠错码是发展趋势,也是最新最主流的纠错码. 为何需要LDPC? ...

  • 一套优质成品短视频APP的搭建部署,离不开的软硬编解码

    一款优质的短视频APP诞生并非易事,开发过程也是需要考虑各种问题,包括音视频问题.开屏速度等等.无论是短视频还是直播,都要经过无数次的测试.优化等步骤完成. 那么今天我们就来看一下,短视频直播源码如何 ...

  • 音视频编解码--Opus

    音视频编解码--Opus