【图像分割模型】全局特征与局部特征的交响曲—ParseNet

2024-05-12 03:31:07

这是专栏《图像分割模型》的第7篇文章。在这里，我们将共同探索解决分割问题的主流网络结构和设计思想。

尽管多尺度融合、空洞卷积都可以增加网络的感受野，但理论感受野与实际感受野仍然存在差异。那么如何真正利用图像的全局信息呢？ParseNet告诉你。

作者 | 孙叔桥

编辑 | 言有三

本期论文

《ParseNet: Looking Wider to See Better》

1 理论感受野是真的吗？

相信通过前面几篇介绍上下文信息整合的文章，大家已经能够体会到感受野对于分割网络效果的影响有多么巨大了。简单来说，感受野越大，网络所能“看见”的区域就越大，从而能够用于分析的信息就更多。由此，分割的效果也很有可能更好。

基于这种考虑，许多算法尝试通过改变自身网络结构设计来增大网络的理论感受野，认为这样就能够为网络带来更多的信息。尽管理论感受野的增大的确能够增加网络所获取的上下文信息，但是，理论感受野难道真的就代表了算法实际看见的区域吗？

在实际应用中，许多方法的理论感受野是很大的。比如前面文章中介绍过的带VGG的FCN网络中的fc7层，其理论感受野为404x404像素。但是，实验却证明，其并没有办法看到这么大的区域。

比如，ParseNet的作者做了这样一个实验，即破坏图像中一个随机区域中的信息，以此来观察网络的输出结果是否依赖于这个区域。结果如下图所示：

从左到右分别为：图像、热度图、理论感受野和实际感受野。

由此可以看出，网络实际上能够覆盖的区域也就能达到整图的1/4左右，远远没有达到理论感受野的尺寸。那么究竟该如何利用全部的图像上下文信息呢？ParseNet提出了一种融合全局信息与局部信息的方法，下面来具体介绍一下。

2 全局特征的提取与融合

如下图所示，ParseNet通过全局池化提取图像的全局特征，并将其与局部特征融合起来。

这种融合在过程中需要考虑两个主要问题：融合的时机与尺度的归一化。

(1) 融合时机

直观上理解，全局特征与局部特征的融合可以发生在两个节点：分别是训练分类器之前（early fusion）和训练分类器之后（late fusion）。其中，前者是将两个特征融合后，作为一个整体共同送入分类网络，训练分类器；后者则是以两个特征为输入，分别训练其对应的分类器，最后再将分类的结果整合。

如果忽略结合特征后的训练过程，那么这两种融合的时机的鲜果是差不多的。但是，在某些情况下，只有全局特征辅助下的局部特征才能够判断出正确的分类结果；此时，如果两个特征分别训练再整合，那么这种情况下的分割损失是不可逆的，也就是说，这些情况下的分类将不正确。

当然，这两种方法在实际应用过程中是可以实现相似的结果的，但是late fusion需要进行归一化。

(2) 归一化

如下图所示，不同层之间的特征的尺度是不同的，而且这种不同可能很显著。（不同颜色代表不同层上的特征）

很显然，这些特征的尺度（scale）和范数（norm）是不同的。如果直接将这些特征级联起来会造成大特征控制小特征，使分割效果变差。尽管在训练过程中，网络的权重可能会对这种情况进行调整，但是这要求非常小心的调参和数据库选取。

因此，ParseNet利用了L2范数来归一化特征的融合过程。具体而言，给定d维输入x，算法通过计算其L2范数并在整个维度内实现归一化。

此外，如果只是单纯地对所有输入层进行归一化，不仅会减慢网络的训练速度，同时也会改变该层的尺度。因此，还需要对其增加一个尺度参数gamma，将归一化的结果进行尺度缩放（缩放结果为y）。

这一过程增加的参数量等于所有的通道数之和，因此在反向传播过程中是可以忽略的。具体的反向传播公式如下：

3 实验结果

下表是ParseNet在PASCAL VOC2012下的数据结果和与其他算法的比较：

其效果与DeepLab-LargeFOV相近。

下图是全局特征有助于分割结果的示例：

从左到右分别为：图像、真值、对比基准和ParseNet。

尽管总体而言，引入更多的上下文信息有助于分割。但是有时候，引入全局信息也可能给分类造成不好的影响，比如下图所示，从左到右分别是原图，真值，FCN以及ParseNet。

总结

本文我们了解了全局信息该如何使用、该注意什么问题。下篇文章我们来看看RefineNet中是如何用残差校正进一步提高分割效果的。今天的分享就是这样啦，下回见。

直播预告(点击图片跳转)

有三AI纪念扑克牌

今日看图猜技术

有三AI生态

三维点云语义分割总览

标题:三维点云语义分割总览作者:吉祥街欢迎各位加入免费知识星球,获取PDF文档,欢迎转发朋友圈,分享快乐. 希望有更多的小伙伴能够加入我们,一起开启论文阅读,相互分享的微信群.参与和分享的方式:d ...
基于MRI医学图像的脑肿瘤分级

本文对近年来脑磁共振(MR)图像分割和肿瘤分级分类技术进行概述.文章强调了早期发现脑肿瘤及其分级的必要性.在磁共振成像(MRI)中,肿瘤可能看起来很清楚,但医生需要对肿瘤区域进行量化,以便进一步治疗. ...
TransUNet：用于医学图像分割的强大变压器编码器

重磅干货,第一时间送达小白导读论文是学术研究的精华和未来发展的明灯.小白决心每天为大家带来经典或者最新论文的解读和分享,旨在帮助各位读者快速了解论文内容.个人能力有限,理解难免出现偏差,建议对文章 ...
PointNet：三维点云分割与分类的深度学习

本文是关于PointNet点云深度学习的翻译与理解,PointNet是一种直接处理点云的新型神经网络,它很好地体现了输入点云的序列不变性. 相关工作点云特征点云的大多数现有特征都是针对特定任务人工 ...
Fast-SCNN：多分支结构共享低级特征的语义分割网络

介绍一篇 BMVC 2019 语义分割论文 Fast-SCNN:Fast Semantic Segmentation Network,谷歌学术显示该文已有62次引用. 论文:https://arxiv ...
CNN+Transformer=Better，国科大&华为&鹏城实验室提出Conformer，84.1% Top-1准确率

0 写在前面在卷积神经网络(CNN)中,卷积运算擅长提取局部特征,但在捕获全局特征表示方面还是有一定的局限性.在Vision Transformer中,级联自注意力模块可以捕获长距离的特征依赖,但会 ...
PointNet：三维点云分割与分类的深度学习—概述

本文是关于PointNet点云深度学习的翻译与理解,PointNet是一种直接处理点云的新型神经网络,它很好地体现了输入点云的序列不变性. 摘要点云是一种重要的几何数据结构类型.由于其数据格式不规则 ...
用于RGB-D语义分割的全局-局部传播网络

点击上方"深度学习爱好者",选择加"星标"或"置顶" 重磅干货,第一时间送达小白导读论文是学术研究的精华和未来发展的明灯.小白决心每天为 ...
【图像分割模型】多分辨率特征融合—RefineNet

这是专栏<图像分割模型>的第8篇文章.在这里,我们将共同探索解决分割问题的主流网络结构和设计思想. RefineNet,教你在实现特征融合与残差恒等映射的同时,怎么找回降下来的空间分辨率. ...
周易八卦的模型和特征符号

易的特殊模型和特征符号,易学是可以用数字.符号模型来表现出来的. 易包罗万象,涵盖了宇宙及其万物的运动.变化和发展,它的连续性.阶段性.无限性.永恒性.表象性.内在性.周期性的特点,决定了它无论是用哲 ...
相似专题丨“等腰三角形中含相似”模型的特征及在实战中的应用（附习题）

每日一道中考题今天给同学们分享"等腰三角形中含相似"模型相关的内容,希望对同学们有所帮助. 往期好文回顾(仅展示部分) 八上丨<特殊的直角三角形单元测试>填空压轴题, ...
【图像分割模型】全景分割是什么？

这是专栏<图像分割模型>的第12篇文章.在这里,我们将共同探索解决分割问题的主流网络结构和设计思想. 本文是专栏的最后一篇文章,见识过了分割任务中的大量模型,也了解了语义分割与实例分割,这 ...
【图像分割模型】实例分割模型—DeepMask

这是专栏<图像分割模型>的第11篇文章.在这里,我们将共同探索解决分割问题的主流网络结构和设计思想. 本文介绍了用于实例分割任务的模型结构--DeepMask. 作者 | 孙叔桥编辑 | ...
【图像分割模型】BRNN下的RGB-D分割—LSTM-CF

这是专栏<图像分割模型>的第10篇文章.在这里,我们将共同探索解决分割问题的主流网络结构和设计思想. 深度信息的引入往往会给分割带来更好的结果.之前提到的ENet除了直接变成ReSeg分割 ...
【图像分割模型】用BRNN做分割—ReSeg

这是专栏<图像分割模型>的第9篇文章.在这里,我们将共同探索解决分割问题的主流网络结构和设计思想. 尽管许多人都知道RNN在处理上下文上多优于CNN,但如何将RNN用于分割任务还是值得讨论 ...
【图像分割模型】多感受野的金字塔结构—PSPNet

这是专栏<图像分割模型>的第6篇文章.在这里,我们将共同探索解决分割问题的主流网络结构和设计思想. 在分割问题中,上下文信息与多尺度融合对于提高分割精度是十分有效的,今天我们就来谈谈用于实 ...
【图像分割模型】以RNN形式做CRF后处理—CRFasRNN

这是专栏<图像分割模型>的第5篇文章.在这里,我们将共同探索解决分割问题的主流网络结构和设计思想. 条件随机场有点复杂,那能不能用神经网络的方式搞定CRF后处理呢?今天我们一起看一看穿上R ...

【图像分割模型】全局特征与局部特征的交响曲—ParseNet

相关推荐