理解卷积神经网络的局限

来源:https://bdtechtalks.com/2020/03/02/geoffrey-hinton-convnets-cnn-limits/,2020 AAAI中的keynote,Hinton

1. 相关背景

早期的计算机视觉利用符号人工智能(symbolic artificial intelligence),但需要人类制定每条规则,该方式难以成功。另一种方法是使用机器学习,与符号AI相反,机器学习算法具有一般结构,并通过训练样本学到它们自身的行为。但早期的机器学习算法仍然需要大量的人工设计来检测图像中的相关特征。
CNNs是一种端到端的AI模型能自动学习特征提取的机制。训练好的多层CNN模型可以以分层的方式自动识别特征,从简单的边缘、角到像脸、椅子、狗等复杂的目标。CNNs最早由当时还在Hinton实验室的LeCun在1980年代提出,但尤其当时缺少计算能力和数据,没有得到快速发展,当然现在已是今非昔比。

2. CNNs与人类视觉系统的不同

CNNs以端到端的方式学习所有事情,如果一个特征在某个位置是有效的,那在其他某些位置也是有效的,那么CNNs就可以跨位置整合这些信息并很好地归纳。但与人类感知有很大不同。
CV的一个关键挑战是处理现实世界的数据波动(variance of data)。人类的视觉系统可以在不同角度、不同背景和不同光照条件下识别目标。当被部分遮挡或颜色变化,人类视觉系统可以利用线索或其他知识来填补缺少的信息,解释我们所看到的内容。
创造对相同目标具有识别能力的AI是很困难的。(Creating AI that can replicate the same object recognition capabilities has proven to be very difficult.)
CNNs旨在处理翻译(translations)。意味着一个训练好的卷积网络可以识别一个物体,无论它出现在图像中的什么位置(具有空间不变性?)。但是不能很多地处理视点变化(viewpoints)的影响,如旋转和缩放(所以数据增强中有这样的操作)。
解决上述问题的一个方法是使用4D或6D图(4D or 6D maps)训练AI,然后再执行目标检测,但这样做的代价很大。
目前最好的解决方式是收集大量图像,每个目标在图像以不同的位置显示(gather massive amounts of images that display each object in various positions),也就是说收集的数据,图像中目标的位置是多种多样的,ImageNet数据集就起到了这样的作用。事实上ImageNet作为CV领域的基准数据集已经展现出了一些问题。尽管数据量巨大,但无法包含所有可能的角度和目标位置。数据通常是在理想光照和已知角度下获得的。
对于人类视觉系统,从几个角度观察目标就可以相信出其他不同的情况。但是CNNs训练时需要各自情况的样本,它不具备人类的这种相信能力。通常使用数据增强(data augmentation)解决这个问题,进行翻转或旋转图像。CNNs在每个图像的多个副本上训练,它们之间稍有不同,一定程度上提高系统的鲁棒性。但是数据增强也不能涵盖所有的角度情况,现实生活中可能存在的奇怪的情况,如放倒的椅子,床上的T恤,这些CNNs和其他神经网络就难以处理。下图是一个新的数据集ObjectNet中的样本和ImageNet中的比较。但是跨视角、光照、颜色等问题依然影响着现有模型。

3. 不同所带来的危害

上述差异导致的影响不仅局限于模型的泛化能力以及对更多数据的需要。CNNs产生的目标表示形式也与人脑的生物神经网络非常不同。对于一幅图像,施加人类无法察觉的微小扰动或噪声,CNNs就会识别成完全不同的目标。这种增加微小扰动的图像就是所谓的对抗样本(adversarial examples),是目前的研究热点。对于像自动驾驶等应用,对抗扰动就是很危险的。只要我们的计算机视觉系统以与人类视觉以根本不同的方式工作,除非得到激光雷达和雷达测绘等互补技术的支持,否则它们将是不可预测且不可靠的。

4. 坐标框架和部分与整体间的关系

CNNs无法根据目标和它的部分理解图像,而是以不同模式的图像块识别目标,缺少对于实体和其关系的显式内部表征。CNNs观测不同的像素位置,根据越来越多的上下文信息,得到关于像素位置发生什么越来越丰富的描述。最后获得的如此丰富的描述使网络识别出图像中的目标,但没有明确地解析图像。对物体组成的理解有助于理解世界和前所未见的事物,如下面这个奇怪的茶壶。
CNNs也缺少坐标系统,而这是人类视觉的重要部分。当人类观测一个目标时会在心里构建一个方向,以帮助解析不同的特征。如下图,将左图上下翻转就是右图。但是人类没有必要真的翻转,对于左图只需在心里挑战观察的坐标就能看的右图。
根据所施加的坐标系,人类会有完全不同的内部感知,而CNNs却无法完全理解这一点。CNNs对于输入的感知与坐标系无关,这可能与对抗样本有关,也可能是因为与人类视觉不机制同。

5. 从计算机图形学中学习

解决CV问题的一个方便方法是做逆图像学。3D计算机图形模型由目标(object对象)的层次结构组成。每个目标都有一个转换矩阵,用于定义与其父目标相比的平移、旋转和缩放。每个层次结构中顶层对象的变换矩阵定义了其相对于世界原点的坐标和方向。
例如一辆汽车的3D模型,基本目标具有4×4的转换矩阵,说明汽车的中心位于(X=10, Y=10, Z=0),旋转度数为(X=0, Y=0, Z=90)。汽车本身又由许多物体组成,例如车轮、底盘、方向盘、发动机等。每个目标都有自己的转换矩阵,这些转换矩阵定义了相对于与父矩阵(汽车的中心)的位置和方向。假如左前轮位于(X=-1.5, Y=2, Z=-0.3),左前轮的世界坐标可以通过将其转换矩阵乘以其父矩阵得到。其中一些目标可能具有自己的子集,车轮由轮胎、轮辋、轮毂、螺母等组成。这些子集中的每个子目标都有自己的转换矩阵。
使用这种坐标系层次结构,可以非常轻松地定位和可视化对象,而不管它们的姿势和方向或视点如何。当要渲染对象时,将3D目标中的每个三角形乘以其转换矩阵和父级的转换矩阵。然后将其与视点对齐(另一个矩阵乘法),再在栅格化为像素之前转换为屏幕坐标。
当你让从事计算机图形学的研究者从另一个角度展示3D目标时,他不会说因为没有从这个角度训练所以无法展示。而是会很自然地展示另外视角下的3D目标。因为他们将空间结构建模为零件和整体之间的关系,而这些关系完全不依赖于视点。
胶囊网络(capsule networks)就是尝试做逆计算机图形。尽管胶囊网络有自己的一系列文章,但其背后的基本思想:获取图像,提取其目标及部分,定义其坐标系并创建图像的模块化结构(modular structure)。胶囊网络仍在研究中,自2017年推出以来,经历了多次更新迭代。如果能成功地使发挥作用,将使网络模型更接近复制人类视觉。
-END-
(0)

相关推荐

  • 机器人视觉感知原理

    机械人的蓝海,机器人的世界, 如果机器人需要和外界环境进行交互,那么机器人首先必须要感知周围的环境.机器视觉是最为常用的一种感知周围环境的方法.这里,我们将简单介绍机器视觉领域一些基本的概念.机器视觉 ...

  • 自动化设计基础讲解-机械手,相机(CCD)9点标定

    在机器视觉应用中,相机标定技术需要准确的相机内参数和外参数作为重构算法的输入和先决条件,通过标定算法,可以计算相机的投影矩阵.本文讲解机械手-相机9点标定原理 1.目的 建立相机坐标系与机械手坐标系的 ...

  • 一文详解双目相机标定理论

    一文详解双目相机标定理论

  • 收藏 | 理解卷积神经网络中的自注意力机制

    人工智能算法与Python大数据 致力于提供深度学习.机器学习.人工智能干货文章,为AI人员提供学习路线以及前沿资讯 22篇原创内容 公众号 点上方人工智能算法与Python大数据获取更多干货 在右上 ...

  • 卷积神经网络中的padding理解

    首先看一下以下代码吧!from keras.layers import Conv2D,Dense,Flattenfrom keras.models import Sequentialmodel = S ...

  • 带动画效果的卷积神经网络的讲解.pptx

    刚在学习深度学习的时候,对卷积神经网络还比较模糊,后来发现一位黄海广老师的卷积神经网络课件,带很多动画,把卷积神经网络讲得很清楚.值得推荐. 文末提供原版的ppt的下载方式,ppt效果见下图: 下载方 ...

  • 卷积神经网络是如何实现不变性特征提取的?

    转载于 :OpenCV学堂 图像特征 传统的图像特征提取(特征工程)主要是基于各种先验模型,通过提取图像关键点.生成描述子特征数据.进行数据匹配或者机器学习方法对特征数据二分类/多分类实现图像的对象检 ...

  • 深度信号处理:利用卷积神经网络测量距离

    在信号处理中,有时需要测量信号某些特征(例如峰)之间的水平距离. 一个很好的例子就是解释心电图(ECG),这在很大程度上取决于测量距离. 我们将考虑下图中只有两个峰的平滑信号的一个样例. 解决这个问题 ...

  • 【时间序列】时间卷积神经网络

    在深度学习的知识宝库中,除了前面文章中介绍的RNN,还有一个重要的分支:卷积神经网络(CNN),其广泛应用于视觉,视频等二维或者多维的图像领域.卷积网络具有深度,可并行等多种特性,这种技术是否可以应用 ...

  • 总结 | 卷积神经网络必读的40篇经典论文,包含检测/识别/分类/分割多个领域

    转载于 :极市平台 作为深度学习的代表算法之一,卷积神经网络(Convolutional Neural Networks,CNN)在计算机视觉等领域上取得了当前最好的效果. 1998 年,Yann L ...

  • 【隐创118期】基于卷积神经网络的海面目标检测方法研究(节选二)

    编者按: 深度学习算法已被证明是图像与视频处理的强大工具,广泛应用于国防安全之中.在海洋环境中,光电传感器数据与人类智能技术的融合对于应对安全问题具有重要作用.例如,态势感知可以通过一个自动系统来增强 ...

  • 王三虎:人百病,首中风!理解中风一定不能局限在脑血管意外

    以下文章来源于QH岐黄网 ,作者王三虎.QH小岐 随着现代医学的分科发展,今天我们所认识的中风病概念越来越局限.中医局限于内风,西医则局限于脑血管意外.其实,秉持整体观的古代先圣并不是这样看待中风的. ...