几何深度学习是从对称性和不变性的角度对广泛的ML问题进行几何统一的尝试。 这些原理不仅是卷积神经网络的突破性性能和图神经网络的近期成功的基础,而且还为构造新型的特定于问题的归纳偏差提供了一种有原则的方法。
此文章是与Joan Bruna,Taco Cohen和PetarVeličković共同撰写的,并基于MM Bronstein,J。Bruna,T。Cohen和P.Veličković的新论文 Deep Learning: Grids, Groups, Graphs, Geodesics, and Gauges (2021),剑桥大学Petar的演讲和2021年ICLR的Michael主题演讲。
1872年10月,巴伐利亚城市埃尔兰根的一所小型大学的哲学系任命了一位新的年轻教授。 按照惯例,他被要求提供一个就职研究计划,并以比较长而乏味的标题Versleichende Betrachtungenüberneuere geometrische Forschungen发表(“对几何学最新研究的比较评论”)。 教授是菲利克斯·克莱因(Felix Klein),当时年仅23岁,他的开创性工作以“埃尔兰根计划” [1]进入了数学史。

十九世纪在几何学方面硕果累累。 欧几里得之后的近两千年来,庞塞莱特(Poncelet)构造了投影几何,高斯,波利亚伊(Galys)和洛巴切夫斯基(Lobachevsky)构造了双曲线几何,里曼(Riemann)构造了椭圆几何,这表明,建立一个具有各种几何形状的整个生态学说是可能的。 但是,这些构造很快进入了独立且无关的领域,当时的许多数学家都在质疑不同的几何形状如何相互关联以及实际上定义了什么几何形状。
克莱因(Klein)的突破性见解是将几何学的定义作为不变性的研究,或者换句话说,是在某种类型的转换(对称性)下保留的结构。 克莱因(Klein)使用群论的形式主义来定义此类转换,并使用群及其子群的层次结构来分类由此产生的不同几何形状。 因此,一组刚性运动导致传统的欧几里得几何,而仿射或投影变换分别产生仿射和投影几何。 重要的是,Erlangen程序仅限于齐次空间[2],并最初排除了黎曼几何。

克莱因(Klein)的埃尔兰根计划(Erlangen Program)将几何学作为研究在某些类型的变换下保持不变的属性的方法。 二维欧几里得几何形状由保留区域,距离和角度以及平行度的刚性变换(建模为等轴测图组)定义。 仿射变换保留并行性,但距离和面积均不保留。 最后,射影变换具有最弱的不变性,仅保留了相交和交叉比率,并且对应于三个之中最大的一个。 因此,克莱因认为射影几何是最通用的一种。
Erlangen计划对几何和数学的广泛影响非常深远。 它也蔓延到其他领域,尤其是物理领域,在这些领域中,对称性考虑允许从第一原理推导守恒律,这是一个令人惊讶的结果,被称为Noether定理[3]。 经过几十年的发展,直到证明了这一基本原理(通过规范不变性的概念(由Yang 和 Mills在1954年提出的广义形式))成功地统一了除重力以外的所有自然基本力。 这就是所谓的标准模型,它描述了我们目前所知道的所有物理学。 我们只能重复诺贝尔奖得主物理学家菲利普·安德森(Philip Anderson)的话[4],
我们认为,深度(表示)学习领域的现状让我们想起了19世纪的几何情况:一方面,在过去的十年中,深度学习在数据科学领域带来了一场革命, 以前认为可能无法完成的许多任务-无论是计算机视觉,语音识别,自然语言翻译还是alpha Go。 另一方面,我们现在拥有一个针对不同类型数据的不同神经网络体系结构的动物园,但统一原理很少。 结果,很难理解不同方法之间的关系,这不可避免地导致相同概念的重新发明。

几何深度学习是我们在[5]中引入的总称,指的是最近提出的ML几何统一的尝试,类似于Klein的Erlangen计划。 它有两个目的:首先,提供一个通用的数学框架以推导最成功的神经网络体系结构;其次,给出一个建设性的程序,以有原则的方式构建未来的体系结构。
在最简单的情况下,有监督的机器学习本质上是一个函数估计问题:给定训练集上某些未知函数的输出(例如标记的狗和猫图像),人们试图从某个假设类中找到一个适合训练的函数f 数据,并可以预测以前看不见的输入的输出。 在过去的十年中,大型,高质量的数据集(如ImageNet)的可用性与不断增长的计算资源(GPU)吻合,从而允许设计功能丰富的类,这些类可以内插此类大型数据集。
神经网络似乎是表示功能的合适选择,因为即使是最简单的体系结构(如Perceptron),仅使用两层时也可以生成密集类的功能,从而可以将任何连续函数近似为任何所需的精度-这种特性被称为通用近似(Universal Approximation) [6]。

低维问题的设置是逼近理论中的经典问题,该问题已得到广泛研究,并通过精确的数学方法控制估算误差。 但是在高维度上情况却完全不同:人们可以快速看出这一点,以便甚至近似一个简单的类别,例如 Lipschitz连续函数使样本数量随维数呈指数增长,这种现象俗称“维数诅咒”。 由于现代机器学习方法需要处理成千上万甚至数百万个维度的数据,因此维度的诅咒总是在幕后出现,从而使这种幼稚的学习方法变得不可能。

维度诅咒的图示:为了近似由高斯核构成的Lipschitz连续函数,该函数位于误差为ε的d维单位超立方体(蓝色)的象限中,需要(1 /εᵈ)个样本(红点) )。

几何先验的图示:输入信号(图像x∈(Ω))定义在域(网格Ω)上,其对称性(平移组)通过组表示ρ()在信号空间中起作用(移位算子 )。 假设函数f(例如图像分类器)如何与该组交互将限制假设类别。
输入信号下面的域的几何结构将结构强加给我们试图学习的函数f。一个不变函数可以不受组的作用的影响,即对于任何∈和x,f(ρ()x)= f(x)。另一方面,函数可能具有相同的输入和输出结构,并且以与输入相同的方式进行转换,这种情况称为等变且满足f(ρ()x)=ρ( )f(x)[9]。在计算机视觉领域,图像分类很好地说明了人们希望拥有不变函数的情况(例如,无论猫在图像中的位置如何,我们仍然希望将其分类为猫),而图像分割,其中输出是逐个像素的标签遮罩,是等变函数的一个示例(分割遮罩应遵循输入图像的变换)。

这两个原则为我们提供了一个非常通用的几何深度学习蓝图,可以在大多数用于表示学习的流行深度神经体系结构中得到认可:典型设计由一系列等变层(例如,CNN中的卷积层)组成,可能遵循 通过不变的全局池层将所有内容汇总到一个输出中。 在某些情况下,也可以通过采用本地池形式的粗化过程来创建域的层次结构。

这是一种非常通用的设计,可以应用于不同类型的几何结构,例如网格,具有全局变换组的齐次空间,图形(以及特定情况下的集合)和流形,其中我们具有全局等距不变性和局部性 规范的对称性。 这些原则的实现导致了深度学习中当今存在的一些最受欢迎的体系结构:从平移对称出现的卷积网络(CNN),图神经网络,DeepSets [11]和Transformers [12],实现了置换不变性, 时间扭曲不变的门控RNN(例如LSTM网络)[13],计算机图形和视觉中使用的内在网格CNN [14],它们可以从量规对称性派生。

几何深度学习的“ 5G”:网格,组(具有全局对称性的均匀空间),图(以及作为特定情况的集合)和流形,其中几何先验通过全局等距不变性表示(可以使用测地学表示) 和局部量规的对称性。
在以后的文章中,我们将进一步详细探讨“ 5G”上的“几何深度学习”蓝图的实例[15]。 最后一点,我们应该强调,对称性在历史上一直是许多科学领域的关键概念,正如开头所提到的,物理学是关键。 在机器学习界,对称性的重要性早已得到认可,尤其是在模式识别和计算机视觉的应用中,关于等变特征检测的早期工作可以追溯到Shun’ichi Amari [16]和Reiner Lenz [17]。 在神经网络文献中,Marvin Minsky和Seymour Papert [18]提出的感知器的群不变性定理对(单层)感知器学习不变性的能力提出了基本限制。 这是研究多层体系结构的主要动机之一[19-20],最终导致了深度学习。
