物理学对于深度学习可解释性的启发
令人惊讶的是,这个局部块旋转结构从训练过程中出现,表明DNN是自组织的,以实现块旋转重整化...无需手动干涉,它在学习。
如今,人工智能几乎存在于我们生活的每一个角落。智能手机、社交媒体供稿、推荐引擎、在线广告网络和导航工具是基于AI的应用程序的一些示例,这些应用程序每天都会影响我们。语音识别、自动驾驶、机器翻译和视觉对象识别等领域的深度学习已经系统地改进了现有技术的状态。
然而,使深度神经网络(DNN)如此强大的原因只是启发式理解 ,即我们只从经验中知道我们可以通过使用大型数据集并遵循特定的训练来获得优异的结果。
最近,基于基于物理的概念框架(称为重整化群(Renormalization RG))和一种称为受限玻尔兹曼机(RBM)的神经网络之间的显着类比,提出了一种可能的解释。
RG和RBM作为粗粒度过程
重整化是一种用于在无法获得有关其微观部分的信息时研究物理系统行为的技术。这是一种'粗粒度'方法,它显示物理定律如何随着我们缩小和检查不同长度尺度的物体而变化,即' 戴上模糊的眼镜'。
当我们改变观察物理系统的长度尺度时(当我们'放大'时),我们的理论遍历(航行)所有可能理论的空间。
该重视的RG理论来源于它提供了一个强有力的框架,基本上事实解释了为什么物理学本身可能。
为了描述诸如卫星之类的复杂结构的运动,人们不需要考虑其所有成分的运动。
RG理论提供了一个强大的框架,解释了为什么物理本身是可能的。
例如,我们只需要应用牛顿运动定律。我们不需要考虑卫星微观成分的极其复杂的行为来解释它的运动。我们在实践中所做的是对系统基本组件的详细行为进行'平均'。RG理论解释了为什么这个程序如此有效。
此外,RG理论似乎表明,我们所有的物理世界的现有理论都只是近似值一些未知的'真理'。
RG理论似乎表明,我们目前对物理世界的所有理论都只是对某些未知的'真实理论'的近似。
当被调查的系统处于并显示自相似性时,RG运行良好。自我相似的系统在其被观察的任何长度范围内'完全或近似于其自身的一部分'。显示自相似性的系统的示例是分形。
临界点处的系统显示出彼此相距极远的部分之间的强相关性。所有子部分都影响整个系统,系统的物理特性完全独立于其微观结构。
人工神经网络也可以被视为粗粒度迭代过程。人工神经网络由多个层组成,如下图所示,较早的层仅从输入数据(如边缘和颜色)中学习较低级别的特征,而较深层的层次将这些较低级别的特征(由较早的特征提供)组合成较高级别的特征。用杰弗里辛顿的话说:'你首先要学习简单的特征,然后根据你的目标学习更复杂的特征,然后分阶段进行。'
如同在RG过程中,更深层次只保留被认为相关的特征,不再强调不相关的特征。
卷积神经网络(CNN)
CNN识别的复杂程度在后面的层中更高。
精确对比
物理学和机器学习都涉及具有许多成分的系统。物理学研究包含许多(相互作用)物体的系统。机器学习研究包括大量维度的复杂数据。此外,类似于物理学中的RG,神经网络设法对数据进行分类,例如动物的图片,而不管其组成部分(例如大小和颜色)。
在2014年的一篇论文中,两位物理学家Pankaj Mehta和David Schwab提供了基于重整化群理论的深度学习表现的解释。论文强调DNN是如此强大的特征提取器,因为它们可以有效地'模仿'粗粒化过程,这是RG过程的特征。
引用论文的一句话:'DNN架构可以被视为一种迭代的粗粒度方案,其中NN的每个新的高级层都从数据中学习越来越抽象的高级特征'。
实际上,在他们的论文中,他们设法证明RG和受限玻尔兹曼机之间确实存在确切的映射 (RBM),构成DNN构建块的双层神经网络。
通过堆叠RBM建立的RG和DNN之间的映射
重整化群理论:鸟瞰图
如上所述,重归一化涉及将粗粒度技术应用于物理系统。RG理论是一个通用的概念框架,因此需要使用方法来操作这些概念。变分重整化群(VRG)是由Kadanoff,Houghton和Yalabik于1976年提出的一种这样的方案。
为了清楚地阐述,本文选择专注于一种特定类型的系统来说明RG是如何工作的,即量子自旋系统,而不是完全普遍地进行。但在深入研究数学机器之前,我们将对物理学中旋转含义进行解释。
物理学中旋转的概念
在物理学中,自旋可以定义为'由基本粒子,复合粒子和原子核携带的角动量的内在形式。'
虽然旋转是定义为没有经典对应物的量子力学概念,但是具有自旋的粒子通常是描绘为围绕其自身轴旋转的小顶部。旋转与磁现象密切相关。
粒子旋转(黑色箭头)及其相关的磁场线
重整化数学
让我们考虑N个旋转的系统或集合。出于可视化目的,假设它们可以放在格子上,如下图所示。
旋转的二维点阵(由小箭头表示),球体是带电原子
由于旋转可以向上或向下,因此它们与二进制变量相关联
索引i可用于标记晶格中自旋的位置。为方便起见,我将用向量v表示自旋的配置。
对于热平衡系统,与自旋配置v相关的概率分布具有以下形式:
这是无处不在的(为方便起见,温度设定为1)。物体H(v)是系统的所谓哈密顿量,其可以被定义为 '对应于系统中所有粒子的动能和势能之和的算子'。分母Z是称为分区函数的归一化因子:
系统的哈密顿量可以表示为与自旋之间的相互作用相对应的项的总和:
参数集
被称为耦合常数,它们决定了自旋(第二项)之间或自旋和外部磁场(第一项)之间相互作用的强度。
我们需要考虑的另一个重要数量是。自由能源是一个最初来自热力学的概念,它被定义为' 物理系统中可以转化为工作的能量 '。在数学上,在我们的例子中给出了:
符号'tr'代表迹(线性代数概念)。在本上下文中,它代表在可见的自旋的所有可能的配置的总和v。
在重新正规化过程的每个步骤中,系统在小长度尺度上的行为被平均。粗粒度系统的哈密顿量用新的耦合常数表示
并获得新的粗粒度变量。在我们的例子中,后者是块旋转h,新的哈密顿量是:
为了更好地理解什么是块旋转,请考虑下面的二维晶格。每个箭头代表一个旋转。现在将晶格划分为方形块,每个方块包含2×2个自旋。块自旋是对应于这些块中的每一个的平均自旋。
在块旋转RG中,系统被粗粒化为描述旋转块的有效行为的新块变量
请注意,新的哈密顿量具有与原始哈密顿量相同的结构,仅使用自旋块的配置代替物理自旋。
两个汉密尔顿主义者具有相同的结构,但具有不同的变量和耦合。
换句话说,模型的形式不会改变,但是当我们缩小模型变化的参数时。通过系统地重复这些步骤来获得理论的完全重整化。在几次RG迭代之后,一些参数将被删除,一些参数将保留。剩下的那些被称为。
这些汉密尔顿主义者之间的联系是通过要求RG变换后的自由能(在上面几行中描述)不变化而获得的。
变分重整化组(VRG)
如上所述,为了实现RG映射,可以使用变分重整化组(VRG)方案。在该方案中,映射由操作员实现
其中λ是一组参数。此运算符对隐藏和输入(可见)自旋之间的耦合进行编码,并满足以下关系:
它定义了上面给出的新哈密顿量。虽然在精确的RG变换中,粗粒度系统将具有与原始系统完全相同的自由能,即
这相当于以下条件
在实践中,这个条件不能完全满足,并且使用变分方案来找到最小化自由能之间差异的λ
或等效地,近似精确的RG变换。
RBM简要总结
以上详细描述了受限制的Boltzmann机的内部工作原理。在这里,我将提供更简洁的解释。
受限制的玻尔兹曼机器(RBMs)是基于能量的生成。用于。他们最简单的版本只包含两层:
- 一层可见单元,用v表示
- 一个隐藏层,单位用h表示
简单的受限制的Boltzmann机的例证
我将再次考虑二元可见数据集v,其中n个元素从一些概率分布中提取
输入或可见数据的概率分布
RBM中的隐藏单元(由向量h表示)耦合到可见单元,其中交互能量由下式给出:
能量子指数λ表示变分参数集{ c,b,W } 。前两个元素是向量,第三个是矩阵。RBM的目标是输出与λ相关的 概率分布,该概率分布尽可能接近输入数据P(v)的分布。
与配置(v,h)和参数λ相关联的概率是该能量函数的函数:
从这个联合概率,人们可以通过对隐藏单位求和来轻松获得可见单位的变分(边缘化)分布。同样,隐藏单位的边缘化分布是通过对可见单位求和得到的:
我们可以如下定义RBM哈密顿量:
λ参数可以被选择以优化所谓的Kullback-Leibler距离(KL)散度或相对熵,其测量两个概率分布多么不同。在本案例中,我们感兴趣的是真实数据分布与RBM产生的可见单位的变分分布之间的KL差异。进一步来说:
当两个发行版都相同时:
完全映射RG和RBM
Mehta和Schwap表明,为了建立RG和RBM之间的精确映射,可以为变分运算符选择以下表达式:
回想一下,哈密顿量H(v)包含在其内部编码的输入数据的概率分布。通过这种变分算子的选择,可以快速证明隐藏层上的RG哈密顿量和RBM哈密顿量是相同的:
此外,当可以实现精确的RG变换时,真实和变分哈密顿量是相同的:
因此,我们看到具有自旋v和 块自旋h的重整化组的一个步骤可以精确地映射到由可见单元v和隐藏单元h组成的双层RBM 。
随着我们堆叠越来越多的RBM层,我们实际上正在执行越来越多的RG转换。
应用于伊辛模型
根据这一基本原理,我们得出结论,RBM是一种无监督深度学习算法,它实现了变分RG过程。这是一个非凡的对应关系,Mehta和Schwab通过在一个易于理解的Ising旋转模型上实现堆叠RBM来展示他们的想法。作为输入数据,它们将从Ising模型采样的旋转配置输入到DNN中。他们的结果显示,显然,DNN似乎正在执行(Kadanoff) 块旋转重整化。
在作者的话中'令人惊讶的是,这个局部块旋转结构从训练过程中出现,表明DNN是自组织的,以实现块旋转重整化...无需手动干涉,它在学习'。
他们的结果表明,DNN似乎正在执行块自旋重整化。
在图中,A显示了DNN的架构。在B中,绘制学习参数W以显示隐藏单元和可见单元之间的相互作用。在D中,当我们沿着DNN的层移动时,我们看到逐渐形成块旋转(图中的斑点)。在E中,示出了再现三个数据样本的宏观结构的RBM重建。
深度神经网络应用于2D Ising模型
结论和展望
2014年,表明,受限制的玻尔兹曼机(RBM)是一种神经网络,它与重整化群相连,这一概念最初来自物理学。在本文中,我回顾了他们的部分分析。如前所述,RG和深度神经网络都具有非凡的'哲学相似性':将复杂系统提炼成相关部分。这种RG-RBM映射是这种相似性的一种形式化。
由于深度学习和生物学习过程有许多相似之处,因此假设我们的大脑也可能使用某种'类固醇重整化'来理解我们的感知现实并不过分。
正如作者之一所,'也许有一些通用的逻辑来说明如何从数据中挑选出相关的特征,我想这可能就是存在这样的暗示。'
假设我们的大脑也可能使用某种'类固醇重整化'来理解我们的感知现实是有理论可能的。