模仿大脑:下一代计算机
《环球科学》供图
【环球科技】
引言
在过去几年中,人工智能算法取得了巨大的进步。它在我们日常生活中的应用越来越普遍,经常被用于分析文本或图片的内容,理解语音指令,并且效率常常比人类还高。2016年,AlphaGo算法在围棋比赛中击败了来自韩国的世界冠军李世石,而在10年前,没有一个专家预见它能取得这样的成就。但是,为了达到让人瞩目的表现,这些算法需要消耗大量的电能,远远超过我们的大脑完成同类任务所需的能量。举例来说,BERT是一种处理人类语言的人工智能算法,它的训练过程需要消耗数千千瓦时的电能。这相当于人类大脑运行6年耗费的能量。在能耗层面上,大脑的记忆、计算和学习过程比计算机要高效得多。我们有没有可能从大脑中获得启发,制造出表现更出色的设备?答案是肯定的,我们或许可以利用电子的自旋做到这一点。
1、存算分离导致高能耗
目前比较流行的人工智能是一种基于深度神经网络的算法,它的设计灵感来自于大脑结构。但是为什么人类智能和人工智能在能耗上的表现差异如此悬殊?这是因为如今的人工智能程序还在经典的计算机上,或者在与之相似的显卡上运行,它们的结构和运算原理都和大脑明显不同。
为了解决高能耗问题,许多研究机构和企业都在研发新的电子器件,希望让它的运作原理完全模拟大脑。自旋电子学就是方法之一,这个学科研究如何开发利用电子的某些量子性质。借助自旋电子学研发的硬件,我们或许能够模拟大脑中的神经元以及连接神经元的突触的行为。也许我们在短期内还无法利用自旋电子学开发出一套完整的解决方案,并实现产业化,但一些早期成果已经显现出了良好的前景。
对于实际应用中的计算机,要想提升能量的利用效率和运算速度,最大的障碍来自这样一个基本事实:数据被储存在存储器中,和处理器在物理上是相互独立的。处理器是根据程序指令处理数据的设备。而人工智能算法包含数百万甚至数十亿个参数,当这套算法运行时,它必须一刻不停地在存储器中搜索数据,然后在处理器中将其相加或相乘,最后将结果写入存储器。这就构成了一条通过通信线路持续传输的数据流,它消耗的能量十分惊人。
而在大脑中,数据处理的方式大不相同。存储器无处不在,信息被分布和保存在突触中。突触是神经元之间的连接节点,它同时也负责处理数据。平均而言,每个神经元都和1万个突触相连,并且具备进行并行计算的能力。这种将计算和存储并置的方式,再配合并行处理能力,具有十分惊人的能效。
计算本身的性质也在很大程度上决定了设备的能效。电脑处理的是非常精确的数据,用比特的形式编码信息,对这类数据的逻辑运算是以极其严谨的方式进行的。如果是处理将火箭送进太空的过程,这种精确性至关重要。但是,如果要识别一张熟悉的面孔,这样的精确性可能就没那么必要了。而让电路执行一个完美无缺的操作是很耗费能量的,因为它需要消除所有的噪声,纠正所有的错误。
大脑的能源只有我们每天摄入的热量,十分有限,因此,在演化过程中,大脑采用了另一种策略:在信息处理的可信度和能耗之间进行妥协。突触和神经元具备一些随机行为,它们允许一定的误差,所以即使接收到相似的信息,也不一定会输出相同的结果。
另一方面,为了确保信息处理的可靠,大脑使用了多种策略。例如,每个神经元单独看来都不是十分可信,但是大脑中有时会有多个神经元同时放电,处理同一个信号。大脑基于神经元响应的总和,生成一个相关的稳定结果。从结果看来,这种冗余系统的能耗要低于能够有组织地纠正错误的严苛系统。
此外,由突触储存、由神经元处理的信号并不是二进制形式的“0”或“1”,这点和目前的电子元件完全不同。这些信号是一种电信号,它们的取值范围比较宽,每个信号十分相近但又各不相同。可以说,这种信号所包含的信息量大大增加,但对干扰(或者说噪声)也更加敏感。要知道,在处理器中,每个组成元素都是以相同的时钟频率操作的,这确保了操作的同步,但限制了信息处理速度;而大脑的工作方式与之不同,它不以同步的方式运行,每个神经元都以自己的频率释放电信号,用于和其他的神经元高效沟通。有时这种沟通还要跨越不同的脑区。
2、从大脑获得灵感
大脑的种种特性提高了它利用能量的效率。我们有没有可能从大脑中获得灵感,制造出一种能够用极低的能量就能处理数据的电子器件或者集成电路?
如果将电子神经元和突触安装在相邻的位置,让存储和运算过程尽可能接近,我们或许能够制造出和神经网络相似的结构。这个想法并不新奇。在20世纪80年代末,美国加州理工学院的研究员、现代微电子学的奠基人之一卡弗·米德(Carver Mead)就提出了神经拟态(neuromorphic)电路的概念,他的目标是模拟大脑的神经生物学结构。但是因为技术上的重重障碍,这种方法被冷落了很长一段时间。
第一个障碍就是存储器。直到现在,电子技术仍无法实现大规模的存算一体化。实际上,唯一能够被安装在处理器中的存储回路就是静态随机存储器(SRAM),它的成本极高,因为需要大量占据处理器表面本来就十分有限的面积。因此,处理器中的数据存储容量很小,大部分数据被保存在存储器中,物理上处在处理器的外部。目前,科学家正在尝试多种方式,希望让存储器和处理器靠得更近。在众多研究中,自旋电子学在近年取得了重要的进展。
自旋电子学技术不仅需要利用电子携带的电荷,还需要利用它们的自旋。自旋是一种纯粹的量子特性,其性质与角动量相似,我们可以用一个小箭头来表示电子的自旋。自旋与电子内在的磁矩有关,所以如果一种材料中大部分电子自旋方向一致,它就会具备磁性。自旋电子学正是利用了电流中电子的自旋和磁性材料之间的相互作用。
具体来说,自旋电子学中的基础组成元件是一种直径数十纳米的小圆柱体,即所谓的磁隧道结。磁隧道结包含两层磁性材料(即纳米磁体),中间是绝缘层。当两个纳米磁体磁化方向一致的时候,电流就能借助隧道效应(一种量子效应),轻松穿过磁隧道结,这时它的电阻很小。如果纳米磁体磁化方向相反,电流就难以通过,也就是说它的电阻变大了。
因为这样的性质,磁隧道结可以储存二进制信息,用不同的磁化方向记录“0”或“1”。基于这种原理的存储器被称为磁性随机存取存储器(MRAM),诞生于20世纪80年代中期。但是,要想改变一个比特的数值,就需要对它施加外部磁场,以此改变纳米磁体的磁化方向。这样的过程阻碍了设备的微型化。
1996年,IBM研究员约翰·斯隆泽乌斯基(John Slonczewski)和美国卡内基-梅隆大学的吕克·贝尔热(Luc Berger)各自独立提出了一套方案,大幅改进了这类设备。他们证明了一种新的效应,就是自旋传递。
当电流中的电子穿过磁隧道结中的一个纳米磁体时,它们的自旋会和磁体中的电子的自旋发生相互作用,导致电流中的电子自旋发生极化,变得与磁体中的电子自旋方向一致。在磁隧道结中,一个纳米磁体的磁化方向可变(称为自由层),而另一个磁体的磁化方向是保持不变的(称为参考层)。当极化的电流流过自由层,它会改变磁体的磁化方向。因此,只要通过操纵电流的方向,就能写入一个比特的“0”或“1”,而不需要借助外部磁场。这个发现催生了集成MRAM的概念。
从那以后,多个微电子系统生产商都开始利用这种技术制造存储器。要知道,一个硅基集成电路上就能整合10亿个这样的元件。目前这类存储器已经被应用到日常使用的电子设备中了,因为它同时具备两大类存储器的优点:读写速度和动态存储器一样快,长期储存信息的能力和大容量存储器一样强。
由此,我们正在不断接近神经拟态集成电路的概念。在执行运算的硅基集成电路中,磁隧道结可以被安装在最有用的地方,以比特的形式储存数据。正如在大脑中突触和神经元相连,这些人造“突触”能够尽量靠近用硅制作的运算中心。如果要在这样的设备上运行神经网络算法,只需为这些突触配置上正确数值,以定义程序任务。神经网络则可以根据相应的数值,识别出图像或声音中的元素。
通过大幅减少外部存储器和处理器之间的数据交换,我们有望减少人工智能算法消耗的能量。学术界和产业界都在积极探索这种方法。但它目前仍然无法完全令人满意:要执行一个任务,需要事先知道每个突触要记忆的正确数值。而这类元件不具备真正的大脑所拥有的可塑性。我们希望在理想情况下,能够制造出可以通过学习执行不同运算的回路。
3、从“突触”开始
一般来说,神经网络算法的第一步是学习。在这个过程中,神经网络需要不断调整突触的数值,以便改进运算表现,更好完成分配给它的任务。
不幸的是,算法用来识别神经网络中突触正确数值的技术来自于一套复杂的数学方法,被称为“反向传播”。这个过程需要执行一系列高精度运算,会消耗大量能量。这种方法适用于计算机,但对于一个要模拟大脑的系统而言并不是必要的,因为新系统运算的精度相对较低。
在这种情况下,与高精度高能耗的方法相比,再次选择模拟大脑的运算方式会更明智。值得注意的是,生物学上的突触不仅发挥了记忆功能,也是学习机制的核心。实际上,它们是可塑的,可以根据自身暴露的信息量调整自己的活动。例如,当通过一个突触相连的两个神经元同时活跃,使得这个突触的活动性增加,突触就会因此得到增强。但这种增强并不一定是完全彻底的,否则每个新信号都会抹去神经元在过去的经验过程中建立起的微弱联系。
如果要将这个原则应用到自旋电子学器件中,就要根据器件收到的信号,调整人工突触的数值。实际上,用这样的系统实现一定的可塑性是有可能的。当电压被施加到一个磁隧道结上的时候,自旋传递效应就会使其中一个纳米磁体的磁化方向发生改变。如果电压足够高,持续时间足够长,就足以让纳米磁体的磁化方向反转,从而将数值保存在磁隧道结中。但是这种反转不一定是可预测的:如果电压持续时间不够长,那么磁化方向有时会反转,有时候不会。而对磁隧道结施加的电压越高,磁化方向反转的概率也就越大,但不会达到100%。
4、学习能力
在通用存储器中,这种不确定的表现必须尽可能避免。但是神经拟态系统中,突触会按具体收到的信号逐渐改变它所处的神经网络的功能,调整系统对新任务的响应,并且不需要借助反向传播这样的烦琐过程。
2015年,我和同事证明,一个由自旋电子学存储器构成的系统可以学习计算高速公路上的车辆数量(精度为95%),或者识别手写数字,其方法与通用人工智能算法相同。对于这些相对简单的任务,它的表现与更传统的神经网络学习技术相当。(并且后者需要模拟更多的突触,消耗的能量更多。)但是对于复杂的任务,例如和围棋高手对局,这种新的方式还远远无法与传统技术相匹敌。
另外,即使我们能够实现人造突触,将信息储存在里面,并使它能够调整响应,以此模拟突触可塑性和学习过程,但一个完备的神经拟态系统还必须同时包含执行运算的神经元。
人类大脑中有接近1000亿个神经元,而今天的人工智能算法最多只能模拟几千万个神经元。有没有可能用现有的硅基晶体管技术模拟神经元?首先,用这种技术制造一个人工神经元就需要几百个晶体管,如果我们要在一个拇指大小的芯片上安装这么多元件,那么每个神经元的大小就要远远小于1毫米,这是不可能的。
例如,IBM在2014年发布的TrueNorth芯片就是一个神经拟态元件,它令人印象深刻,并且没有运用自旋电子学。这个系统包含50亿个晶体管(一个庞大的数字),能够模拟100万个神经元和数百万个突触。通过让运算和存储的区域相互靠近,IBM证明这样一个芯片的功率远小于普通的芯片,差距达几个数量级。
实际上,TrueNorth芯片的架构并不包含100万个神经元。不过TrueNorth芯片运行速度极快,因此一个数字电路可以模拟多个人工神经元(相当于在物理上聚集在一起的一组神经元),连续执行每个神经元负责的运算。这是一个微小却重大的革新,改变了制造人工神经元和人工突触的神经拟态的基本思想。到2017年,英特尔也开发了一个相似的芯片,称为Loihi,但它略逊一筹,只有13万个神经元。这些器件仍然体积庞大,很难想象通过这种方式就能制造出和人类大脑相当的东西。
自旋电子学还指出了另一条道路。磁隧道结可以模拟大脑神经元的核心功能,尤其是神经元之间通过释放电脉冲信号交流的特性。电脉冲本质上都是一样的,但其数量取决于神经元的活动。如果一个神经元在短时间内收到多个电信号,那么接下来它释放信号的频率也会提高;如果它只收到少量的信号,那么它传出的信号也较少。
传统的电子元件很难在纳米尺度上模拟神经冲动。实际上,要制造具备一定频率的脉冲信号,需要在电子回路中制造反馈循环,这也会占据空间。但是,用磁隧道结来实现这种行为是可能的。
一种解决方案是将输入信号转换为相加的电流(这点与生物体内的神经元完全相同),然后再将其注入磁隧道结。接下来,我们选择元件的性质,让输入电流中的电子的自旋不足以完全改变纳米磁体的磁化方向,而是能让它持续振动、旋转,就好像指南针的指针那样。当参考层和自由层磁化方向的相对朝向发生周期性变化,磁隧道结的电阻(称为磁电阻)就会发生变化,并表现为周期性的电流变化。输入电流越强,相对朝向的旋转速度就越快,输出信号的频率也就越高。这就得到了一个与神经元非常相似的行为。这种现象在室温下就能实现,并且对于纳米尺度元件而言十分稳定。因此,可以利用这种原理制造功能更完善的设备。
5、准确率99.6%
2017年,我的团队通过实验证明,一个磁隧道结就能模拟一个神经元。我们甚至还走得更远:只用一个磁隧道结,就模拟了一个由400个神经元构成的神经网络。这个方案借助了一种名为“时分复用”的策略,磁隧道结轮流扮演每个神经元的角色。随后,我们还用这个自旋电子学建构的大脑识别了不同的人说出的数字。
为此,我们先将声学信号转换成电信号,使它能通过磁隧道结。为了让它的频率处在器件的波段之内,声学信号对应的电信号要加速1000倍。通过时,它们的确改变了一个纳米磁体的磁化方向。随后,因为磁电阻效应的存在,人造神经元将电流模式转换为两端的电压变化。我们记录了人造神经元的电压变化,然后将它传输到一台电脑中。这样我们就能根据突触函数模拟整个神经网络。经过学习数字发音的阶段后,这些函数就完成了配置。随后,用新的对话输入这套神经网络,就能识别其中的数字了,准确率可以高达99.6%,表现十分优秀。这个实验证明,磁隧道结能够可靠地模拟神经元。
在神经拟态计算方面,自旋电子学领域的研究十分鼓舞人心。未来我们需要面临的挑战,是用数百万个磁隧道结模拟神经元和突触,搭建一套完整的神经网络。如今,产业界已经能将几十亿个磁隧道结安装在芯片上,让它们接入经典电路,以此发挥存储器的作用了。这为后续的长期研究打下了坚实的基础。
自旋电子学带给我们的惊喜还不止于此。磁隧道结还能模拟大脑的其他性质,例如相距甚远的神经元之间的同步效应。因为在大脑中,神经脉冲信号有时候会引发远处神经元的同时应答。这种同步有许多优势。在处理信号的过程中,同时发送脉冲信号的神经元更加重要。如果它们都和同一个神经元相连,那么后者将在短时间内收到大量的脉冲信号,并且能够高效地将信号发送出去。整个系统中的神经元都受到这个现象的支配,这产生了脑波,能够高效影响位于其他脑区的神经元的行为,尽管这些神经元可能离得很远。
6、微型“囊泡”和“受体”
磁隧道结运行速度极快,它们产生的电磁脉冲信号的频率常常超过几十万赫兹。因此,它处理信息的速度比大脑要快几百万倍。但这带来了另一个问题,这些元件的行为就好像纳米级的无线电收发电台。而磁隧道结对环境中的电磁波极其敏感,这可能会影响它们产生的脉冲信号,它们是灵敏的收音机。通过调节磁隧道结组合发出和收到的信号,我们有可能调节它的特征,使其中的磁隧道结相互同步。这样就能像生物体中的神经元一样了。
在人造神经网络中引入这种同步行为,可以高效训练出适用于不同任务的神经网络,这是令人心动的一条道路。2018年,我们和同事共同研究了一种包含400个磁隧道结的系统,它的任务是识别语音中的元音。这个声学信号被缩减成两个频率(由傅里叶分析实现),并加速了10万倍,然后传输到4个纳米振荡器构成的天线。十分有趣的是,在这个实验中,我们证明磁隧道结协调自身频率的能力改善了识别声学信号的表现。
为了将研究推进一步,我们需要尝试实现一种神经网络,能让神经元通过磁隧道结收到和发出的电磁波交流。这种网络为实现稠密神经网络中神经元的相互连接提供了一条可靠的途径,而稠密神经网络是完成复杂任务不可或缺的。为此,一个完备的系统要将磁隧道结制造的神经元和基于MRAM的人造突触相连接,以让MRAM具备学习能力。
这样的系统能做什么呢?我们的目标并不是得到一个和人类智力不相上下的人工智能,我们对大脑的认识还远远不足以实现这样的成就。但是,我们希望得到一个比目前能效更高、运算速度更快的人工智能。通过这种方式,我们可以大大减少运算中心在翻译文本或者转写语音时消耗的能量,或者把这样的器件安装在手机或自动驾驶汽车中,为日常生活带来便利。
(作者:茱莉·格洛利耶是法国科学研究中心-泰雷兹集团联合物理研究所研究员。达米安·科里奥兹是巴黎-萨克雷大学与CNRS纳米科学与纳米技术研究中心研究员。)