【科普】我们的大脑不是简单的接收器,变异声如何被大脑捕获?
引言
在日常生活当中,我们听到的声音往往都有重复的模式,比如嗡嗡作响的虫鸣声,拍打岩石的海浪声,抑扬顿挫的说话声等。根据这些模式,我们有理由猜测将来的声音也应该符合类似的模式,因此可以对未来的声音进行预测。这种预测对于生存和认知都有着很重要的意义:人类先祖们可以利用声音重复模式的变化来躲避天敌;在理解语言和欣赏音乐时,听觉预测也帮助我们整合听觉信息。
01
我们的大脑不是简单的接收器
听觉预测是我们更深入理解大脑的一个切入点。大多数神经科学的研究以机械的眼光看待大脑,观察外界物理信息是如何转变为神经信号进入大脑的。这就好比是把大脑看作一个显示器,给它接上一个信号,它就会呈现出一个图像。通过尝试不同的信号,神经科学家们探究显示器上的图像和信号之间的关系。通常不会假设这个显示器会随着时间变化,也不会认为当下显示器上的图案和之前接入过的信号有什么关系。这样的研究放在动物身上是合适的,因为我们并不容易知道动物想了些什么,也不好确定动物的认知能够达到什么样的程度。然而,研究人的大脑应该考虑更高级更复杂的认知过程。
图1. 大脑不是一个被动的接收器
听觉预测的神经机制就包含了两个信息处理的层次。
初级的处理层次如上文提到的显示器一样,它可以将物理信息转化为神经信号,通常是忠实地反映了当下的物理信息。
高级的处理层级可以整合之前的与当下的神经信号,并且将预测信息传回初级层次,这就好比调整显示器的亮度和对比度,让它对某些物理信息更敏感,对另一些不敏感。实际的实验通常需要通过一些设计和控制,人工生成一些可以引发听觉预测的声音刺激,或是构造一个使用听觉预测的行为场景。
其中,最直接简单的方法就是听觉一致性检测(auditory regularity detection),具体来说就是先听一串相同时间间隔的相同的声音(标准声),然后突然出现一个不同的声音(变异声)。我们会很明显地感知到这个变异声,因为它不符合之前标准声构建的听觉预测。
比如,我们听第一个声音例子(s1.wav),我们先听到5个500Hz的短音,这时有理由相信下一个声音也是不变的,即500Hz。我们再听第二个声音例子(s2.wav),如果下一个声音变成550Hz,那么我们会很明显地感知到声音变化,而且会认为它违背了听觉预测。
图2 听觉一致性检测
因此,之前重复的标准声构建了对于下一个声音的听觉预测,即预测它还是标准声,但是偶尔出现的变异声(Oddball)违背了听觉预测。通过头皮脑电EEG的记录,将变异声对应的神经信号减去标准声,可以得到被称作失匹配负波(mismatch negativity, MMN)的信号特征,即在声音播放起始后120ms时,头皮脑电的额区和中央区有一个负成分[1]。之后的功能磁共振的研究使用类似的实验方法,进一步将这个生理成分主要定位在颞叶听觉区附近的颞上回(superior temporal gyrus, STG)和额叶语言区附近的额下回(inferior frontal gyrus, IFG)[16]。
02
出人意料的变异声如何被大脑捕获?
在治疗癫痫和脑瘤的外科手术中,我们有机会打开颅骨记录颅内脑电信号(Intracranial EEG, iEEG)。颅内脑电的技术因为高时空分辨率,可以尝试进一步回答以下几个问题[2]:
听觉预测是否只依赖颞叶听觉-前额(STG-IFG)系统,还是有一个更大的功能网络?
前额和颞叶听觉皮层是如何参与到听觉预测当中的?神经信息是如何产生并在它们之间流动的?
2005年,Timm Rosburg等人使用颅内脑电记录了29位癫痫病人在听觉一致性实验中的神经信号[3],其中13位病人发现了N100的响应,类似于头皮脑电EEG中的失匹配负波。绝大多数有响应的电极位于颞上回STG及其附近,还有两个病人的响应位于额下回IFG。尽管由于电极覆盖的限制,没有能在所有病人的电极中找到响应,但也验证了头皮脑电和磁共振中发现的颞上回和额下回(STG-IFG)的重要性,并且更精细地刻画了响应的时空特征(图3)。
图3 颅内脑电记录到的颞叶和额叶对变异声的响应[3]
2005年,Erik Edwards等人使用颅内脑电探究了听觉一致性实验的神经响应[4],发现颞上回对于变异声有gamma频段和beta频段的响应。这个研究利用颅内脑电的高信噪比,探究了精细的时频特征(图4)。进一步,为了研究颞上回和额下回之间的关系,Holly N. Phillips等人在2016年使用动态因果模型(dynamic causal modelling)研究这两个位置神经响应的关系,发现它们之间存在双向的信息传递过程[5]。另外,也有在非人灵长类上的颅内研究印证了这种双向传递[6]。
图4 颅内脑电颞叶STG对变异声的时频响应[4]
在颞上回和额下回以外,Alejandro O. Blenkmann等人在2019年发现[7],颞上沟(superior temporal sulcus)和岛叶(insula)也会对变异声有不同的响应。
图5 岛叶Insula对变异声的高频能量响应[7]
(红线-变异声;蓝线-标准声)
小结
通过颅内脑电的记录,进一步验证了颞上回STG和额下回IFG在听觉一致性检测中的重要性,并且发现了High gamma和beta频段的响应模式和双向的信息传递过程。另外,岛叶Insula也可能参与了这个认知过程。
03
更复杂的声音序列怎么办?
从认知的角度出发,听觉一致性还可以有不同的时间尺度[6]。比如说,声音序列可以以五个声音作为一个单元进行循环重复。如果重复的声音单元是XXXXX(s3.wav),此时突然出现一个XXXXY,则这个声音Y在局部短时的时间尺度上,相对于之前的4个X是变异的;同时在整体长时的时间尺度上,相对于重复单元XXXXX也是变异的。然而,如果重复单元是XXXXY(s4.wav),那么这个声音Y在局部是变异的,在整体上却是标准的。此时突然出现一个XXXXX,则最后一个X在局部是标准的,在整体上是变异的。通过这样的声音序列设计,就得到了不同时间尺度下的标准声与变异声。
图6 不同时间尺度的听觉一致性:全局变异与局部变异[6]
2018年,Kirill V. Nourski等人使用这种局部-整体的实验方法发现[8],局部短时间尺度的变异声在颞叶会引起high gamma和平均电位的变化,在额叶只引起平均电位的变化;整体长时间尺度的变异声在颞叶也会引起high gamma和平均电位的变化,但是有响应的电极更靠后,而会在额叶引起high gamma和平均电位的变化。这说明了额叶对于听觉一致性检测的时间尺度是敏感的,而且局部变异能够引起额叶的响应,也挑战了之前研究中局部变异只能引起听觉区域响应的假说[9]。
图7 局部变异和全局变异声音序列的响应分布[8]
同时他们还对响应的延时进行了分析,发现了从颞平面HG到颞上回,再到额叶的时间关系,而且整体变异的响应延时要晚于局部变异。
图8 局部变异和全局变异响应的先后时序[8]
进一步,为了探究听觉预测构建的过程,Stefan Durschmid等人在2016年[10]和2018年[11]使用两种声音序列,一种序列可以完全预测变异声出现的位置,另一种序列的变异声出现的位置是随机的。他们发现在声音出现之前,只有当下一个声音是可预测的变异声时,额叶产生高频能量的下降。而且能量下降的程度与之前标准声的重复次数是相关的,这反映了额叶对于即将到来的听觉变化产生了预测[11]。另外,在声音出现之后,颞叶只对于声音本身的类别(标准/变异)是敏感的,而额叶对于不可预测的变异声更敏感,这反映了额叶处理了更长时间尺度的听觉预测信息[10]。
图9 可预测的和不可预测的变异声序列[10][11]
图10 额叶对于不可预测变异声的显著响应[10]
小结
从不同的时间尺度来看,处理局部短时的听觉变化信息主要是在颞上回前部和中部,处理整体长时的听觉变化信息以及听觉预测是在额下回以及颞上回后部。
04
漏掉的声音会“脑补”吗?
上文所述的听觉一致性检测通过比较变异声与标准声的响应差异,只是从侧面反映了听觉认知的预测机制,因为它还没能完全去掉对于声音本身的物理特征的响应。为了更进一步探究听觉预测,研究者们使用了听觉遗漏检测(auditory omission detection)的实验方法。具体来说,首先重复规律地播放同一种声音,但是在少数时刻将声音去掉,即在一些本应该出现声音的时候却不出现声音(s5.wav)。如果在没有声音的时候仍然出现神经响应,那么可以认为真的存在“无中生有”的听觉预测。
2001年,Hughes等人使用颅内脑电探究人对于听觉遗漏的神经响应[12]。使用如下图中所示的听觉刺激,包括单音的遗漏和双音的后一个音的遗漏。通过分析平均电位发现,颞上回和中央运动区的电极不仅对双音都有响应,而且在双音的后一个音遗漏时,仍然有电位变化。
图12 遗漏音的“脑补”响应出现在颞上回和中央运动区[12]
图13 遗漏双音的“脑补”响应显著[12]
2019年,Yvonne M. Fonken等人使用语音音节序列作为听觉刺激,发现在本该出现的音节遗漏时,颞上回后部会有高频能量的响应。而且,STG后部、颞顶结合部TPJ以及额下回IFG部分电极特异性地只对遗漏音节响应,而对真实出现的音素没有响应[13]。
图14 对遗漏音节有响应的电极分布[13]
为了更好地接近真实自然的听觉预测,Matthew K. Leonard等人在2016年将一个音节被噪声替代的词放入不同的真实语句中,使得这些包含噪声的词在不同语句中可以被听为不同的词[14]。比如把faster和factor中间的/s/和/k/用噪声替代,就能够生成相同的包含噪声的词。他们发现颞上回的高频响应可以区分被感知为faster和factor的词,尽管这两个词的物理信息是相同的。
图15 在自然语音序列中颞上回的脑补响应随语境而变化[14]
小结
颞上回和中央运动区对漏掉的声音有响应,进一步验证了大脑不仅仅是被动地呈现听觉信息,还会进行主动的听觉预测。同时,对于真实语言的“脑补”也体现了这种预测在人类高级认知中的重要作用。
05
故事并没有结束
目前有相当数量的听觉一致性和听觉预测研究使用了颅内脑电记录,这些研究主要做出了如下的贡献[2]:
基本确定了颞上回STG和额下回IFG是听觉一致性检测的主要功能区,且它们的响应特征主要是high gamma和beta能量的变化。
通过响应时序关系和动态因果分析发现了初级听觉区HG->颞上回STG->额下回IFG的信息前馈通路,以及额下回IFG->颞上回STG的听觉预测信息反馈通路。
同时,我们注意到听觉预测研究中仍然具有一些问题亟待解决:
神经响应中的哪些频率成分,反映了信息前馈和反馈通路的感知?目前认为high gamma频段与前馈有关,beta频段与反馈有关[15],但还需要进一步刻画它们在听觉预测中的时频特征。
目前大多数研究采用的是人工精细控制与合成的简单听觉刺激,将来还需要更多地使用诸如语言、音乐这样的真实材料,并且结合人的行为来研究听觉预测。
目前大多数研究忽略了听觉预测的动态建立过程。我们从认知的角度思考,并不能够假设听觉预测在声音第一次出现的时候就建立起来了,它应当需要重复一定次数才能够完全建立。但是可能是由于过去记录技术的限制,不得不用叠加平均的方式处理神经信号,就丢掉了这些信息。将来通过高信噪比的颅内脑电记录,可以尝试探究听觉预测的动态变化过程。
(向上滑动启阅)
参考文献:
Näätänen, R, Gaillard, A.W.K, & Mäntysalo, S. (1978). Early selective-attention effect on evoked potential reinterpreted. Acta Psychologica, 42(4), 313-329.
Johnson, Elizabeth L, Kam, Julia W Y, Tzovara, Athina, & Knight, Robert T. (2020). Insights into human cognition from intracranial EEG: A review of audition, memory, internal cognition, and causality. Journal of Neural Engineering, 17(5), 051001.
Rosburg, T., Trautner, P., Dietl, T., Korzyukov, O. A., Boutros, N. N., Schaller, C., ... & Kurthen, M. (2005). Subdural recordings of the mismatch negativity (MMN) in patients with focal epilepsy. Brain, 128(4), 819-828.
Edwards, E., Soltani, M., Deouell, L. Y., Berger, M. S., & Knight, R. T. (2005). High gamma activity in response to deviant auditory stimuli recorded directly from human cortex. Journal of neurophysiology, 94(6), 4269-4280.
Phillips, H. N., Blenkmann, A., Hughes, L. E., Kochen, S., Bekinschtein, T. A., & Rowe, J. B. (2016). Convergent evidence for hierarchical prediction networks from human electrocorticography and magnetoencephalography. cortex, 82, 192-205.
Chao, Z. C., Takaura, K., Wang, L., Fujii, N., & Dehaene, S. (2018). Large-scale cortical networks for hierarchical prediction and prediction error in the primate brain. Neuron, 100(5), 1252-1266.
Blenkmann, A. O., Collavini, S., Lubell, J., Llorens, A., Funderud, I., Ivanovic, J., ... & Solbakk, A. K. (2019). Auditory deviance detection in the human insula: An intracranial EEG study. Cortex, 121, 189-200.
Nourski, K. V., Steinschneider, M., Rhone, A. E., Kawasaki, H., Howard III, M. A., & Banks, M. I. (2018). Processing of auditory novelty across the cortical hierarchy: An intracranial electrophysiology study. Neuroimage, 183, 412-424.
Bekinschtein, T. A., Dehaene, S., Rohaut, B., Tadel, F., Cohen, L., & Naccache, L. (2009). Neural signature of the conscious processing of auditory regularities. Proceedings of the National Academy of Sciences, 106(5), 1672-1677.
Dürschmid, S., Edwards, E., Reichert, C., Dewar, C., Hinrichs, H., Heinze, H. J., ... & Knight, R. T. (2016). Hierarchy of prediction errors for auditory events in human temporal and frontal cortex. Proceedings of the National Academy of Sciences, 113(24), 6755-6760.
Dürschmid, S., Reichert, C., Hinrichs, H., Heinze, H. J., Kirsch, H. E., Knight, R. T., & Deouell, L. Y. (2019). Direct evidence for prediction signals in frontal cortex independent of prediction error. Cerebral Cortex, 29(11), 4530-4538.
Hughes, H. C., Darcey, T. M., Barkan, H. I., Williamson, P. D., Roberts, D. W., & Aslin, C. H. (2001). Responses of human auditory association cortex to the omission of an expected acoustic event. Neuroimage, 13(6), 1073-1089.
Fonken, Y. M., Mukerji, A., Jimenez, R., Lin, J., Brunner, P., Schalk, G., & Knight, R. T. (2019). Unexpected sound omissions are signaled in human posterior superior temporal gyrus: an intracranial study. bioRxiv, 733212.
Leonard, M. K., Baud, M. O., Sjerps, M. J., & Chang, E. F. (2016). Perceptual restoration of masked speech in human cortex. Nature communications, 7(1), 1-9.
Bastos, A. M., Usrey, W. M., Adams, R. A., Mangun, G. R., Fries, P., & Friston, K. J. (2012). Canonical microcircuits for predictive coding. Neuron, 76(4), 695-711.
Opitz, B., Rinne, T., Mecklinger, A., Von Cramon, D. Y., & Schröger, E. (2002). Differential contribution of frontal and temporal cortices to auditory change detection: fMRI and ERP results. Neuroimage, 15(1), 167-174.