PNAS:婴儿大脑中语言的正交神经编码

对人类大脑来说,从不断变化的语音信号中创造出不变的表示是一项重大挑战。这种能力对于语言习得前的婴儿尤为重要,因为他们必须发现一个极不一致的信号在语音、词汇和句法上的规律,才能习得语言。在视觉域内,克服可变性的有效神经解决方案包括将输入分解成正交分量的简化集。在这里,我们讨论是否在早期言语知觉中使用了类似的分解策略。使用256通道脑电图系统,我们记录了3个月大的婴儿对120个不同声学和语音特征的自然辅音-元音音节的神经反应。使用多元模式分析,我们发现音节被分解成不同的和正交的辅音和元音神经代码。对于辅音,我们进一步证明了加工的两个阶段的存在。第一阶段的特征是正交和发音的方式和位置维度的上下文不变神经编码。在第二阶段,结合方式码和位置来恢复音素的身份。我们的结论是,尽管缺乏发音运动计划和言语产生技能,但咿呀学语前婴儿已经具备了结构化的言语分析组合编码,这可能是第一年语言习得速度快的原因。本文发表在PNAS杂志。(可添加微信号siyingyxf18983979082获取原文,另思影提供免费文献下载服务,如需要也可添加此微信号入群,原文也会在群里发布)
1. 介绍
对于任何大脑来说,最重要的、最根本的挑战是构建一个变化世界的稳定表征。特别是在言语方面,人类词汇的广度及其语素构成的可能性是基于细微的语音差异,这些语音差异根据许多语境因素,如声音特性、语调和协同发音,经历了实质性的声学重构。然而,无论是小女孩喊出来的还是老人低声说出来的,我们都毫不费力地认为“bog”和“dog”是稳定而清晰的词。从极其多变的语音信号中提取不变的神经表征的能力对成年人至关重要,对婴儿更是至关重要,因为他们必须发现语言的组织规律,才能习得母语。然而,这种能力的神经基础仍未有确定结论。
在视觉领域,基于物体和人脸识别的神经元记录的最新发现表明,为了处理大量输入的图片,大脑将输入分解为独立的、正交的低维分量,每个分量编码不同的变化维度。例如,面孔可以分解成50个正交的维度,从而显著降低维度。这些组成部分随后被重新组合以产生统一的感知。这样的说法也适用于言语吗?除了任何神经方面的考虑,语言学家已经将音素定义为一组小的正交语音特征,每个对应一个二进制代码,总结一个发音维度及其声学相关。例如,上面例子中的音素“b”和“d”除了发音位置之外,其他参数都是相同的。考虑到它们的语言特征(独特的、最小的和可组合的),这些特征可能与大脑利用的基本分解轴相对应,以减少语言输入的高维性,从而克服其可变性。
在过去的几年里,有成年人的高分辨率颅内记录和fMRI (fMRI)成人数据提供了与该假设一致的证据:在被动听讲过程中,观察到语音特征的部分神经专门化。在这里,我们要问的是,这种分解策略是否在婴儿期就已经存在了。
语言习得的第一个关键步骤是识别母语的声音结构。因此,描述婴儿开始时的言语表征类型对于阐明他们如何发现母语的语音库和语音语法至关重要。大量的经典研究表明,婴儿出生时就具有辨别各种语音对比所必需的知觉能力。此外,行为和神经成像研究都表明,自出生以来,他们会自发地掩盖说话者声音变化所产生的听觉变异性、语速和韵律。有趣的是,新生儿表现出的知觉稳定性类型恰好与建立语音差异和意义变化之间的可靠联系所需的类型相对应。尽管这是一种非凡的能力,但早期发现音节之间最小语音对比的能力并不能真正揭示潜在的神经编码的本质:婴儿可以将话语作为一个整体来处理,也可以将其分解成更小的元素(例如,音素或语音特征)。
行为研究表明,新生儿和2个月大的婴儿无法在一组包含不同元音的音节中识别出一个共同的辅音。此外,新生儿能够利用音节成分的数量而不是音素的数量对话语进行分类。根据这些结果,许多作者提出以音节作为语音处理的原始单位。计算模型证实了这一结论的合理性,它表明,在会话式讲话中,基于声音的类音节结构确实可以通过一般的听觉机制实现。目前,在没有语言知识的情况下,这种广泛的、整体的单元被广泛认为是词汇学习的起点。
然而,神经影像学的进展为新的范式开辟了道路,绕过行为限制,可能会发现在发育早期存在意想不到的精细能力。重复仅在发音成分上不同的CV(辅音-元音)音节后,脑电图(EEG)记录显示,3个月大的婴儿能够识别共同的辅音并检测其变化。他们甚至可以学会将每个辅音与独立于语音环境的视觉形状联系起来。这一发现在亚音节加工方面很容易解释,这促使人们重新审视早期言语表征的类型。
为此,我们将高分辨率脑电图记录与时间分辨多元模式分析相结合。共25例3个月大的婴儿在1小时内接触120个伪随机顺序的自然CV音节。选择的音节被独立地改变发音方式的辅音维度(钝音与高音)和发音的位置(唇瓣、牙槽骨和软腭)。每个辅音都有两个元音(/i/和/o/),由一个男性和一个女性在五个不同的发音中发出,以确保在具有相同语音特征的符号中声学和协同发音的可变性(图1A)。发音方式和发音方式的维度被选择是由于它们的声学相关特征的高度对比水平的一致性:虽然方式反映在突出的谱-时间(spectro-temporal)原型,方式的声学线索更微妙和复杂,因此从根本上依赖于生产环境。这种声学发散在我们的刺激集的听觉相似结构中尤其明显,如SI附录,图S1所示。

附录图S1 当言语刺激到达中央听觉通路时的表征性内容:图S1:

(A)通过耳蜗频率分析模型从语音中提取听觉谱图,然后按音节类型平均(上:一个女性发出的“go”;下图:属于次级条件“go-female”的所有5个话语的平均声谱图)。蓝-红音阶反映了最小到最大的能量,分别在辅音和元音部分标准化。

(B)在谱时间=200ms时,报告每对听觉谱图之间的欧氏距离的不相似矩阵示例。每个标签(例如“bi”)索引两个子条件:female和male。

(C)分类不同模型(条件按照上面矩阵的顺序排列):浅色表示对应(距离=0),深色表示不对应(距离=1)。

(D)谱距矩阵和理论距离矩阵在音节展开时的相关性(虚线垂线标志着辅音和元音之间的转换)。较粗的线表示FDR校正后的显著时间点(p<0.05)。

我们使用多元解码(multivariate decoding)分析来研究婴儿在三个可能水平上的语音加工,对应于整体音节、音素和语音特征。线性分类算法是一种强大的工具,因为它们可以结合多个来源(这里是EEG通道),找到反映感兴趣变量的最佳脑信号组合。由于数据中的任何特性都可以用于分类,这表明神经反应可以根据某些标签进行排序,但这本身并不能说明潜在的编码方案。这方面的一项关键策略是审查泛化的方式:在特定的环境中训练的解码器如何在预期与给定代码无关的变化中执行。例如,如果婴儿提取说话者不变的信息,那么大脑对男性声音产生的音节反应训练的解码器将被期望泛化为女性声音(反之亦然)。这种逻辑正是本研究的核心目的。我们推断,如果辅音和元音被分别处理,那么一个在元音“o”的环境中训练的解码器就应该推广到另一个元音“i”的环境中。相反,如果每个音节都有自己独特的神经编码,那么这种泛化就不可能实现。在亚音节水平上,我们可以问,一个经过训练来区分“bo”和“do”的解码器是否能够1)正确地区分“mi”和“ni”,从而揭示出“唇”和“肺泡”方式的神经编码的存在,方式与元音正交,或者2)仅仅概括为“bi”对“di”,从而表明辅音“b”对“d”的特殊和完整的神经编码,而不需要进一步分解为可分离的维度。
此外,通过使用时间分辨脑电图信号,可以在每个时间点训练一个不同的解码器,以探测不同的泛化模式随时间的存在。通过追踪泛化和分类混淆的时间进程,我们可以问是否以及何时特定的信息片段在加工的各个阶段被重新编码。与观察到的人脸相似的因子分解编码模型,可以预测信号的早期投影到一小组正交维中,然后再将它们整合到更大的语块(辅音/元音或者整个音节)中。
从嘈杂的婴儿事件相关电位(ERPs)中解码语音是一项艰巨的任务。为此,我们记录了由3100个试次/每人组成的大数据集。此外,我们使用高密度脑电图收集ERP,该网络具有256个通道(图1B和SI附录,图S2;所有音节及其来源的总平均值也见图1C)。这种密集的电极覆盖,结合婴儿头骨的厚度,应该会提高我们记录的空间分辨率,并有助于识别来自空间紧密神经元簇的ERPs。
图1 实验设备和平均音节相关电位。
(A)刺激子条件及其语音特征(f =女声,m =男声)。
(B)一个3个月大的婴儿的256通道超高密度网络:定制电极的紧密网格排列在颞上叶的听觉语言区(参见图S2)。
(C)总平均ERP:所有条件都在一起。

附录图S2 原型超高密度网:(图1的补充)。

定制电极的紧密网格被布置在上颞叶的听觉语言区域:20个颞叶测地线位置(128个分区)充满了六边形排布,每个包含7个传感器,位于5毫米的交互距离。

2.材料和方法
被试
共有25名来自法语环境的足月、听力正常的婴儿(12名女性,13名男性)在出生后12至14周(平均年龄= 12周零6天)进行了测试。另外16名参与者被排除在分析之外,原因是在实验过程中过度激动(n = 6),删除伪迹排后的试次数不足(n = 3),数据收集过程中的技术问题(n = 3),或所有音节相关电位平均后的异常全局场功率(峰值GFP<4uV,n=4)。
刺激
刺激由120个由6个辅音构成的语音组成:/b/, /d/, /g/, /m/, /n/, 和 /ɲ/。选择这些辅音是为了涵盖两个方式特征,即浑浊的(/b/, /d/和/g/)和高亢的(/m/, /g/),唇(/b/和/m/),牙槽(/d/和/n/),软腭(/g/和/ɲ/)。每个辅音与两个元音/i/和/o/相关联,由一个男性和一个女性说话,得到2种方式× 3个位置× 2个元音× 2个语音的因子设计。为了增加声音的可变性(并扩展我们测量的外部有效性),说话者被要求在改变语调的同时重复相同的符号几次。对于每个次条件,我们选择了五个不同的低电平声学特征,如音高和音长。在生成的音节集合中,每一种发音方式包含60个谱时间特征(3辅音× 2元音× 2声部× 5话语);同样,每个发音部位也有40个(2辅音× 2元音× 2声部× 5话语)的谱-时间版本。
程序
被试在一个隔音房间中进行测试,该房间配有电脑屏幕和扬声器。婴儿由护理人员抱着,选择合适位置以保证个人舒适,同时能够获得高质量的数据。音节以70分贝的拉丁方随机顺序通过扬声器播放,刺激间隔随机选择在600到1000毫秒之间。为了尽量减少身体动作,我们呈现了与听觉流不同步的引人入胜的视觉动画。任何时候都鼓励睡眠,平均来说,我们的实验对象在65%的时间里都在睡觉。必要时就休息一下。实验呈现了3136符号(相当于63分钟的聆听时间)才结束,或婴儿开始不安时结束。
脑电图记录与数据预处理
在500 Hz (Net Amps 300 EGI放大器结合NetStation 5.3软件)下,从256通道对脑电图进行连续数字化。该原型的传感器布局与经典的128个测地线位置划分不同,其中20个标准颞叶位置由两个紧密的传感器网格覆盖(每边70个电极,组织在六角形布置中)。
伪迹检测与校正
基于EEGLAB工具箱14.0,通过定制的MATLAB脚本进行数据预处理。在遵循发育研究中通常使用的主要预处理步骤的同时,我们介绍了一些受提高成人数据质量的努力启发而进行的修改。也就是说,我们使用自适应阈值而不是绝对/预定义阈值来识别连续EEG中的伪迹。这样,我们就可以解释个体间的变异性,以及参考距离和警戒状态对电压的异质影响。此外,我们没有丢弃,而是利用密集传感器布局(图S2)和高采样率提供的冗余信息校正了局部和瞬态伪迹。
首先对脑电记录进行0.5 ~ 40 Hz的带通滤波,并将每个电极的平均电压设为零。采用一系列自适应阈值算法在分割前对数据进行伪迹检测。这些算法剔除样本的依据如下:电压幅值及其一阶导数,500毫秒长的移动时间窗口的方差,500毫秒长的滑动时间窗口内快速运行的平均值和快速运行与慢运行平均值之间的偏差。根据这些测量值在整个记录过程中的分布,对每个受试者和每个电极分别设置阈值。
分段
脑电图记录(和相应的拒绝矩阵)被分割成音节开始前200毫秒到音节开始后1400毫秒的时间段。如果超过15%的样本含有伪迹,这个试次就会被删除。
由于多变量模式分析需要大量的试次,我们纳入了至少有40个分段/每个条件。
在开始主要分析之前,对分段进行20Hz低通滤波,全脑平均参考,降采样到250Hz。所有主要的分析(解码)都是在单个试次水平上进行的。尽管如此,为了检查诱发(evoked)反应,也会计算ERPs。
解码
依靠Scikit-Learn和MNE Python包,在受试者内部进行多变量模式分析。为了在时间上进行解码,分段被分为60个连续的窗口,每个窗子20ms(刺激开始的−200到1,000 ms),每个窗口对应一个形状为n个通道× 5个样本的矩阵(采样率= 250 Hz, 5个样本= 20 ms)。每次分析都是在单个窗口上进行的,总的目的是从单试次神经数据的矩阵(X)中预测一个类别数据向量(y),包括所有电极。为了解码发音方式,根据/b/, /d/, /g/或/m/, /n/, /ɲ/样本的出现,试次被标记为“阻塞(obstruent)”或“响亮(sonorant)”的类别。为了解码发音的位置,y分为三类:“唇音”(/b/和/m/)、“齿槽音”(/d/和/n/)和“软腭音”(/g/和/ɲ/)。对于元音解码,试次被分为两类,“i”和“o”,这是基于刺激的发音部分。
所有解码分析都是在由100次迭代组成的分层交叉验证过程中进行的。在每次运行中,试次被打乱,然后分成训练和测试集,分别包含90%和10%的试次。与最常见的折叠(folding)方法相比,这种交叉验证能够最大限度地增加迭代次数(从而提高最终性能的可靠性),同时保持固定和合理的测试次数。重要的是,分层确保了a)在每个集合中保留了相同的每个类别的比例,b)所有变异的来源(如声音的性别)在不同集合中可以均匀地代表(例如,训练和测试集包含由女性和男性说话者以相同比例产生的音节)。
鉴于婴儿脑电图背景活动中常见的高振幅波动,我们首先要提高信噪比。一旦某次运行定义了训练和测试集,我们就应用“微平均”程序,这是一种以前用于成年人的策略。这包括在每个类别中随机选取16个分段并平均。平均试次数量是任意的,我们尝试了4、8和12次,并观察到通过16次的平均,我们可以在不影响其可靠性的情况下达到最佳性能。注意,这种评估是在我们计划的第一次解码分析上进行的(即,标准交叉验证模式中的发音方式),然后对所有其他解码分析也采用16个。在这个操作的最后,为了确保各个类别之间的完美平衡,我们在各个类别之间均衡了(微平均)分段的数量。在实践中,这包括从数量最多的组中随机选择一到三个试次。
接下来,在对每个特征(即试次中的通道和时间点)进行z变换之后,将L1范数的正则化logistic回归拟合到训练集,以便找到能够最大限度地预测y的x,同时最小化对数损失函数。这种正则化可以从降维的角度来考虑,这种优化使我们能够[通过降低模型复杂性]防止过拟合,但仍然利用我们的脑电图数据的高密度。
一旦经过训练,这些模型就被用来从测试集预测y,并且通过比较估计值和真实值来评估它们的性能。每个算法的结果都是一个概率估计向量。这些概率是通过计算接受者操作特征曲线(AUC)下的面积来评分的,AUC总结了真阳性和假阳性之间的比率。
作为概念的证明,主要的解码分析使用了另外两种算法:L1范数正则化线性支持向量机和线性判别分析。对于后者,考虑到我们的数据向量的维数超过了每个类别中的样本数量,我们使用了协方差矩阵的收缩估计量。重要的是,我们限制了线性分类器的替代方法,以确保算法专注于明显的神经编码。除了精确度上的细微差异,其他分类器产生了非常相似的结果。
跨时间泛化
在每个时间窗口t上训练的估计器被系统地测试在每个其他可能的时间窗口t '上,也就是说,从音节开始后的200毫秒到1000毫秒的每20毫秒的窗子。在交叉验证中执行这样的程序,使t时的训练集和t’时的测试集来自不同的试次组。在得到的“时间泛化矩阵”中,每一行对应于训练估计器的时间滞后,每一列对应于测试估计器的时间窗。这些矩阵内表现的形状提供了对潜在大脑活动的动力学的独特见解。如果在t和t '处发现相同的神经编码,在t处训练的分类器将在t '处泛化。相反,如果信息被传递到另一个以其自身编码方案为特征的处理阶段,则在t '的表现将是偶然的。
条件上的泛化
通过执行交叉条件解码,我们检验了在不同的和声和协音语境中分类器使用的信息的一致性。为了探究相同的神经编码是否支持不同和声背景下的语音特征和元音的分类,我们训练了估计器的方式对比(/b/, /d/,和/g/对/m/, /n/,和/ɲ/),位置对比(/b/和/m/对/d/和/n/对/g/和/ɲ/),元音对比(/i/与/o/),以上是在一个说话人的条件下(例如,由女性声音发出的音节),并在另一个说话人的条件下(例如,由男性声音发出的音节)测试这些相同的估计量。关于协同发音的过程是类似的:我们在一个元音环境中训练位置和方式估计器,在另一个元音环境中测试它们;我们训练元音估计器在单一方式或位置上的表现,并评估他们在替代方式或位置上的表现。为了检验方式编码和位置编码的正交性,我们分别训练了每种特征条件下的估计量。此外,我们还研究了辅音和元音编码的正交性,这两个过程是互补的。在辅音和元音分别编码的情况下,我们希望在条件内和条件之间获得可比较的分数;相反,在不同条件下,性能的下降将表明两者之间的相互依赖。
神经音节混淆与多元回归分析
在本节中,我们首先构建了一个12类解码问题,将女性和男性的条件组合在一起,然后训练算法将每个音节从所有其他音节中分离出来(例如,“bi”、“bo”、“di”、“do”、“gi”等等)。我们采用了“一对一”的方法,并使用了与主要分析相同的预处理步骤。在每个交叉验证循环中,我们存储了这些分类器在测试时显示的错误矩阵。在每次运行平均后,我们得到一系列矩阵,其中第i行和第j列的条目对应于属于j类并被分类器标记为i的样本的百分比(图S6)。这些混淆矩阵的对角线描述了分类精度,理论概率为8.3%。考虑到除了音节身份之外,还有各种各样的刺激特征可以导致概率以上的分数(高达50%),单是对角线条目很难解释。另一方面,错误分类模式(即矩阵中的非对角线条目)有可能揭示神经代码对刺激的哪个维度表示认可或忽略。为了揭示我们的算法捕获的神经表征几何及其随时间的演变,我们使用了多元线性回归。具体来说,我们将每个混淆矩阵建模为五种分类性能的线性组合:理想方式、位置、辅音、元音和全音节解码器。以矩阵建模方式判别为例,对于方式相同的音节对的预测值为16.6%,而对于方式不相同的音节对的预测值为0%。这5个预测因子被用来解释在每个时间点观察到的(神经)音节混淆,为每5个回归因子生成一个向量的权重。在估计系数之前,所有矩阵都进行了z变换。分配给特定回归量的显著高于零的beta权重表明,在给定的时间点,分类器依赖于该模型在其余四个变量之外所反映的维度。
如果您对脑电,红外等数据处理感兴趣,欢迎浏览思影科技课程及服务(感兴趣可添加微信号siyingyxf18983979082咨询,另思影提供免费文献下载服务,如需要也可添加此微信号入群):
重庆:

第三十一届脑电数据处理中级班(重庆,8.20-25)

第十四届近红外脑功能数据处理班(重庆,8.14-19)

上海:

第十五届近红外脑功能数据处理班(上海,9.13-18)

第二届MNE-Python脑电数据处理班(上海,8.26-31)

第三十二届脑电数据处理中级班(上海,10.20-25)

北京:

第四届脑电机器学习数据处理班(北京,8.11-16)
第十九届脑电数据处理入门班(北京,10.10-15)

第十届脑电信号数据处理提高班(北京,10.16-21)

第十六届近红外脑功能数据处理班(北京,10.28-11.2)

南京:

第十八届脑电数据处理入门班(南京,9.3-8)


数据处理业务介绍:

思影科技EEG/ERP数据处理业务
思影科技脑电机器学习数据处理业务

思影科技近红外脑功能数据处理服务

思影数据处理服务六:脑磁图(MEG)数据处理
思影科技眼动数据处理服务
招聘及产品:
招聘:脑影像数据处理工程师(上海,北京)
BIOSEMI脑电系统介绍
目镜式功能磁共振刺激系统介绍
3.结果
对于下面所述的所有分析,我们训练并测试了一系列线性估计器,这些估计器在ERP的时间过程中都是在简短的(20 ms)连续窗口上进行的。我们的目标是定义婴儿语音编码方案的粒度:是音节编码、语音编码还是特征编码?

在动态和离散神经模式的基础上实现了成功的分类
我们首先评估了在婴儿大脑反应上训练的译码器是否能够根据语音刺激的语音特征对脑电图记录进行分类。从图2 A和图2 B可以看出,从音节开始后80 ms开始,可以区分出阻塞音(obstruents)和高音(obstruents),而在两个时间窗内对清晰发音部位进行了可靠分类:220到 480 ms 和540 到 720 ms。至于元音,我们设计中的两种选择(/i/和/o/)在高度和背面都不同,排除了语音子类的孤立。尽管如此,图2C显示在260到260ms之间和从760ms开始的元音识别是可靠的。
为了充分描述这种表现背后的神经动力学,我们系统地测试了相同的分类器跨时间解码的能力。当神经激活随着时间的推移得到维持时,一个在给定时间点训练的成功估计器,将在更大的时间范围内继续获得高于概率的分数。图2D显示了分类器如何仅在有限的时间滞后下进行泛化,这表明神经活动沿着功能通路进展。具体来说,泛化矩阵产生的“锥”形揭示了对进化神经编码的检索:支持分类的活动要么在皮层区域间转移,要么随着时间的推移在同一区域内转化,要么两者兼有。可以推测,在试验的第二部分中观察到的泛化表现的轻微扩大表明表征格式的变化在音节开始后相对较晚才出现。
图2 在ERP单个时间窗(20 ms)上训练的估计器的分类性能。(上图)估计器在训练时间样本上进行测试。阴影区域对应于跨被试的SE (SEM),虚线表示理论上的机会水平,填充的圆圈表示显著分数。
(A)经过方式区分训练的分类器性能:阻碍音(/b/, /d/和/g/)相对于高音(/m/, /n/和/ɲ/)。
(B)位置区分训练的分类器的表现:唇(/ B /和/m/) vs牙槽(/d/和/n/) vs软腭(/g/和/ɲ/)。
(C)元音身份的分类:/i/对/o/。(D)时间泛化矩阵:每个面板显示在单个时间窗(y轴)上训练的估计器的概率以上解码得分,并沿着ERP在每个可能的时间样本(x轴)上进行测试。对角线细线标识在同一时间样本上训练和测试的分类器。虚线表示显著团块。
为了客观化这种解释,我们使用分类器权重来重建信息活动模式。区别性的活动扩散到头皮,类似于这个年龄段典型的由多个外周源产生的听觉ERP图(图S3)。至关重要的是,信息性聚类在可靠分类的第一个和第二个时间窗口内的性质不同,证实了不同编码阶段的发生。变化在单个地形中尤其明显(图S3 A和B),这些地形不受参与者平均所产生的模糊效应的影响。我们还观察到,支持方式和位置分类的电极在某种程度上是可分离的(图S3),并发现唇部、牙槽或软腭的大脑活动模式之间存在显著差异(图S4)。这些发现揭示了婴儿音节感知是在空间上不同的。
图S3 辨别位点的变化是时间和语音特征维度的函数。将分类器权重投影到脑电信号传感器激活空间。较深的颜色对应的大脑活动有助于分类。黄色标记的是承载关键信息的通道,以区分方式而不是位置(顶部行)或区分位置而不是方式(底部行)。时间点的选择提供了两个时间窗口的概述与可靠的分类。面板(A)和(B)显示了为两个代表性受试者重建的信息活动模式。在(C)中,为提供总体趋势的可视化,对婴儿的信息活动模式进行平均。然而,请注意,这个大平均值的可解释性是有限的,因为解码分析是在被试内进行的,而辨别位点是非常特殊的。总的来说,这些地形表明,随着时间的推移,传递有价值信息的电极更多地位于额叶区域的中间位置。
图S4 位置对比概述:信息性和诱发性活动模式。
(A)位置解码,三种不同的模型被拟合拉分离每个位置的发音与其他两个。他们的权重被投射回激活空间,以重建活动模式,这有助于描述唇、牙槽或与其他地方的软腭。较深的颜色对应提供较高分类(即位置)的特定信息的电极。对各个被试的模式进行平均,以提供总体趋势的情况;然而,请注意,权重特性破坏了总平均值的可解释性。
(B)单因素重复测量方差分析比较唇、牙槽和软腭的鉴别活动的结果;有显著差异的通道用绿色表示:早期时间窗:pclust =0.0005,晚期时间窗:pclust =0.0196。
(C)左侧是不同的信息活动模式,右侧是在相同差异上计算ERPs。
亚音节成分的不变编码
其次,我们检查了神经编码的不变性,通过训练新的方式和位置估计在单一的环境(例如,由女性声音说的刺激)和测试他们在替代的未经训练的条件(例如,男性声音)上的表现。我们在第一次分析中考虑说话人的语境,在第二次分析中考虑元音。由于几项成人和婴儿研究表明,音素信息和说话人身份信息在早期加工阶段是分别编码的,我们预计在不同性别的声音中完全泛化。正如引言中所解释的,成功的跨元音泛化将表明亚音节加工。
对于方式,交叉上下文解码的时间与整体分析中所看到的几乎相同,而准确性仅略微降低(图3A,表1和表S1)。这证明了婴儿的大脑对行为特征的编码是一致的。值得注意的是,通过声音和元音的位置也得到了清晰的概括(图3B)。分类的时间过程,有两个不同的可解码周期,其准确性可与最初的分析媲美。由于位置的声音线索随着环境的变化而变化很大,这些交叉条件的表现清楚地表明,婴儿的大脑能够提取出超越声音差异的不变编码,即使是在具有挑战性的位置对比的情况下。
与这些结果互补的是,在单一方式或位置条件下训练的元音估计器完全推广到替代上下文(图3C和表1)。因此,到目前为止观察到的交叉解码模式表明,音节不是被整体感知的,而是被分解成独立于辅音的元音和元音的辅音特征的子成分。
图3 跨条件解码。
(A,左图)声音条件下的方式估计的泛化:在一个说话人产生的音节上训练的分类器在另一个说话人发出的刺激上进行测试。(右图)在元音条件下的方式估计的泛化:在与一个元音相关的辅音上训练的分类器在包含备选元音的音节上进行测试。
(B)与A相同,但是是对发音位置的估计。
(C,左图)元音的分类方法:分类器先对干扰音进行训练,然后对高音进行测试,反之亦然。(右)跨位置元音分类:元音估计器在一个位置条件下(如唇)进行训练,在另外两个条件下(如牙槽和软腭)进行测试。阴影区域对应于各受试者的SE (SEM);虚线表示理论上的机会水平。填满的圆圈表示分数明显高于概率。

表S1 语音特征主条件与交叉条件解码的形式比较

辅音和元音保持分离
辅音和元音曾经合并成一个音节单位吗?到目前为止获得的结果在这方面包含了一些有趣的提示。如图2和3所示,元音可解码性遵循一个双峰模式,这与观察到的辅音维度非常相似,但峰值得分明显较晚,有时在辅音位置很难区分。再加上元音编码在辅音特征上的不变性(图3C),这些观察结果表明,婴儿对构成音节的两个音素进行了单独和有序的编码。
在最后一步中,我们研究了辅音和元音处理之间可能的联系。使用一个类似于上面描述的逻辑,我们比较了在元音和辅音条件下和跨元音条件下的辅音和元音估计器的性能。集成的音节编码的存在会在上下文中产生性能的下降。如图4B所示,这种下降并没有发生,说明至少在音节出现后1s,辅音和元音是保持分离的。上述所有解码结果都通过图S5所示的完整性检查分析进一步验证。

图4在处理的后期阶段,正交特征编码被合并到音素中。

(A)单一语音特征训练的估计器的时间分辨性能。浅色:在训练条件下进行分类;深色:表现在新颖的语音语境中。所有可能的训练条件或训练/测试方向的分数均取平均值。填满的圆圈表示跨上下文的重要泛化。
(B,左)经过训练的评估器的表现,识别所有辅音(/ B / vs . /d/ vs . /g/ vs . /m/ vs . /n/ vs . /ɲ/)和一个元音(例如,“-i”),并在相同的(浅绿色)和其他语音环境中进行测试(例如,“-o”;深绿色)。(右)元音分类器在单个辅音(例如,/b/)上的表现,并在相同的辅音(黄色)和其余五个(橙色)上进行测试。
(C,左)时间t (660 ms)的神经混淆矩阵的例子,由一个12类(音节)解码问题获得(受试者平均)。(中)理论混淆矩阵,描述了辅音位、辅音恒等式和宽音节恒等式之间的完美分离(即理想的分类)(类按左矩阵的顺序排列)。(右)获得的beta权重在所有受试者中平均,当显著高于零时用填充的圆圈标记。
图S5:在所有主要解码分析中,沿着erp每20毫秒对一组分类器进行训练和测试。
(A)构成刺激集的24个子条件(图1)被划分为两个任意的类别,根据辅音、元音、说话人及其组合选择来平衡。
(B)这个面板是图4A的对应部分。为了模拟图4A,根据每个可能的任意标签选项平均从而得出结果性能。
神经混淆矩阵
为了获得关于编码随时间变化的特性的额外证据,我们训练了全音节标识(即12个标签:“bi”、“bo”、“di”、“do”、“gi”、“go”等)的算法,并在测试中探索了它们的错误模式。有了这种解码方案,阶级分离可能是基于一个或混合的刺激维度。由此可见,在此分析中,分类精度(S6 A)将是糟糕的信息本身。另一方面,类间混淆可以提供每个时间点的编码方式的详尽描述。使用多元线性回归,我们测试是否和何时成对神经音节混淆(图4 C,左,图S6 A,下)被解释为特征,辅音和/或整个音节代码的分离(图4 C,中)。我们发现发音的辅音位置在试次早期驱动神经混淆(240 ~ 380 ms: pclust = 0.017)。至关重要的是,辅音只是在500 - 700 ms之后才预测了神经可分离的模式(图4 C,右;pclust = 0.006)。最后,音节回归词从未达到显著性(图4C)。这些结果与图4 A和B中的解码结果互补,表明在正交特征编码后,位置和方式编码被整合成综合的辅音束,而辅音和元音保持分离。

图S6图4的补充。:(A) 上图:在音节恒等式上训练的时间分辨类精度。阴影区域对应于跨被试的SEM,虚线黑线表示理论机会水平,填充的圆圈表示当表现明显高于机会。下图:同一分类器在刺激开始后200ms产生的混淆矩阵。

(B)上图:理论混淆矩阵,描述了发音方式和元音共发音方式之间的完美分离(即理想分类)。下图:获得的beta权重,在所有受试者中平均,当显著高于零时用填满的圆圈标记。与图4A一致的是,这种beta权重模式表明,神经易淆性最初主要是由方式差异驱动的,但在后期的程度较小。

4.总结
本研究观察到的分类模式揭示了婴儿大脑中的两种语言编码格式。在处理的第一阶段,每个辅音都是按照其方式和位置维度的坐标进行编码的,事实证明,在一个维度上训练的解码器可以推广到另一个维度的不同层次。在第二阶段,这两个特征被组合成特殊的集合,仍然可以对音素分类,但妨碍了对不同辅音的特征解码的完全泛化。这种功能进展与图2D中的矩阵和图S3和S4中相应的信息活动模式所揭示的神经编码的动态性质是一致的。虽然我们的实验主要集中在辅音上,但元音也可能有相似的加工阶段。最后,我们没有发现音节的完整编码的证据。
总之,我们指出,一种抽象的语音组合编码可能在很早就存在,并赋予婴儿从大多数语言中区分音素的能力。我们进一步强调,基于有限最小和正交元素集的编码系统非常适合于引导语音策略、词汇和句法规则的获取。这里提出的方法为未来的实验提供了基础,这些实验将跨越不同的语言和年龄,需要调查观察到的编码是如何发展和适应母语音素清单的。

如需原文及补充材料请添加思影科技微信:siyingyxf18983979082获取,如对思影课程及服务感兴趣也可加此微信号咨询。另思影提供免费文献下载服务,如需要也可添加此微信号入群,原文也会在群里发布,如果我们的解读对您的研究有帮助,请给个转发支持以及右下角点击一下在看,是对思影科技莫大的支持,感谢!

微信扫码或者长按选择识别关注思影
非常感谢转发支持与推荐

欢迎浏览思影的数据处理业务及课程介绍。(请直接点击下文文字即可浏览思影科技所有的课程,欢迎添加微信号siyingyxf18983979082进行咨询,所有课程均开放报名,报名后我们会第一时间联系,并保留已报名学员名额):

脑电及红外、眼动:
上海:

第十五届近红外脑功能数据处理班(上海,9.13-18)

第二届MNE-Python脑电数据处理班(上海,8.26-31)

第三十二届脑电数据处理中级班(上海,10.20-25)

重庆:

第十四届近红外脑功能数据处理班(重庆,8.14-19)

第三十一届脑电数据处理中级班(重庆,8.20-25)

北京:

第四届脑电机器学习数据处理班(北京,8.11-16)
第十九届脑电数据处理入门班(北京,10.10-15)

第十届脑电信号数据处理提高班(北京,10.16-21)

第十六届近红外脑功能数据处理班(北京,10.28-11.2)

南京:

第十八届脑电数据处理入门班(南京,9.3-8)

核磁:

上海:

第二十一届脑网络数据处理班(上海,8.20-25)

第三届磁共振脑网络数据处理提高班(上海,10.12-17)

第十届任务态功能磁共振数据处理班(上海,8.12-17)

第四十六届磁共振脑影像基础班(上海,9.1-6)

第十五届磁共振脑影像结构班(上海,9.7-12)

第四届DWI提高班(上海,9.23-28)

北京:

第十九届DTI数据处理班(北京,8.19-24)

第十七届脑影像机器学习班(北京,9.3-8)

第九届小动物磁共振脑影像数据处理班(9.11-16)

第二十三届磁共振脑网络数据处理班(北京,9.17-22)

第二届磁共振脑网络数据处理提高班(北京,9.23-28)

第一届任务态fMRI提高班(北京,8.25-30)

第四十七届磁共振脑影像基础班(北京,10.22-27)

重庆:

第四十五届磁共振脑影像基础班(重庆,8.26-31)

第十八届脑影像机器学习班(重庆,9.12-17)

数据处理业务介绍:

思影科技功能磁共振(fMRI)数据处理业务
思影科技弥散加权成像(DWI/dMRI)数据处理
思影科技脑结构磁共振成像数据处理业务(T1)
思影科技啮齿类动物(大小鼠)神经影像数据处理业务
思影数据处理业务三:ASL数据处理
思影科技脑影像机器学习数据处理业务介绍
思影科技EEG/ERP数据处理业务
思影科技脑电机器学习数据处理业务

思影科技近红外脑功能数据处理服务

思影数据处理服务六:脑磁图(MEG)数据处理
思影科技眼动数据处理服务
招聘及产品:
招聘:脑影像数据处理工程师(上海,北京)
BIOSEMI脑电系统介绍
目镜式功能磁共振刺激系统介绍
此处给个“在看”及“点赞”,让更多朋友关注思影
(0)

相关推荐