发布 | 大脑中文词汇理解(语义认知图谱)数据集,探索大脑语言理解机理

CASIA
解锁更多智能之美
【摘要】近日,自动化所团队构造了一个大脑中文词汇理解(语义认知图谱)数据集,该数据集有望为后续深入研究大脑语言理解机理提供数据基础。

语言认知是人类智能最显著的体现。大脑如何在多模态环境中表征词汇含义,如何将词汇含义整合为更大粒度语言单元的含义,以及如何进行知识记忆和推理都是人类迫切希望破解的谜题。新近兴起的认知神经科学研究结合神经影像学和计算机建模手段,已经能在一定程度上从人脑活动模式中推测出其所正在观察的物体和正在思考的词汇和句子,为人们揭示语义记忆和整合的神经机制并最终解码思维和脑神经活动间的映射关系点燃了希望。语义记忆需要表征外部世界中的各种概念。尽管在目前对物体和名词语义的研究中,人们已经取得了十分可喜的突破,但对其他类型的语义表征(如动词,抽象词、功能词等)还缺乏充分的研究和了解。大部分已有研究都集中在英文上,对于中文的神经编码研究相对较少,对于不同语言之间的大脑编码的区别和联系并不清楚。针对上述问题,团队构造了一个大脑在理解中文词汇含义时的神经影像数据集,希望为后续深入研究大脑语言理解机理提供数据基础。

随着技术的进步,脑电图(EEG)、脑磁图(MEG)、正电子发射断层成像(PET),功能磁共振(fMRI)等技术相继出现,为研究正常大脑的语言功能提供了有力手段。其中,团队采用fMRI采集神经影像数据,这是一种没有放射性、无创性的检测脑功能动态活动的手段。其检测脑组织血流和含氧量变化引起的磁场变化,一次成像可以同时获取功能和解剖图像, 已经被广泛应用于脑的基础研究和临床治疗。
如何采集大脑的中文词汇理解数据?
◉ 首先,团队从同义词词林中选出不同词类的代表性词汇672个(涵盖了312个名词、262个动词和98个形容词);
◉ 然后,利用fMRI技术采集不同被试在理解这些词汇时的神经影像数据;
◉ 最后,进行数据处理还原不同被试理解每个词汇时的大脑激活数据。
此次实验分29次进行(每次1-2小时),共采集了约58小时神经影像数据,其中有11个被试采集了完整的672个词汇的语言理解数据。这是目前最大规模的词汇理解fMRI数据,可用于后续探索人脑词汇表征规律,进而启发更加智能的词汇表征模型。

下面展示单一被试部分词汇的fMRI激活图:

数据集下载

(0)

相关推荐