利用脑机接口技术可以直接将大脑活动转换成文本形式
更多技术干货第一时间送达
电极覆盖位置
你可能有过这样的经历:想要快速给某人发短信,但你手头上正有活,比如正拿着杂货或做饭,手头很忙。虽然Siri可以为我们和设备之间的互动提供一个新的交互方式,但还是有很多限制,如果我们要超越这种限制又该怎么办呢?脑机接口技术将为我们带来一种新的交互体验,这种体验可以超越当前各种语音助手的限制。
使用BCI,人们可以移动机器,不需要动肌肉就能控制虚拟化身。这通常是通过访问大脑中负责特定动作的区域,然后将电信号解码成计算机可以理解的东西来完成的。然而,有一个领域仍然难以破译,那就是语言本身。
但是现在,来自加利福尼亚大学旧金山分校的科学家们已经报告了一种将人类大脑活动直接转化为文本的方法。
Joseph Makin和他们的团队使用了一种新的算法的,这种算法能够将一种计算机语言翻译成另一种计算机语言(这是许多人类语言翻译软件的基础)。基于软件的这些改进,科学家们设计了一个BCI,它能够将一整句的大脑活动翻译成实际的文本句子。
这种新的BCI之所以比过去的尝试更有效,原因之一是它改变了关注的焦点。
四名癫痫患者(已经有脑植入物进行治疗),通过30分钟大声朗读句子来训练计算机算法,而植入物记录了他们的大脑活动。该算法是一种人工智能算法,它查看需要以特定顺序才能理解的信息(比如语音),并预测接下来会发生什么。
编码-解码网络架构图
从这个意义上说,这个AI正在学习句子,然后能够创建一个代表大脑的哪些区域正在被激活,以什么样的顺序和强度来创建句子。这是BCI的编码部分。
编码器后面跟着一个不同的AI,它能够理解计算机生成的表示并将其转换为文本--解码器。
解码器
编码器后面是另一种AI算法,它可以理解计算机生成的表示并将其转换为文本,即解码器。这个编码-解码器组合对语言的作用就像其他BCIs对运动的作用一样:配对一组特定的大脑信号,并将其转换成计算机能理解并能采取行动的内容。
解码流程模型
这项研究之前可用的语音BCI仅能够区分小块语音,例如单个元音和辅音,即使如此,其准确性也仅为40%。
该界面一次可以翻译30到50个句子,错误率类似于专业级语音转录。该团队还进行了另一项测试,在对另一名参与者进行测试之前,他们先对一名参与者的语音进行BCI测试。。这提高了整体翻译的准确性,表明整个算法可以被多个人使用和改进。最后,基于大脑植入物收集的信息,该研究还能够扩展我们的知识,即当我们说话时大脑的特定区域是如何被激活的。
在BCI领域中,理想的方法始终是能够获取单个大脑信号并将其直接转换为计算机代码,从而减少任何中间步骤。但是,对于包括语音在内的大多数BCI来说,这是一个巨大的挑战。这项研究之前可用的语音BMI仅能够区分小块语音.
新的BCI之所以比过去的尝试更有效,原因之一是它改变了关注的焦点。他们专注于整个单词,而不是小块的演讲。因此,这种机器不用区分诸如“Hell”、“o”、“Th”、“i”、“a”和“go”等特定的发音,而是可以使用完整的单词“Hello”和“Thiago”来理解它们之间的区别。
尽管最好的情况是在英语的全部范围内训练算法,但对于本研究,作者将可用词汇限制为250个不同的单词。也许不足以涵盖莎士比亚的全部著作,但实际上几乎是大多数BMI的改进。当前,大多数BMI都使用某种形式的虚拟键盘,人们用他们的思想移动虚拟光标并在此键盘上“键入”,一次是一位。
从大脑植入物中读取大脑活动和我们能在更大范围内做的任何事情之间有一个非常明显的区别。然而,这项研究开辟了令人着迷的新方向。这些植入物被训练了大约30分钟的演讲,但是植入物仍然在那里。通过不断地检查数据,科学家们可能能够为BMIs创建一个有价值的训练集库,如图所示,然后这些训练集可以被翻译给其他人。也有可能将这项研究扩展到不同的语言,这将使我们更多地了解语音及其在大脑中的表示如何随语言而变化。
当然研究人员表示,为了将这项技术转化为我们所有人都可以使用的技术,还需要进行更多的研究。该技术很可能将首先用于改善瘫痪患者的生活,并用于其他临床应用。