科学家开发出可以将大脑运动转化为文本的人工智能

盘算机生成的大脑图像

美国的研究人员跟踪了人们说话时的神经数据。

读心术离现实又近了一步:科学家已经开发出可以将大脑运动转化为文本的人工智能。

虽然该系统现在只能在当某人高声说话时检测到特定神经模式，但专家表现，它最终可能会资助那些不能说话或打字的病人举行交流，好比那些患有闭锁综合症的病人。

旧金山加利福尼亚大学的约瑟夫·马金博士（Dr Joseph Makin）是这项研究的合著者，他说:“我们还没有做到这一点，但我们认为这可能是声音“假肢”的基础。”

Makin和他的同事们在《自然神经科学》（Nature Neuroscience）杂志上揭晓文章[1]，展现了他们是如何开发这个系统的。首先招募了四名到场者，然后在他们的大脑中植入了电极阵列来监测神经元的变化。

这些到场者被要求高声朗读50个句子，包罗“蒂娜·特纳是一个盛行歌手”和“那些小偷偷走了30个珠宝”。研究小组在他们说话时追踪他们的脑部神经运动。

然后，这些数据被输入一个机械学习算法，这是一种人工智能系统，可以将每个口语句子的大脑运动数据转换成一串数字。

为了确保这些数字只与语言有关，该系统将一小块大脑运动数据预测的声音与实际录制的声音举行了比力。然后，这串数字被输入到系统的第二部门，系统会将其转换成一系列的单词。

起初，系统给出的都是毫无意义的句子。可是，当系统将每个单词序列与实际高声朗读的句子举行比力时，它获得了革新，相识了数字串与单词之间的关系，以及哪些单词容易相互追随。

随后，研究小组对该系统举行了测试，仅凭据说话时大脑的运动就生成了书面文本。

但这个系统现在并不完美。好比，《音乐家们的绝妙和声》被编译为《菠菜是名歌手》，《一卷靠墙的铁丝》被编译为《罗宾会穿黄百合吗》。

然而，该团队发现，新系统的准确性远远高于以前的方法。虽然准确性因人而异，但对于一个到场者来说，平均每个句子只有3%需要更正——高于专业人工誊录员5%的单词错误率。可是，该团队强调，与后者差别，该算法只能处置惩罚少量的句子。

Makin说:“如果你试图跳出(使用的50个句子)这个规模，解码就会变得更糟。”他增补说，这套系统可能需要联合学习特定的句子、从大脑运动中识别单词以及识别英语中的一般模式。

该团队还发现，在一名到场者的数据上训练算法，意味着从最终用户那里需要的训练数据会更少——这可能使训练对患者来说不那么繁重。

任教于马斯特里赫特大学的Christian Herff 博士是这个领域的专家，没有到场这项研究。他说这项研究着实令人兴奋，因为该系统对每个到场者使用的训练数据不到40分钟，而且只收集了有限的句子,而不是通常所需的数百万小时。

“通过这样做，他们到达了迄今为止尚未到达的准确性水平，”他说。

然而，他指出，该系统还不能用于许多严重残疾患者，因为它依赖于人们高声说出一个句子时所记载的大脑运动。

他说:“固然，这是一项了不起的研究，但那些人也可以使用‘OK Google’。”“这不是思想的翻译，而是涉及语言的大脑运动。”

Herff说，人们现在还不用担忧别人会读到他们的想法:大脑电极必须被植入，而想象中的语言和心田的声音是很是差别的。

可是谢菲尔德大学的脑机接口专家Mahnaz Arvaneh博士说，现在思量伦理问题很重要。她说:“我们仍然离机械能够读懂我们的想法很是、很是遥远。但这并不意味着我们不应该思量它。”

参考：

1. Makin, J.G., Moses, D.A. & Chang, E.F. Machine translation of cortical activity to text with an encoder–decoder framework. Nat Neurosci (2020).