声音对无声者?研究人员将大脑活动转化为语言
一种能够通过解码与发声有关的肌肉运动,将大脑活动转化为合成语音的计算机系统,已经显示出其在人工智能领域的潜力概念验证实验这项研究由加州大学旧金山分校(UCSF)的研究人员进行。虽然这项最初的研究只在没有语言障碍的志愿者中进行,但有希望有一天,这种技术可以用来帮助神经损伤的患者恢复语言能力,作为依赖缓慢而笨拙的非语言拼写工具的替代方法。
许多患有神经疾病的病人都有语言障碍。中风等突发的神经系统疾病会让人一夜之间丧失清晰的语言能力,而淀粉样萎缩性脊髓侧索硬化症(ALS)等退行性疾病会让患者瘫痪,并在很长一段时间内逐渐失去对声带的控制。目前可用的解决方案通常利用肌肉运动逐字母生成句子;著名的斯蒂芬·霍金用他的脸颊。最近使用大脑控制接口的试验,通过读取患者的电生理活动并用于控制光标,已经实现了高达每分钟8个单词。加州大学旧金山分校的研究人员Gopala K. Anumanchipalli、Josh Chartier和Edward F. Chang有一个更高的目标:设计一个可以匹配自然语音速率的界面每分钟130到150字。
合成语音有两个步骤
创造这个声道需要两个步骤。首先,研究人员使用皮质电描画仪(可以直接从暴露在外的皮层测量电活动)来测量5名志愿者大声朗读数百个句子时,他们的感觉运动皮层产生的大脑信号,以观察这些信号与发出声音的运动运动是如何对应的。Chang的团队无法直接测量志愿者的发音器的运动,因此转向神经网络(一种人工智能计算系统)来帮助他们。这个网络是用以前的数据库训练的实验它同时测量言语和声道的运动。该网络能够了解这些运动的样子,然后将其应用于Chang团队测量的大脑活动。
在当前的研究中,用于记录大脑活动的颅内电极阵列示例。信贷:加州大学旧金山分校
将活动解码为声道运动后,训练第二个神经网络将运动转换为合成语音。这使得语音比以前使用一步到位的方法更清晰。演讲的清晰度是通过众包平台来衡量的亚马逊土耳其机器人在该实验中,用户的任务是从可能的单词库中识别合成声道发出的单词,从10个可能的单词库中选择三音节单词的成功率约为70%(尽管当用户从50个单词库中选择时,成功率较低,低于40%)。
对无声者的声音?
虽然这项研究的最终目标是恢复瘫痪患者的声音,但这项研究并没有检查任何有语言障碍的志愿者。这个系统能被那些最需要它的人使用吗?Chang的团队在第二个实验中得出了一些令人信服的结果,为实现这一目标指明了道路:志愿者被要求默写单词,系统的任务是将这些默写的动作转化为语音。虽然保真度有所下降,但该系统能够从无声语音中产生可理解的单词。但该系统是否适用于没有任何口腔运动的患者呢?该系统如何为从未能够说话的患者工作,比如患有自闭症的人脑瘫?这项研究的一个有希望的结果表明,虚拟声道的元素可以在说话者之间共享,这意味着一个人的大脑活动可以应用到由另一个人的言语创建的声道上,尽管还需要进一步的改进和测试,以使其以这种方式广泛使用。
资深作者Chang对该设备最终帮助无法说话的患者的潜力持乐观态度:“当然,我们充满希望,在这种特殊情况下,它不是关于输入语音,而是关于通过设备学习说话。”
尽管如此,他很清楚,在这样的解码器在临床上工作之前,还有更多的工作要做:“我们所描述的一切都是在尝试或多或少的即插即用,本质上,你有一个解码器,你尝试解码那些完整的语音表示。但我认为,对于未来的某些候选人来说,语言可能必须从下而上地学习……我们创造的虚拟声道是否能帮助那些从未说过话的人说话,这将是非常令人兴奋的。”