Meta研究人员利用人工智能解码脑电语音信号（全文解读）

最近，Meta团队提出一种通过非侵入式脑磁(电)图(magneto- or electro- encephalography, M/EEG)解码语言的方法。具体地，首先使用深度学习方法对语音输入和对应的脑电(磁)图信号进行解码，得到深层次的特征表示；然后，应用对比学习策略匹配两种模态的潜在特征表示；最终，在四个公共数据集上评估了该模型，该模型可以从3s的MEG信号中识别相应的语音段进行识别，TOP-10的准确率高达72.5%（TOP-1的正确率为44%），在EEG信号的TOP-10准确率为19.1% (允许测试集中存在训练集中不存在的短语)。

补充知识TOP-10准确率：

一个训练完毕的网络进行分类任务时，假设要分类的数目有50类，输入一张图片，网络会依次输出这50个类别的概率，当所有样本测试完成后，那么：

TOP-10准确率是指在测试样本的50个分类概率中，取前面10个最大的分类概率，如果正确的标签在前10分类概率中，则分类成功。

TOP-10正确率=（所有测试样本中正确标签包含在前十个分类概率中的个数）/（总的测试图片数）×100%

1 方法概述

非侵入的大脑活动记录方式(M/EEG)容易受到噪声的污染，这会使得其在跨试次和跨受试的数据分布差异大。之前研究者们的方法是首先利用专业知识提取手工特征，再输入至特定的解码器进行训练(每个模型只训练一个受试者的数据)。

本文不同于先前的研究，提出了端到端(无需手工特征)的单一结构(跨受试)和使用数据驱动方法从健康受试者听故事和/或句子时非侵入式的M/EEG记录中解码语音。为此，该模型设计了一个’Subject Layer’并且使用对比学习策略匹配语音和M/EEG模态。

模型的总体结构如图1所示，3s长的语音信号通过预训练的自监督模型wav2vec提取深层次的特征，M/EEG使用一个Subject Block和卷积神经网络(CNN)堆叠的结构得到深层次的特征，然后使用对比损失CLIP最大限度的对正这两种特征表示。并且，在测试语音中会存在训练时不存在的单词，因此该模型可以是’Zero-shot’的。因此，该模型比标准分类方法(解码器只能预测在训练期间学习的类别)更通用。

补充知识Zero-shot learning:

Zero-shot learning指的是模型之前没有这个类别的训练样本。但是模型已学习到一个映射X->Y。如果这个映射足够好的话，模型就可以处理未知类。虽然模型不知道未知类是什么，但是模型评估未知类与各个已知类的相似度。

2 方法详解

2.1 神经解码

我们观察到，这种直接回归方法面临挑战：当存在语音时，解码预测似乎由不可区分的宽带分量主导（图2.B）。这一挑战激发了我们的三个主要贡献：引入对比损失、预训练深度语音表示和专用大脑解码器。

2.2 大脑解码模块

如图2-E所示，主要包括三个子模块：M/EEG传感器上的空间注意层;受试者特定的1x1卷积，旨在利用受试者间的差异；堆叠的卷积block。

2.3 对比损失

从语音与M/EEG的绝对差异损失(实际差异很大，网络难以学习)，变成了M/EEG与所有潜在语音片段的相对差异损失(网络更容易学习)。

2.4 语音模块

Mel谱图是语音的低水平表示，因此不太可能与丰富的皮层表示相匹配。因此，重点关注使用wav2vec 2.0获得的解码结果。wav2vec 2.0是一种由卷积和Transformer构成的预训练网络用于变换原始波形，以预测其自身潜在表示的掩蔽部分。在实验中，使用了wav2vec2-large-xlsr-531模型，它已经在53种不同语言的56k小时语音上进行了预训练。详细代码可参见：

https://github.com/pytorch/fairseq/blob/main/examples/wav2vec

3 实验设置

M/EEG通常被认为是从相对较低的频率范围捕获神经信号，将所有大脑记录重新采样到120 Hz，然后将数据分为训练、验证和测试部分，按照70%、20%和10%的比例。我们将“样本”定义为大脑记录的3s窗口及其相关的语音表示。我们确保在拆分中没有相同的句子，并检查每个句子是否由唯一的说话者发音。M/EEG数据可能会出现较大的伪影，如眼球运动或电磁环境的变化。为了限制其影响，我们采用了“基线校正”（即，我们减去每个输入通道在前0.5秒的平均值）。对于Mel谱图，我们使用了120个Mel频带，使用在16kHz采样的音频，帧大小为512个样本，跳跃长度为128个样本的归一化STFT。

表1 四个公共数据集的具体信息

我们在四个公共数据集上测试了我们的方法，其中两个基于MEG记录，两个基于EEG。我们概述了表1中数据集的主要特征，包括训练和测试段的数量以及两个部分的词汇大小。对于所有数据集，健康成年志愿者被动地听语音（伴随一些记忆或理解问题，以确保参与者注意力集中），同时用MEG或EEG记录他们的大脑活动。

一个训练epoch内伴随着使用Adam的1200次更新，学习率为3*10−4和批量大小为128。当10个epoch的验证集上没有观察到改进时，我们停止训练，并基于有效损失保持最佳模型。对于Mel谱图的直接回归，我们使用MSE损失。我们使用两个具有16GB内存的V100 GPU。

4 实验结果

4.1 从M/EEG记录中解码语音的准确性

表2语句级的TOP-10准确率

我们的模型预测了1000多个可能段中的正确段，MEG数据集的Top-10准确率分别为72%和67%（TOP-1准确率为44%和36%）。对于超过一半的样本，真实音频段在解码器的预测中排名第一或第二。相比之下，预测词汇表上均匀分布的模型（“随机模型”）在相同的MEG数据集上仅达到2%的TOP-10准确率。EEG数据集的解码性能较低：我们的模型达到19%和31%的TOP-10准确率，这些分数比随机模型高四倍。

表3 消融实验结果(语句级TOP-10)

我们的消融强调了以下重要性：（1）对比损失，（2）使用深度语音表征和（3）大量参与者的组合。首先，当使用模型输出按余弦相似性对候选片段进行排序时，经过训练以预测具有回归目标的Mel谱图的模型（表2中的“基础模型”）在数据集上平均达到10%的TOP-10准确率，即比我们的模型低近五倍。

第二，预测具有对比损失的Mel谱图比基本模型提高了3倍，并通过使用wav2vec 2.0作为语音表示获得了16%的增加。我们验证了wav2vec 2.0的潜在表示比使用对比学习的端到端学习提供了更高的解码性能，如表2上的深度Mel模型的结果所示。

第三，为了测试我们的模型是否有效地利用了个体间变异性，我们在不同数量的受试者上进行了训练，并计算了前10%受试者的准确率。随着模型在两个MEG数据集上训练更多对象，解码性能提高。另一个消融实验加强了从多个受试者学习的能力：对所有受试者进行训练，但没有受试者特定层，导致四个数据集的平均准确率下降17%。

最后，其他设计选择对我们模型的性能产生了适度但显著的影响。当去除跳跃连接、空间注意力模块、初始或最终卷积层时，性能系统性降低。

论文信息：decoding speech from non-invasive brain recordings

仅用于学术交流，若有侵权及疑问，请后台留言，管理员即时删侵！

更多阅读

将同构迁移学习应用于脑机接口，

解决训练数据不足的问题

用于恢复言语以及帮助治疗抑郁症的脑机接口设想

Transformers 如何模仿大脑的某些部分

当你在梦乡里，大脑是如何唤醒你的？

帮助大脑患病患者生活的脑机接口解决方案

瘫痪患者借助脑机接口可进行数字绘画

加入社群

欢迎加入脑机接口社区交流群，

探讨脑机接口领域话题，实时跟踪脑机接口前沿。

加微信群：

添加微信:RoseBCI【备注：姓名+行业/专业】。

加QQ群：104048131

欢迎来稿

1.欢迎来稿。投稿咨询，请联系微信：RoseBCI

2.加入社区成为兼职创作者，请联系微信：RoseBCI

助力脑机接口发展

点个在看祝你开心一整天!

Meta研究人员利用人工智能解码脑电语音信号（全文解读）相关推荐

美国斯坦福大学研究人员利用人工智能生成模因
人工智能最近几乎可以做任何事情,比如从快照生成物体的3D渲染,击败面部识别系统或跟踪野生动物. 在题为"DankLearning"的白皮书中,该项目的两名美国斯坦福大学主要研究人员 ...
研究人员利用黑猩猩改进动物模拟技术效果显著！
文章来源:ATYUN AI平台曼彻斯特大学的研究人员正在利用计算机模拟黑猩猩行走,来提高我们对动物行走方式的理解,同时也提高我们用来做实验的技术. <英国皇家社会开放科学>杂志发表的研究 ...
斯坦福大学研究人员利用AI生成表情包
内容来源:ATYUN AI平台目前,人工智能可以做许多事情,比如从2D图片生成物体的3D模型,击败面部识别系统或识别野生动物,现在它也能生成表情包了. 在"Dank Learning(论文 ...
研究人员利用机器学习算法检测医疗保险欺诈
文章来源:ATYUN AI平台佛罗里达大西洋大学工程与计算机科学学院的研究人员发表了一项健康信息科学与系统的研究,该研究展示了机器学习和高级分析如何检测医疗保险欺诈检测.这一突破可能避免每年医疗保险 ...
NVIDIA研究人员利用AI将标准视频转换为高质量慢动作镜头
内容来源:ATYUN AI平台来自NVIDIA的研究人员开发了一个基于深度学习的系统,该系统可以用每秒30帧的视频制作高质量的慢动作视频,超过了旨在实现相同效果的各种方法.研究人员将在本周CVPR会 ...
神技能！研究人员利用扫描仪成功从物理隔离设备中偷出数据
本文讲的是神技能!研究人员利用扫描仪成功从物理隔离设备中偷出数据,近日,一组以色列研究人员设计了一种新技术,可以利用扫描仪通过受控恶意软件在气隙系统(air-gapped)中获取用户设备中的数据. 关 ...
厦大等高校研究人员利用卷积神经网络学习脑电地形图表示进行分类
脑电图(EEG)地形图表征(Electroencephalography topographical representation, ETR)可以监测区域大脑活动,是一种可以用于探索皮层机制和联系的 ...
研究人员利用非线性原理为机器人创造出类似昆虫的步态，脑机接口也可以使用...
他们的实验性机器人及其步态耦合方案的视图.图片来源:Ludovico Minati 日本和意大利的研究人员正利用混沌和非线性物理为微型机器人创造出类似昆虫的步态,并配备运动控制器,以方便使用脑机接口来 ...
在动作观察，运动想象和站立和坐姿执行过程中解码脑电节律
事件相关去同步化与同步化(ERD/S)和运动相关皮质电位(MRCP)在下肢康复的脑机接口(BCI)中,特别是在站立和坐姿中,起着重要的作用.然而,人们对站立和坐着的大脑皮层活动的差异知之甚少,尤其是大 ...

Meta研究人员利用人工智能解码脑电语音信号（全文解读）

Meta研究人员利用人工智能解码脑电语音信号（全文解读）相关推荐

最新文章

热门文章