IJCAI 2021 | 面向睡眠阶段分类的多模态显著性波形检测网络

©PaperWeekly 原创 · 作者 | 王雪徽

学校 | 北京交通大学

研究方向 | 时间序列分析

本文介绍一篇北京交通大学网络科学与智能系统研究所于 IJCAI 2021 发表的论文《SalientSleepNet: Multimodal Salient Wave Detection Network for Sleep Staging》，该研究提出一种捕获一维信号中显著性波形的通用卷积神经网络框架，并首次应用于睡眠阶段分类。

论文标题：

SalientSleepNet: Multimodal Salient Wave Detection Network for Sleep Staging

论文链接：

https://arxiv.org/abs/2105.13864

论文代码链接：

https://github.com/ziyujia/SalientSleepNet

论文作者主页：

https://ziyujia.github.io/

睡眠阶段分类对于睡眠质量评估和疾病诊断至关重要，睡眠专家通常利用视觉检查的方式对原始睡眠信号进行特征波形的标注和人工分类，但人工标注费时费力且容易受到主观意识的影响。因此，大多数深度学习的方法为了自动化进行睡眠阶段分类，通常提取时频特征间接捕获显著性的特征波形进行分类。

该论文提出了一种多模态显著性波形检测模型，将时间序列分类问题转化为显著性检测问题并应用于睡眠阶段分类。提出模型不依赖于时频特征提取，可以直接从原始信号中探测显著波形服务于高精度的睡眠时间序列分类。

此外，该模型融合了多模态睡眠数据且捕获了多尺度的睡眠规则，与现有的 SOTA 模型相比较，提出模型实现简单，参数量小且可解释性强。在多个睡眠数据集的实验表明 SalientSleepNet 优于该领域的其他模型。

背景简介

睡眠分期对于评估睡眠质量和诊断睡眠障碍有重要意义。为了确定睡眠阶段，睡眠专家通常使用附着在人体不同部位的传感器来记录电活动，以此进行睡眠分期。这些传感器记录的信号称为多导睡眠图（PSG），由脑电图（EEG），眼电图（EOG）和其他生理信号组成。

这些记录的信号被分为 30 秒一个的睡眠期，睡眠专家根据美国睡眠医学学会（AASM）睡眠标准将其分为五个不同的睡眠阶段（W，N1，N2，N3 和 REM）。然而，人工分期方法是十分费时费力的。所以许多研究人员尝试开发自动睡眠分期方法。

动机

2.1 挑战

2.1.1 显著性波形的捕获

现有大多数模型无法直接捕获原始信号中的显著性波形。根据 AASM 睡眠标准，不同的睡眠阶段的生理信号通常有不同的显著性波形。例如，图 1 展示了 N2 期的显著性波形：睡眠纺锤波和 K 复合波，而 N3 期的显著性波形是 δ 波。现有工作大多通过间接的提取特征来捕获显著性波形。

例如，信号的时频特征可以在一定程度上反映显著性波形特征。原始生理信号被转换为时频图像，作为睡眠分期深度学习模型的输入。虽然上述方法间接地捕获了信号的特征，但手动提取的特征不仅需要先验知识，而且还可能导致部分信息丢失。

2.1.2 多尺度睡眠过渡规则提取

多尺度的睡眠过渡规则未被很好的利用。在睡眠过程中，人的大脑在不同的睡眠阶段之间经历着一系列的变化。这些变化的模式被概括为睡眠标准中的过渡规则。睡眠专家通常根据这些规则，结合其邻近的睡眠阶段来确定当前的睡眠阶段。

图 2 展示了 AASM 睡眠标准中的睡眠过渡规则具有的多尺度特性。为了捕获睡眠过渡规则，一些包含 RNN 的混合模型经常被使用。然而大多数现有的工作忽略了对睡眠过渡规则的多尺度特征的显式捕捉。此外现有模型表明 RNN 模块可以被前馈系统（如 CNN 的变体）取代，并且不会牺牲准确率。

2.1.3 多种模态对不同睡眠阶段的贡献

不同的模态对区分睡眠阶段有不同的贡献。图 1 表明 REM 和 N1 阶段的脑电波相似。然而，两个阶段的 EOG 波有很大的不同。因此，EOG 信号对 REM 和 N1 期的分类贡献大于 EEG 信号。相反，N2 和 N3 阶段的分类主要是根据 EEG 信号中的显著性波形。

因此，在识别不同的睡眠阶段时，所需的模态是不同的。为了利用这些多模态信号，研究人员通常关注多模态的互补性，并通过连接操作来合并多模态特征。这忽略了每一种睡眠模态对确定特定睡眠阶段的作用是不同的。

2.2 贡献

设计了由多个嵌套 U 形单元组成的结构流，以检测生理信号中的显著性波形，这受启发于 CV 中流行的显著性检测模型 -Net。
提出了一个多尺度的睡眠过渡规则提取模块，它是由多个不同感受野的空洞卷积组成的，用于捕获多尺度规则。
设计了一个多模态注意力模块，用于自适应地从不同模态数据中获取有价值的信息。
实验结果表明，SalientSleepNet 达到了领域内最先进的性能。此外，与现有睡眠分期方面的深度神经网络相比，提出模型拥有最小的参数量。

问题定义

本文提出的模型接收一个序列的睡眠阶段，并输出一个预测的标签序列。每个睡眠阶段被定义为，其中是一个睡眠阶段内的采样点个数，为睡眠阶段的通道数（在本文中为 EEG 和 EOG 通道）。

输入睡眠序列可以定义为，其中是一个睡眠阶段（）并且是睡眠阶段的数量。

睡眠分期问题可以被定义为：学习一个基于多模态显著性波形检测网络的映射函数，将睡眠序列映射到相应睡眠阶段预测序列，其中并且是的分类结果。根据 AASM 标准，每个与 5 个睡眠阶段 W，N1，N2，N3 和 REM 相对应。

多模态显著性波形检测网络

SalientSleepNet 的总体结构如图 3 所示，网络的五个关键点如下：

1）双流结构（Two-Stream -Structure）来捕捉 EEG 和 EOG 模态中的显著性波形。

2）多尺度特征提取模块，利用拥有不同尺度感受野的空洞卷积显式学习多尺度睡眠过渡规则。

3）多模态注意力模块，融合 EEG 和 EOG 流的输出，增强对识别特定的睡眠阶段有更大贡献的模态特征。

4）将传统计算机视觉中的像素级 (点级) 分类器改进成用于睡眠信号的段级分类器。

5）采用瓶颈层来降低计算成本，使整个模型轻量化。

4.1 双流结构

人类专家主要根据 EEG 和 EOG 信号中的显著性波形，如纺锤波、K 复合波和锯齿波等来对睡眠阶段进行分类。现有的睡眠分期模型通过将原始信号转换为时频图像间接提取显著性波形特征。这可能会导致信息丢失，并且需要一定领域知识。

为了直接捕获原始 EEG 和 EOG 信号中的显著性波形，我们设计了一个双流结构（Two-Stream -Structure）来捕获不同信号的特征，如图 3 所示。具体来说，EEG 信号和 EOG 信号被输入到两个独立的结构中学习不同模态的显著性波形特征。

每个结构是一个编码器解码器结构，并且它由多个嵌套的 U 型单元（U-unit）组成。具体来说，每个 U-unit 有三个组件：一个通道变形层（channel-reshape layer），一个类 U 结构（U-like structure）还有一个残差连接（residual connection）。

对于一个 1D 的特征图，通道变形层将它转换为一个中间特征图来控制整个 U 型单元的通道数：

其中表示通道变形操作，表示中间特征图。

U-like structure编码并解码中间特征图，并获得特征图：

其中表示深度为的 U-like structure（我们的模型中）。

残差连接通过加法操作融合特征图和，以此降低深度网络中的退化问题：

其中是 U-unit 的输出。

多个 U-unit 组成结构。具体来讲，每个结构总共有 5 个 U-unit 用于编码，4 个 U-unit 用于解码。

4.2 多尺度特征提取模块

睡眠过渡规则对睡眠分期有十分重要的贡献。过渡规则有多尺度特性：小尺度，中等尺度，大尺度。先前的工作忽略了过渡规则的多尺度特性，并使用 RNN 隐式地学习睡眠过渡规则。除此之外，现有文献表明 RNN 模型也难于调整和优化。

为了解决上面的问题，我们设计了一个多尺度特征提取模块（Multi-Scale Extraction module，MSE）来显式捕获多尺度睡眠过渡规则。如图 4 所示，MSE 多个不同膨胀率的空洞卷积组成，用不同尺度的感受野来捕获特征。具体来说，我们使用 4 个空洞卷积，膨胀率从 1 到 4，来将输入特征图进行变形。然后，从不同尺度感受野学到的特征图将会被进行连接操作，获得一个多尺度的特征图：

其中是输入特征图，是有着膨胀率为的空洞卷积。是空洞卷积的输出，是多尺度特征图。

除此之外，为了降低模型的参数，我们在编码器和解码器之间使用了瓶颈层（也就是在 MSE 中实现）。它降低了连接后的特征图的通道数，让模型轻量化，由两个卷积操作组成：

其中是瓶颈层的操作，是最终得到的经过通道降维的多尺度特征图。的通道数为，。是的通道数并且是瓶颈层的下采样率。

4.3 多模态注意力模块

不同的模态有不同的特征，有助于对特定的睡眠阶段进行分类。然而，现有的模型忽略了不同模态对分类特定睡眠阶段有不同的贡献。

为了加强对特定的睡眠阶段分类有更大的贡献的模态特征，我们设计了多模态注意力模块（MultiModal Attention module，MMA）。如图 5 所示，MMA 有两个主要组件：用于融合两个流输出的特征图的模态融合组件，用于筛选对特定睡眠阶段分类更重要的特征的通道级的注意力组件。

模态融合组件由下式定义：

其中是融合后的特征图。符号代表逐点相乘操作。和是通过 EEG 和 EOG 流学到的特征图。

特征图被输入到通道级注意力组件中来筛选融合特征图中更重要的通道：

其中是全局平均池化操作，表示第个全连接层。符号表示 ReLU 激活函数，表示 sigmoid 激活函数。是中间特征图并且是这个组件的输出特征图。

4.4 段级分类器

现有计算机视觉中的显著目标检测模型是逐像素 (逐点) 分类。这些模型不能直接应用于生理信号的段级分类。因此，我们设计了一个分段分类器，它将像素级特征图映射到段级预测标签序列。如图 R.1 所示，我们使用一个平均池化层来将 1D 特征图从变形为。其中，是睡眠阶段的个数，是一个睡眠阶段内的采样点个数。然后，我们使用一个 softmax 激活的卷积层降低的维度，并把它映射到预测标签序列。

实验

在 Sleep-EDF-39 和 Sleep-EDF-153 两个数据集上检验了 SalientSleepNet 的性能，之后与 7 种 Baseline 方法进行了比较，结果如表 1 所示，更多的实验设置、Baseline 介绍等请参阅我们的论文原文。

实验结果表明，与其他基准方法相比，SalientSleepNet 获得了最佳的整体性能。

传统的机器学习模型（SVM 和 RF）无法捕获多样的特征。一些混合深度学习模型，如 DeepSleepNet、SeqSleepNet 和 TinySleepNet，利用 CNN 学习睡眠阶段的特征，RNN 捕捉睡眠期之间的过渡规则。因此这些模型比传统的机器学习模型有更好的性能。虽然混合模型可以达到较高的精度，但这些模型很难优化。

另外，现有的模型没有充分利用不同模态下的显著性波形特征，有些模型需要时频图像作为输入，可能导致部分信息丢失。与以往的研究不同的是，我们的模型能够同时从原始信号中捕捉多模态数据的显著性特征和多尺度睡眠过渡规则。

此外，我们的模型加强了不同模态特征的贡献，以分类不同的睡眠阶段。因此，与其他基准方法相比，SalientSleepNet 获得了更好的整体性能。

如图 6 所示我们将结构的逐点输出可视化，这在很大程度上阐明了我们的模型可以检测出多模态输入信号中的显著性波形。总体而言，我们的模型可以检测到这些显著性波形，说明我们的模型在一定程度上是可解释的。

结论

本文提出了一种用于睡眠分期的多模态显著波形检测网络。我们的模型是将 -Net 模型从视觉显著性检测领域迁移进睡眠分期领域的首次尝试。SalientSleepNet 不仅可以有效地检测和融合多模态实验数据中的显著性波型，还可以提取睡眠期之间的多尺度过渡规则。

结果表明，SalientSleepNet 达到了最先进的性能。并且在现有的深度学习模型中，我们模型的参数最少。此外，本模型也是处理多模态生理时间序列模型的通用框架，可以被直接应用于其余时间序列分类任务。

更多阅读

#投稿通道#

让你的文字被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体，缩短读者寻找优质内容的成本呢？答案就是：你不认识的人。

总有一些你不认识的人，知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁，促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人，在我们的平台上分享各类优质内容，可以是最新论文解读，也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个，让知识真正流动起来。

???? 稿件基本要求：

• 文章确系个人原创作品，未曾在公开渠道发表，如为其他平台已发表或待发表的文章，请明确标注

• 稿件建议以 markdown 格式撰写，文中配图以附件形式发送，要求图片清晰，无版权问题

• PaperWeekly 尊重原作者署名权，并将为每篇被采纳的原创首发稿件，提供业内具有竞争力稿酬，具体依据文章阅读量和文章质量阶梯制结算

???? 投稿通道：

• 投稿邮箱：hr@paperweekly.site

• 来稿请备注即时联系方式（微信），以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信（pwbot02）快速投稿，备注：姓名-投稿

△长按添加PaperWeekly小编

????

现在，在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

关于PaperWeekly

PaperWeekly 是一个推荐、解读、讨论、报道人工智能前沿论文成果的学术平台。如果你研究或从事 AI 领域，欢迎在公众号后台点击「交流群」，小助手将把你带入 PaperWeekly 的交流群里。