文章信息

Blind Monaural Source Separation on Heart and Lung Sounds Based on Periodic-Coded Deep Autoencoder

基于周期编码深度自编码器的心肺音盲单耳声源分离

2020年,来自IEEE JOURNAL OF BIOMEDICAL AND HEALTH INFORMATICS期刊,Q1,IF=7.021

Abstract

听诊是诊断心血管和呼吸系统疾病的最有效方法。为了达到准确的诊断,设备必须能够识别来自各种临床情况的心肺音。然而,录制的胸音混合了心音和肺音。因此,在预处理阶段有效地分离这两种声音至关重要。

机器学习的最新进展在单声道声源分离方面取得了进展,但大多数众所周知的技术都需要配对混合声音和单个纯声音进行模型训练。由于制备纯心肺音很困难,因此必须考虑特殊设计才能得出有效的心肺声音分离技术。

在这项研究中,我们提出了一种新的周期性编码深度自动编码器(PC-DAE)方法,通过假设心率和呼吸频率之间的不同周期性,以无监督的方式分离混合心肺音。PC-DAE受益于基于深度学习的模型,通过提取代表性特征并考虑心肺音的周期性来进行分离。

我们在两个数据集上评估了PC-DAE。第一个包括来自学生听诊模型(SAM)的声音,第二个是通过在现实世界条件下录制胸部声音来准备的。实验结果表明,PC-DAE在标准化评估指标方面优于多个知名分离工作。此外,波形和频谱图证明了PC-DAE与现有方法相比的有效性。还证实,通过使用所提出的PC-DAE作为预处理阶段,可以显着提高心音识别精度。实验结果证实了PC-DAE的有效性及其在临床应用中的潜力。

Introduction

现有方法

研究心肺音产生的物理模型和分类机制

  • 信号处理方法(如归一化平均香农能量),基于高频的方法,基于机器学习的模型(神经网络分类器、决策树)
  • 采用S1-S2和S2-S1区间的信息,以进一步提高分类精度
  • 高斯混合模型、NN分类器、支持向量机、各种类型的声学特征(功率谱密度值,希尔伯特-黄变换)已被用于进行肺部声音识别
  • 测量的信号通常是心肺声音的混合,纯心/肺声信号通常无法获得,有效地分离心肺声音较困难

心肺音频谱范围

  • 正常心音(第一(S1)和第二(S2)心音)的频率范围主要是20-150赫兹
  • 一些高频杂音可能达到100-600赫兹,甚至达到1000赫兹
  • 正常肺音的频率范围为100-1000赫兹(气管音范围为850赫兹至1000赫兹)
  • 异常肺音作为喘息的不定声音跨越400-1600赫兹的宽频率范围
  • 湿啰音和啰音的范围为100-500赫兹

心肺音分离技术方法——传统滤波方法(问题:频段重叠)

  • 自适应过滤
  • 经验模态分解
  • 离散小波变换
  • 将信号转换为时频域(STFT),与连续小波变换(CWT)结合,通过带通滤波器滤除心音分量

盲源分离算法

独立成分分析(ICA)及其扩展,不需要对源的先验知识;

至少需要两个传感器;

心脏音源之间的独立性假设也在某种程度上是乐观的。

非负矩阵分解(NMF)

单通道;

处理重叠频段能力好。

深度学习

直接将混合源分解为目标源,效果好于NMF;

受数据集影响大,很难获取纯净心/肺音信号。

本文工作

周期性编码深度自动编码器(PC-DAE),基于无监督学习,分离心肺音。

首先采用DAE模型提取混合声音的高度表现力表示;

接下来在潜在表示上应用调制频率分析(MFA);

根据神经元在调制域中的属性对神经元进行分组,然后对混合声音进行分离;

优点:与典型的基于学习的方法相比,不需要标记的训练数据(即成对的混合声音和单个纯声音),它受益于周期性结构,可提供比传统方法优越的分离性能。

第二节:回顾NMF/DAE算法。

第三节:介绍PC-DAE。

第四节:实验设计和结果,其中设计了两个数据集并用于测试提出的PC-DAE模型。第一个是来自学生听诊模型(SAM)数据库的心声图信号,第二个是在真实条件下制备的。实验结果证实了PC-DAE分离混合心肺音的有效性,在三个标准化评估指标、基于分离波形和频谱图的定性比较以及心音识别精度方面优于直接聚类NMF(DC-NMF)、PC-NMF和深度聚类(DC)等相关工作。

Related Works

非负矩阵分解(NMF)

将矩阵V分解为字典矩阵W和编码矩阵H,W和H的乘积近似为V,所有矩阵的项均为非负数。

基于NMF的声源分离可分为有监督(有独立声源声音)和无监督(无独立声源声音)。

有监督NMF

预训练的固定谱矩阵
WS=[W1S…WMS]W^S=[W^S_1\dots W_M^S] WS=[W1S​…WMS​]
其中M是声源的数量,矩阵WSW^SWS由每个声源的特征组成,被预先提供。

包含多种声音的记录被NMF分解为WSW^SWS和HTH^THT,把HTH^THT分解成M块
HT=[H1TH˙MT]H^T=[H_1^T\dot H_M^T] HT=[H1T​H˙MT​]
其中M是声源的数量,通过将WiSW_i^SWiS​和HiTH_i^THiT​相乘,即可得到独立声源。

无监督NMF

由于独立声源声音不可获得,必须应用一些统计假设,一种直观的方法是将H中的向量聚类到几个不同的组,特定的声音可以通过H中的一组向量与W一起重建。

使用另一个概念设计了PC-NMF,即将不同源声音的周期性属性纳入分离框架。PC-NMF考虑编码矩阵HTH^THT作为时间向量,并利用周期性差异的性质来分离生物声音。由于心音和肺音在周期性特征上不同(心率和呼吸频率非常不同),因此可以通过PC-NMF模型很好地分离混合心肺音,如第4节所述。

深度自动编码器(DAE)

DAE©完全卷积体系结构如下图,由编码器E和解码器D组成。

编码器层数KEK_EKE​,解码器层数KDK_DKD​,总层数KALL=LD+KEK_{ALL}=L_D+K_EKALL​=LD​+KE​。

编码器将输入xxx编码到中间潜在空间l(KE)=E(x)l^{(K_E)}=E(x)l(KE​)=E(x),解码器通过y=D(l(KE))y=D(l^{(K_E)})y=D(l(KE​))重构输出,重构的输出yyy近似等于xxx。使用均方误差MSE测量x和y间的差值,最小化MSE是训练DAE模型的目标。

通过使用全连接层和全卷积层,可以分别构建DAE(F)和DAE©,下图为两种类型的DAE的第k层和第k+1层的连接,从左到右分别为全连接层、卷积、解卷积。

DAE(F) 通过全连接单元形成编码器和解码器,对于编码器:

对于解码器,MMM代表潜在空间中神经元的总数:


在 DAE(C) 中,编码器由执行卷积函数的卷积单元组成,lj(k)∈RM∗Nl_j^{(k)}∈R^{M*N}lj(k)​∈RM∗N是第kkk层中的第jjj个特征图,III是通道总数:

每个编码层有JJJ个滤波器:{W1,….WJ},Wj∈RL∗1\{W_1,\dots.W_J\},W_j∈R^{L*1}{W1​,….WJ​},Wj​∈RL∗1,LLL是卷积核大小,Wji=(w1,…,wi)W_{ji}=(w_1,\dots,w_i)Wji​=(w1​,…,wi​)是WjW_jWj​的第iii个通道。在k+1k+1k+1层特征图中的每个神经元lj(k+1)l_j^{(k+1)}lj(k+1)​是WjW_jWj​与之前所有特征图l(

【论文精读】基于周期编码深度自编码器的心肺音盲单耳声源分离相关推荐

  1. 论文精读——基于机器学习的越南生活固体废弃物预测

    论文精读--基于机器学习的越南生活固体废弃物预测 Abstract 1. Introduction(partly) 2. ML - based models and applications for ...

  2. 硕士论文阅读——基于机器视觉和深度学习的工人安全帽检测与身份识别方法

    文章目录 零.摘要 一.绪论 1.背景与研究意义 2.国内外研究现状 (1)安全帽佩戴检测研究现状与不足 (2)身份识别研究现状与不足 (3)基于深度学习的目标检测 二.深度学习目标检测理论 1.卷积 ...

  3. 论文精读-基于双目图像的视差估计方法研究以及实现

    基于双目图像的视差估计方法研究及实现 第一章 绪论 1.1 课题的研究背景与意义 1.2 双目视差估计的研究现状 1.2.1 传统立体匹配方法研究现状 1.2.2 统计学习方法研究现状 1.2.3 深 ...

  4. 阿里 NIPS 2017 Workshop 论文:基于 TensorFlow 的深度模型训练 GPU 显存优化

    NIPS 2017 在美国长滩举办,场面非常热烈.阿里巴巴一篇介绍深度模型训练 GPU 显存优化的论文<Training Deeper Models by GPU Memory Optimiza ...

  5. 研究型论文_基于机器学习和深度学习的不平衡网络流量入侵检测(英文论文)

    文章目录 Intrusion Detection of Imbalanced Network Traffic Based on Machine Learning and Deep Learning 论 ...

  6. 深度学习论文精读[10]:Deeplab v1

    在语义分割发展早期,一些研究观点认为将CNN用于图像分割主要存在两个问题:一个是下采样导致的信息丢失问题,另一个则是CNN的空间不变性问题,这与CNN本身的特性有关,这种空间不变性有利于图像分类但却不 ...

  7. 深度学习论文精读[9]:PSPNet

    场景解析(scene parsing)是语义分割的一个重要应用方向,区别于一般的语义分割任务,场景解析需要在复杂的自然图像场景下对更庞大的物体类别的每一个像素进行分类,场景解析在自动驾驶和机器人感知等 ...

  8. 深度学习在心肺音上的研究

    @深度学习在心肺音上研究 学习目标: 研究背景:临床听诊过程中,通过听诊器采集到的心音和肺音信号通常是带有背景噪声的两者的混合信号,在医生听诊心音信号过程中会受到肺音信号的干扰,而在对肺音信号进行诊断 ...

  9. 【论文精读】基于网络立体数据监督的单目相对深度感知

    基于网络立体数据监督的单目相对深度感知 Paper Information Abstract 1 Introduction 2 Related Work 3 Proposed method 3.1 O ...

最新文章

  1. 妙啊,边玩游戏边学强化学习
  2. Warning: Instance created by `useForm` is not connect to any Form element. Forget to pass `form` pro
  3. Excel的vlookup函数的用法
  4. 阿里新晋CNCF TOC委员张磊:“云原生”为什么对云计算生态充满吸引力?
  5. linux建立与删除目录
  6. 学习《让UpdatePanel支持文件上传》系列文章的相关链接
  7. 【正点原子STM32连载】第七章 认识HAL库 摘自【正点原子】MiniPro STM32H750 开发指南_V1.1
  8. 正点原子STM32(基于标准库)
  9. dubbo源码解析-router
  10. 尔雅 科学通史(吴国盛) 个人笔记及课后习题 2018 第七章 实验传统的兴起
  11. html语言定义诗歌教学实例,幼儿园中班语言多媒体教学活动案例:诗歌——家...
  12. word标题级别与编号不关联的处理办法
  13. 上海安陆FPGA程序下载
  14. js前端生成excel文件(表格)并下载
  15. 中普审计系统无法连接服务器,中普审计信息系统内审版-简单操作说明大全.doc...
  16. Codeforces 408 E. Curious Array
  17. python中英文古风排版_ET(CAD)-中国风复古女唐装制版教程04
  18. Unity 相机固定角度平移至指定物体
  19. python输出1到100之间的合数_python输出100以内的质数与合数实例代码
  20. 计算机初级操作员试题汇编,计算机初级操作员试卷.doc

热门文章

  1. 在线HTML转XML工具
  2. 兔子--sdk版本与api的对应关系
  3. 研究发现有适用于欧洲GDPR法规的加密货币解决方案
  4. win2003服务器安全设置技术实例(二)
  5. Vue3 使用vant actionBar组件后对icon图标的点击切换效果/点击收藏/取消收藏
  6. 线性模型(一)--广义线性模型(GLM)简介
  7. Java:冒泡排序法
  8. github标准pull request提交流程
  9. 955.WLB 不加班公司名单!再新增 5 家公司!
  10. 网络安全——Linux基础