抑郁症识别的深度学习方法综述
数据集分语音、单张图片、视频、语音+视频多模态
方法都比较简单,主要是CNN/LSTM+各种attention等来提高准确率,这里主要记录数据处理和一些典型


Audio:

初始数据为wav格式的音频数据,用MFCC(Mel-Frequency Cepstral Coefficents)即梅尔频率倒谱分析,即转换到梅尔频率并做倒谱分析,倒谱分析即做傅里叶变换和反傅里叶变换,具体原理暂且不深究。(补充知识:傅里叶变换可以把信号从时域转换到频域)
输入:wav格式音频数据
输出:MFCC特征,也就是一个矩阵行数为特征向量长度,列数为帧数(帧即为人为分的一个个小片段,也可以说是时间,用带overlap的滑框分)
由于输出的特征是一个矩阵,论文中成为频谱图,Spectrogram,因此可以用CNN做卷积,

Image:

预处理:人脸识别算法扣出脸部图像(MTCNN\OpenFace\Dilb toolkits)

预训练数据集:CASIA Webface Database 人脸识别数据集
finetune: AVEC2013/2014
(1)

第一分支:人脸
第二分支:该帧对应的光流

(2)

先扣脸,然后扣五官,分别预测,做平均

Video

跟单图类似,就是用了3D CNN,意义不大

也有这样先用C3D提取特征,然后过RNN得到分类结果
另外这也是双流
第一分支:Tight,就是扣出来的脸部
第二分支:Loose,就是完整原图
或者像下面这样脸部和眼部双流的

Multi-Modal

重点介绍两篇文章:
(1)Multimodal Spatiotemporal Representation for Automatic Depression Level Detection

STA做一个attention和映射,

<1>STA——Audio分支

这是Audio分支的STA,输入是一个音频的segmentation,可能是T_A帧,先过一个LSTM相当于提取特征,同时过一个CNN+FC,得到(n,1)的矩阵,这里可以称作空间attention,n为每一帧的向量的长度,即一帧内每个单位的权重,将(n, T_A)转置后与(n, 1)相乘,得到(T_A, 1)的向量,再过一个softmax,得到(T_A, 1),这里可以理解为时间attention,代表每一帧的权重,再和过LSTM后的原始特征相乘,得到最终的结果,过几个FC处理一下

<2>STA——Video分支

Video分支跟Audio分支类似,只是Video数据相当于3D数据,得先转换成矩阵才好过LSTM,即把每帧图像转换成一个1维向量,这里用的方法是用2D CNN降维,再过Flatten和FC,同时还用label来做监督训练这个特征提取网络,label就是这个video的label,注意,这个特征提取网络是独立于整个STA训练的,应该是先训好了,然后固定权重用于提取特征。变成矩阵之后的过程就和上面一样了。

<3>EEP
没看懂,先简单理解为将所有向量融合成一个的模块

<4>MAFF——multi-modal feature fusion

就是将ASLF与VLF做相似度计算,得到相似度权重,然后将ASLF中的所有向量加权合并为一个向量,即VAAF,右边同理。
根据作者的解释,这样是提取出了音频中和视频相似的部分,作为视频特征的音频补充,同理还有视频特征中与音频相似的部分,作为音频特征的视频补充,最终四个特征融合到一起做分类。

<5>loss
<2>中的2D CNN是单独训练的,<1><2>中的STA也可以单独训练,但是实际上整个网络应该是用最后的SVR的输出算loss反传的,这里论文中并没有讲太清楚

Deep Learning for Depression Recognition with Audiovisual Cues: A Review相关推荐

  1. 跌倒综述 Deep Learning Based Systems Developed for Fall Detection A Review

    文章目录 1.基本信息 2. 第一节 介绍 3. 第二节 跌倒检测系统文献 4.第三节 讨论和未来方向 5. 第四节 结论 6. 参考文献 1.基本信息 题目:Deep Learning Based ...

  2. Deep Learning Methods for Remote Heart Rate Measurement:A Review and Future Research Agenda

    前言 本文为一片远程心率监测综述的总结复述,本文为作者第一篇试写博客,欢迎大家提出宝贵意见. 文章主要内容:1.简述了有关远程心率监测的基础知识与相关概念.2.讨论了基于深度学习的远程心率检测方法的几 ...

  3. Deep Learning for 3D Recognition

    目标•了解最新的3D深度学习方法•学习基础数学

  4. 机器学习——深度学习(Deep Learning)

    Deep Learning是机器学习中一个非常接近AI的领域,其动机在于建立.模拟人脑进行分析学习的神经网络,近期研究了机器学习中一些深度学习的相关知识,本文给出一些非常实用的资料和心得. Key W ...

  5. 机器学习——深度学习(Deep Learning)经典资料

    Deep Learning是机器学习中一个非常接近AI的领域,其动机在于建立.模拟人脑进行分析学习的神经网络,最近研究了机器学习中一些深度学习的相关知识,本文给出一些很有用的资料和心得. Key Wo ...

  6. Image Segmentation Using Deep Learning: A Survery

    图像分割综述–论文翻译    论文地址:https://arxiv.org/pdf/2001.05566.pdf 图像分割综述论文 图像分割综述--论文翻译 摘要 介绍 深度神经网络的介绍 Convo ...

  7. 论文翻译七:Adversarial Transfer Learning for Deep Learning Based Automatic Modulation Classification

    30天挑战翻译100篇论文 坚持不懈,努力改变,在翻译中学习,在学习中改变,在改变中成长- Adversarial Transfer Learning for Deep Learning Based ...

  8. 深度学习词汇 Developing Our Own Deep Learning Toolset

    pick up:挑出选出 a copy of :一本 configure配置 acount :账户 computer vision:机器视觉 utilizing:利用 image classifica ...

  9. 机器学习(Machine Learning)——深度学习(Deep Learning)

    版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明. 本文链接:https://blog.csdn.net/abcjennifer/article/ ...

最新文章

  1. 编程 25 年后,现实将我打回菜鸟程序员的起点
  2. python 读写utf8文件_Python关于 文件读写的总结
  3. linux闲话FHS标准下linux目录结构
  4. Qt QByteArray 转换 QString QT5.12.7
  5. C++分析使用拷贝控制成员和调用构造函数的时机
  6. 使用JAX-RS的HTTP缓存
  7. 批梯度下降 随机梯度下降_梯度下降及其变体快速指南
  8. mysql 镜像数据_mysql官方镜像数据存储问题
  9. eBPF 学习路径总结
  10. python编程多行输入_Python20-02_GUI编程----Text多行文本框详解
  11. javaSE----继承
  12. MySQL和Oracle的一些区别
  13. 时间区间页面设计两个框html,elementUI 2个输入框 时间区间月份选择
  14. 安装Lync Server 2013
  15. 还有在用迅雷7的朋友吗?
  16. 50 个实用小工具(图片处理、截屏录屏、格式转化、下载工具、浏览器、工具箱等)
  17. 微软kinect的五个非游戏的应用
  18. html多个背景音乐自动播放,多个背景音乐同时自动播放?
  19. 开发功能更加完善的智能颈部按摩仪
  20. jar启动方式设置内存参数

热门文章

  1. 2021 年你需要知道的 CSS 工程化技术
  2. 到底什么是“自智网络”?
  3. 牛逼的文案,个个都是金句,爆款的文章,一定会有几个金句。好看的文案,一定有一个金句。...
  4. 《如果你想过1%的生活》
  5. 异地多活技术方案介绍
  6. 求平均查找长度(成功+失败)
  7. 区块链技术发展趋势与银行业探索实践
  8. Linux内网网络测速(打流)工具iperf3使用教程
  9. 可证明安全——公钥加密
  10. python中os.system、os.popen、subprocess.popen的区别