Deep Learning for Depression Recognition with Audiovisual Cues: A Review
抑郁症识别的深度学习方法综述
数据集分语音、单张图片、视频、语音+视频多模态
方法都比较简单,主要是CNN/LSTM+各种attention等来提高准确率,这里主要记录数据处理和一些典型
Audio:
初始数据为wav格式的音频数据,用MFCC(Mel-Frequency Cepstral Coefficents)即梅尔频率倒谱分析,即转换到梅尔频率并做倒谱分析,倒谱分析即做傅里叶变换和反傅里叶变换,具体原理暂且不深究。(补充知识:傅里叶变换可以把信号从时域转换到频域)
输入:wav格式音频数据
输出:MFCC特征,也就是一个矩阵行数为特征向量长度,列数为帧数(帧即为人为分的一个个小片段,也可以说是时间,用带overlap的滑框分)
由于输出的特征是一个矩阵,论文中成为频谱图,Spectrogram,因此可以用CNN做卷积,
Image:
预处理:人脸识别算法扣出脸部图像(MTCNN\OpenFace\Dilb toolkits)
预训练数据集:CASIA Webface Database 人脸识别数据集
finetune: AVEC2013/2014
(1)
第一分支:人脸
第二分支:该帧对应的光流
(2)
先扣脸,然后扣五官,分别预测,做平均
Video
跟单图类似,就是用了3D CNN,意义不大
也有这样先用C3D提取特征,然后过RNN得到分类结果
另外这也是双流
第一分支:Tight,就是扣出来的脸部
第二分支:Loose,就是完整原图
或者像下面这样脸部和眼部双流的
Multi-Modal
重点介绍两篇文章:
(1)Multimodal Spatiotemporal Representation for Automatic Depression Level Detection
STA做一个attention和映射,
<1>STA——Audio分支
这是Audio分支的STA,输入是一个音频的segmentation,可能是T_A帧,先过一个LSTM相当于提取特征,同时过一个CNN+FC,得到(n,1)的矩阵,这里可以称作空间attention,n为每一帧的向量的长度,即一帧内每个单位的权重,将(n, T_A)转置后与(n, 1)相乘,得到(T_A, 1)的向量,再过一个softmax,得到(T_A, 1),这里可以理解为时间attention,代表每一帧的权重,再和过LSTM后的原始特征相乘,得到最终的结果,过几个FC处理一下
<2>STA——Video分支
Video分支跟Audio分支类似,只是Video数据相当于3D数据,得先转换成矩阵才好过LSTM,即把每帧图像转换成一个1维向量,这里用的方法是用2D CNN降维,再过Flatten和FC,同时还用label来做监督训练这个特征提取网络,label就是这个video的label,注意,这个特征提取网络是独立于整个STA训练的,应该是先训好了,然后固定权重用于提取特征。变成矩阵之后的过程就和上面一样了。
<3>EEP
没看懂,先简单理解为将所有向量融合成一个的模块
<4>MAFF——multi-modal feature fusion
就是将ASLF与VLF做相似度计算,得到相似度权重,然后将ASLF中的所有向量加权合并为一个向量,即VAAF,右边同理。
根据作者的解释,这样是提取出了音频中和视频相似的部分,作为视频特征的音频补充,同理还有视频特征中与音频相似的部分,作为音频特征的视频补充,最终四个特征融合到一起做分类。
<5>loss
<2>中的2D CNN是单独训练的,<1><2>中的STA也可以单独训练,但是实际上整个网络应该是用最后的SVR的输出算loss反传的,这里论文中并没有讲太清楚
Deep Learning for Depression Recognition with Audiovisual Cues: A Review相关推荐
- 跌倒综述 Deep Learning Based Systems Developed for Fall Detection A Review
文章目录 1.基本信息 2. 第一节 介绍 3. 第二节 跌倒检测系统文献 4.第三节 讨论和未来方向 5. 第四节 结论 6. 参考文献 1.基本信息 题目:Deep Learning Based ...
- Deep Learning Methods for Remote Heart Rate Measurement:A Review and Future Research Agenda
前言 本文为一片远程心率监测综述的总结复述,本文为作者第一篇试写博客,欢迎大家提出宝贵意见. 文章主要内容:1.简述了有关远程心率监测的基础知识与相关概念.2.讨论了基于深度学习的远程心率检测方法的几 ...
- Deep Learning for 3D Recognition
目标•了解最新的3D深度学习方法•学习基础数学
- 机器学习——深度学习(Deep Learning)
Deep Learning是机器学习中一个非常接近AI的领域,其动机在于建立.模拟人脑进行分析学习的神经网络,近期研究了机器学习中一些深度学习的相关知识,本文给出一些非常实用的资料和心得. Key W ...
- 机器学习——深度学习(Deep Learning)经典资料
Deep Learning是机器学习中一个非常接近AI的领域,其动机在于建立.模拟人脑进行分析学习的神经网络,最近研究了机器学习中一些深度学习的相关知识,本文给出一些很有用的资料和心得. Key Wo ...
- Image Segmentation Using Deep Learning: A Survery
图像分割综述–论文翻译 论文地址:https://arxiv.org/pdf/2001.05566.pdf 图像分割综述论文 图像分割综述--论文翻译 摘要 介绍 深度神经网络的介绍 Convo ...
- 论文翻译七:Adversarial Transfer Learning for Deep Learning Based Automatic Modulation Classification
30天挑战翻译100篇论文 坚持不懈,努力改变,在翻译中学习,在学习中改变,在改变中成长- Adversarial Transfer Learning for Deep Learning Based ...
- 深度学习词汇 Developing Our Own Deep Learning Toolset
pick up:挑出选出 a copy of :一本 configure配置 acount :账户 computer vision:机器视觉 utilizing:利用 image classifica ...
- 机器学习(Machine Learning)——深度学习(Deep Learning)
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明. 本文链接:https://blog.csdn.net/abcjennifer/article/ ...
最新文章
- 编程 25 年后,现实将我打回菜鸟程序员的起点
- python 读写utf8文件_Python关于 文件读写的总结
- linux闲话FHS标准下linux目录结构
- Qt QByteArray 转换 QString QT5.12.7
- C++分析使用拷贝控制成员和调用构造函数的时机
- 使用JAX-RS的HTTP缓存
- 批梯度下降 随机梯度下降_梯度下降及其变体快速指南
- mysql 镜像数据_mysql官方镜像数据存储问题
- eBPF 学习路径总结
- python编程多行输入_Python20-02_GUI编程----Text多行文本框详解
- javaSE----继承
- MySQL和Oracle的一些区别
- 时间区间页面设计两个框html,elementUI 2个输入框 时间区间月份选择
- 安装Lync Server 2013
- 还有在用迅雷7的朋友吗?
- 50 个实用小工具(图片处理、截屏录屏、格式转化、下载工具、浏览器、工具箱等)
- 微软kinect的五个非游戏的应用
- html多个背景音乐自动播放,多个背景音乐同时自动播放?
- 开发功能更加完善的智能颈部按摩仪
- jar启动方式设置内存参数