Deep Learning for Depression Recognition with Audiovisual Cues: A Review

抑郁症识别的深度学习方法综述
数据集分语音、单张图片、视频、语音+视频多模态
方法都比较简单，主要是CNN/LSTM+各种attention等来提高准确率，这里主要记录数据处理和一些典型

Audio：

初始数据为wav格式的音频数据，用MFCC(Mel-Frequency Cepstral Coefficents)即梅尔频率倒谱分析，即转换到梅尔频率并做倒谱分析，倒谱分析即做傅里叶变换和反傅里叶变换，具体原理暂且不深究。（补充知识：傅里叶变换可以把信号从时域转换到频域）
输入：wav格式音频数据
输出：MFCC特征，也就是一个矩阵行数为特征向量长度，列数为帧数(帧即为人为分的一个个小片段，也可以说是时间，用带overlap的滑框分)
由于输出的特征是一个矩阵，论文中成为频谱图，Spectrogram,因此可以用CNN做卷积，

Image:

预处理：人脸识别算法扣出脸部图像(MTCNN\OpenFace\Dilb toolkits)

预训练数据集:CASIA Webface Database 人脸识别数据集
finetune: AVEC2013/2014
(1)

第一分支：人脸
第二分支：该帧对应的光流

(2)

先扣脸，然后扣五官，分别预测，做平均

Video

跟单图类似，就是用了3D CNN，意义不大

也有这样先用C3D提取特征，然后过RNN得到分类结果
另外这也是双流
第一分支：Tight，就是扣出来的脸部
第二分支：Loose，就是完整原图
或者像下面这样脸部和眼部双流的

Multi-Modal

重点介绍两篇文章：
（1）Multimodal Spatiotemporal Representation for Automatic Depression Level Detection

STA做一个attention和映射，

<1>STA——Audio分支

这是Audio分支的STA，输入是一个音频的segmentation，可能是T_A帧，先过一个LSTM相当于提取特征，同时过一个CNN+FC，得到(n,1)的矩阵，这里可以称作空间attention，n为每一帧的向量的长度，即一帧内每个单位的权重，将(n, T_A)转置后与(n, 1)相乘，得到（T_A, 1）的向量，再过一个softmax，得到（T_A, 1），这里可以理解为时间attention，代表每一帧的权重，再和过LSTM后的原始特征相乘，得到最终的结果，过几个FC处理一下

<2>STA——Video分支

Video分支跟Audio分支类似，只是Video数据相当于3D数据，得先转换成矩阵才好过LSTM，即把每帧图像转换成一个1维向量，这里用的方法是用2D CNN降维，再过Flatten和FC，同时还用label来做监督训练这个特征提取网络，label就是这个video的label，注意，这个特征提取网络是独立于整个STA训练的，应该是先训好了，然后固定权重用于提取特征。变成矩阵之后的过程就和上面一样了。

<3>EEP
没看懂，先简单理解为将所有向量融合成一个的模块

<4>MAFF——multi-modal feature fusion

就是将ASLF与VLF做相似度计算，得到相似度权重，然后将ASLF中的所有向量加权合并为一个向量，即VAAF，右边同理。
根据作者的解释，这样是提取出了音频中和视频相似的部分，作为视频特征的音频补充，同理还有视频特征中与音频相似的部分，作为音频特征的视频补充，最终四个特征融合到一起做分类。

<5>loss
<2>中的2D CNN是单独训练的，<1><2>中的STA也可以单独训练，但是实际上整个网络应该是用最后的SVR的输出算loss反传的，这里论文中并没有讲太清楚