利用3D面部表情及口语语言的多模态方法进行抑郁症智能化识别

附上论文链接《Measuring Depression Symptom Severity from Spoken Language and 3D Facial Expressions》https://arxiv.org/abs/1811.08592

摘要

全世界有超过三亿人患有抑郁，可知抑郁症是个全球性的难题。由于社会歧视，花销以及治疗可行性，患有精神疾病的成年人中60%从未接受过心理健康治疗。有效和高效的诊断依赖于检测到的临床抑郁症症状。抑郁症的智能检测将可能提高诊断的精确性和实用性，从而加快对疾病的介入治疗。在这项工作中，我们提出一种机器学习方法用来衡量抑郁症的严重程度。我们的多模型方法用到3D 面部表情以及口语语言，并且在移动手机端也普遍适用。在临床验证的患者健康问卷(PHQ)中，平均误差为3.67(相对误差为15.3%)。对于主要的抑郁症症象，我们的模型显示了83.3%的敏感性和82.6%的特异性。总得来说，这篇文章展示了如何结合语言识别、计算机视觉以及自然语言处理来辅助患者和医生。这项技术可以部署到手机，从而促进全球低成本普及精神卫生保健。

1.介绍

全世界有3亿多人患有抑郁症。在最糟糕的情况下，抑郁症会导致自杀，每年有将近80万人自杀。一般来说，精神障碍患者被广泛的卫生保健提供者所关注，包括初级保健医师。然而，与身体疾病相比，精神疾病更难以发现。精神健康的负担由于诸如社会歧视、财务成本和缺乏可接受治疗选择的护理的障碍而加剧。为了解决这些根深蒂固的障碍，可以用可扩展的方法来检测心理健康的症状。如果成功，早期发现可能会影响60%没有接受治疗的精神疾病成年人的治疗。

在实践中，临床医生通过在面对面的临床访谈来测量抑郁症状的严重程度。在这些访谈中，临床医生评估抑郁症状的语言和非语言指标，包括音调单一、发音降低、说话量降低、更少的手势，更多的向下凝视。如果这些症状持续两周，则认为该患者有重度抑郁发作。为评估抑郁症状的严重程度，在临床人群中编制并验证了结构化问卷。最常见的问卷之一是患者健康问卷(PHQ)。这个临床验证的工具包含了多个维度来测量抑郁症状的严重程度。评估症状严重程度是耗时的,早期诊断和改进时间花销是关键。因此，基于人工智能的解决方案可能会解决过程中的障碍。

图1：多模型数据。对每个临床面谈，我们使用（a）三维面部扫描的视频，（b）录音，并将其做可视化处理为log-mel光谱图，（c）病人讲话的文字记录。我们的模型使用这三种模式预测抑郁症状的严重程度。

我们想象一个基于AI的解决方案,抑郁患者可以得到以证据为基础的精神卫生服务,同时避免现有的障碍。这种解决方案可以利用多模态传感器或文本信息，就像现代智能手机上常见的那样，提高症状筛查的及时性和成本效益。会话AIs是另一个潜在的解决方案。我们希望自动反馈(i)将为可能患有抑郁症的个人提供可操作的反馈，(ii)通过包括视觉、听觉和语言信号，改进临床医生的抑郁筛查。

贡献。我们依据[去识别的多模态数据]提出了一种机器学习方法来测量抑郁症症状的严重程度。我们的模型的输入是音频，面部关键点的3D视频，以及一个病人在临床采访中说话的文本转录。我们模型的输出要么是PHQ评分，要么是表明重度抑郁症的分类标签。我们的方法利用因果卷积网络(C-CNN)将句子“总结”成单个嵌入。（以往的嵌入方式都是嵌入一个音节或单词，只能捕捉几百毫秒的时间。李飞飞团队用的是整个句子多模态嵌入，可以实现捕捉更长时间的声音、视觉和语言元素。）这种嵌入用于预测抑郁症状的严重程度。在我们的实验中，我们展示了如何联系单词级别嵌入和先前的工作成果来构建句子级模型。

2.数据

我们使用包含抑郁和非抑郁患者的音频和三维面部扫描的DAIC-WOZ数据集。对于每个患者，我们都有PHQ-8评分。这个语料库是根据半结构化的临床访谈创建的，在这些访谈中，患者与远程控制的数字化身对话。临床医生通过数字化身提出了一系列问题，这些问题专门针对识别抑郁症症状。代理用问题(例如“您多久访问一次您的家乡?”)和会话反馈(例如“Cool.”)来提示每个患者。总共收集了来自142名患者189次临床访谈的50小时数据。根据之前的工作，我们论文的结果来自验证集，更多的细节可以在附录A中找到。

隐私。本研究中使用的数据不包含受保护的健康信息(PHI)。数据集管理员[15]从录音和转录中删除了提到个人姓名、具体日期和位置的内容。3D面部扫描的分辨率较低(68像素)，并没有包含足够的信息来识别个人，但仅包含足够的信息来测量面部运动，如眼睛、嘴唇和头部的运动。虽然数据集已经公开可用，但未来研究人员将我们的方法应用于其他数据集可能会遇到PHI，并应适当地设计其实验。

3.模型

我们的模型包含了两个技术片段(i)一个句子水平的"总结"嵌入和(ii)一个因果卷积网络(c - cnn)。图2显示了概述。

句子级嵌入。几十年来，单词和音素级的嵌入一直是文本和语音编码的首选特性。虽然这些嵌入在某些任务中工作得很好，但是它们的句子级建模能力有限。这是因为词和音素只能捕捉到一个狭窄的时长环境，通常最多只有几百毫秒。在这项工作中，我们提出了一个新颖的多模态的句子式嵌入。这使我们能够捕捉较长时间的听觉、视觉和语言元素。

图2：我们的方法:学习一个多模态的句子嵌入。总的来说，我们的模型是因果CNN。我们模型的输入是:音频、3D面部扫描和文本。多模式句子嵌入被提供给一个抑郁判断分类器和PHQ回归模型(上面没有示出)。

表格1：机器学习方法在抑郁症检测中的比较。评估两项任务:(i)重度抑郁症的二元分类和(ii) PHQ评分回归。形式:A:音频，V:可视，L:语言(文本)，AVL:组合。数字来自之前的工作出版物。破折号表示没有报告度量值。

因果卷积网络。临床访谈期间,病人可能口吃，或者单词之间有经常的停顿。这使得音像记录比非抑郁症患者要长。最近，因果卷积网络(C-CNNs)在长序列上表现优于递归神经网络(RNNs)。在[30]中，作者甚至示出RNNs可以由完全前馈网络近似(例如CNNs）结合扩大的卷积，C-CNNs可以很好地为抑郁症筛选面谈的长序列建模。Bai[5]等人的文章对C-CNN和RNN进行更彻底的对比。

4.实验

我们的实验包括两个部分。首先，我们将我们的方法与现有的测量抑郁症症状严重程度的方法进行比较(表1)。我们预测患者的PHQ评分，并对患者是否患有重度抑郁症进行二分类，通常PHQ评分大于或等于10。其次，我们对模型进行消融研究，以更好地理解多模态和句子级嵌入的效果(表2)。数据格式、神经网络架构和关键超参数见附录A。

4.1对抑郁症严重程度的自动判断

在表1中，我们将我们的方法与之前测量抑郁症状严重程度的工作进行了比较。我们的方法与之前的工作的一个区别是，我们的方法不依赖于面试环境。之前的工作在很大程度上依赖于面试语境，例如所问问题的类型[2,14]，而我们的方法接受一个没有此类元数据的句子。尽管附加上下文通常帮助模型，但它也可能引入技术挑战，例如每个上下文类具有太少的训练实例。另一个不同是我们的方法使用原始的输入模式：音频，视觉，文本。先前的工作使用了工程特性，如最低/最大的音高和单词频率。

表2：消融研究。行1 - 2是手工嵌入。第3-6行是预训练的嵌入。第7-8行表示我们学过的句子级嵌入。形式:A:音频，V:可视，L:语言(文本)，AVL:组合。TPR和TNR分别表示真实的阳性率和阴性率。输入到7-8的是log-mel谱图、3D人脸和Word2Vecs序列。

4.2消融研究

在表2中，第1-6行表示手工或预先培训的句子级嵌入。也就是说，整个输入句子(音频、3D面部扫描和文本)被总结成一个向量。但是，我们建议从输入中学习句子级别的嵌入。这些在第7行和第8行中显示。重要的是，我们的方法是用手工的和预先训练的单词级的嵌入作为输入。然而，在内部，我们的模型学习了句子级嵌入。在之前的句子级嵌入工作之后，第1-6行通过简单的平均值计算。为了学习句子级的嵌入，我们评估:(i)长短时记忆[18]和(ii)因果卷积网络。

5.总结

在使我们的工作适应未来的研究之前，有几点需要考虑。首先，虽然一个人控制着数字化身，但数据是从人对电脑的采访中收集的，而不是从人对人的采访中收集的。与真人访谈者相比，研究表明，患者在与虚拟形象[26]交谈时，对倾诉的恐惧更低，表现出更强烈的情感。此外，通过向聊天机器人透露情感体验，人们还能获得心理上的好处。其次，虽然在治疗设置和临床试验中经常使用，但症状严重程度评分(PHQ)并不等同于抑郁症的正式诊断。我们的工作是扩大现有的临床方法，而不是发布一个正式的诊断。最后，虽然已经存在的嵌入式很容易使用，但最近的研究表明，这些向量可能由于底层的训练数据而包含偏差。减轻偏差超出了我们的工作范围,但提供文化上敏感的诊断和治疗是至关重要的。

未来的工作可以更好地利用纵向和时间信息，比如几周或几个月的面试期间的抑郁得分。理解为什么模型会做出某些预测也很有价值。视觉化，例如3D面部的自信地图和对音频片段的"有用"的分数，可以让你产生新的见解。

总之，我们提出了一种多模制的机器学习方法它结合了语言识别，计算机视觉和自然语言处理的技术。我们希望这项工作能鼓励其他人建立基于人工智能的工具来理解抑郁症之外的心理健康问题。

致谢。这项工作得到了美国国立卫生研究院、国家转化科学促进中心、临床和转化科学奖(KL2TR001083和UL1TR001085)的支持。内容完全是作者的责任，并不一定代表NIH的官方观点。

A 附录

A.1 数据格式

完整的数据细节可以在原始数据集网站[7]上找到。录音用一个16khz的头戴式麦克风。用微软Kinect以每秒30帧的速度录制视频。利用OpenFace[7]提取68个三维面部关键点。

A.2 实现细节

A.2.1 实验1：抑郁症严重程度的衡量

A.2.2 实验 2: 消融学习

————————————————有时间补充完附录——————————————

https://github.com/locuslab/TCN

References

[1] M. Abadi, P. Barham, J. Chen, Z. Chen, A. Davis, J. Dean, M. Devin, S. Ghemawat, G. Irving,

M. Isard, et al. Tensorflow: a system for large-scale machine learning. In OSDI, 2016.

[2] T. Al Hanai, M. Ghassemi, and J. Glass. Detecting depression with audio/text sequence

modeling of interviews. In Interspeech, 2018.

[3] T. Althoff, K. Clark, and J. Leskovec. Large-scale analysis of counseling conversations: An

application of natural language processing to mental health. Transactions of the Association for

Computational Linguistics, 2016.

[4] A. P. Association et al. Diagnostic and statistical manual of mental disorders (dsm-5

R ), 2013.

[5] S. Bai, J. Z. Kolter, and V. Koltun. An empirical evaluation of generic convolutional and

recurrent networks for sequence modeling. arXiv, 2018.

[6] T. Baltrušaitis, P. Robinson, and L.-P. Morency. Openface: an open source facial behavior

analysis toolkit. In WACV, 2016.

[7] T. Baltrušaitis, P. Robinson, and L.-P. Morency. Openface: an open source facial behavior

analysis toolkit. In Winter Conference on Applications of Computer Vision, 2016.

[8] S. Bengio and G. Heigold. Word embeddings for speech recognition. In Interspeech, 2014.

[9] T. Bolukbasi, K.-W. Chang, J. Y. Zou, V. Saligrama, and A. T. Kalai. Man is to computer

programmer as woman is to homemaker? debiasing word embeddings. In NIPS, 2016.

[10] H. Bourlard and N. Morgan. A continuous speech recognition system embedding mlp into hmm.

In NIPS, 1990.

[11] A. Caliskan, J. J. Bryson, and A. Narayanan. Semantics derived automatically from language

corpora contain human-like biases. Science, 2017.

[12] D. Cer, Y. Yang, S.-y. Kong, N. Hua, N. Limtiaco, R. S. John, N. Constant, M. Guajardo?Cespedes, S. Yuan, C. Tar, et al. Universal sentence encoder. arXiv, 2018.

[13] N. Garg, L. Schiebinger, D. Jurafsky, and J. Zou. Word embeddings quantify 100 years of

gender and ethnic stereotypes. Proceedings of the National Academy of Sciences, 2018.

[14] Y. Gong and C. Poellabauer. Topic modeling based multi-modal depression detection. In Annual

Workshop on Audio/Visual Emotion Challenge, 2017.

[15] J. Gratch, R. Artstein, G. M. Lucas, G. Stratou, S. Scherer, A. Nazarian, R. Wood, J. Boberg,

D. DeVault, S. Marsella, et al. The distress analysis interview corpus of human and computer

interviews. In LREC. Citeseer, 2014.

[16] J. A. Hall, J. A. Harrigan, and R. Rosenthal. Nonverbal behavior in clinician—patient interaction.

Applied and Preventive Psychology, 1995.

[17] A. Ho, J. Hancock, and A. S. Miner. Psychological, relational, and emotional effects of

self-disclosure after conversations with a chatbot. Journal of Communication, 2018.

[18] S. Hochreiter and J. Schmidhuber. Long short-term memory. Neural Computation, 1997.

[19] A. E. Kazdin and S. L. Blase. Rebooting psychotherapy research and practice to reduce the

burden of mental illness. Perspectives on psychological science, 2011.

[20] Y. Kim, Y. Jernite, D. Sontag, and A. M. Rush. Character-aware neural language models. In

AAAI, 2016.

[21] K. Kroenke and R. L. Spitzer. The phq-9: a new depression diagnostic and severity measure.

Psychiatric Annals, 2002.

[22] K. Kroenke, R. L. Spitzer, and J. B. Williams. The phq-9: validity of a brief depression severity

measure. Journal of general internal medicine, 2001.

[23] K. Kroenke, T. W. Strine, R. L. Spitzer, J. B. Williams, J. T. Berry, and A. H. Mokdad. The phq-8

as a measure of current depression in the general population. Journal of affective disorders,

2009.

[24] W. Labov and M. Baranowski. 50 msec. Language variation and change, 2006.

[25] Q. Le and T. Mikolov. Distributed representations of sentences and documents. In ICML, 2014.

[26] G. M. Lucas, J. Gratch, A. King, and L.-P. Morency. It’s only a computer: Virtual humans

increase willingness to disclose. Computers in Human Behavior, 2014.

[27] X. Ma, H. Yang, Q. Chen, D. Huang, and Y. Wang. Depaudionet: An efficient deep model

for audio based depression classification. In International Workshop on Audio/Visual Emotion

Challenge, 2016.

[28] L. Manea, S. Gilbody, and D. McMillan. Optimal cut-off score for diagnosing depression with

the patient health questionnaire (phq-9): a meta-analysis. CMAJ, 2012.

[29] T. Mikolov, I. Sutskever, K. Chen, G. S. Corrado, and J. Dean. Distributed representations of

words and phrases and their compositionality. In NIPS, 2013.

[30] J. Miller and M. Hardt. When recurrent models don’t need to be recurrent. arXiv, 2018.

[31] A. S. Miner, A. Milstein, and J. T. Hancock. Talking to machines about personal mental health

problems. JAMA, 2017.

[32] A. S. Miner, A. Milstein, S. Schueller, R. Hegde, C. Mangurian, and E. Linos. Smartphone-based

conversational agents and responses to questions about mental health, interpersonal violence,

and physical health. JAMA Internal Medicine, 2016.

[33] National Alliance on Mental Illness. Mental health facts infographics.

[34] A. Oord, S. Dieleman, H. Zen, K. Simonyan, O. Vinyals, A. Graves, N. Kalchbrenner, A. Senior,

and K. Kavukcuoglu. Wavenet: A generative model for raw audio. arXiv, 2016.

[35] A. Paszke, S. Gross, S. Chintala, G. Chanan, E. Yang, Z. DeVito, Z. Lin, A. Desmaison,

L. Antiga, and A. Lerer. Automatic differentiation in pytorch, 2017.

[36] J. Pennington, R. Socher, and C. Manning. Glove: Global vectors for word representation. In

EMNLP, 2014.

[37] J. E. Perez and R. E. Riggio. Nonverbal social skills and psychopathology. Nonverbal Behavior

in Clinical Settings, 2003.

[38] M. E. Peters, M. Neumann, M. Iyyer, M. Gardner, C. Clark, K. Lee, and L. Zettlemoyer. Deep

contextualized word representations. NAACL, 2018.

[39] R. Reh˚u ˇ ˇrek and P. Sojka. Software Framework for Topic Modelling with Large Corpora. In

Proceedings of the LREC 2010 Workshop on New Challenges for NLP Frameworks, Valletta,

Malta, 2010. ELRA. http://is.muni.cz/publication/884893/en.

[40] J. T. M. Schelde. Major depression: Behavioral markers of depression and recovery. The

Journal of Nervous and Mental Disease, 1998.

[41] C. Sobin and H. A. Sackeim. Psychomotor symptoms of depression. American Journal of

Psychiatry, 1997.

[42] J. Sotelo, S. Mehri, K. Kumar, J. F. Santos, K. Kastner, A. Courville, and Y. Bengio. Char2wav:

End-to-end speech synthesis. ICLR, 2017.

[43] J. Turian, L. Ratinov, and Y. Bengio. Word representations: a simple and general method for

semi-supervised learning. In ACL, 2010.

[44] M. Valstar, J. Gratch, B. Schuller, F. Ringeval, D. Lalanne, M. Torres Torres, S. Scherer,

G. Stratou, R. Cowie, and M. Pantic. Avec 2016: Depression, mood, and emotion recognition

workshop and challenge. In International Workshop on Audio/Visual Emotion Challenge, 2016.

[45] A. Waibel, T. Hanazawa, G. Hinton, K. Shikano, and K. J. Lang. Phoneme recognition using

time-delay neural networks. Readings in speech recognition, 1990.

[46] P. Waxer. Nonverbal cues for depression. Journal of Abnormal Psychology, 1974.

[47] J. R. Williamson, E. Godoy, M. Cha, A. Schwarzentruber, P. Khorrami, Y. Gwon, H.-T. Kung,

C. Dagli, and T. F. Quatieri. Detecting depression using vocal, facial and semantic communication cues. In International Workshop on Audio/Visual Emotion Challenge, 2016.

[48] World Health Organization. Depression key facts, 2018.