[yzhpdh多读paper]Discovering Shifts to Suicidal Ideationfrom Mental Health Content in Social Media

这次介绍一下第一作者：来自佐治亚理工学院人机交互学院的副教授Munmun De Choudhury

Munmun 通过分析 Reddit 网站半匿名互助社区的数据，研究哪些人群会经历心理疾病到自杀意念的转变，弥补了自杀行为背后动因的研究。他们开发语言和交互方法，以及基于倾向得分匹配的统计方法，用来在预测和识别未来可能有自杀意念的个体。

abstrcat:

精神病史是自杀风险和意念背后的一个主要因素。然而，由于缺乏关于自杀意念的信息，而精神疾病的污名又加剧了这一问题，因此对描述和预测这种风险的研究工作受到限制。本文通过发展一种统计方法来推断哪些个体可能经历从心理健康话语到自杀意念的转变，填补了文献中的空白。我们利用Reddit上的半匿名支持社区作为不引人注目的数据源来推断
这些变化的可能性。为此，我们开发了语言和交互措施，以及基于倾向评分匹配的统计方法。我们的方法使我们能够得出自杀意念转变的明显标志。这些标记可以在预测框架中建模，以识别未来可能参与自杀意念的个人。我们讨论这项研究的社会和伦理意义。

keywords:

social media; suicidal ideation; mental health; Reddit

introduction:

公共卫生领域的一个核心挑战是如何识别有自杀风险的个人。自杀是美国十大主要死亡原因之一，占成人死亡总数的1.4%。然而，自杀预防仍然很困难。自杀行为是多因素事件，不同类别的自杀行为有不同的发病机制、表现形式，往往是潜在的精神疾病。向自杀患者提供适当的临床和精神治疗在很大程度上依赖于识别那些有风险的人。

自杀意念被定义为与结束生命相关的倾向和认知，从认为生命不值得活下去，到自杀的具体计划，再到对自我毁灭的强烈妄想。因此，巨大的科学和实用价值在于能够理解思维的强度、普遍性和特征，因为这可能预测未来的自杀风险或自杀未遂。精神疾病是自杀的一个主要风险因素——已知80%的自杀未遂者或死于自杀的人有某种形式的精神疾病。然而，大多数受到精神疾病挑战的人不会有自杀想法。因此，认知和临床心理学的先前文献强调了对精神疾病表现中特定“自杀”因素的理解。现有的发现和识别自杀因素的努力主要是通过检查个人的心理、精神和人口统计学变量。然而，这些评估面临着两个重大的方法学挑战：

（1）在许多研究中，数据是在自杀未遂或自杀完成后收集的，提供“事后判断者”而不是自杀预测者是的行为而不是自杀行为的预测因子，因此容易包含事后偏见；

（2）自杀完成率相对较低，且在总体人群中与自杀报告相关的耻辱感使研究具有挑战性，且成本高昂，此外还需要很长的随访时间。因此，对精神疾病易感人群中与未来自杀想法发展相关的因素的研究有限。

本文提出社交媒体是一种描述和预测从讨论心理健康内容到表达自杀想法转变的方式。我们关注一个流行的以讨论为导向的社交媒体网站Reddit，特别是几个心理健康和自杀支持社区。由于这些社区的半匿名性质，个人共享的内容使我们能够获得关于心理健康问题和自杀想法的高质量、自我报告的数据。本文调查的中心研究问题涉及：我们能否预测个人是否参与心理健康讨论
将来会讨论自杀意念吗？为实现这一目标，我们作出以下两项贡献：
（1）我们描述了Reddit心理健康社区的参与者，他们继续在该平台的自杀支持论坛上发表文章，使用了一些基于语言和社会互动的测量方法，这些方法已知可以描述个人的行为和心理状态【65】。
（2）我们提出了倾向评分匹配的新应用，以探索未来用户如何分享自杀意念内容，同时控制心理健康语言结构的历史使用。从我们这样的观察性研究中解读相关统计数据的挑战是众所周知的。通过为因果推理开发的统计分析方法，我们从观察到的混淆因素中分离出语言结构的影响，并能够对未来自杀意念的相关因素得出有价值的见解。

findings:

从在Reddit上发布心理健康问题的人群中，我们研究了未来继续讨论自杀意念的人与未讨论自杀意念的人之间的差异。我们发现这两个群体在语言结构、人际意识、社会互动和内容方面的变化，
其中一些与自杀文献中的发现一致。具体而言，我们观察到，向自杀意念的转变与心理状态有关，如自我注意力集中程度高，语言连贯性差，与社区的语言协调性差，社交参与减少，表现出绝望、焦虑、冲动和孤独。

最后，我们检验了我们是否能够自动预测讨论心理健康问题的个人在这些特征行为中的倾向。为此，我们开发了一种精度较高的逻辑回归分类器。我们将研究结果置于自杀的认知-心理整合模型中，以得出定性解释，并讨论我们的工作对HCI研究、设计和伦理以及制定及时干预措施的影响。

许多心理健康障碍，如抑郁症，往往与自杀密切相关。据报道，根据《精神障碍诊断和统计手册》（DSM）的规定，六分之一的抑郁症患者死于自杀。心理学文献表明，需要确定与自杀想法可能性增加相关的精神疾病的特定属性。诺克和卡兹丁发现，在预测自杀相关结果方面，与抑郁症相关的认知因素比抑郁症的情感维度更重要。情感障碍、自杀未遂和边缘人格障碍之间存在着另一种强烈的相关性。Kashden等人将非自杀性和自杀性精神病住院患者与社区高中生进行了比较，发现自杀性住院患者的特点是冲动，绝望和沮丧。此外，在Lewinsohn等人的一项研究中，与年轻人自杀企图联系最密切的诊断是抑郁症与药物使用、破坏性行为或焦虑的结合

大体上，研究人员已经确定了导致患有某种形式精神疾病的个体产生自杀想法的三个阶段：a）思考，b）矛盾心理，以及c）决策。这些阶段共同定义了自杀的认知-心理整合模型，其中思考阶段可能包括绝望、自我仇恨、痛苦和焦虑的想法；矛盾心理与自尊心降低、监管和社会凝聚力降低有关；而决策涉及攻击性和明确的自杀计划。在这些阶段中的任何一个阶段，个人都可以在与心理健康相关的社交媒体论坛上寻求帮助、建议和支持，因此这些论坛提供了一种非反应性和非侵入性的方式来衡量易患不同精神疾病的个人的自杀意念风险因素。

Mental Health and Suicide Studies on Social Media:

近年来，社交媒体被公认为是一个强大的“透镜”，可以洞察个人和人群的心理状态、健康和福祉。共享内容和社会互动模式的语言属性已被用来理解和推断重度抑郁症的风险，产后抑郁，成瘾，以及其他心理健康问题。由于社交媒体被记录在当下并被保存下来，它最大限度地减少了回顾性分析有时引发的事后偏见。社交媒体数据的丰富存储库也有助于发现、跟踪和预测纵向风险属性。除了观察和洞察之外，社交媒体还可以提供机制，通过这些机制，及时向弱势社区提供支持。有一些研究调查了社交媒体中的自杀行为。参考文献[71]中的作者关注韩国博客，以预测全国自杀率数据（另请参见参考文献[36]）。在研究自杀意念的语言特征时，[68]中的作者对推特用户进行了抽样调查，以检验与自杀相关的推特与自杀行为之间的关联。之前的大部分工作是如何关注宏观层面的趋势（例如，国家自杀率）或研究自杀相关内容与社交网站上共享的一般内容之间的差异的
媒体据我们所知，之前还没有根据社交媒体上的心理健康讨论预测个人自杀意念可能性的工作。考虑到精神疾病史与未来自杀风险之间的重要时间联系，识别和区分精神健康问题的社交媒体标记与未来自杀意念的关系非常重要。此外，精神疾病与脆弱性相关，因此可能表明未来自杀想法增加的标记可能有助于部署适当的干预措施。

我们的论文以这一新兴的研究机构为基础，通过分析Reddit中心理健康社区共享的数据，来探讨未来打算自杀的个人的属性。此外，我们还注意到，在计算机领域研究自杀相关问题的一个主要障碍是缺乏关于实际有自杀想法的个人的适当的基本事实数据。与这种敏感披露相关的社会耻辱可能会进一步阻止个人在社交媒体上自我报告自己的状况。在我们的工作中，我们通过研究Reddit上的半匿名社区来部分应对这一挑战，在那里，弱势群体自愿参与寻求帮助和支持。最后，虽然现有的工作通常依赖于词典匹配或短语识别技术用于识别相关的兴趣属性，如自杀意图或精神疾病风险，在本文中，我们通过使用基于倾向评分匹配的因果推理技术扩展现有方法，推断出更可靠的见解。

data collection

我们从多个心理健康子网站（以下简称MHs,focus on 14 MHs，除自杀意念( suicidal ideation)外基本有涉及到）和一个自杀支持子网站“r/SequestiveWatch”（以下简称SW，focus on 帮助那些考虑自杀的人主题的）获得了帖子和评论数据.

我们使用Reddit的官方API从软件和MHs子Reddit收集帖子、评论和相关元数据。我们在本文中的分析基于2014年2月11日至11月11日期间MHs上共享的所有内容（63485篇帖子、209766条评论和35038名用户）。我们参考了同一时间段内从软件获得的数据（16348个帖子，9224个用户），以确定MHs中随着时间推移继续在软件上发帖的个人。

（这张图代表MH和SW内容的证实)

Constructing User Classes

我们将数据分为两个连续时间段（t1从2014年2月11日到2014年8月11日，t2从2014年8月12日到2014年11月11日）。使用这两个时间段，我们创建了两组用户。请注意，由于Reddit没有强制执行每个人只有一个帐户的实名规则，因此本文中对“用户”的引用等同于“用户帐户”。首先，我们确定了那些在t1期间在MHs上发帖，但在t1或t2期间未在SW上发帖的用户（即，讨论心理健康主题但未在SW上发帖的用户；以下简称“MH”）。第二类包括那些在t1期间发布在MHs上，在t2期间发布在SW上的用户（即讨论心理健康主题的用户，原本与自杀无关，但最终过渡到谈论自杀；以下简称“MH→ SW”）。图1显示了我们的用户类构造的示意性描述。请注意，通过关注至少在软件或MHs上发表一篇帖子的用户，而不是只发表评论，我们可以关注那些经常访问社区寻求支持的用户，而忽略那些主要通过评论提供帮助的用户。此次分解产生440 MH→ SW用户；这是在MHs中发表过贴子但从未在SW中发表帖子的28831个账户总数的1.52%

在这两个时段中的任何一个时段，在SW上。为了构建一个在任何时期都没有在SW上发帖的同等规模的MH队列，我们从28831个用户中随机抽取了440个用户。请注意，虽然MH用户在我们的分析时间框架内没有在软件上发帖，但他们的发帖可能超出了我们的分析范围。

为支持我们的目标，即描述MH→ SW与MH用户之间的不同，我们通过Reddit的API获得了880名用户撰写的帖子和评论的时间线（API仅为用户提供最后1000条公开帖子和评论）。对于每个帖子，我们获得了它们的相关元数据（例如，投票差异或分数）和评论。我们的最终数据集包含来自440 MH的4731篇帖子和46949条评论→ 软件用户，以及来自440名MH用户的评论以及8318个帖子和54086。

我们注意到一个重要的担忧：个人可能会在MHs上发表自杀想法，从不参与SW，从而通过自杀想法的讨论“破坏”MHs数据。我们通过讨论反对这种可能性。
（1） SW是一个著名的自杀支持论坛，该社区在预防自杀和充当脆弱思想的接种者方面的作用得到了广泛认可。

（2）大多数MH（例如抑郁症，在他们的指导方针中明确规定自杀想法应该转到SW：“通常最好在/r/SequestiveWatch中发布任何特别涉及自杀想法或意图的事情，而不是在这里。如果你担心其他可能有自杀风险的人，请查看他们的谈话技巧和风险评估指南。”

（3）最后，与SW主持人的讨论证实已采取步骤将所有自杀意念相关内容移至SW。考虑到这些因素，我们预计SW以外的Subredits上很少出现自杀意念帖子。

method:

Linguistic, Interpersonal, & Interaction Measures

我们的第一套方法包括制定三套衡量标准：语言结构、人际意识和互动。选择这些措施的动机是研究个人行为表达与他们对危机的反应之间的关系的文献，包括精神疾病引起的脆弱性。每个度量类别都由以下变量组成：
Linguistic Structure;对于这个度量，我们计算名词、动词和副词在帖子和评论中的分数；automated readability index，一种衡量文本可理解性的指标；以及 linguistic accommodation，即谈话中的个人根据他人的语言风格调整语言风格的过程。这些变量共同表征了用户类共享的文本，而非其信息内容。根据心理语言学的文献，这种结构与个人的潜在的心理和认知状态，可以揭示他们社会协调的线索。

Interpersonal Awareness;人际交往意识

这一测量类别包括：第一人称单数（表示职业前的自我）、第一人称复数（表示集体注意）、第二人称和第三人称代词（表示社交互动和对环境中的人或物的引用）的比例。文献表明代词的使用可以量化个人的自我意识和社会意识，可以揭示心理健康，包括社交媒体中表现出来的心理健康。
Interactoin:

与此度量类别相对应的变量包括：撰写的帖子和评论数量、帖子长度、撰写的评论长度、共享帖子上收到的评论数量、收到的评论长度、平均投票差异（撰写帖子上的赞成票和反对票之差）和响应速度（分钟），由第一条评论与相应帖子共享之间的时间给出。

Prediction Framework

我们提出了一个预测问题，即确定未来哪个MH用户将继续发布在软件上，作为一个有监督的学习任务。我们首先在两个用户类的帖子和评论中构建所有单图和双图（称为标记）的概率分布。然后，我们构造了几个基于正则化logistic回归的二元分类器，其中，响应变量是用户是否属于MH→ SW或至MH。

基于我们的三个度量类别和从上面获得的标记，我们考虑分类器的不同预测变量集。我们考虑了五个模型：（1）语言结构；（2）人际关系
知道（3）相互作用，其中每个预测变量对应于各自的变量；（4）由单字符和双字符标记组成的内容，以及上面给出的它们的相对频率；和（5）完全包含来自所有度量类别的所有变量和来自内容模型的标记。

Propensity Score Matching

在我们的实现中，对于给定的目标令牌，我们使用平均感知器学习算法（ 其核心思想就是以错误为驱动，逐步修正错误最后收敛的过程。）估计倾向评分，并将用户分层为10层。基于用户发布历史的二进制向量表示进行估计，H = h1，…， hn，其中，如果用户在发布目标令牌之前发布令牌I, hi为1，否则为0。对于每一个[10]，我们使用修剪来限制我们对具有足够共同支撑的层级的比较，并报告这些层级的总体平均处理效果，以及具有统计学意义的z-score和χ2检验。我们对MH(11278个令牌)中超过10个人使用的所有目标ungram和biggram(令牌)执行此分析。

表2显示了MH→SW和MH用户在基于测量类别的语言结构、人际意识和互动方面的差异。

z-score(是一个数与平均数的差再除以标准差的过程,代表"一个给定分数距离平均数多少个标准差")

观察1：MH→ Sw用户语言结构和适应能力较差，包括可读性较低。

MH→ SH用户的语言结构和适应能力较差，包括可读性较低。根据表2，MH→ SW使用更多的动词（z=2.1）和副词（z=4.8）（表示围绕动作的话语），但较少使用实体，例如名词（z=6.5）。总之，这表明语言结构欠佳，表明人们对物体和事物的兴趣降低。人们还知道，表达更多关于行为的信息与敏感信息披露相关。此外，我们观察到MH->SH用户共享帖子的可读性指数较低（z=5.5）；这种语言框架限制与认知功能和连贯性下降有关。最后，我们观察到与MH用户相比，MH→SH对MH上的一般内容表现出较低的语言适应感（z=5.4）。这可能表明MH→ Sw用户的减少与社区的关系，以及适应其规范和惯例的能力或意愿下降。

观察2:MH→Sw用户表现出更高的自我关注和更大的脱离社会领域。

MH→SW用户也使用更多的第一人称代词(z = = 10.6)。这通常表明，MH→SW用户传达更多的个人故事，可能自我关注程度较高。对于更多的Reddit用户来说,第二人称代词使用较少(z = 8)、第一人称复数代词(z = 4.5)和第三人称代词(z = 6.3)在MH→SW用户发帖中可能暗示相对于更多的Reddit用户，那些不太喜欢社交的用户可能较少互动。

观察3:MH→SW用户显示降低了的社交参与度和获得支持和增加自我披露的机会。

最后，MH→ SW用户的帖子往往较长（z=15.4），但较少（z=2.5）。此前，研究表明，在共享内容中更加冗长是自我披露和认知复杂性增加的迹象；然而，之前也有研究表明，社区环境中的活动较少表明社会孤立。MH→ SW用户在其帖子上收到的评论较少（z=5.4），投票得分差异较小（z=7.1），这可能与MH用户的帖子相比，其参与度较低，获得社区社会支持的机会较低的一个指标.

Content Differences

我们的下一个分析集中在MH→SW和MH用户分享的内容(帖子和评论)。首先，我们建立了基于倾向评分匹配方法的两个队列之间的差异，然后提出了一个对我们的定量观察进行定性解释。

Propensity Score Analysis

我们发现，控制MH内容中不同标记的历史使用情况，使用诸如“抑郁”（z=8.04）、“无用”（z=7.05）、“自杀”（z=6.66）、“焦虑”（z=6.56）、“没有朋友”（z=6）、“一无所获（z=5.98）、“杀死”（z=5.9）和“哭泣”（z=5.5）等标记会显著增加用户将来在SW中发帖的可能性。
对于“抑郁”来说，这一增长是30%，“自杀”是32%，“没有朋友”是51%，“哭泣”是51%，而“杀人”是53%。除了表3中的标记外，我们还研究了代词使用（“I”、“you”、“he”、“she”、“we”、“they”）和相应的所有格代词的影响，发现“I”和“my”的使用具有统计显著的大影响（I：效果=+37%，z=2.8；my：效果=+28%，z=4.11）；第三人称女性代词的使用有一些统计上显著的影响（她：影响=+10%；z=3.01；她：影响=+8%，z=2.09）；所有其他代词的影响<7%，具有较低或无统计意义）。这些标记的广泛使用表明了消极态度、情绪困扰和自我专注的经历[7]；与我们上述观察结果一致的观察结果与人际意识的测量有关。

但也有结果表明某些词代表未来在SW发表帖子的降低了50-57%，比如：

“counseling” (z ==4.09), “relationship that”(z ==3.89), “intimate” (z ==3.73), “hope it” (z ==4.28),
“i agree” (z ==4.54) and “and enjoy” (z ==4.44)

这表明，这些词的使用者倾向于保持积极的人生观、保持希望（希望康复）、和蔼可亲，并注重评估社会，包括治疗或治疗的讨论。

请注意，使用标记的效果可能不一致。某些人可能看不到使用这些词的效果，而其他人则会看到很大的效果。图2探讨了抑郁、自杀、焦虑、自杀和不能的表征：至少有100人使用该表征的最重要目标词。在每个图中，我们展示了对于使用和不使用目标标记的人，未来在SW中发布的可能性如何在不同的层级中变化。例如，在“抑郁”的情况下，我们发现，对于估计使用“抑郁”这个词的倾向性很低的人来说，使用这个词对他们在软件上发布的可能性有很大影响。而那些估计使用“抑郁”这个词的倾向性最高的人看不到使用这个词的额外变化。我们看到了“自杀”的类似差异，而我们使用“不能”这个词在不同阶层的影响几乎是恒定的。

我们在所有处理词中搜索，以找到那些在不同层次上增加和减少在SW发布的可能性的词，我们找到了161个这样的词(62单词组与99双词组）,其中至少有一个层具有正面影响影响，另一个层具有负面影响,这些结果突出了上下文在解释MH中使用的许多词的可能结果的重要性。

虽然它们在层级中的作用是显著的，因为它们在不同层级中的作用是相互矛盾的，但这些标记不一定具有较大或显著的平均处理作用。表5显示了这些处理标记的选择，以及对那些具有最显著积极和消极影响的层级的影响和前5个区别标记。区分标记按层级内出现频率与整个集合中出现频率的比率排列。例如，处理标记“压力”增加了第9层SW发帖子的可能性44%，但减少了第3层在SW发帖子的可能性为33%。前者以“我做”和“我恨”的标记来区分，而后者以“那里和”和“处理”来区分。这些结果强调了语境在解释MH帖子中使用的许多单词的可能结果时的重要性。

我们也讨论了不同的增加在SW发帖可能性的处理词使用的上下文，在表6中，我们展示了20个最对4个treatment tokens的使用最有预测性的tokens.我们发现预测性token在MH->SW与MH类之间非常不同,表明未来可能会在SW上发帖的人与未来不会在SW上发帖的人，其treatment tokens使用上下文十分不同。

Qualitative Interpretation

是否存在有意义的主题来描述不同的treatment tokens(表3)，这些tokens与未来使用SW发帖的可能性有关?具体地说，这些区别性的符号以什么方式与文献中研究的自杀意念的上已知的心理学有关?

Spectral Clustering of Treatment Tokens(处理标记的光谱聚类

为了解决这些问题，我们以无监督的方式从标记之间的共现关系中提取主题集群。也就是说，对于每个唯一的令牌对，我们计算它们在数据集中880个用户的帖子或评论中一起出现的归一化频率；我们考虑前100000个最常见的共现tokens对。具体而言，我们使用归一化谱聚类算法。该算法通过将成对共生关系的原始空间映射到特征空间来完成分割。我们发现通过这种方法获得的tokens集群，基于Kruskal-Wallis单因素方差分析检验彼此之间存在显著差异

Extracting Themes from Clusters.

接下来，为了检验光谱聚类得到的聚类集合中最主要的主题，我们分析了光谱聚类给出的拉普拉斯矩阵（Laplacian matrix）的前六个特征值（eigenvalues）对应的聚类。

两位熟悉社交媒体上心理健康内容的研究人员检查了这些集群中的一组标记，以进行验证。他们使用半开放编码方法开发了一个代码本，并提取了集群的描述性主题（Cohen κ=0.74）。在编写代码本的过程中，两位注释者参考了之前关于自杀的认知-心理整合模型的文献

现在我们对上下文进行定性分析，在这个上下文中，数据集中的帖子中使用了六个集群中每个集群中的不同标记。我们用自杀的认知心理整合模型来构建我们的讨论

Hopelessness: 在第一个主题中的tokens有(“have nothing”, “no real”, “kill myself”, “abandoned”,“die”)被发现与个体的绝望信号有关。我们注意到，自杀的认知-心理整合模型[25]已将绝望确定为精神疾病和自杀意念之间的一个重要中介变量，有充分证据表明，绝望在当前自杀意图和未来自杀行为预测中都起着决定性作用

anxiety：

第二个主题群的特征值最高，与焦虑症状相关(“anxiety”, “panic”,“to cry”)，自杀的认知心理学模型也非常重视个体的焦虑-绝望情绪作为未来自杀的预测因子。

impulsiveness:

我们观察到冲动声调在第三个主题群的标记中的表现。认知自杀模型还表明，由认知缺陷（例如，认知僵硬、二分法思维和无法产生或采取替代解决方案）引起的冲动是自杀意念的显著标志

Self-Esteem:

认知自杀模型进一步发现，在容易产生自杀意念的人群中，降低自尊和自我效能感是重要的因素。社会孤立感和孤独感被视为认知脆弱性的一部分，一直被证明与自杀意念、企图和完成有关[8]。我们发现，第四类标记出现在带有自尊心下降基调的帖子中，包括内疚、自我厌恶和后悔

Loneliness:

自杀模型还将孤独视为一种风险，这种风险会加剧自杀念头的频率。我们的第五个主题群包括表示社会孤立和脱离社会领域的标记，包括朋友和家庭关系：

Severe or Stigmatized Illness:

根据认知自杀模型，污名化和/或晚期疾病（如癌症）的经历与丧亲、边缘化和缺乏社会支持有关。“抑郁”、“紊乱”、“精神病”等标记表示这种痛苦的表现：

分类结果

在最后一个小节中，我们研究了语言结构、人际意识、互动和内容变量在多大程度上能够预测和分类MH→SW用户和MH用户。对于这个监督学习任务，我们留出20%的用户集(总共880个用户)作为我们的验证集。我们对其余80%的用户(k = 10)进行k倍交叉验证，以调优第4节中讨论的所有5个正则化逻辑回归模型的参数。为了评价正则化逻辑回归模型的拟合优度，我们使用偏差。由于交叉验证引入的随机性，我们运行了我们的模型k = 10次，这里我们报告的结果对应于我们在任何一次运行中获得的最低偏差。

Clinical and Societal Relevance临床和社会相关性

通过这篇论文，我们提供了一种方法来帮助识别那些参与心理健康讨论的人，他们更有可能转变为自杀意念讨论。我们的倾向评分匹配方法的一个重要贡献，尤其是在任何与自杀意念相关的公开帖子之前识别语言结构的能力，这表明了涉及因果推理的进一步研究的成熟领域。因此，我们相信我们的方法可以为心理健康内容的纵向分析铺平道路。这有助于制定早期诊断自杀倾向的规定，包括预防自杀的治疗安排。此外，我们的工作表明，语言结构应该进一步研究其预测风险的能力，而不是现有的事后方法识别自杀意念的行为和认知标记。从广义上讲，我们的工作为利用社交媒体等不引人注目的数据源来理解和推断受心理健康问题挑战的人群中自杀意念的宏观比例提供了一些有希望的机会。然而，我们的方法并不能作为一个独立的机制来评估那些参与心理健康讨论的人的自杀意念风险。我们警告不要使用社交媒体预测变量和语言标记我们的方法提取为一揽子过滤方法
判断可能的自杀意念。这些决定不是这只是一个有争议的领域，但也可能对一个人的健康、幸福和自尊产生重大影响。我们的方法和发现可以最好地作为一种补充筛查工具，并与临床、验证和常规形式的幸福评估结合使用。

HCI研究和设计的意义

支持和干预的规定

社交媒体平台虽然没有任何法律义务，但最近已经开始向那些被视为弱势群体的人提供帮助。例如，最近，Facebook与国家自杀预防生命线合作，增加了一项新的自杀预防功能，通过该功能，Facebook联系人认为其帖子令人不快的个人可以获得与支持相关的干预。大多数这些努力的一个重要考虑因素是，它们要么依赖于人们报告有关帖子或用户的信息，要么围绕特定的关键词/短语应用基本的一揽子政策。这两种方法都容易遗漏易受攻击的帖子（未报告的帖子），或者错误判断轻率的引用与危险行为有关。我们的方法和发现可用于扩大这些努力，例如，设计（半）自动化个性化和适应性干预，以遏制自杀倾向，同时改善获得适当同伴和专家社会和情感支持的机会。我们概述了以下两个设计方向：

（1）适度努力。正如我们的方法所揭示的那样，其内容包含与自杀意念相关的短语和其他语言结构的个人，可能会在主持人和其他临床专家的界面上标记，以寻求帮助和支持。社区主持人也可能被要求在他们的界面中维护一份“风险列表”，其中包括我们的方法预测的未来会出现自杀想法迹象的个人。这将有助于改进准备工作，为需要帮助的人带来及时和适当的帮助。此外，在得知社区中的个人将来可能会有自杀想法后，主持人和专家可能会做出规定，将他们与适当的心理健康资源联系起来（例如热线或社区，如7 Cupsofetea），鼓励同龄人或信任的朋友和家人，或发送私人信息，提供有关寻求帮助或治疗的相关信息。

（2）自我反省。还可以设计干预措施，促进在这些寻求心理健康支持的社交媒体平台上自我反思自己的活动和行为。我们的方法可用于行为、认知和情感的自动（自我）评估，包括作为与心理健康问题作斗争的个人的早期预警机制。在我们方法的基础上，反思性干预也可以用来揭示与自杀意念特定标记相关的纵向趋势；例如，要识别异常模式的时间段，已知这些异常模式在其他方面很难被个体跟踪。记录这些纵向趋势也可以作为日记式的数据源，帮助护理人员或其他受过培训的专业人员和临床医生更深入地了解个人未来危险行为的风险。

道德的考虑

向弱势群体提供支持的尝试，如本文所述，需要仔细考虑风险和道德挑战。最重要的是，在设计上述建议的干预措施时，需要彻底调查社交媒体用户的可接受性。一般来说，任何基于自动化算法的干预，比如我们在这里提出的，都需要尊重个人和自愿提供帮助的人的隐私和支持。此外，除了上面列出的设计建议之外，对预测未来表达自杀想法的个人进行干预和提供支持（何时、何地、如何）的实际模式也是一个研究和伦理问题。例如，干预设计的一个要点是如何导致积极的行为改变，而不是相反的有益结果。一个无益的结果可能包括对社区参与的冷淡效应，或自杀意念转移到边缘或边缘平台，在这些平台上，这些人群可能很难提供帮助。最后，还需要谨慎行事，以确保在对脆弱社区的行为进行干预和分析，以提供帮助和建议的同时，像Reddit这样的生态系统继续被视为寻求支持的安全场所，以及治疗性的自我表露。

Result

在这篇论文中，我们提出了一种统计方法，以确定在社交媒体上进行心理健康讨论的个人在未来是否有可能转变为自杀意念。我们利用Reddit上许多心理健康和自杀支持社区的大型数据集来解决我们的研究问题。我们发现了许多不同的标记表征了这些变化：
自我注意力集中度提高，语言连贯性差，与社区协调性差，社交参与减少，在共享内容中表现出绝望、焦虑、冲动和孤独。通过逻辑回归框架，我们还能够区分可能经历这些变化的个体和其他不经历这些变化的个体。我们的研究结果表明，开发面向弱势群体的社会支持和干预的新技术具有潜力。