基于自杀领域个性化知识图谱的社交媒体自杀意念检测

©PaperWeekly 原创 · 作者｜曹檑

学校｜清华大学博士生

研究方向｜自然语言处理

论文标题：

Building and Using Personal Knowledge Graph to Improve Suicidal Ideation Detection on Social Media

论文来源：

IEEE Transaction on Multimedia

论文链接：

https://arxiv.org/abs/2012.09123

数据集链接：

https://github.com/bryant03/Sina-Weibo-Dataset

本文将从以下方面对这篇工作进行介绍：

摘要
介绍
数据集
面向自杀领域的个性化知识图谱
基于所构建的个性化的自杀领域的知识图谱，检测微博用户的自杀意念
实验结果
结论

摘要

世界上有许多人有自杀意向。但是为什么一个人可能会有自杀念头，背后有许多原因。作为用于自我表达，情感释放和人际交往的最受欢迎的平台，人们可能会在社交媒体上表现出许多自杀意念的征兆。然而，数据和知识方面的挑战仍然是这个问题的障碍，制约了基于社交媒体的自杀检测性能。数据的隐含性和稀疏性使得很难根据他们的微博发现其的内在真实意图。

受心理学研究的启发，我们使用深层神经网络构建了一个面向自杀的个性化知识图谱，用于在社交媒体上检测自杀意念。我们进一步设计了一个两层注意机制，以推理和揭示出人们怀有自杀意念的关键因素。在微博和 Reddit 上的实验研究表明：

1）利用构建的个性化知识图谱，基于社交媒体的自杀意念检测可以达到 93% 以上的准确率；和 2）在影响人们产生自杀意念的六类因素中，博文内容、性格和个人经历是排名前三类的关键因素。在这些类别下，用户的博文文字内容、心理压力级别、心理压力持续时间、博文配图、反刍思想非常有助于用户自杀意念的检测。

介绍

自杀意念是一个在世界上所有国家中都在显著的问题。根据不同的报告和统计数据，全世界自杀意念的终生患病率约为 9％，而这一数字对于 18 至 25 岁年龄段的人来说要高得多。为什么一个人可能会有自杀念头，背后有很多原因，而且长期以来，人格特质与自杀倾向的关系也得到了调查。

然而，由于繁杂的受调查群体以及概念和方法论的多样性，仍然难以确定不同诱因的独立贡献程度。自杀意念的直接危险因素仍然未知，尤其是在发展中国家。在任何情况下，对于那些有自杀念头的人，越早发现它们，预防自杀的机会就越大。

在之前的相关工作中，心理学家开发了许多自杀风险度量（例如自杀概率量表，成人自杀意念调查表，自杀影响-行为认知量表等）来评估个人的自杀意念。由于这种方法需要人们填写主观问卷或参加专业访谈，因此仅适用于一小部分人。对于那些正在遭受苦难却倾向于隐藏最深的想法并拒绝寻求他人帮助的人，这种方法行不通。

随着社交媒体（例如 Twitter，在线论坛和微博）成为当今日常生活不可或缺的一部分，越来越多的人前往社交媒体来获取信息，自我表达，情感释放和个人互动。社交媒体的大规模，低成本和开放性优势为我们提供了前所未有的机会来调查与自杀意念有关的个人症状和特质。然而，通过社交媒体分析和发现个人的自杀意念并非易事，面临着数据隐式和数据稀少两方面的挑战。

为此我们构建了面向自杀领域的个性化个人知识图谱，并进一步建立了一个双层注意力机制，来克服以上两种挑战。

数据集

3.1 新浪微博数据集

3652 名有自杀意念的用户和 3677 名无自杀意念的正常用户。

3.2 Reddit数据集

45 名有过自杀尝试的用户，77 名有过自杀相关行为的用户，171 名有自杀意念的用户，99 名有一定可能性有自杀意念的用户以及 108 名正常用户。

面向自杀领域的个性化知识图谱

▲ 图2

我们首先定义在自杀领域的知识图谱中，所有的本体，然后用从个人社交媒体账户中提取的数据来实例化此用户的个性化自杀领域的知识图谱。在相关心理学研究的启发下，我们总结出六类本体（即个人信息，人格，经历，发博行为，情绪表达和社交互动），其中每个本体都会被实例化成属性值或者向量表示。

个人信息（性别，年龄，地区）：

，

或

分别代表女性，男性或未知。

，其中

。

。向量的每个元素代表一个特定的地区（即华东地区，华南地区，华北地区，西南地区，西北地区，华中地区，东北地区以及未知的地区）。

个人经历（心理压力，心理障碍，先前的自杀尝试）：

为了检测最近一年内用户的心理压力（压力区间，压力登记和压力类别），我们将算法应用于用户的发博行为，并捕获了一系列压力周期 S(u)，每个压力周期的形式为

，其中

，

表示五天以上的时间的压力区间，

是压力等级 1（低强度心理压力）或 2（高强度心理压力），

是压力类别，可能是学习，工作，家庭，人际关系，情感或自我认知。我们将用户

的众多压力区间汇总如下：

此外，患有诸如抑郁症或双相情感障碍之类的心理疾病的人也更容易产生自杀意念。以前尝试自杀的人比没有自杀的人有更高的自杀风险。当且仅当用户 u 在微博上发布了诸如“我患有抑郁症/躁郁症……”之类的信息时，我们才设置

，否则设置为 0。同时

，且仅当用户

在微博上发布了类似于“我曾经自杀过＃次”之类的信息时，否则设置为 0。

人格特质（追求完美，反刍思维，人际关系敏感）：

我们分别根据每个帖子中与完美主义相关和与反刍相关的词的平均比例来衡量用户的追求完美和反刍思维的程度。令

表示用户 u 发布的博文集合。对于每个帖子

，假设函数

和

分别返回

中与完美主义有关的词和与反刍思维有关的词的数量。

接下来，我们通过计算用户在人际关系压力类别中经历了多少次压力区间来衡量用户

的人际关系敏感程度。

其中

是从用户

上的检测到的一组压力区间。并且

是

中的一个压力区间。

发博行为（文本，图像，发布时间）：

我们通过预先训练的 Bert 模型和 34 层 ResNet 将单条博文的语言和图像内容分别编码为 768 维和 300 维向量。另外，我们将用户的发博时间映射到从 0 到 23 的时间中。假设用户

总共发布了

条帖子

▲ 图3

如图 3 所示，为了进一步训练出用户

的博文表示，我们将 (

) 拼接成一个 1069 维的向量，其中

，然后使用 LSTM 从

中提取文本和视觉信息。

其中 LSTM 最后一次的输出为

。

情绪表达（自杀词，遗言词，未来词，否定词，自我关注词，情绪转变）：

我们收集了 586 个自杀词，125个遗言词，86 个未来词和 665 个否定词的文章以及 36 个关于自我关注的词。

这里我们以和

来表示用户

的对应属性的属性值，每个属性值都是通过计算词频来实现的。其中在计算

的时候，仅考虑了最近两周的博文。

此外，

表示从爱到喜悦的情绪转变和

表示从爱到焦虑/悲伤的情绪转变。表示情感转变的属性值为：

6）社交互动（被关注数，关注数，提及/转发/同意数，用户）：

，其中前三个属性值为非负整数值，而

表示为用户

的相邻用户数量。

形式上地说，我们将个性化的自杀领域知识图谱描述为

，其中

和

分别是节点集和边集。一个用户节点可以具有多个属性节点，并且可以通过社交媒体上的互相关注链接到另一个用户节点。

用户与用户之间的边的权重表示着两个用户在社交媒体上的关于自杀想法的影响，而用户与自身属性的边的权重代表着不同属性（个人信息，人格，经历，发博行为，情绪表达和社交互动）对产生自杀意念的贡献。这些权重将在以下学习过程中计算。

基于所构建的个性化的自杀领域的知识图谱，检测微博用户的自杀意念

▲ 图4

我们设计了一个属性层面的注意力机制和一个相邻用户之间层面的注意机制来推理与自杀意念相关的关键因素，并发现邻近用户对社交媒体的自杀意念的产生的影响。

1）属性级别的注意力机制：除却用户

的所有相邻用户，我们首先将 u 剩下的个人知识图谱中的所有实例化属性拼接在一起，并获得一个 61 维的属性向量

。

为了计算不同属性的重要性，我们使用了一个属性层面的注意向量

α

应用在

，得到了一个新的属性向量，属性表示向量

：

2）相邻用户级别的注意力机制：

我们对用户

的属性级别表示向量

施加了来自相邻用户的影响。考虑到相邻用户对用户

自杀意念的不同影响，例如，有些人很容易受到长辈的影响，而其他人可能更信任他们的同龄人，因此我们采用了类似于图注意力机制的相邻用户层面的注意力机制。这里为了降低计算复杂度，我们首先通过一个完全连接层，从用户的属性表示

中得到用户

的初始隐藏状态

：

设

为在社交媒体上与用户

直接相连（互相关注关系）的相邻用户的集合。对于每个相邻的用户对

（其中

），我们通过一个拼接运算||和一个完全连接层来获得相应的注意力系数

：

通过这种方式，我们获得了用户

的相邻注意力系数的向量：

然后应用

函数来计算相应的数值向量

表示相邻用户对用户

的影响。数值越高，自杀影响越大。

通过

，我们汇总了来自相邻用户的信息，并相应地更新了用户

的隐藏状态

到

：

获取后

，我们将使用一个完全连接层来获取用户的最终表示

：

3）自杀意念检测：

最后，我们使用完全连接层和

函数检测用户

的自杀意念：

其中

，

表示用户

有或没有的自杀意念的可能性。

实验结果

6.1 模型在两个数据集上的总体表现

可以看出基于面向自杀知识图谱的方法在两个数据集上取得了优异的表现。

▲ 图5

6.2 不同的本体对于自杀风险检测的贡献

▲ 图6

▲ 图7

▲ 图8

在这里我们使用信息熵来衡量不同的本体对于模型的贡献。可以看出，用户的发博行为，个性以及经历这三类对于自杀检测的贡献最大。细分之下用户的博文文字内容、心理压力级别、心理压力持续时间、博文配图、反刍思想对模型的贡献最大。同时，当缺少这些重要的、高信息熵的本体信息时，模型的效果有了大幅度的下降，如图 7 所示。

6.3 在面对噪音数据上的表现

在这里，我们主要考虑了信息不足和非真实情感两种在社交媒体上的噪音。

1）信息不足

▲图9

当用户在最近一年发布的原创微博少于等于五条时，我们称这些用户为信息不足用户。我们从微博数据集的测试集中挑选出了 88 名有自杀意向的信息不足用户和 88 名无自杀意向的信息不足用户，并观察训练好的模型在上面的表现。

如图 9 所示，所有模型的效果都打了折扣，但是本文所提出的基于知识模型在信息不足时，可以考虑了相邻用户的信息作为补充，使得其能维持 89% 的准确率。

2）非真实情感

有很多时候，用户可能会假意维护自己在社交媒体中的阳光正面形象，即使其内心可能十分的痛苦，焦虑以致抑郁自杀。通过和树洞中同期的真实情感评论相对照，我们从微博数据集的测试集中挑选出了 43 名发布过非真实情感微博的有自杀意向的用户。这种用户通常极难被模型分辨出。

另外我们构建出五个测试子集，其中包含了不同比例的非真实情感自杀意念用户，来观察模型在不同程度噪音上的表现。图 10 展示了五个测试子集的噪音比例

▲ 图10

▲ 图11

如图 11 所示，非真实情感用户对于模型的影响极大，但是我们的基于知识的模型依然有超过 80% 准确率的效果。

结论

在本文中，我们建立并使用了面向自杀的个性化知识图谱，用于社交媒体上的自杀意念检测。我们使用了两层注意机制来推理和挖掘促使个人自杀意念产生的关键因素。

在对 7329 位微博用户的实验研究表明：1）利用构建的知识图谱，基于社交媒体的自杀意念检测可以达到 93% 以上的准确率，性能优于所有基线方法；2）在六类本体中，发博行为，个性和经历是排名前三的关键检测指标。在这些类别下，用户的所发布的文字、压力级别、压力持续时间、所发布的图像和反刍思维对检测自杀意念的影响最大。

尽管本文展示了所提出方法的一些有不错的结果，但利用社交媒体准确识别个人自杀意念仍然受到限制。需要使用更可靠的数据源和特定领域的专家知识，并将其集成到自杀意念检测中。以用户为中心的知识图谱的动态维护也值得深入研究以构建真正方便的解决方案。

关于作者

曹檑，清华大学计算机系，计算心理健康研究中心，博士生在读，师从长江学者冯铃教授。研究方向为基于社交媒体的用户极端心理检测。已在人工智能学术领域发表多篇学术论文，包括会议 EMNLP、ACM MM，期刊 IEEE TMM、J-BI，并担任 NAACL、ACL 审稿人。

更多阅读

#投稿通道#

让你的论文被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体，缩短读者寻找优质内容的成本呢？答案就是：你不认识的人。

总有一些你不认识的人，知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁，促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人，在我们的平台上分享各类优质内容，可以是最新论文解读，也可以是学习心得或技术干货。我们的目的只有一个，让知识真正流动起来。

???? 来稿标准：

• 稿件确系个人原创作品，来稿需注明作者个人信息（姓名+学校/工作单位+学历/职位+研究方向）

• 如果文章并非首发，请在投稿时提醒并附上所有已发布链接

• PaperWeekly 默认每篇文章都是首发，均会添加“原创”标志

???? 投稿邮箱：

• 投稿邮箱：hr@paperweekly.site

• 所有文章配图，请单独在附件中发送

• 请留下即时联系方式（微信或手机），以便我们在编辑发布时和作者沟通

????

现在，在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

关于PaperWeekly

PaperWeekly 是一个推荐、解读、讨论、报道人工智能前沿论文成果的学术平台。如果你研究或从事 AI 领域，欢迎在公众号后台点击「交流群」，小助手将把你带入 PaperWeekly 的交流群里。