©PaperWeekly 原创 · 作者|曹檑

学校|清华大学博士生

研究方向|自然语言处理

论文标题:

Building and Using Personal Knowledge Graph to Improve Suicidal Ideation Detection on Social Media

论文来源:

IEEE Transaction on Multimedia

论文链接:

https://arxiv.org/abs/2012.09123

数据集链接:

https://github.com/bryant03/Sina-Weibo-Dataset

本文将从以下方面对这篇工作进行介绍:

  • 摘要

  • 介绍

  • 数据集

  • 面向自杀领域的个性化知识图谱

  • 基于所构建的个性化的自杀领域的知识图谱,检测微博用户的自杀意念

  • 实验结果

  • 结论

摘要

世界上有许多人有自杀意向。但是为什么一个人可能会有自杀念头,背后有许多原因。作为用于自我表达,情感释放和人际交往的最受欢迎的平台,人们可能会在社交媒体上表现出许多自杀意念的征兆。然而,数据和知识方面的挑战仍然是这个问题的障碍,制约了基于社交媒体的自杀检测性能。数据的隐含性和稀疏性使得很难根据他们的微博发现其的内在真实意图。

受心理学研究的启发,我们使用深层神经网络构建了一个面向自杀的个性化知识图谱,用于在社交媒体上检测自杀意念。我们进一步设计了一个两层注意机制,以推理和揭示出人们怀有自杀意念的关键因素。在微博和 Reddit 上的实验研究表明:

1)利用构建的个性化知识图谱,基于社交媒体的自杀意念检测可以达到 93% 以上的准确率;和 2)在影响人们产生自杀意念的六类因素中,博文内容、性格和个人经历是排名前三类的关键因素。在这些类别下,用户的博文文字内容、心理压力级别、心理压力持续时间、博文配图、反刍思想非常有助于用户自杀意念的检测。

介绍

自杀意念是一个在世界上所有国家中都在显著的问题。根据不同的报告和统计数据,全世界自杀意念的终生患病率约为 9%,而这一数字对于 18 至 25 岁年龄段的人来说要高得多。为什么一个人可能会有自杀念头,背后有很多原因,而且长期以来,人格特质与自杀倾向的关系也得到了调查。

然而,由于繁杂的受调查群体以及概念和方法论的多样性,仍然难以确定不同诱因的独立贡献程度。自杀意念的直接危险因素仍然未知,尤其是在发展中国家。在任何情况下,对于那些有自杀念头的人,越早发现它们,预防自杀的机会就越大。

在之前的相关工作中,心理学家开发了许多自杀风险度量(例如自杀概率量表,成人自杀意念调查表,自杀影响-行为认知量表等)来评估个人的自杀意念。由于这种方法需要人们填写主观问卷或参加专业访谈,因此仅适用于一小部分人。对于那些正在遭受苦难却倾向于隐藏最深的想法并拒绝寻求他人帮助的人,这种方法行不通。

随着社交媒体(例如 Twitter,在线论坛和微博)成为当今日常生活不可或缺的一部分,越来越多的人前往社交媒体来获取信息,自我表达,情感释放和个人互动。社交媒体的大规模,低成本和开放性优势为我们提供了前所未有的机会来调查与自杀意念有关的个人症状和特质。然而,通过社交媒体分析和发现个人的自杀意念并非易事,面临着数据隐式和数据稀少两方面的挑战。

为此我们构建了面向自杀领域的个性化个人知识图谱,并进一步建立了一个双层注意力机制,来克服以上两种挑战。

数据集

3.1 新浪微博数据集

3652 名有自杀意念的用户和 3677 名无自杀意念的正常用户。

3.2 Reddit数据集

45 名有过自杀尝试的用户,77 名有过自杀相关行为的用户,171 名有自杀意念的用户,99 名有一定可能性有自杀意念的用户以及 108 名正常用户。

面向自杀领域的个性化知识图谱

▲ 图2

我们首先定义在自杀领域的知识图谱中,所有的本体,然后用从个人社交媒体账户中提取的数据来实例化此用户的个性化自杀领域的知识图谱。在相关心理学研究的启发下,我们总结出六类本体(即个人信息,人格,经历,发博行为,情绪表达和社交互动),其中每个本体都会被实例化成属性值或者向量表示。

  1. 个人信息(性别,年龄,地区):






















,




















分别代表女性,男性或未知。











=


























,其中

















。向量的每个元素代表一个特定的地区(即华东地区,华南地区,华北地区,西南地区,西北地区,华中地区,东北地区以及未知的地区)。

  1. 个人经历(心理压力,心理障碍,先前的自杀尝试):

为了检测最近一年内用户的心理压力(压力区间,压力登记和压力类别),我们将算法应用于用户的发博行为,并捕获了一系列压力周期 S(u),每个压力周期的形式为




=



















,其中



















表示五天以上的时间的压力区间,







是压力等级 1(低强度心理压力)或 2(高强度心理压力),







是压力类别,可能是学习,工作,家庭,人际关系,情感或自我认知。我们将用户




的众多压力区间汇总如下:

此外,患有诸如抑郁症或双相情感障碍之类的心理疾病的人也更容易产生自杀意念。以前尝试自杀的人比没有自杀的人有更高的自杀风险。当且仅当用户 u 在微博上发布了诸如“我患有抑郁症/躁郁症……”之类的信息时,我们才设置
















,否则设置为 0。同时















,且仅当用户




在微博上发布了类似于“我曾经自杀过 # 次”之类的信息时,否则设置为 0。

  1. 人格特质(追求完美,反刍思维,人际关系敏感):

我们分别根据每个帖子中与完美主义相关和与反刍相关的词的平均比例来衡量用户的追求完美和反刍思维的程度。令







表示用户 u 发布的博文集合。对于每个帖子









,假设函数

































分别返回




中与完美主义有关的词和与反刍思维有关的词的数量。

接下来,我们通过计算用户在人际关系压力类别中经历了多少次压力区间来衡量用户




的人际关系敏感程度。

其中







是从用户




上的检测到的一组压力区间。并且




=



























中的一个压力区间。

  1. 发博行为(文本,图像,发布时间):

我们通过预先训练的 Bert 模型和 34 层 ResNet 将单条博文的语言和图像内容分别编码为 768 维和 300 维向量。另外,我们将用户的发博时间映射到从 0 到 23 的时间中。假设用户




总共发布了




条帖子












▲ 图3

如图 3 所示,为了进一步训练出用户




的博文表示,我们将 (



















,











) 拼接成一个 1069 维的向量,其中













=,然后使用 LSTM 从


























中提取文本和视觉信息。

其中 LSTM 最后一次的输出为









  1. 情绪表达(自杀词,遗言词,未来词,否定词,自我关注词,情绪转变):

我们收集了 586 个自杀词,125个遗言词,86 个未来词和 665 个否定词的文章以及 36 个关于自我关注的词。

这里我们以














来表示用户




的对应属性的属性值,每个属性值都是通过计算词频来实现的。其中在计算


















的时候,仅考虑了最近两周的博文。

此外,














表示从爱到喜悦的情绪转变和 表示从爱到焦虑/悲伤的情绪转变。表示情感转变的属性值为:

6)社交互动(被关注数,关注数,提及/转发/同意数,用户):

,其中前三个属性值为非负整数值,而











表示为用户




的相邻用户数量。

形式上地说,我们将个性化的自杀领域知识图谱描述为










,其中









分别是节点集和边集。一个用户节点可以具有多个属性节点,并且可以通过社交媒体上的互相关注链接到另一个用户节点。

用户与用户之间的边的权重表示着两个用户在社交媒体上的关于自杀想法的影响,而用户与自身属性的边的权重代表着不同属性(个人信息,人格, 经历,发博行为,情绪表达和社交互动)对产生自杀意念的贡献。这些权重将在以下学习过程中计算。

基于所构建的个性化的自杀领域的知识图谱,检测微博用户的自杀意念

▲ 图4

我们设计了一个属性层面的注意力机制和一个相邻用户之间层面的注意机制来推理与自杀意念相关的关键因素,并发现邻近用户对社交媒体的自杀意念的产生的影响。

1)属性级别的注意力机制:除却用户




的所有相邻用户,我们首先将 u 剩下的个人知识图谱中的所有实例化属性拼接在一起,并获得一个 61 维的属性向量



























为了计算不同属性的重要性,我们使用了一个属性层面的注意向量




α



应用在







,得到了一个新的属性向量,属性表示向量








2)相邻用户级别的注意力机制:

我们对用户




的属性级别表示向量








施加了来自相邻用户的影响。考虑到相邻用户对用户




自杀意念的不同影响,例如,有些人很容易受到长辈的影响,而其他人可能更信任他们的同龄人,因此我们采用了类似于图注意力机制的相邻用户层面的注意力机制。这里为了降低计算复杂度,我们首先通过一个完全连接层,从用户的属性表示








中得到用户




的初始隐藏状态

















为在社交媒体上与用户




直接相连(互相关注关系)的相邻用户的集合。对于每个相邻的用户对













(其中
















),我们通过一个拼接运算||和一个完全连接层来获得相应的注意力系数
















通过这种方式,我们获得了用户




的相邻注意力系数的向量:

然后应用










函数来计算相应的数值向量 表示相邻用户对用户




的影响。数值越高,自杀影响越大。

通过









,我们汇总了来自相邻用户的信息,并相应地更新了用户




的隐藏状态
















获取后








,我们将使用一个完全连接层来获取用户的最终表示







3)自杀意念检测:

最后,我们使用完全连接层和










函数检测用户




的自杀意念:

其中















表示用户




有或没有的自杀意念的可能性。

实验结果

6.1 模型在两个数据集上的总体表现

可以看出基于面向自杀知识图谱的方法在两个数据集上取得了优异的表现。

▲ 图5

6.2 不同的本体对于自杀风险检测的贡献

▲ 图6

▲ 图7

▲ 图8

在这里我们使用信息熵来衡量不同的本体对于模型的贡献。可以看出,用户的发博行为,个性以及经历这三类对于自杀检测的贡献最大。细分之下用户的博文文字内容、心理压力级别、心理压力持续时间、博文配图、反刍思想对模型的贡献最大。同时,当缺少这些重要的、高信息熵的本体信息时,模型的效果有了大幅度的下降,如图 7 所示。

6.3 在面对噪音数据上的表现

在这里,我们主要考虑了信息不足和非真实情感两种在社交媒体上的噪音。

1)信息不足

▲图9

当用户在最近一年发布的原创微博少于等于五条时,我们称这些用户为信息不足用户。我们从微博数据集的测试集中挑选出了 88 名有自杀意向的信息不足用户和 88 名无自杀意向的信息不足用户,并观察训练好的模型在上面的表现。

如图 9 所示,所有模型的效果都打了折扣,但是本文所提出的基于知识模型在信息不足时,可以考虑了相邻用户的信息作为补充,使得其能维持 89% 的准确率。

2)非真实情感

有很多时候,用户可能会假意维护自己在社交媒体中的阳光正面形象,即使其内心可能十分的痛苦,焦虑以致抑郁自杀。通过和树洞中同期的真实情感评论相对照,我们从微博数据集的测试集中挑选出了 43 名发布过非真实情感微博的有自杀意向的用户。这种用户通常极难被模型分辨出。

另外我们构建出五个测试子集,其中包含了不同比例的非真实情感自杀意念用户,来观察模型在不同程度噪音上的表现。图 10 展示了五个测试子集的噪音比例

▲ 图10

▲ 图11

如图 11 所示,非真实情感用户对于模型的影响极大,但是我们的基于知识的模型依然有超过 80% 准确率的效果。

结论

在本文中,我们建立并使用了面向自杀的个性化知识图谱,用于社交媒体上的自杀意念检测。我们使用了两层注意机制来推理和挖掘促使个人自杀意念产生的关键因素。

在对 7329 位微博用户的实验研究表明:1)利用构建的知识图谱,基于社交媒体的自杀意念检测可以达到 93% 以上的准确率,性能优于所有基线方法;2)在六类本体中,发博行为,个性和经历是排名前三的关键检测指标。在这些类别下,用户的所发布的文字、压力级别、压力持续时间、所发布的图像和反刍思维对检测自杀意念的影响最大。

尽管本文展示了所提出方法的一些有不错的结果,但利用社交媒体准确识别个人自杀意念仍然受到限制。需要使用更可靠的数据源和特定领域的专家知识,并将其集成到自杀意念检测中。以用户为中心的知识图谱的动态维护也值得深入研究以构建真正方便的解决方案。

关于作者

曹檑,清华大学计算机系,计算心理健康研究中心,博士生在读,师从长江学者冯铃教授。研究方向为基于社交媒体的用户极端心理检测。已在人工智能学术领域发表多篇学术论文,包括会议 EMNLP、ACM MM,期刊 IEEE TMM、J-BI,并担任 NAACL、ACL 审稿人。

更多阅读

#投 稿 通 道#

 让你的论文被更多人看到 

如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学习心得技术干货。我们的目的只有一个,让知识真正流动起来。

???? 来稿标准:

• 稿件确系个人原创作品,来稿需注明作者个人信息(姓名+学校/工作单位+学历/职位+研究方向)

• 如果文章并非首发,请在投稿时提醒并附上所有已发布链接

• PaperWeekly 默认每篇文章都是首发,均会添加“原创”标志

???? 投稿邮箱:

• 投稿邮箱:hr@paperweekly.site

• 所有文章配图,请单独在附件中发送

• 请留下即时联系方式(微信或手机),以便我们在编辑发布时和作者沟通

????

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

关于PaperWeekly

PaperWeekly 是一个推荐、解读、讨论、报道人工智能前沿论文成果的学术平台。如果你研究或从事 AI 领域,欢迎在公众号后台点击「交流群」,小助手将把你带入 PaperWeekly 的交流群里。

基于自杀领域个性化知识图谱的社交媒体自杀意念检测相关推荐

  1. 技术论坛 | CCF YOCSEF上海即将在 CNCC 举办“知识图谱遇见社交媒体”专题论坛

    中国计算机学会青年计算机科技论坛 CCF YoungComputer Scientists & Engineers Forum CCF YOCSEF上海 CNCC2017大会技术论坛 主题: ...

  2. dbpedia知识图谱java_一种基于DBpedia的水务领域概念知识图谱构建方法与流程

    本发明涉及的是领域知识图谱构建技术领域,涉及到一种基于DBpedia的水务领域概念知识图谱构建方法,特别涉及到一种基于Jaccard相似度算法与随机游走相似度算法结合的协同过滤模型框架,用于补全概念模 ...

  3. 领域应用 | 知识图谱的技术与应用

    本文转载自公众号:贪心科技. 作者 | 李文哲,人工智能.知识图谱领域专家 导读:从一开始的Google搜索,到现在的聊天机器人.大数据风控.证券投资.智能医疗.自适应教育.推荐系统,无一不跟知识图谱 ...

  4. 论文浅尝-综述 | 基于强化学习的知识图谱综述

    转载公众号 | 人工智能前沿讲习 论文来源:https://crad.ict.ac.cn/CN/10.7544/issn1000-1239.20211264 摘要:知识图谱是一种用图结构建模事物及事物 ...

  5. 【国内首家】第一个基于语音生成实时知识图谱的系统来啦!!!

    点击上方,选择星标或置顶,不定期资源大放送! 阅读大概需要8分钟 Follow小博主,每天更新前沿干货 基于文本生成知识图谱的研究很常见,但是基于语音生成知识图谱,这算是第一家. 在这个信息飞速发展的 ...

  6. 基于深度学习的知识图谱综述

    基于深度学习的知识图谱综述 摘要:随着现如今计算机设备的更新,计算能力的不断提高促使深度学习再一度推上热门技术,深度学习已经广泛应用于图像处理.文本挖掘.自然语言处理等方面,在医学.交通.教育.旅游等 ...

  7. 知识图谱从入门到应用——知识图谱推理:基于表示学习的知识图谱推理-[嵌入学习]

    分类目录:<知识图谱从入门到应用>总目录 前面多次提到过,基于符号逻辑的演绎推理的主要缺点是对知识表示的逻辑结构要求比较高,不论是本体推理还是规则推理,都要求人工定义公理和规则才能完成推理 ...

  8. 论文浅尝 | 一种基于递归超图的知识图谱问答方法

    笔记整理 | 谭亦鸣,东南大学博士生 来源:EACL'21 链接:https://www.aclweb.org/anthology/2021.eacl-main.35.pdf 概述与动机 本文提出了一 ...

  9. 论文浅尝 | ​ADRL:一个基于注意力机制的知识图谱深度强化学习框架

    论文笔记整理:谭亦鸣,东南大学博士. 来源:Knowledge-Based Systems 197 (2020) 105910 链接:https://www.sciencedirect.com/sci ...

最新文章

  1. CVPR2018论文看点:基于度量学习分类与少镜头目标检测
  2. eclipse 工程复制
  3. 监控子进程,退出就重启进程 ,简单版本
  4. 5G 信令流程 — 5GC 的业务请求(Service Request)
  5. IE浏览器上传文件时本地路径变成”C:\fakepath\”的问题
  6. 第二次作业+105032014101
  7. Php数组面包屑导航,php可应用于面包屑导航的迭代寻找家谱树实现方法
  8. Linux 中vim编辑器学习笔记
  9. makefile编译问题记录
  10. 2021年品牌CDP与营销数字化转型报告:从自建数据资产到消费者深度运营
  11. 计算机网络自顶向下-链路层
  12. 在Mac OS X上利用Spotlight搜索代码
  13. 2020idea插件怎么同步_暴击单身狗,异地情侣居然靠一款插件同步追剧!
  14. 软件测试Homework03
  15. Linux 配置rdate时间服务器方法
  16. linux内核event原理,linux epoll epoll的原理;struct epoll_event 为什么要这样设计
  17. deepin 应用市场安装软件失败_深度商店软件无法安装问题解决方案
  18. 奇异秀App:奇异秀秀奇异,用大头视频来拜年
  19. 最新大数据案例分享:2019微信数据报告(图集)
  20. 利用photoshop制作身份证复印件的流程

热门文章

  1. 有趣的搬砖工 No.2 cout格式化输出
  2. 网页设计-第四次作业
  3. 排序方法python实现_八字排盘,四柱八字排盘算命,免费排八字,卜易居在线排盘系统...
  4. 2022年全美最佳大学排名公布,看看谁是1400所里最好的大学!
  5. 区块链推动食品安全走向新时代
  6. Day2补充:钢管切割问题
  7. Vue在浏览器报错Uncaught Error: Cannot find module ‘[object Object]‘
  8. 2022国赛数模A题思路以及解析(附源码 可供学习训练使用)
  9. [转]国外人气最旺的软件测试网站
  10. [活动预告]倒数1天!开源世界高峰论坛将于北京举行,偶数科技将进行主题演讲和产品展示