论文题目:DEAN: Learning Dual Emotion for Fake News Detection on Social Media

论文来源:arXiv 2019

论文链接:https://arxiv.org/abs/1903.01728

关键词:假新闻检测,社交网络,情感,multimodal,Gate


文章目录

  • 1 摘要
  • 2 引言
  • 3 模型
    • 3.1 建模发布者情感
    • 3.2 建模社交情感
    • 3.3 DEAN框架
  • 4 实验
  • 5 总结
  • References

1 摘要

本文要解决的任务是利用文本中的情感信息,进行假新闻检测。

在许多假新闻检测任务中,情感被认为是一个重要的指标,大多数研究主要通过用户立场或简单的统计情感特征来利用情感。

在现实生活中,新闻发布者通常会在新闻中包含强烈的情感,以引起大众的共鸣;或者发布有争议的不带情感色彩陈述,目的是唤起用户的强烈情感。然而,现有的研究没有从新闻内容和用户评论中共同挖掘情感信息。

本文研究双重情感(dual emotion)学习问题,以用于假新闻检测。本文提出了DEAN模型(Dual Emotion-based fAke News detection framework),分别学习到了发布者和用户的content和comment情感表示,并同时利用双重情感表示进行假新闻检测。

2 引言

(1)现有的工作

现有的工作主要聚焦于新闻的内容 和/或 社交上下文。

从利用情感的角度来看,大多数现有的工作要不就是基于来自新闻内容的情感词典,进行情感特征的抽取;要不就是建模传播过程中用户的观点。

现有的研究工作,忽视了同时利用发布者和用户的情感。


(2)情感在假新闻传播中的应用

为了更广泛地传播假新闻并引起公众的注意,假新闻发布者经常采取两个策略:

1)发布者发布含有强烈情感的新闻,以引起大众的认同。例如图 1a所示,发布者使用丰富的情感表达(例如 “Oh my god!”)以让新闻给人留下深刻的印象。

2)发布者可能客观地表示新闻,使其更有说服力,但是新闻中包含有争议的内容,目的是引起公众的强烈情绪,促使其广泛传播。如图 1b所示,发布者写作风格很客观,但是“China still ranked the second to the last”这样的陈述,引起了公众的紧张,因此人们开始在评论中表达愤怒、震惊和质疑的情绪。

因此,学习发布者和用户双重的情感有助于提高假新闻检测的性能。


(3)多模态融合的方法

concatenation; autoencoder; attention; gate


(4)本文提出

为了利用双重情感以用于假新闻检测,作者定义了两种类型的情感:1)发布者情感(publisher emotion);2)社交情感(social emotion)。

本文分别利用新闻内容和用户评论来捕获发布者情感和社交情感。

本文研究了:1)如何分别从新闻内容和用户评论中获得发布者的情感和社交情感;2)如何同时利用发布者和社交情感,以进行假新闻检测。

针对上述的两个研究问题,本文提出DEAN模型,对新闻内容和用户评论中的情感进行编码,以用于学习新闻的表示;然后设计了三个neural gates units混合不同模块的表示。


(5)本文贡献

  • 研究了一个新问题,即学习发布者情感和社交情感(双重情感 dual emotion),以用于假新闻检测;

  • 提出DEAN框架,捕获并整合了双重情感用于学习新闻的表示,以进行假新闻检测;

  • 进行实验证明了DEAN对于假新闻检测的有效性。

3 模型

本文提出的DEAN模型如图 5所示,主要由三部分组成:

1)内容模块(content module):利用了来自发布者的信息,包括新闻内容的语义和情感信息;

2)评论模块(comment module):捕获到了用户的语义个情感信息;

3)假新闻预测模块:融合了来自于新闻内容和用户评论的隐层表示,预测该新闻是否是假新闻。

3.1 建模发布者情感

(1)单词编码器(Word Encoder)

使用基于RNN的单词编码器学习得到基本的文本特征表示。作者使用双向GRU从两个方向对单词序列进行建模。对于每个单词tit_iti​,使用预训练的word2vec初始化词嵌入向量wiw_iwi​。

给定单词tit_iti​,将前向隐层状态和反向隐层状态拼接,得到该单词的编码向量hiwh^w_ihiw​。


(2)情感编码器(Emotion Encoder)

和单词编码器类似,使用双向GRU建模单词的情感特征表示。为了保留每个单词的情绪信号,接下来介绍如何为每个单词tit_iti​获取一个情感嵌入向量eie_iei​。

首先得到一个大规模的Weibo数据集,其中每个Weibo都包含情感符号(emoticon)。然后将200个情感符分成5类:anger, doubt, happiness, sadness, none,并使用情感符标注语料。

接着使用one-hot向量初始化每个单词。此时不使用预训练的词嵌入,以避免嵌入向量中语义信息的过载。

初始化后,将帖子内容中所有的单词传向嵌入层,把每个单词从原始的one-hot空间映射到低维空间,然后再将其序列输入到单层的GRU模型中。

最后,通过反向传播,嵌入层在训练时更新,为每个单词tit_iti​生成情感嵌入eie^iei。

在得到情感嵌入向量后,就可以得到单词tit_iti​的情感编码hieh^e_ihie​:


(3)人工设计的新闻情感特征

新闻内容的整体情感信息也很重要,可以帮助衡量每个词应该吸收多少情感部分的信号。例如,表达强烈情感的新闻内容可能进一步加强了每个单词情感部分的重要性。

对于每个给定的帖子pjp_{j}pj​,作者抽取了[1]中包含的情感特征,同时添加了一些额外的情感特征。一共有19个新闻内容情感方面的特征,如表 1所示。新闻pjp_jpj​的情感特征定义为sejse_jsej​。


(4)新闻内容表示

作者提出一个gate unit,称为Gate_N,来联合学习单词嵌入、情感嵌入和句子情感特征的信息,然后为每个单词输出一个新的表示。Gate_N受LSTM中的遗忘门(forget gate)和输入门(input gate)启发。在Gate_N中,两个情感输入共同决定了rtr_trt​和utu_tut​的值,并通过两个sigmoid层来管理添加到新表示中的语义和情感信息的多少。同时,使用tanh层将情感输入和单词嵌入在同一空间中。Gate_N的输入和输出间的关系定义如下:

所有生成的单词向量都被序列输入到双向GRU层中,GRU层的最后一个隐层状态包含了内容模块(content module)中的所有信息,称为内容表示(Content Representation)。

3.2 建模社交情感

使用丰富的用户评论来捕获用户对于某一事件的寓意和情感信息。评论模块架构和内容模块相似:

1)所有评论先拼接,再输入给双向GRU;

2)不合并句子情感特征,因为拼接后的评论可能没有具体的sentence-level含义;

3)设计了一个新的gate unit Gate_C用于融合。

作者选择拼接所有的评论作为输入,因为超过70%的新闻文章拥有的评论数小于5。由于是拼接起来的,输入不像一个句子一样有完整的信息,所以此处没有句子情感特征。

作者引入Gate_C用于评论模块中的融合。和Gate_N不同,这里只有两种输入模态(two input modalities)。我们采用GRU中的更新门来控制融合过程中的信息更新。联合两个输入,经过一层sigmoid,就得到更新门向量utu_tut​。使用一层tanh得到新的候选值向量ctec^e_tcte​,该向量和htwh^w_thtw​维度一致。然后对ctec^e_tcte​和htwh^w_thtw​进行线性插值,得到最终的输出ntn_tnt​。

3.3 DEAN框架

使用Gate_M融合内容模块和评论模块的隐层表示,然后得到向量表示NNN。

使用带有softmax的全连接层将新的向量NNN映射到两类真假新闻的目标空间,得到概率分布:

使用binary-entropy函数定义第mmm个样本SmS_mSm​的损失如下:

4 实验

(1)数据集

1)Weibo Dataset

https://www.biendata.com/competition/falsenews/

Cao, J.; Sheng, Q.; Qi, P.; Zhong, L.; Wang, Y.; and Zhang, X. 2019. False news detection on social media. CoRR abs/1908.10818.

2)Twitter Dateset

http://alt.qcri.org/~wgao/data/rumdect.zip

Ma, J.; Gao, W.; Mitra, P.; Kwon, S.; Jansen, B. J.; Wong, K.-F.; and Cha, M. 2016. Detecting rumors from microblogs with recurrent neural networks. In IJCAI, 3818–3824.

(2)实验结果

5 总结

本文提出了基于双重情感的深度学习框架DEAN,以用于假新闻检测。

作者使用了新闻内容和用户评论模块,以利用来自于发布者和用户的语义和情感信息。特别的,作者还利用嵌入来为每个单词捕获情感信息,并设计了3中类型的门(gate)在DEAN的不同级别进行融合。

在Weibo和Twitter两个数据集上进行实验,得到了SOTA的效果。


思考:

作者在论文中提到了multimodal fusion,并在模型中设计了3个门实现融合,表现为在content module中3种特征的融合,在comment module中2种特征的融合,以及对内容表示和评论表示的融合。这种形式的融合也可以看成是multimodal,为多模态的虚假信息检测不仅局限于文本和图像的融合。

References

[1] Castillo, C.; Mendoza, M.; and Poblete, B. 2011. Information credibility on twitter. In WWW, 675–684. ACM

【论文解读 arXiv 2019 | DEAN】DEAN: Learning Dual Emotion for Fake News Detection on Social Media相关推荐

  1. 【论文解读 WWW 2019 | MVAE】Multimodal Variational Autoencoder for Fake News Detection

    论文题目:MVAE: Multimodal Variational Autoencoder for Fake News Detection 论文来源:WWW 2019 论文链接:https://doi ...

  2. 【论文解读】Mining Dual Emotion for Fake News Detection

    本文主要内容: 本文主要是对以下论文进行解读 <Xueyao Zhang, Juan Cao, Xirong Li, Qiang Sheng, Lei Zhong, and Kai Shu. 2 ...

  3. 【论文解读 AAAI 2019 | UFD】Unsupervised Fake News Detection on Social Media: A Generative Approach

    论文题目:Unsupervised Fake News Detection on Social Media: A Generative Approach 论文来源:AAAI 2019 论文链接:htt ...

  4. 【论文翻译 虚假新闻检测综述 KDD 2017】Fake News Detection on Social Media: A Data Mining Perspective

    论文题目:Fake News Detection on Social Media: A Data Mining Perspective 论文来源:KDD 2017 美国亚利桑那州立大学, 美国密歇根州 ...

  5. 【论文解读 ASONAM 2019】Semi-Supervised Learning and Graph Neural Networks for Fake News Detection

    论文题目:Semi-Supervised Learning and Graph Neural Networks for Fake News Detection 论文链接:https://ieeexpl ...

  6. 论文阅读-虚假信息检测综述 - Fake News Detection on Social Media: A Data Mining Perspective

    论文链接:https://arxiv.org/pdf/1708.01967.pdf 目录 摘要 1 引言 2. 假新闻定义 2.1 假新闻的定义 2.2 传统新闻媒体上的假新闻 2.3社交媒体上的假新 ...

  7. 【论文解读 AAAI 2020 | Bi-GCN】Rumor Detection on Social Media with Bi-Directional GCN

    论文题目:Rumor Detection on Social Media with Bi-Directional Graph Convolutional Networks 论文来源:AAAI 2020 ...

  8. [论文解读] Adversarial Attacks on Deep Learning Models in Natural Language Processing: A Survey

    Adversarial Attacks on Deep Learning Models in Natural Language Processing: A Survey 文章目录 Adversaria ...

  9. 【论文解读 ICDM 2019 | MVNN】Exploiting Multi-domain Visual Information for Fake News Detection

    论文题目:Exploiting Multi-domain Visual Information for Fake News Detection 论文来源:ICDM 2019 论文链接:https:// ...

  10. 【论文解读 WWW 2019 | HAN】Heterogeneous Graph Attention Network

    论文题目:Heterogeneous Graph Attention Network 论文来源:WWW 2019 论文链接:https://arxiv.org/abs/1903.07293v1 代码链 ...

最新文章

  1. ubuntu 各版本的区别
  2. boost使用学习总结
  3. Struts2学习总结一
  4. 查看wcf服务中方法测试客户端
  5. go方法的深入探究(7.21增补)
  6. 华南理工大学广州学院计算机二级,华南理工大学广州学院学子在第三届“泰迪杯”数据分析职业技能大赛中荣获佳绩...
  7. linux基础知识——创建进程
  8. HTML在日期单元格添加小图片,如何给图片添加上文字、日期和自己名字的小水印呢?...
  9. 如何使用数据质量服务和SQL Server集成服务清除数据
  10. 通过curl访问openstack各服务
  11. VSCode下载、安装及软件使用演示
  12. HTML超链接使用代码
  13. APP抓包加密破解(hook)
  14. QQ空间认证之数据篇
  15. 带你认识世界最值钱的十种货币
  16. 同名同姓查询,姓名查重,名字查重小程序,看看与你同名同姓的人有多少。
  17. ISLR统计学习导论之R语言应用(五):R语言实现交叉验证和bootstrap
  18. excel怎么批量插行_条码打印软件如何批量打印条形码图片(一)
  19. COS系统安装-图片版
  20. 习题4-5 换硬币 将一笔零钱换成5分、2分和1分的硬币,要求每种硬币至少有一枚,有几种不同的换法?

热门文章

  1. 让你5分钟明白美国金融危机爆发的原因!
  2. 医学统计python之ROC比较:Delong test
  3. 在线计算机表格制作,excel表格制作,教您excel怎么制作表格
  4. 35岁的大龄程序员都去哪里了?
  5. 林炳文Evankaka原创作品之mybatis的增删改查简单操作
  6. 数据分析~中国五大城市PM2.5数据分析02
  7. 解读《大话西游之大圣娶亲》
  8. Unity5.6——VideoPlayer播放
  9. 局域网之间两台计算机同屏,spacedesk解决两台电脑同屏的问题
  10. 微信公众号自动回复消息跳转小程序