论文题目:MVAE: Multimodal Variational Autoencoder for Fake News Detection

论文来源:WWW 2019

论文链接:https://doi.org/10.1145/3308558.3313552

代码链接:https://github.com/dhruvkhattar/MVAE

关键词:多模态融合;图片;文本;变分自编码器;假新闻检测;microblogs


文章目录

  • 1 摘要
  • 2 引言
  • 3 模型
    • 3.1 模型概览
    • 3.2 编码器
    • 3.3 解码器
    • 3.4 假新闻检测器
    • 3.5 将损失合并
  • 4 实验
  • 5 总结
  • 参考文献

1 摘要

本文利用文本和视觉信息,进行假新闻的检测。

本文提出了端到端的多模态变分自编码器(MVAE),使用双峰的变分自编码器(bimodal variational autoencoder)和二元分类器进行假新闻的检测任务。

模型由3个主要组件组成:1)编码器;2)解码器;3)假新闻检测模块。

变分自编码器能够通过优化观测数据的边际似然值的边界,来学习概率潜在变量模型。
The variational autoencoder is capable of learning probabilistic latent variable models by optimizing a bound on the marginal likelihood of the observed data.

假新闻检测模块使用从双峰变分自编码器得到的多模态表示,对帖子进行真假的分类。

在Weibo和Twitter两个数据集上进行了实验,在F1值和准确率上超越了SOTA方法。

2 引言

(1)动机

现有的两个多模态假新闻检测的模型[1, 2],没有明确的目标来发现跨模态之间的关联。


(2)本文提出

为了克服现有的多模态假新闻检测方法的局限性,本文提出多模态变分自编码器(MVAE),学习到文本和图像两个模态的共享表示。

通过对多模变分自编码器的训练,可以从学习到的共享表示中重构出两种模态,进而发现跨模态之间的关联。

作者联合训练多模变分自编码器和一个分类器来进行假新闻检测。

本文模型仅使用新闻的内容信息,包括文本和图像内容,不使用社交信息或事件相关的信息。

3 模型

3.1 模型概览

MVAE的基本思想是学习到文本和图片两种模态的统一表示。MVAE的整体架构如图 2所示,由3部分组成:

(1)编码器:将文本和图像的信息编码成隐层向量;

(2)解码器:从隐层向量重构出原始的图像和文本;

(3)假新闻检测器:使用学习到的共享表示(隐层向量)来预测新闻是否为假。

3.2 编码器

输入为帖子的文本和图片,输出为从两个模态学习到的特征的共享表示。编码器可分为两部分:1)文本编码器;2)视觉编码器。

(1)文本编码器

文本编码器的输入是帖子中的单词序列T=[T1,T2,...,Tn]T=[T_1, T_2, ...,T_n ]T=[T1​,T2​,...,Tn​],nnn为单词数量。每个单词Ti∈TT_i\in TTi​∈T都用一个词嵌入向量表示。词嵌入向量是在给定的数据集上进行无监督的预训练得到的。

使用LSTM,令[h1,h2,...,hn][h_1, h_2, ..., h_n][h1​,h2​,...,hn​]表示LSTM的状态,状态更新满足如下的等式:

其中,ft,it,otf_t, i_t, o_tft​,it​,ot​分别表示遗忘门、输入门和输出门;xtx_txt​表示输入;hth_tht​表示时间ttt时的隐状态。三个门控制了整个序列的信息流。

作者使用堆叠的Bi-LSTM抽取文本特征。通过拼接前向和后向的状态,得到LSTM最后的隐状态。然后将LSTM的输出传递给一个全连接层,以得到文本特征。


(2)视觉编码器

使用再ImageNet数据集上进行了预训练的VGG-19网络,并使用全连接层(FC7)的输出。在联合训练过程中,将VGG网络的参数固定以避免参数爆照。最后,将VGG的输出通过多个全连接层(enc vis fc*)以得到和文本表示维度一致的图像表示。


(3)文本特征和视觉特征的融合

将文本特征表示RTR_TRT​和视觉特征表示RVR_VRV​拼接,输入到全连接层以形成共享的表示。然后从共享的表示中得到μ\muμ和σ\sigmaσ两个向量,可分别视为共享表示分布的均值和方差。同时从之前的分布中采样出一个随机变量ϵ\epsilonϵ。最终参数化的多模表示为RmR_mRm​,计算如下:


我们将编码器定义为Genc(M,θenc)G_{enc}(M, \theta_{enc})Genc​(M,θenc​),其中θenc\theta_{enc}θenc​表示编码器中所有需要学习的参数,MMM表示多媒体帖子的集合。因此,对于多媒体帖子mmm,编码器输出的多模态表示为:

3.3 解码器

和编码器结构相似但是是反过来的。解码器的目的是从采样的多模态表示中重构出数据。和编码器一样,解码器分为两部分:1)文本解码器;2)视觉解码器。

(1)文本解码器

将多模态表示作为输入,重构出文本中的单词。将多模态表示传递给一个全连接层(dec text fc),以生成Bi-LSTM的输入。然后使用和编码器相似的Bi-LSTM。最后将LSTM的输出传递给有softmax激活函数的全连接层,以得到该时间步每个单词的概率。


(2)视觉解码器

视觉解码器的目标是从多模态表示中重构出VGG-19的特征。将多模表示传递给多个全连接层(dec vis fc*)来重构出VGG-19的特征。

我们将解码器定义为Gdec(Rm,θdec)G_{dec}(R_m, \theta_{dec})Gdec​(Rm​,θdec​),其中θdec\theta_{dec}θdec​表示解码器中的所有参数。因此,对于多媒体帖子mmm,解码器的输出由两部分组成:1)概率矩阵,表示每个单词在文本每个位置的概率;2)重构的VGG-19特征,r^vggm\hat{r}_{vgg_{m}}r^vggm​​。


VAE模型的训练损失是重构损失以及KL散度损失。对于文本的重构,使用交叉熵损失;对于图像特征的重构,使用均方误差(mean squared error)。两个概率分布间的KL散度,衡量了他们互相之间的偏离程度。最小化KL散度意味着优化概率分布的参数μ\muμ, σ\sigmaσ,使其接近目标分布(正态分布)。上述损失计算如下:

其中,MMM表示一组多媒体帖子;nvn_vnv​是VGG-19特征的维度;ntn_tnt​是文本中单词的数量;nmn_mnm​是多模态特征的维度;CCC是词表大小。

通过寻找最优的参数θ^enc\hat{\theta}_{enc}θ^enc​和θ^dec\hat{\theta}_{dec}θ^dec​,来最小化VAE损失:

3.4 假新闻检测器

将多模态表示作为输入,目的是对帖子进行真假分类。假新闻检测器由多个全连接层和相应额激活函数构成。我们将假新闻检测器定义为Gfnd(Rm,θfnd)G_{fnd}(R_m, \theta_{fnd})Gfnd​(Rm​,θfnd​),其中θfnd\theta_{fnd}θfnd​表示所有的参数。假新闻检测器的输出是,多媒体帖子mmm是假新闻的概率:

分类损失为交叉熵:

其中,MMM表示一组多媒体帖子,YYY表示ground truth labels。寻找最合适的参数θ^fnd\hat{\theta}_{fnd}θ^fnd​和θ^enc\hat{\theta}_{enc}θ^enc​,以最小化分类损失。

3.5 将损失合并

联合训练VAE和假新闻检测器,因此最终的损失如下:

4 实验

(1)数据集

1)Twitter Dataset

数据集由tweet组成,每个tweet有文本内容,图像/视频,以及相关的社交上下文信息。作者过滤掉了有视频信息的帖子。

C. Boididou, S. Papadopoulos, D.-T. Dang-Nguyen, G. Boato, M. Riegler, S. E. Middleton, A. Petlund, Y. Kompatsiaris et al., “Verifying multimedia use at mediaeval 2016.” in MediaEval, 2016.

2)Weibo Dataset

从2012年5月到2016年1月的微博谣言数据,并且被微博官方谣言检测系统所证实。

Z. Jin, J. Cao, H. Guo, Y. Zhang, and J. Luo, “Multimodal fusion with recurrent neural networks for rumor detection on microblogs,” in Proceedings of the 2017 ACM on Multimedia Conference. ACM, 2017, pp. 795–816.

(2)实验结果

5 总结

本文解决的是多模态假新闻检测任务。为了克服已有模型的局限性,作者提出了多模态变分自编码器,学习到了共享(visual + textual)的表示,从而学习到了不同模态间的关联。

本文提出的MVAE模型由3部分组成:编码器;解码器;假新闻检测器。

实验结果显示超越了SOTA方法。

未来工作:利用tweet传播数据和用户特征。

参考文献

[1] Zhiwei Jin, Juan Cao, Han Guo, Yongdong Zhang, and Jiebo Luo. 2017. Multimodal fusion with recurrent neural networks for rumor detection on microblogs. In Proceedings of the 2017 ACM on Multimedia Conference. ACM, 795–816.

[2] Yaqing Wang, Fenglong Ma, Zhiwei Jin, Ye Yuan, Guangxu Xun, Kishlay Jha, Lu Su, and Jing Gao. 2018. EANN: Event Adversarial Neural Networks for Multi-Modal Fake News Detection. In Proceedings of the 24th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. ACM, 849–857.

【论文解读 WWW 2019 | MVAE】Multimodal Variational Autoencoder for Fake News Detection相关推荐

  1. 论文解读 Receptive Field Block Net for Accurate and Fast Object Detection

    其它机器学习.深度学习算法的全面系统讲解可以阅读<机器学习-原理.算法与应用>,清华大学出版社,雷明著,由SIGAI公众号作者倾力打造. 书的购买链接 书的勘误,优化,源代码资源 PDF全 ...

  2. 【论文解读 ICDM 2019 | MVNN】Exploiting Multi-domain Visual Information for Fake News Detection

    论文题目:Exploiting Multi-domain Visual Information for Fake News Detection 论文来源:ICDM 2019 论文链接:https:// ...

  3. 【论文解读 AAAI 2019 | UFD】Unsupervised Fake News Detection on Social Media: A Generative Approach

    论文题目:Unsupervised Fake News Detection on Social Media: A Generative Approach 论文来源:AAAI 2019 论文链接:htt ...

  4. 【论文解读 ASONAM 2019】Semi-Supervised Learning and Graph Neural Networks for Fake News Detection

    论文题目:Semi-Supervised Learning and Graph Neural Networks for Fake News Detection 论文链接:https://ieeexpl ...

  5. 【论文翻译 虚假新闻检测综述 KDD 2017】Fake News Detection on Social Media: A Data Mining Perspective

    论文题目:Fake News Detection on Social Media: A Data Mining Perspective 论文来源:KDD 2017 美国亚利桑那州立大学, 美国密歇根州 ...

  6. 【论文解读IJCAI 2019】Extracting Entities and Events as a Single Task Using a Transition-Based NeuralModel

    论文题目:Extracting Entities and Events as a Single Task Using a Transition-Based Neural Model 论文来源:IJCA ...

  7. 【论文解读 WWW 2019 | HAN】Heterogeneous Graph Attention Network

    论文题目:Heterogeneous Graph Attention Network 论文来源:WWW 2019 论文链接:https://arxiv.org/abs/1903.07293v1 代码链 ...

  8. 【论文解读 ACL 2019 | PLMEE】Exploring Pre-trained Language Models for Event Extraction and Generation

    论文题目:Exploring Pre-trained Language Models for Event Extraction and Generation 论文来源:ACL 2019 国防科技大学 ...

  9. 【论文解读 IJCAI 2019 | ActiveHNE】Active Heterogeneous Network Embedding

    论文链接:https://arxiv.org/abs/1905.05659 来源:IJCAI 2019 文章目录 1 摘要 2 介绍 2.1 挑战 2.2 作者提出 2.3 贡献 3 The Acti ...

最新文章

  1. python版本的服务器
  2. 李洪强iOS经典面试题36-简单介绍 ARC 以及 ARC 实现的原理
  3. javascript错误处理与调试
  4. 计算机的硬盘和光盘数,磁盘与光盘介绍-计算机组成原理与汇编语言-电子发烧友网站...
  5. qtableview点击行将整行数据传过去_可以实时获取数据的Database Asset插件
  6. mysql主从配置_MySQL主从配置详解
  7. arcmap常见错误及常用操作(待补充)
  8. VC++工作笔记0001---积累-vc中m_开头的意义
  9. WP8多分辨率解决方案
  10. Centos7安装java运行环境
  11. MYSQL登录和常见命令
  12. 求ax2+bx+c=0方程的解,要求(1) a=0,不是二次方程。(2) b2-4ac=0,有两个相同的实根。(3)b2-4ac>0,有两个不等的实根。(4)b2-4ac<有两个共轭的复根
  13. apache网站漏洞修复解决办法
  14. 面试题:给定一个数组,数组中只包含0和1。请找到一个最长的子序列,其中0和1的数量是相同的
  15. 除了霸王洗发水,还能怎么拯救程序员的发际线?
  16. 对计算机接口提出的新要求吗,2017年秋微机原理与接口技术
  17. 笑傲江湖java_笑傲江湖
  18. 【Android TV】Android 8.0下 ,TV系统通知音失效
  19. java b2c_java servlet开发B2C购物商城源代码下载
  20. 腾讯域名防封 微信/QQ域名检测,域名防封的原理

热门文章

  1. 理解假设检验: 统计学意义上的显著性水平 (Alpha) 和P值
  2. 实验三 数据库完整性技术
  3. 嵩天python爬虫百度云盘_基于MOOC嵩天《Python网络爬虫与信息提取》视频学习记录——第一周:requests库...
  4. Camera摄像头模组硬件
  5. 英国AI研究员揭开真相,中国人工智能为何能发展迅速?
  6. NBA得分后卫阅兵:科比榜首麦蒂第9 小AI获至高赞誉
  7. Cesium通过primitives绘制大数据量扇形图
  8. Linux识别不了希捷移动硬盘,希捷(Seagate)移动硬盘无法识别怎么办?
  9. php毕设代做,客户管理系统,java,jsp,php,好毕设为你指导如何完成一个客户管理系统...
  10. GBase xdm产品特点