文章目录

  • 1、虚假新闻检测的相关简介
  • 2、本篇论文引言
  • 3、模型介绍
    • 3.1、内生偏好编码器
    • 3.2、外生内容编码器
    • 3.3、二者信息融合
  • 4、实验
    • 4.1、各模型的实验结果
    • 4.2、消融实验
  • 5、结论

此文章为NLP的分支方向:虚假新闻检测方面的论文阅读笔记,此系列会对2021年各大知名会议的论文进行个人解读,如有错误还请指正。

1、虚假新闻检测的相关简介

作为第一篇关于虚假新闻检测方面的论文,我先简单介绍一下相关概念。虚假新闻检测属于一个二分类任务,需要根据给定的新闻内容、相关用户的评论、转发关系、文章所引用图片等相关特征对新闻本身做出判断:该新闻是否为假新闻?

因为假新闻相较于真新闻往往有一些突出的特征,如行文方式(可从新闻内容中提取)、新闻传播方式(假新闻往往在短时间内传播较快、传播范围较广,此特征可利用图神经网路来提取)、参与用户的社会背景(如年龄、性别、教育和政治派别,社会网络结构)等。这里推荐一篇文章相对概述性的文章:https://zhuanlan.zhihu.com/p/57124028。据此可将现有的假新闻检测方法可以分为基于内容基于社会背景基于传播的三大类。

然这三种方法又各有优劣,所以通常在论文中会被作者混合使用并在此基础上添加创新点。如基于内容的方法依赖于语言学(词汇和句法)特征,可以捕捉欺骗线索或写作风格。主要缺点是,当其足够复杂时不会立即被视为假新闻。此外,大多数语言特征是依赖于语言的,这限制了这些方法的通用性。基于传播的特性很可能跨不同的语言、地区和地理区域进行概括,而基于内容的特性则必须为每种语言分别开发。(这里只属于个人理解范围,缺漏之处还请指正)

2、本篇论文引言

此论文收录于2021SIGIR,名为User Preference-aware Fake News Detection(用户偏好感知假新闻检测,简称为UPFD),首先解释下这里的用户偏好感知的意思:当一条假新闻证实了用户的现有信念/偏好时,用户更有可能传播这条假新闻。例如,认为选举舞弊的用户可能会以支持的立场分享类似的新闻。以此为突破点,在基于文本内容和基于传播的方法基础上,添加了用户偏好的表示便该作者所提出的模型UPFD。

3、模型介绍

整体如下:可将其大致分为三个部分,①内生偏好编码器 ②外生内容编码器 ③二者信息融合的部分,最后将得到的News Embedding(新闻嵌入)通过二分类器得到最终的判断结果。

3.1、内生偏好编码器

在此部分会得到新闻内容、相关用户的偏好表示,将这两部分进行拼接得到news Texual
Embedding(新闻文本嵌入)。

  • 相关用户的偏好表示
    首先在 FakeNewsNet 数据集中找到该新闻对应的用户在twitter上的社交参与信息,根据此信息在twitter上爬取200个他们之前发过的帖子,共得到2000w的推文。对于已被注销(不可访问)的用户,使用随机抽样可访问用户的推文来代替,同时控制变量使这些抽取的用户参与的新闻与其相应的历史帖子相同。这里用了两种预训练模型:word2vec 在spaCy语料库选取68w单词的预先训练向量,合并该用户的200条帖子再对其向量进行平均以获得用户偏好表示。对于BERT模型,将对200条历史推文分别进行编码再进行平均得到偏好表示。
  • 新闻内容的向量表示
    在两个模型中直接编码即可。

3.2、外生内容编码器

在此部分我们利用图神经网络得到新闻的传播路径对应的图嵌入。

我们按照时间顺序构建传播图,其中根节点v1表示新闻片段,其他节点{v2,…,vn}表示共享根新闻的用户,树形关系则表示用户之间的转发关系。还记得上一步部分对不可访问的用户推文进行了随机抽取来做代替,实际上其主要目的是为了配合融合部分,防止直接删除破坏传播图的级联关系(将该用户删掉则其子节点的用户也会被删除)

3.3、二者信息融合

此部分的目的是将3.1和3.2得到的内容进行融合,得到User Engagement Embedding(用户参与嵌入)。融合主要包含两个部分,如下:
已知在3.1得到了新闻内容、以及用户的偏好表示,在3.2我们构建出了新闻的传播图:其中根节点v1表示新闻片段,其他节点{v2,…,vn}表示共享根新闻的用户。所以在这部分将对应的新闻内容、用户的偏好表示作为节点的特征向量,使传播图融合用户及新闻的信息。经络两层图卷积层后在经过readout函数,readout函数对所有节点嵌入进行平均池操作,得到图嵌入(即User Engagement Embedding)。

其次,由于新闻内容通常包含了关于新闻可信度的更明确信号,所以我们将新闻文本嵌入和用户参与嵌入串联起来作为最终的新闻嵌入,来丰富新闻嵌入信息(实际上就是加大了文本嵌入的所占权重)

4、实验

4.1、各模型的实验结果

先上结果,其测试了两种情况:(1)只利用新闻文本嵌入 (2)新闻文本嵌入+用户参与嵌入

当只利用新闻文本嵌入时,测试了四种文本编码器。通过在两个数据集上的结果可观察到word2vec和bert的平均效果更好。实际上由于bert可以利用上下文的语义信息应该比word2vec(未利用上下文,只是简单的字典对照来获得向量表示)表现更好,而此处的结果却是word2vec表现更好,令人困惑。

利用新闻文本嵌入+用户参与嵌入时,控制得到新闻文本嵌入的编码器为bert(后面会解释为什么使用bert),对得到图嵌入的部分测试了三种模型,其介绍如上(ps. UPFD为该论文提出的模型)。建议在原论文的链接处找到提出这两个模型的原论文加深理解。对比个模型的结果见上图小字部分。

4.2、消融实验

(1)改变图神经网络的结构,并测试各种节点特征的表现情况。对比Profile和word2vec两行可得出使用用户偏好作为节点特征比使用用户资料信息表现更好,对比word2vec、bert两行可得到使用bert作为文本编码器的效果更好。

(2)改变UPFD的框架,并在两个数据集上进行测试如下:

5、结论

使用用户的历史帖子作为偏好表示,并将其作为图神经网络的节点特征可提高假新闻的检测效果。

虚假新闻检测的论文阅读笔记——sigir2021:User Preference-aware Fake News Detection相关推荐

  1. 谣言检测相关论文阅读笔记:PAKDD2020-SAFE: Similarity-Aware Multi-Modal Fake News Detection

    目录 Abstract 1.Introduction 2.Related Work 3.Methodology 3.1 Multi-modal Feature Extraction 3.2 Modal ...

  2. 造球粒径检测算法论文阅读笔记

    造球粒径检测算法论文阅读笔记 1.图像感兴趣区域的划分 2.生球区图像高斯滤波 3.生球区域与阴影区域的分割 4.对生球区域的分类标记(区分上下层球) 1.图像感兴趣区域的划分 依据光照的不同,将图像 ...

  3. keras cnn注意力机制_2019 SSA-CNN(自注意力机制)目标检测算法论文阅读笔记

    背景 <SSA-CNN Semantic Self-Attention CNN for Pedestrian Detection>是2019 的工作,其作者来自于南洋理工.这篇文章主要是做 ...

  4. 谣言检测相关论文阅读笔记:Towards Multi-Modal Sarcasm Detection via Hierarchical Congruity Modeling

    Towards Multi-Modal Sarcasm Detection via Hierarchical Congruity Modeling with Knowledge Enhancement ...

  5. 弱监督目标检测相关论文阅读笔记

    弱监督目标检测论文相关 1.传统目标检测 2014年之前->传统的目标检测器:VJ检测器->HOG检测器->DPM 2014年之后->基于深度学习的目标检测器: 双阶段:RCN ...

  6. 【目标检测论文阅读笔记】Feature-Enhanced CenterNet for Small Object Detection in Remote Sensing Images

    Abstract: 与 anchor-based基于锚点的检测器相比,anchor-free无锚点检测器 具有灵活性和较低计算复杂度的优点.然而,在复杂的遥感场景中,受限的几何尺寸.目标的弱特征 以及 ...

  7. 谣言检测相关论文阅读笔记:DDGCN: Dual Dynamic Graph Convolutional Networks for Rumor Detection on Social Media

    来源:AAAI2022 摘要:现有的谣言检测很少同时对消息传播结构和时序信息进行建模,与评论相关的知识信息的动态性也没有涉及.所以本文提出了一个新颖的双动态图卷积网络-DDGCN,该模型能够在一个统一 ...

  8. 自监督论文阅读笔记 Self-Supervised Pretraining for RGB-D Salient Object Detection

    现有的基于 CNN 的 RGB-D 显著对象检测 (SOD) 网络都需要在 ImageNet 上进行预训练,以学习有助于提供良好初始化的层次特征.然而,大规模数据集的收集和注释既耗时又昂贵.在本文中, ...

  9. 【自监督论文阅读笔记】Efficient Visual Pretraining with Contrastive Detection

    摘要 自监督预训练已被证明可以为迁移学习产生强大的表征.然而,这些性能提升是以巨大的计算成本为代价的,最先进的方法需要比监督预训练多一个数量级的计算量.我们通过引入一个新的自监督目标.对比检测来解决这 ...

最新文章

  1. yield python3 知乎_运维学python之爬虫高级篇(七)scrapy爬取知乎关注用户存入mongodb...
  2. asp.net弹出div层,并把弹出层上的值赋值给界面
  3. 【数字信号处理】序列傅里叶变换 ( 序列傅里叶变换与反变换 | 序列绝对可和 与 存在傅里叶变换之间的关系 | 序列傅里叶变换性质 )
  4. [css] 说下line-height三种赋值方式有何区别?
  5. 一个问题就可以辨别真假NLP(自然语言处理)研究者
  6. QT-lesson1-无边框窗口创建/拖拽/阴影-20190322
  7. bzoj1070 [SCOI2007]修车 费用流+拆分
  8. 一个电脑安装多个系统的几个办法
  9. ssh整合之四单独搭建struts的运行环境
  10. php 抽象类 接口 区别,php中接口、抽象类以及接口和抽象类区别详解
  11. Linux:UDP Socket编程(代码实战)
  12. 计算机软考程序员试题,最全历年程序员软考考试上午真题合集(附答案).doc...
  13. 慎重用EXCEl进行公式拟合!!!
  14. android 免root 免流,安卓无需Root一键免流软件合集,具体哪个能用自测
  15. 阿里云ACA、ACP、ACE认证考试区别,报名入口及模拟试题分享
  16. 网站建设需要学什么?
  17. 当你一个人扛下所有,你就懂了
  18. 浅谈大数据服务平台架构与实践
  19. 小游戏 《唐僧大战白骨精》
  20. 西安外国语大学计算机语言学,2017年西安外国语大学语言学及应用语言学832现代汉语考研题库...

热门文章

  1. APK反编译工具及方法
  2. 测试开发工作者日记:2020.10.19
  3. Android应用开发五大框架,android 五大应用开发框架是什么
  4. Python学习笔记(四)QT开发图形界面总结
  5. 计算机三级数据库填空题,计算机三级数据库填空练习题
  6. CentOS7.5下安装Mycat连接MySQL8.0
  7. 图片文件Exif信息详细说明(转)
  8. 使用树莓派与花生壳作为个人服务器
  9. 日常生活中要怎么记账
  10. 锁相环原理及数字化,用FPGA实现全数字高阶锁相环