系列文章目录

  1. 谣言检测文献阅读一—A Review on Rumour Prediction and Veracity Assessment in Online Social Network
  2. 谣言检测文献阅读二—Earlier detection of rumors in online social networks using certainty‑factor‑based convolutional neural networks
  3. 谣言检测文献阅读三—The Future of False Information Detection on Social Media:New Perspectives and Trends
  4. 谣言检测文献阅读四—Reply-Aided Detection of Misinformation via Bayesian Deep Learning
  5. 谣言检测文献阅读五—Leveraging the Implicit Structure within Social Media for Emergent Rumor Detection
  6. 谣言检测文献阅读六—Tracing Fake-News Footprints: Characterizing Social Media Messages by How They Propagate
  7. 谣言检测文献阅读七—EANN: Event Adversarial Neural Networks for Multi-Modal Fake News Detection
  8. 谣言检测文献阅读八—Detecting breaking news rumors of emerging topics in social media
  9. 谣言检测文献阅读九—人工智能视角下的在线社交网络虚假信息 检测、传播与控制研究综述
  10. 文献阅读十——Detect Rumors on Twitter by Promoting Information Campaigns with Generative Adversarial Learn

文章目录

  • 系列文章目录
  • 前言
  • 1、Introduction
  • 2、相关工作
  • 3、神经网络和激活函数
    • 3.1 卷积神经网络
    • 3.2 CFNet
  • 4、本文提出的方法
    • 4.1 输入向量化
      • 4.1.1 预处理
      • 4.1.2 语言向量化
      • 4.1.3 时间和结构向量化
    • 4.2 双CNN模块
      • 4.2.1 Input layer
      • 4.2.2 卷积层
        • 4.2.2.1 激活功能
      • 4.2.3最大池化层
      • 4.2.4 全连接层
      • 4.2.5 初始化和训练
        • 4.2.5.1 权重更新
        • 4.2.5.2 损失函数
    • 4.3组合器模块
  • 5、实验评价
    • 5.1 数据集
    • 5.2 比较方法
    • 5.3 实验设置
    • 5.4 实验表现

前言

文章:Earlier detection of rumors in online social networks using certainty‑factor‑based convolutional neural networks
发布期刊:Social Network Analysis and Mining
时间:2020年10月20日


1、Introduction

谣言定义:指的是故意虚假的信息或声明,或其真实价值在传播时无法验证的信息或声明
使用模型:双卷积神经网络(DCNN),使用两个CNN进行训练,然后通决策树通过两个CNN的结果得出最终的结果。
分类等级:对于事件(event)进行判断,判断该事件是否是谣言
考虑特征:1、语言:帖子的内容
     2、时间:受post影响的人数和感染概率
     3、结构:节点(用户)的度数(邻居的数量)、传播树的深度
相关公式定义:用户:VVV
       事件集合:E={ei}E=\left \{e_{i} \right \}E={ei​}
       时间间隔:τ\tauτ
       无向图:G=(V,Lτ)G=\left ( V,L^\tau \right )G=(V,Lτ),LτL^\tauLτ用户VVV在τ\tauτ时间段内的(lingks/edges)
       帖子:Pi={p1,p2,⋯,pm}P_i=\left \{ p_1,p_2,\cdots ,p_m \right \}Pi​={p1​,p2​,⋯,pm​},事件eie_iei​在时间τ\tauτ内的帖子集合
       帖子的时间特征:Ti={t1,t2,⋯,tm}T_i=\left \{ t_1,t_2,\cdots ,t_m \right \}Ti​={t1​,t2​,⋯,tm​}
       用户\结构特征:Ui={u1,u2,⋯,um}U_i=\left \{ u_1,u_2,\cdots ,u_m \right \}Ui​={u1​,u2​,⋯,um​}
所以,每个事件表示为:ei={Pi,τ,Ti,Ui}(1)e_i=\left \{ P_i,\tau,T_i,U_i \right \}\tag {1}ei​={Pi​,τ,Ti​,Ui​}(1)
谣言检测模型判断结果:
R(ei)={1ifeiisrumor0otherwise(2)R\left ( e_i \right )=\left\{\begin{matrix} 1 & if\ e_i\ is\ rumor\\ 0 & otherwise \end{matrix}\right.\tag {2} R(ei​)={10​if ei​ is rumorotherwise​(2)
模型其他相关信息:使用基于 CFNet 的激活函数

文章的创新点:

  • 一种新颖的输入向量化方法,可对语言、时间和结构信息进行向量化。
  • 一种新颖的分类模型采用两个并行的 CNN 处理输入向量和一个决策树来组合 CNN 的并行输出。
  • 在 CNN 中使用基于 CFNet 的激活函数而不是 sigmoid 激活函数,以确保更早地检测谣言事件。

文章的贡献

  • 使用段落矢量化和子图矢量化方法对与事件相关的时间间隔内的帖子集和相关的时间信息以及用户信息进行矢量化。这样,输入向量化产生两个不同的向量。
  • 提出了一种以CFNet为激活函数的双CNN分类方法,用于谣言事件的早期检测。这里,DCNN接受其中一个CNN中有时间限制的事件帖子,并接受另一个CNN中相关的时间和用户特定信息作为输入。
  • 嵌入一个决策树来组合和使用CNN的输出来生成最终的分类结果
  • 四个真实世界的数据集被用于使用DCNN对谣言事件进行分类,并与其他最先进的方法进行比较。

2、相关工作

谣言检测难点:

  • 短文
  • 创造性的词汇变化和大量的信息流
  • 大量的信息
  • 对单个事件有不同观点的各种消息
  • 更快地传播虚假信息,在正确的时间无法获得真实信息

之前的一些工作:
  列举了一些之的工作,列举了很多基于传统机器学习进行判断的文章,例如基于随机森林进行判断,其中有一篇是基于新闻连线和虚假反馈(Qin 2016),在没有其他的相关信息的时候,这个方法能得到较好的效果,然后有列举了一些使用深度学习进行谣言检测方法,使用传播树、内容等进行谣言检测。

3、神经网络和激活函数

3.1 卷积神经网络

介绍了一下卷积神经网络的基本概念

3.2 CFNet

  CFNet是一种基于确定性因子模型而非一般Sigmoid函数的激活函数。
  确定性因素是指前因介词对后因介词的影响程度。确定性因素取值范围为[− 1, 1]. 在确定性因素模型中,每个介词的置信水平决定了最终规则。+1.0表示先行介词确认后置介词,而− 1.0表示后接介词肯定是错误的。( + 1.0 indicates the antecedent preposition and truly confirms the consequent preposition, whereas − 1.0 indicates consequent preposition and is definitely false)0.0表示前置介词,对后置介词没有影响。
例如:
  CFNet 的激活函数是正负结合的加权特征提取方法。正权特征提取对激活函数有积极影响,而负权特征提取对给定层的整体激活有不利影响。训练集的权重更新可以是反向传播或前向传播方法。从神经网络的各种实验中,Fu 发现 CFNet 激活函数比传统的 sigmoid 激活函数更有效地对输入进行分类,增加了泛化能力。

  具有特征 f 的假设 h 上的确定性因子 CF 激活函数等于对具有确认特征和非确认特征f−f^-f−的假设 h 的信任MbM_bMb​ 的度量和不信任 MdM_dMd​的和。MbM_bMb​ 和MdM_dMd​分别计算为确认特征和非确认特征的总和。

4、本文提出的方法

双卷积神经网络:

  • 将特定事件的帖子和相关信息转换为 CNN 的输入向量
  • 构建/训练双 CNN 模型进行预测
  • 使用决策树将 CNN 的输出分类为谣言与否
    DCNN结构图如下:
      DCNN 模块将一组与事件相关的帖子作为输入,考虑分类任务的语言、时间和结构特征。帖子的语言部分被单独提取并使用 PV-DM (转换为向量,这是一种无监督学习方法。 PV-DM 将段落的单词转换为向量,以馈入其中一个 CNN。使用 subgraph2vec 将时间和结构特征组合并转换为向量,这是一种无监督的有根子图向量方法,用于输入另一个 CNN。两个 CNN 的结果概率值随后被输入决策树以获得结果。决策树充当组合器模块,它从两个 CNN 获取输入并推断事件是否是谣言。

4.1 输入向量化

  输入是一组与事件 eee相关的大小为 mmm 的帖子,其中每个帖子都是由实际消息组成的元组,包括与帖子相关的时间和用户信息。该方法将特定时间范围内的post元组转换为 CNN 的输入向量。具体来说,元组的post部分转换为向量 vpv_pvp​,并且各自的时间和结构信息被转换为另一个向量 vtuv_{tu}vtu​,以便在对偶 CNN 中进行并行处理。
  收集指定时间间隔内与事件相关的所有帖子,并将其转换为可变长度向量,成为神经网络的输入之一。以同样的方式,通过利用第一个输入的帖子的相应时间和结构信息来对另一个输入进行矢量化。

4.1.1 预处理

LDA 聚类算法,根据时间框架对事件相关的帖子进行分组。

实际上就是将对应的帖子分到对应的事件中,现在有根据事件分好的数据集(本文所使用的数据集不是按照事件分好的)。

4.1.2 语言向量化

  采用PV-DM进行语言向量化,PV-DM是一个无监督学习框架,通过考虑单词在输入中的语义位置,将输入文本、段落或文档转换为可变长度向量。PV-DM分两个阶段使用分布式内存从段落构造向量:

  • 第一 阶段 ,词向量模型采用词序列 w1、w2、...、wNw_1、w_2、...、w_Nw1​、w2​、...、wN​ 和段落标记 DDD 来最大化平均对数概率。段落标记充当缺少上下文或段落主题的记忆。
      在第 2 阶段,推理任务是一个多类分类,它识别每个单词的非标准化对数概率。假设其他单词在上下文中,它会预测向量中的单词位置。用于此分类的 Softmax 方程如下所示:
    其中U,bU,bU,b是Softmax参数,hhh是通过词向量的拼接计算出来的。
  • 帖子的重要语义得以保留。
  • PV-DM 可以很好地处理未标记的数据,这不一定需要嵌入词库。
  • 结果向量的维数小于任何其他最先进的方法,例如词袋和n-gram 袋。当这个向量应用于任何神经网络时,这有助于更快的泛化。
  • PV-DM 将帖子集的语言方面转换为可变长度向量。
    PV-DM 的输出是 vpv_pvp​ ,一个向量,CNN1 的输入

4.1.3 时间和结构向量化

  为了将 subgraph2vec 应用于时间和用户特定信息,以及时间图表示,需要附加用户特定的结构信息。
  subgraph2vec 以矩阵形式提取子图的分布式上下文表示。此外,它有两个不同的步骤来提取向量。
  首先,为网络中的每个节点生成一个有根子图。第二个过程学习第一步生成的子图的嵌入。这些嵌入是由有关子图中附加特征的信息组成的向量。
subgraph2vec 优点:

  • 与其他使用随机游走生成上下文的方法不同,subgraph2vec 通过节点的邻居生成上下文。
  • 结构等价的节点也源自这种方法。它是通过将相同局部结构的节点嵌入到相同的空间点来计算的。
  • 一旦从这种方法中学习了嵌入,结果向量可以直接作为输入提供给 CNN,无需任何修改
      Subgraph2vec 方法学习给定子图的时间和用户信息的嵌入,并将其提取为矩阵格式以便于计算。在这种情况下,提供 TUiTU_iTUi​作为子图学习算法的输入。
    PV-DM 和 subgraph2vec 详细算法过程如下:

4.2 双CNN模块

4.2.1 Input layer

vpv_pvp​和vtuv_{tu}vtu​

4.2.2 卷积层


写的公式很复杂,但是实际上就是将前一层的卷积的结果输入到CF激活函数中

4.2.2.1 激活功能

CFNet激活函数:



aia_iai​为正值,bib_ibi​为负值。

4.2.3最大池化层

也是写了一个奇奇怪怪的公式,但是就是最简单的最大池化,然后根据l=2,4...l=2,4...l=2,4...和(10),网络的结构应该是:卷积->CFNet->Max-pooling->卷积->CFNet->Max-pooling->…

4.2.4 全连接层

  Softmax用于预测作为输出的输出类[1,K]的概率分布。前一层的x输出特征(权重为w,偏差为b)应用于完全连接的层。

4.2.5 初始化和训练

优化器:Adadelta
正则函数:l2−normregularizationl_2-norm\ regularizationl2​−norm regularization
初始化权重:标准差为 0.01 的零均值高斯分布初始化,卷积层和全连接层的偏差初始化为 1,用于学习早期的正特征过滤,池化层的偏差初始化为 0
其他:dropout 方法

4.2.5.1 权重更新

就是使用反向传播方法更新参数。

4.2.5.2 损失函数

平方损失函数

4.3组合器模块

  决策树使用CART,树构造是CART中的自顶向下实现。在分类任务中采用简单的基尼系数索引法。基尼系数是一种基于杂质的标准,在给定标签分布的情况下,用来衡量随机选择的输入被放置在不正确标签中的概率。对于包含m个类的数据集D,基尼指数可以定义为:

  pjp_jpj​是类jjj在数据集DDD中出现的频率。CART是一个二进制分割分类器,它具有处理离群值和缺失属性的内置特性。基尼系数是一种非参数的索引方法,可以采用数值和分类的数据,是一种相对自动化的方法。

5、实验评价

5.1 数据集

5.2 比较方法

  • RF-P:随机森林分类器(Kwon et al. 2013)
  • CAMI (Yu et al. 2017):这是一种基于卷积神经网络的方法,用于早期检测谣言。
  • RvNN (Ma等人2018b): RvNN是一种基于递归神经网络的识别谣言的方法。
  • CallAtRumors (Chen et al. 2018):这是一种使用循环神经网络对谣言进行分类的事件级谣言检测方法。

5.3 实验设置

  对于所有的数据集:实验中使用了五层CNN——两个卷积层,每个层一个池化层,最后一个全连接层。超参数设置如下:滑动窗口大小设为3、4、5,各100个feature map, dropout rate设为0.5,l2l_2l2​归一化率设为3。每个输入的批大小设置为50个tweet。

5.4 实验表现




  在 DCNN 中,在分类的初始迭代期间识别出的谣言百分比高于其他竞争方法。这意味着当输入数据稀疏时,DCNN 比竞争方法更有效地发现谣言。从这些图中可以看出,所提出的方法是在谣言检测任务的早期阶段发现谣言事件,因为 DCNN 在数据稀疏的情况下表现良好。它证明了 DCNN 可以应用于现实世界中的早期谣言检测。

谣言检测文献阅读二—Earlier detection of rumors in online social networks using certainty‑factor‑based convolu相关推荐

  1. 谣言检测文献阅读四—Reply-Aided Detection of Misinformation via Bayesian Deep Learning

    系列文章目录 谣言检测文献阅读一-A Review on Rumour Prediction and Veracity Assessment in Online Social Network 谣言检测 ...

  2. 谣言检测文献阅读十二—Interpretable Rumor Detection in Microblogs by Attending to User Interactions

    系列文章目录 谣言检测文献阅读一-A Review on Rumour Prediction and Veracity Assessment in Online Social Network 谣言检测 ...

  3. 谣言检测文献阅读三—The Future of False Information Detection on Social Media:New Perspectives and Trends

    系列文章目录 谣言检测文献阅读一-A Review on Rumour Prediction and Veracity Assessment in Online Social Network 谣言检测 ...

  4. 谣言检测文献阅读六—Tracing Fake-News Footprints: Characterizing Social Media Messages by How They Propagate

    系列文章目录 谣言检测文献阅读一-A Review on Rumour Prediction and Veracity Assessment in Online Social Network 谣言检测 ...

  5. 谣言检测文献阅读一A Review on Rumour Prediction and Veracity Assessment in Online Social Network

    系列文章目录 谣言检测文献阅读一-A Review on Rumour Prediction and Veracity Assessment in Online Social Network 谣言检测 ...

  6. 细胞亚器文献阅读二~An ER-Mitochondria Tethering Complex Revealed by a Synthetic Biology Screen

    细胞亚器文献阅读二~An ER-Mitochondria Tethering Complex Revealed by a Synthetic Biology Screen 通过合成生物学筛选ER和Mi ...

  7. 文献阅读十——Detect Rumors on Twitter by Promoting Information Campaigns with Generative Adversarial Learn

    系列文章目录 谣言检测文献阅读一-A Review on Rumour Prediction and Veracity Assessment in Online Social Network 谣言检测 ...

  8. 谣言检测文献精读——13.2020-A Graph Convolutional Encoder and Decoder Model for Rumor Detection

    这篇文章解决的问题 作者提出,之前的工作大多专注于文本挖掘和学习文本的语义特征,他们忽略了学习谣言的传播.之前有方法使用RvNN,与标准RvNN不同的是,输入是一个从源文章而不是解析树根的传播树,每个 ...

  9. 自动谣言检测综述分享——Automatic Rumor Detection on Microblogs: A Survey

    谣言检测方法可以分为三类:基于人工特征的分类方法.基于传播的方法和基于神经网络的方法. 1 问题定义 谣言的定义 谣言的传统定义来源于社会心理学[27].也就是说,谣言是一种未经证实的说法,广泛传播, ...

最新文章

  1. win10 安装xilinx 14.7 之后打开new project 奔溃解决方法
  2. hibernate--
  3. 输入引脚时钟约束_最强干货分享 | 时钟树例外(exclude pin、stop pin、non_stop pin、float pin)...
  4. 8.2捷联惯导算法仿真 代码整理分析(二)
  5. MySQL数据库教程之十四:MySQL触发器
  6. linux如何部署btsync同步?
  7. 使用js实现百度地图与高德地图经纬度的转换
  8. Latex常见符号对照表
  9. 【ARM汇编】打印金字塔 | 打印倒三角
  10. 前端自适应图片留白解决
  11. 【网页设计】基于HTML在线商城购物项目设计与实现-----电脑商城6页带视频 带报告3000字
  12. 第十六章: 请多一点
  13. 如何快速掌握 Python 数据采集与网络爬虫技术
  14. Xilinx原语的使用
  15. WebRTC本地分享屏幕,录制屏幕
  16. 读秀数据库的用法+全国图书馆参考咨询联盟
  17. 开源方案搭建可离线的精美矢量切片地图服务-7.Arcgis Pro企业级应用
  18. 别再问我做一个网站多少钱了!
  19. # 超酷的7个JavaScript学习网站
  20. 从windows进入服务器

热门文章

  1. 9000+字,唠唠架构中的设计模式
  2. com.fasterxml.jackson.databind.exc.InvalidDefinitionException: Cannot construct instance of `com.zha
  3. mysql/mariadb 进阶知识之表设计和查询
  4. Java 使用wps将word文件转换pdf文件
  5. OA开发很简单 OA实施很复杂
  6. Vue修改网页浏览器标签的标题和图标
  7. Mac系统解决ERROR 2002 (HY000): Can‘t connect to local MySQL server through socket ‘/tmp/mysql.sock‘方法
  8. 采用路缘石成型机在公路建设中与人工调整两相配合
  9. MySQL-SQL语句命令
  10. Linux系统查看mq死信队列,MQ死信队列中持续出现本地系统对象产生的数据