虚假新闻检测论文阅读（六）：A Deep Learning Model for Early Detection of Fake News on Social Media

论文标题：A Deep Learning Model for Early Detection of Fake News on Social Media
日期：IEEE2020

#半监督、#伪标签、#可信度评估

一、基本内容

训练一个有监督模型和一个无监督模型，但是该工作不仅利用了新闻内容信息，还利用了用户对新闻的评论信息以及作者的可信度信息，使用的信息更为广泛，从而取得了更好的效果。

二、主要工作

（1）建立一个模型提取用户在评论中表达的观点；
（2）使用CredRank算法评估用户的可信度；
（3）建立一个参与新闻传播的用户的小网络。
以上三个步骤的输出作为新闻分类器SSLNews的输入，SSLNews由三个网络组成：共享的CNN、无监督的CNN和有监督的CNN。

三、模型框架

四个模块：意见提取模块、用户可信度评估模块、用户网络构建模块和分类器

提取回复和用户特征，回复用作意见提取块的输入，用户特征用作可信度评估和网络构建块的输入。将意见提取块的输出和可信度评估块的输出连接起来，连接结果和网络N用作分类器SSLMEWS的输入。

1. Opinion extraction

使用GloVe作为网络的嵌入层，使用tanh作为激活函数。

这一网络的输出评论中表示的意见：1——作者同意给定的推文，0——不同意。

使用Sentiment140训练模型。

2. User’s credibility assessment
使用论文【M. A. Abbasi and H. Liu, “Measuring user credibility in social media,” International Conference on Social Computing, Behavioral-Cultural Modeling, and Prediction, pp. 441-448, 2013】中的（即CredRand算法）模型评估用户可信度。

研究基于用户的特征：
（1）用户账户是否是经过验证的账户；
（2）用户发布的状态数量；
（3）用户的地理定位是否启用；
（4）用户的粉丝数；
（5）用户关注的用户数量。

找到具有相似特征的用户，使用分层聚类方法将相似的用户聚合，用sim(ui,uj)=σ(C(ui),C(uj))sim(u_i,u_j )=σ(C(u_i ),C(u_j))sim(ui,uj)=σ(C(ui),C(uj))确定相似性（C(ui)C(u_i )C(ui)表示用户特征）。

在我们的模型中，使用Jaccard相似度评估用户之间的相似度：sim(ui,uj)=(C(ui)∩C(uj))/(C(ui)∪C(uj))sim(u_i,u_j )=(C(u_i)∩C(u_j))/(C(u_i)∪C(u_j))sim(ui,uj)=(C(ui)∩C(uj))/(C(ui)∪C(uj))。如果相似度超过阈值tautautau（tautautau的值因域而异），则使用上述方法将相似用户聚集在一起。

使用以下公式分配集群的权重：ωCi=∣Ci∣∑j∣Cj∣ωC_i ={{\sqrt{|C_i |}}\over{∑_j \sqrt{|C_j |}}}ωCi=∑j∣Cj∣∣Ci∣，该值表示可信度与成员相关联。

3. User’s network
只考虑发布相关新闻文章n推文的用户的粉丝。网络构建的算法：

UpU_pUp表示发表有关新闻n推文的用户的向量，UrU_rUr表示回复推文的用户的向量。算法复杂度为O(x2)O(x^2)O(x2)。

4. SSLNews

xix_ixi是输入，是之前三个网络（1、2、3）输出结果的连接。标签yiy_iyi仅存在于标记的输入中，仅仅对于这些输入计算交叉熵损失lil_ili。xix_ixi的预测标签是yi′y_i^{'}yi′。lil_ili和li′l_i^{'}li′的优化权重为w(t)w(t)w(t)。

共享CNN的前三个卷积层包含128（3×3）个滤波器，其他三个层包含256（3×3）个滤波器。无监督和有监督CNN的层都使用512（3×3）个滤波器、256（3×3）个滤波器和128（3×3）个滤波器。一个（2×2）最大池化用于所有池化层。
Loss=−1∣B∣∑i∈B∩Slogfsoftmax(zi)[yi]+w(t)∗1C∣B∣∑i∈B∣∣zi−zi′∣∣2Loss=-{1\over |B|} ∑_{i∈B∩S}{logf_{softmax}(z_i )[y_i ] }+{w(t)}*{1\over C|B| }∑_{i∈B} {||z_i-z_i^{'} ||}_2Loss=−∣B∣1∑i∈B∩Slogfsoftmax(zi)[yi]+w(t)∗C∣B∣1∑i∈B∣∣zi−zi′∣∣2
B表示学习过程中的微批量处理，S表示标记的输入集。

四、数据集

现实公开数据集：Politifact和Gossipcop