谣言检测方法可以分为三类:基于人工特征的分类方法、基于传播的方法和基于神经网络的方法。

1 问题定义

谣言的定义

谣言的传统定义来源于社会心理学[27]。也就是说,谣言是一种未经证实的说法,广泛传播,其真实价值未经证实或故意虚假。在这个定义下,一般的谣言被认为是一条信息,其真实性未经验证。未经证实的谣言是指未经权威或可信来源官方证实的信息,例如权威新闻机构或现场目击者。

一般的谣言包括客观谣言和主观谣言。

客观谣言

客观谣言的定义严格等同于经核实的虚假信息。一旦被权威人士证实有虚假或捏造的内容,就会被贴上谣言的标签。这种谣言也被称为“虚假谣言”[15]或“假新闻”。[6][18][20]。

主观谣言

谣言的另一种定义来自于用户的主观判断[11],[13],[17],主观的谣言。这个定义的一个类比是,一个陈述的情感极性通常是根据人们的主观感受来定义的。

场景不同定义有所区别

在不同的场景中,最好采用不同的定义。在社交媒体上,一般谣言经常被用来监控公众对争议事件的看法[28]。一般的谣言可能是名人的八卦,也可能是一种诽谤政治对手的竞选策略[4],它吸引人们传播故事,而不是查明其真实性。一些研究[2]也建议使用这一定义来过滤掉不相关的帖子,然后对剩余的一般谣言的真实性进行分类。主观谣言可以用来理解用户的行为。基于这一定义,Morris等人[29]研究了Twitter上什么样的信息更容易获得公众的信任。客观证实的谣言被广泛用于谣言的自动检测[9],[12],[21],[30],检测验证谣言的方法旨在早期发现虚假信息,从而防止谣言在社交媒体上的危害。

如在新闻领域,重点应该是判断陈述的真实性,即采用客观谣言的定义。

谣言检测任务定义

给定一个新闻故事e,消息集M,用户集U,谣言检测任务的目的是确定这个故事是否可以被证实为真或假,即学习一个预测函数F (e)→{0,1}满足

该定义将谣言检测定义为一项真实性分类任务

2 分类

人工检测

挑战:

  1. 劳动强度大,时间成本高。即使有很好的动机,用户也可能会对标记谣言的密集劳动和原始人工交互的成本感到沮丧。繁重的人力和时间成本是人工标注大规模在线数据的障碍。
  2. 标签质量。与常见的人工交互标注(如在图像分享网站[10]上标注图片)不同,识别一个新的谣言需要更多的领域知识和详细的检查。对于一个新闻专家来说,对一篇新闻进行事实核查并不容易,更不用说非专业用户了。低质量的标签会直接危害谣言的识别,无法满足谣言准确检测的条件。

自动检测

随着社交媒体数据的海量和不断增长,社交媒体上的谣言自动检测面临着诸多挑战。此外,在线数据的非结构化、不完整和噪声的特性使得处理和理解在线数据非常具有挑战性。我们将挑战总结如下。

  1. 对谣言语义的理解。大多数谣言都是故意捏造的,以误导公众。虚假信息混杂在谣言故事中。机器很难完全理解这种语义。
  2. 谣言结构、风格、形式等的多变性。谣言可以涵盖各种话题,使用各种语言风格。能够有效区分某类谣言的特征对于其他类型的谣言可能效果不佳。在有限的标记数据上训练的算法在未见过的新谣言上可能会失败。
  3. 多模态数据。社交媒体上的谣言,除了纯文字之外,往往以图片或视频的形式出现。虽然不同模态的信息可以为谣言检测提供线索,但如何从每种模态中提取突出特征并有效地融合在一起是一个挑战。、
  4. 异构传播结构。谣言在社交网络上传播的过程中,用户可以进行讨论和评论。用户的行为有助于为谣言构建一个潜在的社会语境。表征这些在传播网络上的行为对于识别网络谣言至关重要。

自动谣言检测方法可以分为三类:基于人工特征的分类方法、基于传播的方法和基于神经网络的方法。

基于手工特征的方法

传统的方法是使用手工制作的特征来描述谣言在高维空间中的分布,分类器将学习分离的超平面[11]-[16]。这些研究从谣言的文本和视觉内容中提取特征。为了避免内容语义的变化,还提出了一些社会语境特征来捕捉谣言的特征,因此特征工程成为分类前的致命一步。

然而,由于一些谣言缺乏一些关键的特征,这些方法往往导致不稳定和不可靠的结果。

基于传播的方法

基于传播的方法。为了利用社交网络的异构结构,基于graph的优化方法将消息和用户链接到一个整体网络中,并整体评估其可信度[17][6][18]。当网络收敛时,可以得到未分类文本的类别。然而,很明显,这些作品忽略了谣言所代表的文本信息。

基于深度神经网络有方法

第三类:神经网络方法。最近,深度神经网络被提出自动学习和融合多模态特征用于谣言检测[9],[19]-[23]。通过将文本数据建模为时间序列,递归神经网络或卷积神经网络都可以学习潜在的文本表示,提高分类精度。与利用传统分类器的工作相比,这些工作可以显著提高性能。

3 方法

大多数思路都是先特征选择再进行二分类。

3.1 手工构建特征工程的机器学习方法

检测谣言的显著特征:内容和社会背景

特征来自新闻故事的两个主要方面:内容和社会背景。

内容特征

文本特征、图像特征和其他特征(如话题标签、表情符号等)

文本特征

谣言文本与非谣言文本相比往往具有一定的模式。例如,Zhao等[2]在分析了大量的推文流后,发现谣言中的语言模式有两种类型:纠正型和询问型

在语言结构的不同层次粒度上,从词、句子、消息、话题、事件等方面提取各种文本特征来表示谣言。一般的文本特征来源于文本的语言学,广泛应用于许多自然语言理解任务中。常用的一般文本特征有三类:词汇特征、句法特征和主题特征。

  1. 词汇特征是在谣言的词级提取的特征,可以是词汇统计、词汇谣言模式或情感词汇。

相关工作:Castillo等人根据谣言文本所包含的单词计算了谣言文本的一些统计数据,包括谣言中单词和字符的总数、独特单词的数量和平均单词长度等[11]。除了简单的统计特征外,一些工作还通过检查语义来提取有趣的词汇。Kwon等人提出了描述包含第一人称代词的推文比例的特征[13]。Yang等人关注的是消息是否包含指向外部源的URL。

根据Zhao等[2]的研究,谣言消息的信息性部分可以分为以下两类:对事件情况的询问(验证/确认问题)和对事件的更正/争议。他们通过对一组带标签的消息进行有监督的特征选择来检测谣言消息的查询和纠正模式。具体来说,在标准分词后,从这些消息中提取一元、二元和三元词元的词法部分。然后计算每个提取的词或短语的频率特征(tf)。然后,利用卡方检验和信息增益比率法选取显著模式;特征选择方法根据特征区分谣言和非谣言的能力对特征进行排序。人类专家从排序后的特征列表中选择与事件无关的短语作为谣言的最终词汇模式。最后,发现词汇词汇模式,包括验证模式(“is real/fake?”、“需要更多证据/确认”等)和纠正模式(“谣言/虚假谣言”、“传播/捏造谣言”等)。一旦发现这些词法特征,就可以用于实时过滤谣言,例如在实时推文流[2][31]中检测谣言或在大规模的在线谣言[4]中分析谣言。

表达特定语义或情感的词汇也是表征文本的重要线索。在[11]中,情感符号(问号和感叹号)和情感图标作为文本特征。在[13]中,基于情感词典提出了许多情感词汇特征。具体来说,他们利用一种名为语言查询和单词计数(LIWC)的情感工具来统计心理上有意义的类别中的单词。对于每个输入文本,该工具提供了5个主要类别和若干子类别的情感分析结果,如社会、情感、认知、感知和生物过程。通过对这些特征的比较研究发现,某些情感类别,包括积极情感词、认知行为词和试探性行为词,是谣言检测的显著特征。

  1. 句法特征在句子层面表征谣言。基本句法特征是对谣言消息进行简单的统计,如关键词数量、句子的情感分数或极性[11]和词性标注[32]。

通常使用词袋(bag-of-words, BoW)语言模型来表示文档。在该模型中,每个文本文档被表示为一个v维向量,其中v是语料库的字典大小。向量中的每个元素代表文本中对应单词的TF-IDF得分。TF是词频。IDF得分为逆文档频率,在整个语料库上计算。一些工作利用BoW进行谣言检测[33]或谣言分析[4]。近年来,语义嵌入算法在许多自然语言理解领域得到了广泛应用。Word2Vec模型[34]在公共语义向量空间中用实值向量表示语料库中的每个单词。该算法基于词语的语义类比来建模。受其成功的启发,最近一些谣言检测应用[33][4]也通过词嵌入来表示文本。

  1. 主题特征是从消息集合的层次上提取的,旨在理解语料库中的消息及其潜在关系。

Wu等人定义了一组主题特征用于微博谣言检测。他们在所有消息上训练一个具有18个主题分布的潜在狄利克雷分配(LDA)[35]模型。每条消息可以属于一个或多个主题。他们将概率最高的k个主题设置为1,其余主题设置为0,从而将18维分布向量转换为二进制向量。k的大小是根据剩余主题的覆盖率来选择的。

Jin等。[16]基于消息所指向的事件进行主题聚类,同时提取消息级和主题级的特征。他们假设相同主题下的消息可能具有相似的可信度值。在此假设下,他们将消息聚类到不同的主题中,并通过聚合消息级的特征来获得主题级特征。他们声称,这种主题级别的特性可以减少噪声数据的影响,同时保持消息级别上的大部分细节。

视觉特征

在特征提取方法方面,视觉特征可以分为三类:视觉统计特征、视觉内容特征和视觉嵌入特征。

  1. 视觉统计特征

视觉统计特征是对谣言中附着的图像进行统计。与文本内容的统计特征类似,图像的一些基本统计特征在区分谣言和非谣言方面也具有明显的区别。

相关工作:

Gupta等人在[17]中定义了一个特征来记录用户是否有头像,用于评估用户的可信度。[15]定义了一个“具有多媒体”的特性,用来记录一条tweet的多媒体附件的状态:该tweet是否有图片、视频或音频附件。在[14]中,作者指出,谣言更有可能包含过时的图像。他们提出了一种时间跨度特征来捕获这种时间延迟。在[36]中,研究图像与健康相关谣言的关系。使用百度搜索引擎查找原始图像,计算原始图像和当前图像之间的时间跨度。根据他们的结果,这个特征是相当有效的。然而,过时图像的稀疏性和检索的困难限制了该特性的使用。

文献[30]总结了已有的统计特征并提出了一些新的特征,从三个方面提出了7个可视化统计特征:

Z. Jin, J. Cao, Y. Zhang, J. Zhou, and Q. Tian, “Novel visual and statistical image features for microblogs news verification,” IEEE Trans. Multimedia, vol. 19, no. 3, pp. 598–608, 2017.

•计数:用户可以在tweet中发布零,一个或多个图像以及文本内容。为了标记谣言消息中图像的出现,他们计算谣言事件中图像的总数以及包含至少一个或多个图像的消息的比例。

•受欢迎程度:一些图片非常受欢迎,在一个活动中比其他图片获得更多的转发和评论。计算最流行图像的比例来表示这一特征。

•图像类型:某些图像在分辨率或样式上具有特定类型。例如,长图像是具有非常大的长宽比的图像。这些类型图像的比例也被计算为一个统计特征。

  1. 视觉内容特征

提取视觉内容特征,从视觉角度描述图像的分布,如视觉清晰度、多样性和连贯性。

在[30]中,作者发现谣言和非谣言中的图像在其发行版上具有视觉上的独特性。为了描述基于视觉内容的图像分布,在其工作中提出了5个图像视觉特征:视觉清晰分数、视觉连贯性分数、视觉相似分布直方图、视觉多样性分数和视觉聚类分数,描述了不同视觉方面的图像分布特征。

  1. 视觉嵌入特征 ?

社会背景特征

与传统媒体相比,社交媒体的一个重要特征是对各种互动的开放性。社交媒体上普遍存在三种社交互动:

•用户之间的交互,例如“添加好友”和“关注”。这种相互作用形成了巨大而复杂的底层网络,所有的信息都在这个网络中流通。

•多媒体内容之间的链接是通过标签、标签主题或url链接形成的。在线内容通过这种链接被组织成子组。

•用户和内容之间的交互,例如“发帖”、“评论”、“转发”和“标记”。

在谣言检测任务上,社交媒体的社会联系特征衍生出许多特征。社交特征的三种主要类型是用户特征、传播特征和时间特征。

用户特征

  1. 单个用户特征:常见的个人特征是从用户的个人资料中计算出来的,如“注册时间”、“年龄”、“性别”和“职业”[29],或者是用户的在线行为,如“关注者数量”、“关注者数量”和“发布消息数量”[11]。Yang等[12]提出了两个特征来标识用户的发帖行为:“客户端”特征是用户使用的8个软件,“位置”特征是标识消息是否来自事件发生的地方。Liu等人[48]从记者的角度评估了用户的可靠性,并提出了用户特征,包括源用户的可信度识别、多样性和位置。
  2. 群体特征是群体成员在谣言传播过程中具有一定相似行为的整体特征[12]。通过对单个用户的“验证用户比例”、“平均关注数”等特征进行聚合,可以生成群组特征。

传播特征

传播特征来源于谣言传播的融合网络。文献[11]提出了一些消息传播树的统计数据,如传播树的平均深度或大小,以捕捉基本的传播特征。Kwon等人[13]的工作进一步扩展了它们,从扩散网络和用户友谊网络中提取了15个结构特征,包括这些网络的节点和链接数量、中位数度和密度。Wu等人[15]提出了一种简洁的结构来描述单个消息的传播过程。Yang等人[49]提出了一组基于评论提供者创建的网络的网络特征。[50]研究了特定的传播结构,以找到谣言检测的独特模式。

时间特征

时间特征标志着谣言传播的重要时间点或生命周期模式。在[13]中,沿着时间线的信息尖峰被建模来捕捉谣言的传播模式。Ma等人[51]提出了一种离散时间流并捕捉时间特征变化的方法。Giasemidis等[52]将每个谣言事件划分为20个时间间隔,并提取每个消息子集的特征。Kwon等人研究了特征随时间的稳定性[53]。他们发现,对于谣言检测,语言特征和用户特征适用于早期阶段,而结构特征和时间特征往往在长期阶段表现良好。

典型分类器

为了找到最合适的方法,大多数工作都使用了多个分类器进行实验,包括决策树[11][51][52]、贝叶斯网络[11]、随机森林[13][30]、逻辑回归[52][36]和支持向量机[11][13][12][30][51]。

相关工作:一些工作提出了新的分类算法来更好地聚合不同的特征。Wu等人[15]提出了一种由随机游动核[54]和RBF核[55]组成的混合核技术支持向量机。随机漫步内核专门用于从消息的评论树中捕获传播特征,而RBF内核则用于内容和用户特征。[16]中提出了一个两级分类框架来利用消息级和主题级的特性。Chen等[56]将谣言视为异常,最初采用异常检测对谣言进行分类。

3.2 基于传播的方法

基于手工特征的方法分别评估每个消息和事件。然而,社交媒体上的消息和事件之间存在着一些潜在的关联。一个简单的观察是,在一个事件中,相似的信息往往具有相同的准确性极性。通过挖掘实体间的关系,从整体上评估消息和事件的可信度,提出了基于传播的方法。如图2所示,基于传播的谣言检测范式通常有两个主要步骤[17][6][18]:

  1. 构建信任网络。将消息、用户、话题或事件等参与谣言检测的实体定义为网络中的节点。每个节点都有一个初始可信度值来表示其对可信的置信度。根据这些实体在社交媒体上的语义关系或交互关系,定义并计算它们之间的链接。
  2. 可信度传播。在一定的节点一致性和网络平滑性假设下,可信度值在构建的网络上沿加权链路传播直到收敛,得到每个实体的最终可信度评估。

可信度传播范式的灵感来自于关于真相发现的研究,其目的是在相互冲突的信息中发现真相[57]。将传播问题形成半监督图学习任务[58][59][60]。与直接对单个实体进行分类相比,基于传播的分类方法可以利用实体间的关系,获得鲁棒性强的分类结果。本文综述了基于传播的谣言检测方法的三种典型实现,即用户-消息-事件网络、分层内容网络和冲突观点网络。

3.2.1 用户-消息-事件网络

•可信用户一般不会为谣言事件提供可信度。

•可信消息之间的链接比谣言消息之间的链接权重更大,因为谣言事件中的消息不会做出连贯的声明。

网络结构

  1. 每个用户都链接到一条消息,如果发布该消息。
  2. 每条消息都链接到一个事件,如果它属于该事件(即包含与事件相同的关键字)。
  3. 消息相互链接以表示消息间关系。
  4. 事件与其他事件相关联以表示事件间关系。

消息间链接表示一条消息如何影响其他消息。这些影响在[17]中被计算为两个消息之间的语义相似度。共享单字的比率被计算为链接的权重,以表示两个链接消息之间的影响程度。类似地,事件之间的链接被计算为表示两个事件的事件关键字中的共享单字符。其余两种链路(用户到消息的链路和消息到事件的链路)的权重没有定义,默认设置为1。

17:M. Gupta, P. Zhao, and J. Han, “Evaluating event credibility on twitter,” in Proceedings of the SIAM International Conference on Data Mining. Society for Industrial and Applied Mathematics, 2012, p. 153.

可信度传播

每个消息的初始可信度值由基于特征的分类器的结果获得,类似于[11]。

“Information credibility on twitter

然后使用类似pagerank的迭代在这个网络上传播它们。在每次迭代中,可信度值更新如下:

  1. 对于每条消息,其可信度受到三个方面的影响:它所链接的用户和事件以及其他链接消息。对这些方面的贡献进行加权,以确保它们在更新其可信度时具有可比性。
  2. 对于每个事件,其可信度值受到两个方面的影响:它所链接的消息和其他链接事件。因此,其可信度值也随之更新。
  3. 对于每个用户,计算其链接到的所有消息的平均可信度以进行更新。

3.2.2 分层内容网络

Jin等人[6]受将实体连接在一起并利用实体间影响进行可信度传播的想法的启发,提出了一个由事件内容的不同语义层次构建的三层可信度网络。

根据他们的观察,许多用户在社交媒体上无意中传播谣言,甚至可信的用户也会被误导散布谣言。他们还发现,在很多情况下,一个新闻事件作为一个整体,既包含真实的信息,也包含虚假的信息。因此,如果没有对其组成部分进行更深入的分析,就很难对事件进行令人信服的评估。在这些观察的激励下,他们提出了一个三层可信度传播网络,旨在最大限度地减少用户的影响,并专注于事件更深层次的语义关系。

网络结构

分层内容网络有三层实体:消息层、子事件层和事件层(图6(b))。它们都是以内容为基础的,与新闻公信力有直接关系。最初引入子事件层是为了捕获事件中更深层的语义信息。子事件是事件的各种观点,它们是代表事件主要部分或主题的消息集群。具体地说,网络是这样形成的:如果消息被聚集到子事件中,则将其链接到子事件;子事件链接到事件;所有消息都是相互链接的,子事件也是如此。

与[17]类似,四种类型的实体间链接表示实体如何在可信度评估中相互影响。在[6]中,链接权重主要由两个事实决定:语义相似度和社会重要性。通过假设语义相似的实体具有相似的可信度值,根据实体对的单词表示计算实体对之间的语义相似度得分。同时,根据一个实体获得的转发或评论数量计算的社会重要性得分被纳入其中,以强调子事件或事件中更受欢迎的内容。

可信度传播

在假设实体间链接权重大的实体具有相似的可信度值的前提下,将可信度传播问题建模为图优化问题。给出了一个作为约束条件的损失函数,以保证链接权重大的实体之间的传播不会发生太大变化,也不会偏离实体的初始值。然后,他们推导出了使用梯度下降法优化损失函数的迭代解决方案。作者认为他们对可信度传播的描述是一个凸问题,这保证了他们可以用迭代算法得到全局最优解。与[17]中的传播方法对比,这是一种理论改进。

3.2.3 冲突观点网络

根据[18]算法,微博消息之间存在两种关系。一种关系是支持关系,表达相同观点的消息相互支持彼此的可信度。另一种关系是对立的,表达冲突观点的消息会降低彼此的可信度。由于微博是开放的媒体平台,人们可以在阅读新闻事件后发表质疑甚至反对的回应。在谣言发生的时候,这些反对的声音会和最初的支持的声音一起出现,它们是评价新闻事件真实性的重要组成部分。

18:Z. Jin, J. Cao, Y. Zhang, and J. Luo, “News verification by exploiting conflicting social viewpoints in microblogs,” in Proceedings of the Thirtieth AAAI Conference on Artificial Intelligence, February 12- 17, 2016, Phoenix, Arizona, USA., 2016.

网络结构

  1. 冲突观点挖掘(conflicting Viewpoints Ming)。通过主题-观点联合模型挖掘冲突观点[61]。该模型将每条消息表示为主题的混合和每个主题的观点的混合。然后在约束条件下对这些主题-观点对进行聚类,形成最终的冲突视点。
  2. 定义链接。在挖掘冲突观点的基础上,计算任意两条消息之间的关联。链接的权重计算为来自主题模型的两条消息概率表示之间的距离。从观点聚类的角度定义链接的极性:具有相同观点的信息形成正链接,否则形成负链接。
  3. 网络建设。事件中的所有消息都相互关联。它们之间的链接按上述方式计算。

可信度传播

与文献[6]类似,该网络上的可信度传播也被定义为一个图优化问题。为了处理网络中的负面链接,作者提出了一种损失函数,该函数可以确保具有支持关系的消息具有相似的可信度值,而具有相反关系的消息具有相反的可信度值或两者都接近于零。在给定损失函数的情况下,他们也得到了它的最优解。

3.3 基于DNN方法

与传统分类器相比,深度神经网络(DNN)在许多机器学习问题上显示出明显的优势,例如对象检测、情感分类和语音识别。基于深度神经网络的方法旨在自动学习谣言数据的深度表示。根据神经网络结构的不同,神经网络方法可以进一步分为两类:

  1. 循环神经网络:基于循环神经网络的结构,这种方法将谣言数据建模为序列数据。关键是RNN中各单元之间的连接形成直接循环并创建网络内部状态,该状态可能使其捕获谣言扩散的动态时间信号特征[9],[19]-[21]。
  2. 卷积神经网络:CNN由堆叠的卷积层和池化层组成,其结构有助于建模重要的语义特征。基于CNN的方法[22][23]假设CNN不仅可以从输入实例中自动提取局部-全局显著特征,而且可以揭示这些高层交互。

9:J. Ma, W. Gao, P. Mitra, S. Kwon, B. J. Jansen, K.-F. Wong, and M. Cha, “Detecting rumors from microblogs with recurrent neural networks,”

19:T. Chen, L. Wu, X. Li, J. Zhang, H. Yin, and Y. Wang, “Call attention to rumors: Deep attention based recurrent neural networks for early rumor detection,”

20:N. Ruchansky, S. Seo, and Y. Liu, “Csi: A hybrid deep model for fake news detection.” CIKM, 2017.

21:Z. Jin, J. Cao, H. Guo, Y. Zhang, and J. Luo, “Multimodal fusion with recurrent neural networks for rumor detection on microblogs,”

3.3.1 基于RNN的方法

  1. Ma[9]等人首次将循环神经网络应用于谣言检测。他们观察到一个谣言事件由一个原始帖子和一组相关帖子(包括转发和评论)组成,这些帖子形成了一个持续的帖子流。因此,他们将谣言数据建模为可变长度的时间序列。然而,一个谣言事件由成千上万的帖子组成,因此他们将帖子按时间间隔批量处理,并将它们视为时间序列中的单个单元,然后使用RNN序列进行建模。在每个区间中,他们使用词汇表中前k个词的tf∗idf值作为输入。他们的模型旨在监督下从谣言数据中学习时间和文本表示。大量实验表明,与使用手工特征的模型相比,他们的模型取得了出色的性能

9:J. Ma, W. Gao, P. Mitra, S. Kwon, B. J. Jansen, K.-F. Wong, and M. Cha, “Detecting rumors from microblogs with recurrent neural networks,”

  1. 内容中的一些恶意词汇可能与谣言类别有很强的相关性。为了更好地理解模型更关注哪些单词,Chen等人在他们的模型[19]中利用了注意力机制。他们的工作假设之一是谣言数据的文本特征可能会随着时间的推移而改变其重要性,因此确定它们中的哪一个对检测任务更重要是至关重要的。与[9]类似,他们首先将帖子批处理成时间间隔,并使用tf∗idf作为输入的表示。在每个时间步中,隐藏状态将被分配一个权重参数,以衡量其重要性和对结果的贡献。实验结果证明了注意力机制的有效性,并表明与事件本身相关的大多数词被赋予的注意力权重低于表达用户质疑、询问和因谣言引起的愤怒的词,而不相关的词被忽略。

19:Call attention to rumors: Deep attention based recurrent neural networks for early rumor detection

  1. (CSI模型)Ruchansky等人重点研究了谣言数据[20]的三个特征:文章的文本、收到的用户回复以及推广它的源用户。这些特征代表了谣言数据的不同方面,基于其中的一个方面进行谣言检测具有挑战性。因此,他们提出了一种混合模型(CSI),结合了所有这三个特征,以实现更准确和自动化的预测。该模型由捕获、评分和集成三个模块组成。第一个模块是基于响应和文本;它使用循环神经网络来捕获用户在给定文章上活动的时间模式。第二个模块根据用户的行为学习源特征,将用户表示为向量;在第三个模块中,将前两个模块的结果集成到一个向量中,用于区分文章是否为假。除了准确的预测,CSI模型还可以产生用户和文章的潜在表示,可以用于单独的分析。
  2. 多模态方法。Jin等人不仅利用了文本信息,还利用了视觉和社会信息,提出了一种基于多模态融合的模型。除了文字之外,越来越多的用户使用图片和视频来发布新闻。因此,对于给定的帖子,其文本和社会上下文首先与LSTM单元融合。然后,将联合表示与预训练深度VGG-19提取的视觉特征进行融合;在融合过程中,将LSTM在每个时间步的输出作为神经元级注意力来协调视觉特征。在微博和Twitter数据集上进行的大量实验表明,与现有的基于特征的方法和基于神经网络的多模态融合方法相比,该模型能够有效地检测基于多媒体内容的谣言。

Z. Jin, J. Cao, H. Guo, Y. Zhang, and J. Luo, “Multimodal fusion with recurrent neural networks for rumor detection on microblogs,”

3.3.2 基于CNN的方法

Yu等人发现RNN不能胜任输入数据有限的早期检测任务,并且对输入序列[22]的最新元素存在偏差。为了解决这些问题,他们提出了一种基于卷积神经网络的谣言检测方法。具体来说,他们提出了一种将谣言事件划分为多个阶段的方法。随后,所有事件被分成几组微博帖子。通过doc2vec学习每一组向量的表示,由一组向量构成CAMI的输入序列。最后,将得到的向量输入两层卷积神经网络,得到最终的二分类结果。他们的模型可以从输入实例中提取重要特征,并在两个公开数据集上取得了较高的性能。

F. Yu, Q. Liu, S. Wu, L. Wang, and T. Tan, “A convolutional approach for misinformation identification.”

Nguyen等人专注于谣言传播早期的谣言检测,提出了一种基于CNN + RNN的谣言检测模型。在统一模型中,使用CNN的部分进行表示。每条推文首先由一组词向量组成,在模型训练过程中对这些词向量进行联合学习。具体来说,该模型利用CNN提取一系列更高层次的短语表示来学习单个谣言相关推文的隐藏表示。然后利用RNN的部分对CNN得到的时间序列进行处理;在有限的谣言数据集上进行了大量实验,实验结果表明,该模型在谣言传播的头几个小时内具有良好的性能。

T. N. Nguyen, C. Li, and C. Nieder´ee, “On early-stage debunking rumors on twitter: Leveraging the wisdom of weak learners,”

4 数据集

表1总结了用于谣言检测的数据集。根据它们的统计信息,我们可以观察到每个数据集要么由一组事件组成,要么由一组消息组成。包含谣言事件的数据集适合于对社交媒体平台上广泛传播的事件进行分类,而由谣言消息组成的数据集适合于对单个消息进行分类。

基于事件的数据集中的每个样本指的是具有一个主题的一组消息,而基于消息的数据集中的样本指的是单个消息。我们可以观察到一个令人鼓舞的趋势,一些工作,开始构建大型数据集。但在大多数工作中,数据集仍然不够大。

数据集收集的一个主要困难是谣言是被权威机构揭穿的新闻,其数量小于非谣言样本的数量。

KWON

KWON数据集。权数据集[13]于2013年发布,由从Twitter上收集的47个谣言事件和55个非谣言事件组成,每个事件至少包含60条推文。为了确保所有事件都是有效的,每个事件由4个参与者标记,并且数据集只包含那些由至少4个参与者评估并获得大多数同意的事件。

S. Kwon, M. Cha, K. Jung, W. Chen, and Y. Wang, “Prominent features of rumor propagation in online social media,”

MediaEval

MediaEval数据集是由MediaEval的验证多媒体使用任务发布的[62],旨在检测Twitter上的虚假多媒体内容。它包含了开发集中与17个事件相关的9000条谣言消息和6000条非谣言消息,以及与35个事件相关的2000条测试消息。

C. Boididou, S. Papadopoulos, Y. Kompatsiaris, S. Schifferes, and N. Newman, “Challenges of computational verification in social multimedia,”

RUMDECT

2016年发布的RUMDECT数据集[9]分别由来自微博和Twitter的两类数据组成。对于微博数据,首先从新浪社区管理中心收集一组已知谣言,从一般帖子中抓取一组非谣言事件。因此,微博数据包含2313条谣言和2351条非谣言。对于Twitter的数据,从Snopes.com收集了2015年3月至12月期间的778起报道事件。对于每个事件,其Snopes URL中的关键字被应用为查询,以搜索来自Twitter的相关帖子。为了平衡两个类别,从另外两个数据集[11]和[13]中添加了一些非谣言事件。最终的twitter数据包含498个谣言事件和494个非谣言事件。

J. Ma, W. Gao, P. Mitra, S. Kwon, B. J. Jansen, K.-F. Wong, and M. Cha, “Detecting rumors from microblogs with recurrent neural networks

MULTI

2017年发布的多数据集[21],包括从微博官方辟谣系统中收集的4749条谣言和4779条非谣言。与之前的数据集不同,MULTI数据集是第一个专注于利用多模态内容来检测微博平台谣言的数据集,该数据集不仅包含文本信息,还包含视觉信息。

Z. Jin, J. Cao, H. Guo, Y. Zhang, and J. Luo, “Multimodal fusion with recurrent neural networks for rumor detection on microblogs,

5 未来研究方向

早期谣言检测

一个故事在社交网络上传播的生命周期很短,有研究认为不到3天。更重要的是,谣言会在几秒或几分钟内传播开来。在早期阶段检测谣言至关重要。然而,现有的研究大多假设谣言在整个生命周期内都具有所有内容,从而进行谣言检测。谣言开始时的资源是如此有限,以至于在早期阶段检测它是非常具有挑战性的。尽管Yu等人提出了解决该问题的方法,但性能无法满足早期检测的需求。

解释说明检测

现有的谣言检测方法只能最终判断一个报道是否为谣言。他们做出这个决定的原因几乎没有透露。然而,与简单的对象分类不同,找到支持该决策的证据有助于揭穿谣言并阻止其进一步传播。解释性谣言检测要求算法更密切地监控谣言中的每个成分,这是一个有待解决的挑战。

长文本谣言检测

目前谣言检测方法的研究对象主要是社交媒体上传播的短文本。然而,越来越多的博客和文章等长文本新闻在网络社区中产生,对验证的需求越来越大。与短文本谣言不同,长文本谣言具有丰富的语义信息,这对全面理解造成了明显的障碍。此外,在大多数情况下,给定的长文本谣言中只有一部分包含虚假信息,而其余的都是真实的。因此,将整篇文章归类为谣言或非谣言是不公平的。在提高长文本谣言检测性能的同时,还需要指出虚假信息在文章中的准确位置。

多模态谣言检测

越来越多由多模态数据组成的谣言在社交媒体上传播,给传统的检测方法带来了困难。因此,分析多模态数据之间的关系,并开发基于高级融合的模型来利用这些数据,可能是在更复杂场景中检测谣言的关键。Jin等人提出了一种基于融合的多模态谣言检测模型[21],但需要更准确地建模不同模态之间复杂的关系。

自动谣言检测综述分享——Automatic Rumor Detection on Microblogs: A Survey相关推荐

  1. 谣言检测文献阅读十二—Interpretable Rumor Detection in Microblogs by Attending to User Interactions

    系列文章目录 谣言检测文献阅读一-A Review on Rumour Prediction and Veracity Assessment in Online Social Network 谣言检测 ...

  2. 谣言检测论文分享(三)

    论文分享之 Rumor Detection on Twitter with Tree-structured Recursive Neural Networks Jing Ma , Wei Gao , ...

  3. 谣言检测文献阅读二—Earlier detection of rumors in online social networks using certainty‑factor‑based convolu

    系列文章目录 谣言检测文献阅读一-A Review on Rumour Prediction and Veracity Assessment in Online Social Network 谣言检测 ...

  4. 谣言检测文献阅读四—Reply-Aided Detection of Misinformation via Bayesian Deep Learning

    系列文章目录 谣言检测文献阅读一-A Review on Rumour Prediction and Veracity Assessment in Online Social Network 谣言检测 ...

  5. 阅读笔记2020_01观点检测综述:《Stance Detection on Social Media: State of the Art and Trends》

    观点检测综述:<Stance Detection on Social Media: State of the Art and Trends> 1.观点相关的关键词: Stance dete ...

  6. 谣言检测论文分享(一)

    Rumor Detection on Social Media with Bi-Directional Graph Convolutional Networks 摘要重点:由于用于谣言检测的深度学习方 ...

  7. 今日 Paper | 社交媒体谣言检测;连续手语识别;细粒度服装相似性学习;混合图神经网络等

    2020-02-18 15:43   目录 基于双向图卷积神经网络的社交媒体上谣言检测 用于连续手语识别的时空多线索网络 基于属性特定嵌入网络的细粒度服装相似性学习 混合图神经网络在人群计数中的应用 ...

  8. 谣言检测文献阅读三—The Future of False Information Detection on Social Media:New Perspectives and Trends

    系列文章目录 谣言检测文献阅读一-A Review on Rumour Prediction and Veracity Assessment in Online Social Network 谣言检测 ...

  9. 【论文翻译 假新闻检测综述 HICSS 2019】Can Machines Learn to Detect Fake News? A Survey Focused on Social Media

    论文题目:Can Machines Learn to Detect Fake News? A Survey Focused on Social Media 论文来源:HICSS 2019,Procee ...

最新文章

  1. fftw库 vs2019_FFTW库在VS 2010中的使用方法
  2. 我在学python-你们以为我在学C++?其实我在学 Python
  3. java with关键字_[Java教程]javascript 里面 with 关键字
  4. windows环境下安装scrapy框架报错问题--最快捷有效的解决方案
  5. Python 34(进程重点)
  6. 合并相同数据的行_R语言笔记(六):数据框重塑(reshape2)
  7. HTML5 API详解(16):web socket 全双工通信
  8. vue data变量之间相互赋值或进行数据联动
  9. 数据结构c语言版题库含答案,求数据结构c语言版的习题和答案?
  10. 为什么C# md5 32位加密算法,密码明文会出现31位
  11. Js中去除数组中重复元素的4种方法
  12. cam350菜单怎么切换成中文_电子设计软件CAM350各菜单使用说明(一)
  13. C# 中intptr用法
  14. IEEE 802.3标准简介以及各分类标准汇总
  15. *LOJ#2134. 「NOI2015」小园丁与老司机
  16. sox免安装直接使用
  17. .net mvc 文件压缩打包下载
  18. 三种数据流分析的方程、用途
  19. 内网 NTP 服务自动对时,ikuai 软路由 ntp 对时方案
  20. 如何学习SDN及网络自动化

热门文章

  1. java 实现两个pdf文件 合并为一个pdf 文件
  2. c语言算法如何截取gps信息,GPS信息的解析(rmc)
  3. 基于模型预测控制(MPC)的悬架系统仿真分析
  4. [C语言数据结构]双向循环链表
  5. Pygame 教程(1):创建第一个应用程序
  6. 数模设计和GND的分割设计
  7. java怎么做IP扫描器
  8. PDFEditor+passwordRemover使用修改加密的pdf文件
  9. 【今日CV 计算机视觉论文速览】Fri, 22 Mar 2019
  10. 大神用10000字总结了嵌入式C语言必学知识点……