作者丨孙子荀

单位丨腾讯科技高级研究员

研究方向丨多模态内容质量

本人过去几年一直从事内容质量方面的算法工作，近期出于兴趣对假新闻这个问题做了一些调研，简单总结一下提供读者参考。

在某种程度上假新闻的是一个微观领域问题，它和谣言分类，事实判断，标题党检测，垃圾内容挖掘等都比较类似，在宏观上说都属于内容质量的领域，所以很多方法其实是通用的框架。

本文主要简单介绍了我们的做法和几篇具有典型代表的假新闻论文，从不同的方法路径去了解多模态、网络游走、特征挖掘等手段在假新闻领域上的一些实践。

模型构建

根据 [Kai Shu, 2017] 的划分，模型在这里主要有两类：1）基于内容的建模；2）基于社交网络的模型。

1. 基于内容建模

有 1.1 面向知识和事实库的和 1.2 面向行文风格的。

1.1 面向知识库

事实检查系统有点类似谣言鉴别系统，对文章描述的观点和客观事物进行校真，类似 QA 系统是一个比较复杂的 NLP 领域，包括知识表示、知识推理。在知识库数据集上有集中划分方式：

1. 专家系统：各个领域的专家构建的知识库，显然这种方式的效率和扩展性都非常差。不过如果是垂直类目（生物，历史）那或许可以在某个客观事实比较多的类目下进行尝试；

2. 集体智慧：用户集体知识的反馈来构建的一套知识库。

1 和 2 有了之后其实可以通过类似检索的方法，来对新的内容进行相似度判断，从而充分利用积累的历史内容提供出来的特征指示。

3. 基于算法分类：使用知识图谱或者事理图谱来对内容进行真实性判断，当前主要的开放知识图谱有 DB-pedia 和 Google Relation Extraction 数据集。

这个领域的问题，类似 NLP 的 QA 问题，有兴趣的同学可以参考 [Yuyu Zhang, 2017] 的 VRN变分推理网络。

作者通过概率模型来识别问句中的实体，问答时在 KB 上做逻辑推理，且推理规则将被学习出来。即可用于做事实判断。

当前这个方向技术落地成本高，难度较大，效果也不一定理想。

1.2 面向内容风格

用文章内容本身的行文风格，通过上下文无关文法得到句子的句法结构，或者 RST 修辞依赖理论等其他 NLP 深度模型去捕捉句子文法信息。

根据捕捉文本信息描述种类的不同，作者分为两类，检测欺骗程度，检测描述的主观客观程度（越客观公正的可能性越大）两种。震惊体的标题党就属于这类。

其中，假新闻可能用到的特征，包括普通特征和聚合特征两大类。普通特征就是页面，文本，图片，标题等单纯的特征 embedding，聚合特征就是把各个普通特征进行组合和有监督的训练成一个一个子模型问题。然后这些子模型的输出又可以作为聚合特征用在假新闻领域。

下图就是我们使用的主要特征集：

其他：基于社交网络建模

分为两种，基于立场和基于传播行为的。

前者主要是基于用户对内容的操作（评论，点赞，举报等等）构建矩阵或者图模型。

而基于传播行为对对象建模，类似 PageRank 的行为传递。下面介绍的 News Verification by Exploiting Conflicting Social Viewpoints in Microblogs 一文就是这种类型。

1. 对虚假新闻的传播游走轨迹跟踪，以及通过图模型和演化模型中针对特定假新闻的进一步调查；

2. 识别虚假新闻的关键传播者，对于减轻社交媒体的传播范围至关重要。

假新闻研究方向

[Kai Shu, 2017] 文章总结了假新闻的几个主要的研究方向。

数据方面的研究工作：现在还没有标准的测评数据集，这是需要去建立的。再有就是通过传播特性去更早的检测假新闻。另外一个就是从心理学角度去做假新闻的意图检测，这个角度过去往往被忽略。

模型特征方面的研究工作：往往会使用用户的画像特征，内容特征（NLP、CV）结合深度学习，还有传播网络特征，比如用户和内容之间的关系构造出来的网络特征，网络本身的 embedding 表现。

模型方面的研究工作：第一个就是特征之间的组合。第二是预测目标的变化。第三不论是从内容源，还是文章风格，或者内容的反馈（评论，等互动行为）都有各自的限制，组合这些模型。最后就是空间变换，把特征变换到另外的 latent 语义空间尝试解决。

数据集

FakeNewsNet

BuzzFeed 和 PolitiFact 两个平台的数据集，包括新闻内容本身（作者，标题，正文，图片视频）和社交上下文内容（用户画像，收听，关注等）。

数据集可获取方式：

https://github.com/KaiDMML/FakeNewsNet

代表论文

LIAR

该数据集也是来自 PolitiFact，包括内容本身和内容的基础属性数据（来源，正文）。

数据集可获取方式：

http://www.cs.ucsb.edu/~william/data/liar_dataset.zip

代表论文

Twitter and Weibo DataSet

一个比较全的数据集包括帖子 ID，发帖用户 ID，正文，回复等数据。

数据集可获取方式：

http://alt.qcri.org/~wgao/data/rumdect.zip

代表论文

Twitter15 Twitter16

被上面的数据集使用。来自 Twitter 15、16 年的帖子，包括了帖子之间的树状收听，关注关系和帖子正文等。

数据集可获取方式：

https://www.dropbox.com/s/7ewzdrbelpmrnxu/rumdetect2017.zip?dl=0

代表论文

Buzzfeed Election Dataset & Political News Dataset

Buzzfeed’s 2016 收集的选举假新闻，以及作者收集的 75个新闻故事。假新闻，真新闻和讽刺新闻。

数据集可获取方式：

https://github.com/rpitrust/fakenewsdata1

代表论文

数据挖掘

[Benjamin D. Horne and Sibel Adalı,2017] 通过手工构建了大量的特征，使用单因素方差分析和秩和检验对特征进行挖掘。发现真新闻文章明显长于假新闻文章，假新闻很少使用技术词汇，更少的标点符号，更少的引号和更多的词汇是冗余的。另外标题也有明显的不同，假新闻的标题会更长，更喜欢增加名词和动词。真的新闻通过讨论来说服，假新闻通过启发来说服。

类似的内容分析还有：Automatic Detection of Fake News。

[z.zhao et, 2018] 发现大多数人转发（红点）真实新闻是从一个集中的来源（绿点）。而虚假新闻通过人们转发其他转发者来传播的。

参考文献

[1]. Yuyu Zhang, Hanjun Dai, Zornitsa Kozareva, Alexander J. Smola, Le Song. "Variational Reasoning for Question Answering with Knowledge Graph". arXiv preprint arXiv:1709.04071, 2017.

[2]. Zhiwei Jin, Juan Cao, Yongdong Zhang, and Jiebo Luo. "News Verification by Exploiting Conflicting Social Viewpoints in Microblogs". AAAI 2016.

[3]. Kai Shu, Suhang Wang, Huan Liu. "Beyond News Contents: The Role of Social Context for Fake News Detection". WSDM 2019.

[4]. Kai Shu, Amy Sliva, Suhang Wang, Jiliang Tang, Huan Liu. "Fake News Detection on Social Media: A Data Mining Perspective". SIGKDD 2017.

[5]. William Yang Wang. “Liar, Liar Pants on Fire”: A New Benchmark Dataset for Fake News Detection. ACL 2017.

[6]. Natali Ruchansky, Sungyong Seo, Yan Liu. "CSI: A Hybrid Deep Model for Fake News Detection". CIKM 2017.

[7]. Andreas Hanselowski, Avinesh PVS, Benjamin Schiller, Felix Caspelherr, Debanjan Chaudhuri, Christian M. Meyer, Iryna Gurevych. "A Retrospective Analysis of the Fake News Challenge Stance Detection Task". arXiv preprint arXiv:1806.05180, 2018.

[8]. Benjamin D. Horne, Sibel Adali. "This Just In: Fake News Packs a Lot in Title, Uses Simpler, Repetitive Content in Text Body, More Similar to Satire than Real News". ICWSM 2017.

点击以下标题查看更多往期内容：

Airbnb实时搜索排序中的Embedding技巧
图神经网络综述：模型与应用
近期值得读的10篇GAN进展论文
F-Principle：初探理解深度学习不能做什么
自然语言处理中的语言模型预训练方法
两行代码玩转Google BERT句向量词向量
AI Challenger 2018 机器翻译参赛总结
Google BERT应用之红楼梦对话人物提取
深度长文：NLP的巨人肩膀（上）
NLP的巨人肩膀（下）：从CoVe到BERT

#投稿通道#

让你的论文被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体，缩短读者寻找优质内容的成本呢？答案就是：你不认识的人。

总有一些你不认识的人，知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁，促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人，在我们的平台上分享各类优质内容，可以是最新论文解读，也可以是学习心得或技术干货。我们的目的只有一个，让知识真正流动起来。

? 来稿标准：

• 稿件确系个人原创作品，来稿需注明作者个人信息（姓名+学校/工作单位+学历/职位+研究方向）

• 如果文章并非首发，请在投稿时提醒并附上所有已发布链接

• PaperWeekly 默认每篇文章都是首发，均会添加“原创”标志

? 投稿邮箱：

• 投稿邮箱：hr@paperweekly.site

• 所有文章配图，请单独在附件中发送

• 请留下即时联系方式（微信或手机），以便我们在编辑发布时和作者沟通

现在，在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

关于PaperWeekly

PaperWeekly 是一个推荐、解读、讨论、报道人工智能前沿论文成果的学术平台。如果你研究或从事 AI 领域，欢迎在公众号后台点击「交流群」，小助手将把你带入 PaperWeekly 的交流群里。

▽ 点击 |阅读原文 | 获取最新论文推荐

一文看懂虚假新闻检测（附数据集论文推荐）相关推荐

【论文阅读】Multimodal Fusion with Co-Attention Networks for Fake News Detection --- 虚假新闻检测，多模态融合
本博客系本人理解该论文之后所写,非逐句翻译,预知该论文详情,请参阅论文原文. 论文标题:Multimodal Fusion with Co-Attention Networks for Fake Ne ...
虚假新闻检测的论文阅读笔记——sigir2021：User Preference-aware Fake News Detection
文章目录 1.虚假新闻检测的相关简介 2.本篇论文引言 3.模型介绍 3.1.内生偏好编码器 3.2.外生内容编码器 3.3.二者信息融合 4.实验 4.1.各模型的实验结果 4.2.消融实验 5.结 ...
【论文阅读】Hierarchical Multi-modal Contextual Attention Network for Fake News Detection --- 虚假新闻检测，多模态
本博客系本人阅读该论文后根据自己理解所写,非逐句翻译,欲深入了解该论文,请参阅原文. 论文标题:Hierarchical Multi-modal Contextual Attention Networ ...
判别两棵树是否相等设计算法_一文看懂生成对抗网络 - GANs？（附：10种典型算法+13种应用）...
生成对抗网络 – GANs 是最近2年很热门的一种无监督算法,他能生成出非常逼真的照片,图像甚至视频.我们手机里的照片处理软件中就会使用到它. 本文将详细介绍生成对抗网络 – GANs 的设计初衷.基 ...
决策树随机森林 xgboost_一文看懂随机森林-RandomForest（附4个构造步骤+4种实现方式评测+10个优缺点）...
随机森林是一种由决策树构成的集成算法,他在很多情况下都能有不错的表现.本文将介绍随机森林的基本概念.4 个构造步骤.4 种方式的对比评测.10 个优缺点和 4 个应用方向. 什么是随机森林? 随机森林 ...
Yolo 一文看懂目标检测
Yolo 一文看懂目标检测概述 one-stage two-stage Yolo 原理分割图片预选框计算参数预测物体得到结果网络架构 (v1) 概述 Yolo (You Only Loo ...
目标检测评价指标（一文看懂）
目标检测评价指标之--Precision,Recall,IOU,AP,mAP 看了一些介绍目标检测评价指标的文章,在此做一个小总结,供大家参考. 文章目录目标检测评价指标之--Precision ...
独家 | 基于NLP的COVID-19虚假新闻检测（附代码）
作者:Susan Li 翻译:杨毅远校对:吴金笛本文长度为4400字,建议阅读8分钟本文为大家介绍了基于自然语言处理的COVID-19虚假新闻检测方法以及可视化方法,并结合真实的新闻数据集与完整 ...
【目标检测】32、让你一文看懂且看全 NMS 及其变体
文章目录一.NMS 1.1 背景 1.2 方法 1.3 代码 1.4 不足二.Soft NMS 2.1 背景 2.2 方法 2.3 效果 2.4 代码 2.5 不足三.Softer NMS 3. ...

一文看懂虚假新闻检测（附数据集论文推荐）

模型构建

数据集

数据挖掘

相关论文介绍

相关比赛

参考文献

一文看懂虚假新闻检测（附数据集论文推荐）相关推荐

最新文章

热门文章

一文看懂虚假新闻检测（附数据集 论文推荐）

模型构建

数据集

数据挖掘

相关论文介绍

相关比赛

参考文献

一文看懂虚假新闻检测（附数据集 论文推荐）相关推荐

最新文章

热门文章

一文看懂虚假新闻检测（附数据集论文推荐）

一文看懂虚假新闻检测（附数据集论文推荐）相关推荐