论文研读 “Liar, Liar Pants on Fire”:A New Benchmark Dataset for Fake News Detection
给十月画个句号
最近上的很喜欢的一门课中,老师要求我们研读一篇顶会论文并进行分享,好久没能静静地坐下来写一篇博客了,接下来希望自己能够多读论文的同时把论文的思路以博客的形式输出~
论文来源
“Liar, Liar Pants on Fire”:A New Benchmark Dataset for Fake News Detection收录于ACL2017的短论文中,是加州大学-圣塔芭芭拉(University of California, Santa Barbara)的王威廉教授的作品【PS:这位老师的主要研究方向是机器学习,自然语言处理和人工智能,刚兴趣的可以看看他的个人主页哦:http://www.cs.ucsb.edu/~william/】
论文介绍
论文为虚假新闻检测领域提供了一个公开的基准数据集,个人觉得是很有价值的,数据作为基础,任何研究都离不开。所以本文提供的数据集对虚假新闻检测领域研究可以起到一个推动的作用,让基于统计和计算的方法能够发展起来,也能够应用在相关领域像谣言检测,主题模型构建等。
虚假新闻检测
刚好研读了SIGKDD数据挖掘顶会在2017年收录的一篇虚假新闻检测的论文(Fake News Detection on Social Media: A data mining perspectative),里面对该领域的阐述十分清晰,接下来从研究背景,研究难点,研究的方向较为系统地进行回顾。
一.研究背景
虚假新闻检测其实不是一个新领域,在2009的时候就有研究者开始了这方面的研究,而在近几年研究主要集中在社交媒体平台上,尤其是国外的平台如脸书和推特,其中的原因主要是社交媒体不同于传统媒体(像电视或者报纸),它的新闻制作成本低,时效性高同时易于分享传播。
二.研究难点
因为虚假新闻检测不同于传统的文本分类,仅从文本内容较难判断其真实性,在文章主题,写作风格这些特征上难以进行区别,同时虚假新闻中可能掺杂着真实的内容,导致文本特征不足。另外在社交媒体上的较多是短文本,就给研究带来更大的难度。同时,缺乏有效的标注数据导致这个领域存在瓶颈期。
三.研究方向
在这个领域上研究者主要是从以下四个方向去努力:
论文提供数据集LIAR
一.介绍
它是一个全新的公开数据集,由人工收集politifact网站上的从07-16年长达十年的不同语境的12800条数据,跟同个类型的数据集相比大了一个数量集。这是单条的数据,是特朗普的发言,我们可以看到数据中包含了文本内容,陈述人,语境,标签,以及评判的内容。
二.同类型数据集对比
可以看到14和16年的两个数据集的数量均少于1000,很难将这些数据作为基准去评判和改进模型,而LIAR数据集除了数量大,也涵盖了不同的语境类别,更加充实。
实验过程
在本文中,作者也在这个数据集上进行实验,所选用的baseline方法如下:
- Majority
- SVMs (LibShortText + Grid Serach)
- Logistic Regression (LibShortText + Grid Serach)
- Bi-LSTMs (TensorFlow + Word2vec)
- CNNs (TensorFlow + Word2vec)
然后作者也尝试文本+元数据作为输入,主要是这个模型,对于文本是使用CNN模型,而元数据的向量表示是随机初始化生成,跟文本一样经过一层卷积层和池化层再进入一层双向的LSTM,然后对两者的向量进行合并,进入到一个全连接层得到最终的预测结果。
实验结果
在最终的实验结果中,CNN模型是表现最好的(确实CNN在文本分类上很突出),而bi-LSTM由于过拟合表现较差,同时元数据和文本的结合模型得到的结果最好。
参考论文
- “Liar, Liar Pants on Fire”:A New Benchmark Dataset for Fake News Detection
- Fake News Detection on Social Media: A data mining perspectative
论文研读 “Liar, Liar Pants on Fire”:A New Benchmark Dataset for Fake News Detection相关推荐
- 【论文解读 ASONAM 2019】Semi-Supervised Learning and Graph Neural Networks for Fake News Detection
论文题目:Semi-Supervised Learning and Graph Neural Networks for Fake News Detection 论文链接:https://ieeexpl ...
- 【论文阅读】SIGIR 2021:Hierarchical Multi-modal Contextual Attention Network for Fake News Detection
Hierarchical Multi-modal Contextual Attention Network for Fake News Detection 论文来源:SIGIR 2021 论文链接:h ...
- 【Whalepaper】NLP论文研读 - Keyword-Attentive Deep Semantic Matching
Whalepaper是由周郴莲负责的一个每周分享论文的活动,带你研读AI领域的论文,快来一起开源学术科研吧! NLP 论文分享:每周日 晚上 九点 CV 论文分享: 每周日 晚上 九点 Res 论文分 ...
- 【Whalepaper】CV论文研读 - Involution内卷:超越Convolution的新算子
Whalepaper是由周郴莲负责的一个每周分享论文的活动,带你研读AI领域的论文,快来一起开源学术科研吧! NLP 论文分享:每周日 晚上 九点 CV 论文分享: 每周日 晚上 九点 Res 论文分 ...
- 【Whalepaper】CV论文研读 - You Only Look One-level Feature (YOLOF), CVPR2021
Whalepaper是由周郴莲负责的一个每周分享论文的活动,带你研读AI领域的论文,快来一起开源学术科研吧! NLP 论文分享:每周日 晚上 九点 CV 论文分享: 每周日 晚上 九点 Res 论文分 ...
- 区块链相关论文研读7:通过分片(Sharding)扩展区块链
本文首发在https://zhuanlan.zhihu.com/p/89933683 这篇论文发表在顶会SIGMOD 2019上,题目为<Towards Scaling Blockchain S ...
- 集成学习——NGBoost论文研读与原理理解
NGBoost(Natural Gradient Boosting)是一个比较新的Boosting方法,它是2019年10月斯坦福吴恩达团队在arXiv上发表的,论文连接为:NGBoost: Natu ...
- 集成学习—随机森林原理(理解与论文研读)
如果只想大致理解下随机森林的原理请看第一部分,第二部分是对原论文的研读(灰色引用标记的为证明或自己的理解),这部分可能需要花的时间比较长,不需要的可以忽略. 此外,文末列出来的参考视频,如果读论文还是 ...
- 【论文研读】【医学图像分割】【BCRNN】Fine-grained Recurrent Neural Networks for Automatic Prostate Segmentation ...
[论文研读][医学图像分割][BCRNN]Fine-grained Recurrent Neural Networks for Automatic Prostate Segmentation inUl ...
最新文章
- 解决非相同网段的包被丢弃的问题
- 【python】Python遍历dict的key最高效的方法是什么?
- 程序员锁死服务器致公司倒闭当事人逐条反驳:这锅我不背
- 深度之眼课程打卡-python入门05
- Javascript的原型链图
- $2019$ 暑期刷题记录 $2$(基本算法专题)
- 【渝粤教育】广东开放大学 Python基础与应用 形成性考核 (21)
- mysql数据库导入导出文件sql文件
- linux如何设置mac快捷键,在Ubuntu上使用macOS的快捷键
- 通过ssh方式clone项目_参与开源项目流程
- 想宅家学习但实力不允许?9本书,揭秘学霸是如何养成的​
- HUST 1353 Dartboard
- 一个好看的网站关站维护通告单页
- java和c 对接_java和objective-C对接笔记
- Android6,androidstudio游戏开发教程
- H5页面跳转微信小程序
- win10卓越性能模式开启方法
- 华为养狼,喂的是真肉
- rsync用法详细解释
- 2022电大国家开放大学网上形考任务-普通心理学非免费(非答案)
热门文章
- 迟到的总结(四)--springmvc的系统学习之文件上传、ajaxjson处理
- android zip格式应用,Android 压缩解压zip文件
- 利用vba 控制ie 让搜索引擎和excel结合
- OGEM Bentonite mud treatment system for Russian client
- 3D视觉:为工业机器人配备一双“火眼金睛”
- Spring HATEOAS
- 手工DIY:手机变身扫描仪_极客迷
- php libzip,基于PHP安装zip拓展,以及libzip安装的问题
- 人脸识别+身份证识别 ——APP实名制
- 九龙证券|全球央行增持提振黄金交易活跃度