向AI转型的程序员都关注了这个号????????????

机器学习AI算法工程   公众号:datayx

这篇文章主要以第二名为讨论对象,来自美团NLP团队。同时会对比第一名和第三名的方案。此外,给出了SemEval2019的答案分类任务上的第一名方案,和该比赛联系较多。

前三名详细方案获取方式:

关注微信公众号 datayx  然后回复  新闻  即可获取。

AI项目体验地址 https://loveai.tech

一.背景

从标题来看,做成一个二分类问题更加地直接,而本届比赛的思路则不同。前者二分类问题的输入是一个文本(新闻标题/新闻文本/新闻标题+新闻内容) ,而比赛的数据输入是两个文本(新闻标题),输出是三分类的标签(一致/不一致/无关)。这样的话,显然自然语言推理(NLI)的任务中的方法自然适合用于该比赛。

二.数据介绍

训练样本量为32万,测试样本量为8万。由于输入是新闻标题,长度在20-100词之内。既然是分类问题,多数情况下要考察不平衡现象。三类样本的占比如下:

由上表可以得出结论:类别严重不平衡。

三.数据预处理和数据增强

1.数据预处理

结合数据特点,使用各种数据预处理方法。例如繁简转换,停用词过滤等。

2.数据增强

(a)标签传播

标签传播的思想作为一种数据增强手段,用处较多。在拍拍贷-问题相似度比赛中,仍旧可以采用该方法做数据增强。

假设A和B是一致的,A和C是一致的,显然B和C应该是一致的;

假设A和B是一致的,A和D是不一致的,则B和D也是不一致的;

(b)位置交换

A和B是一致的,则B和A也是一致的。

四.模型选择

BERT为主,辅助SVM,LR,KNN,NB

五.策略设计

模型融合,设计三层。第一层:25个BERT基模型;第二层:SVM/KNN/NB等传统数据挖掘模型;第三层:LR模型

六.评估指标

带有权重的分类准确率。其中,具体权重分配如下表:

结论:少数类样本,权重大。通过这种方式,引导模型去关注少数类样本或者说希望选择一个对少数类关注度较高的模型。

七.线上结果

官方提供的中文BERT是在中文维基百科语料上训练得到的,语料数据和新闻语料是有区别的。能够将中文BERT继续在新闻数据上训练,提升中文BERT对新闻数据的表征能力。实际上,就在写这篇文章的当日,百度放出了ERNIE,或许基于ERNIE可以在该比赛基础上进一步提升。

改进:
(1)mask的粒度:字(BERT)->词(ERNIE),不过输入仍旧是字。
(2)语料:中文维基百科(BERT)->百科类+新闻资讯类+对话类(ERNIE)。

虚假新闻检测数据集

1.FakeNewsNet

下载链接:https://github.com/KaiDMML/FakeNewsNet

说明:该数据集包含新闻内容和正确标注真假新闻标签的社会语境特征。

使用论文:

(1)A Stylometric Inquiry into Hyperpartisan and Fake News

(2)Exploiting Tri-Relationship for Fake News Detection

2.BuzzFeedNews

链接:https://github.com/BuzzFeedNews/2016-10-facebookfact-check/tree/master/data

说明:该数据集包括完整的Facebook新闻发布于接近2016年美国大选从9月19日到23日以及9月26日和27日。

3.LIAR

链接:http://www.cs.ucsb.edu/~william/software.html

说明:该数据集是从PolitiFact收集,包括简短陈述,例如新闻稿,电视

或电台采访,竞选演讲等,并包含元数据。

使用论文:

(1)“Liar,LIar Pants on Fire”:A New Benchmark Dataset for Fake News Detection

(2)Multi-Source Multi-Class Fake News Detection

4.BS Detector

链接:https://github.com/bs-detector/bs-detector

说明:为新闻浏览器导出的数据集,包含新闻内容和正确标注真假新闻标签。

5.CREDBANK

链接:http://compsocial.github.io/CREDBANK-data/

说明:推特的大数据集,包含新闻内容和人工标注标签。

数据集涉及的内容如下:

6.Twitter and Weibo DataSet

链接:https://github.com/majingCUHK/Rumor_RvNN

http://alt.qcri.org/~wgao/data/rumdect.zip

说明:5000条言论带着500w的转发量

使用论文:

(1)CSI: A Hybrid Deep Model for Fake News Detection

(2)Detecting rumors from microblogs with recurrent neural network

(3)Early Detection of Fake News on Social Media Through Propagation Path Classification with Recurrent and Convolutional Networks

7.Twitter15 Twitter16

链接:

https://www.dropbox.com/s/7ewzdrbelpmrnxu/rumdetect2017.zip?dl=0

说明:谣言数据

使用论文:

Detect Rumors in Microblog Posts Using Propagation Structure via Kernel Learning

8.推特语料

链接:http://www.cs.jhu.edu/svitlana/

说明:具体时间事件所搜集的数据集

使用论文:

Separating Facts from Fiction Linguistic Models to Classify Suspicious and Trusted News Posts on Twitter

9.包含图的假新闻数据集

链接:

https://drive.google.com/open?id=0B3e3qZpPtccsMFo5bk9Ib3VCc2c

说明:文本+图像

使用论文

TI-CNN: Convolutional Neural Networks for Fake News Detection

10.谣言数据集

链接:http://mia.kaist.ac.kr/publications/rumor.

说明:数据集包含三个维度:时间,结构和语言

使用论文:

Prominent features of rumor propagation in online social media


阅读过本文的人还看了以下文章:

【全套视频课】最全的目标检测算法系列讲解,通俗易懂!

《美团机器学习实践》_美团算法团队.pdf

《深度学习入门:基于Python的理论与实现》高清中文PDF+源码

python就业班学习视频,从入门到实战项目

2019最新《PyTorch自然语言处理》英、中文版PDF+源码

《21个项目玩转深度学习:基于TensorFlow的实践详解》完整版PDF+附书代码

《深度学习之pytorch》pdf+附书源码

PyTorch深度学习快速实战入门《pytorch-handbook》

【下载】豆瓣评分8.1,《机器学习实战:基于Scikit-Learn和TensorFlow》

《Python数据分析与挖掘实战》PDF+完整源码

汽车行业完整知识图谱项目实战视频(全23课)

李沐大神开源《动手学深度学习》,加州伯克利深度学习(2019春)教材

笔记、代码清晰易懂!李航《统计学习方法》最新资源全套!

《神经网络与深度学习》最新2018版中英PDF+源码

将机器学习模型部署为REST API

FashionAI服装属性标签图像识别Top1-5方案分享

重要开源!CNN-RNN-CTC 实现手写汉字识别

yolo3 检测出图像中的不规则汉字

同样是机器学习算法工程师,你的面试为什么过不了?

前海征信大数据算法:风险概率预测

【Keras】完整实现‘交通标志’分类、‘票据’分类两个项目,让你掌握深度学习图像分类

VGG16迁移学习,实现医学图像识别分类工程项目

特征工程(一)

特征工程(二) :文本数据的展开、过滤和分块

特征工程(三):特征缩放,从词袋到 TF-IDF

特征工程(四): 类别特征

特征工程(五): PCA 降维

特征工程(六): 非线性特征提取和模型堆叠

特征工程(七):图像特征提取和深度学习

如何利用全新的决策树集成级联结构gcForest做特征工程并打分?

Machine Learning Yearning 中文翻译稿

蚂蚁金服2018秋招-算法工程师(共四面)通过

全球AI挑战-场景分类的比赛源码(多模型融合)

斯坦福CS230官方指南:CNN、RNN及使用技巧速查(打印收藏)

python+flask搭建CNN在线识别手写中文网站

中科院Kaggle全球文本匹配竞赛华人第1名团队-深度学习与特征工程

不断更新资源

深度学习、机器学习、数据分析、python

 搜索公众号添加: datayx  

长按图片,识别二维码,点关注

虚假新闻检测,来自美团NLP团队方案相关推荐

  1. 智源计算所-互联网虚假新闻检测挑战赛(冠军)方案,开源分享

    比赛链接为 https://www.biendata.com/competition/falsenews/ 比赛由智源研究院和中科院计算所主办,比赛平台为biendata. 冠军模型可以访问下述链接获 ...

  2. 虚假新闻检测挑战赛落幕,探寻获奖团队背后的故事

    2019年11月16日,智源论坛:虚假新闻检测暨2019虚假新闻检测挑战赛颁奖仪式召开.本次挑战赛由北京智源人工智能研究院和中国科学院计算技术研究所共同举办,旨在促进互联网虚假新闻检测技术的发展,营造 ...

  3. 【NLP】万字长文带你解读『虚假新闻检测』最新进展

    NewBeeNLP原创出品 公众号专栏作者 @byn blog | https://blog.csdn.net/byn12345 互联网时代,假新闻铺天盖地,而且极具迷惑性,因此假新闻检测任务对逻辑的 ...

  4. 独家 | 基于NLP的COVID-19虚假新闻检测(附代码)

    作者:Susan Li 翻译:杨毅远 校对:吴金笛 本文长度为4400字,建议阅读8分钟 本文为大家介绍了基于自然语言处理的COVID-19虚假新闻检测方法以及可视化方法,并结合真实的新闻数据集与完整 ...

  5. 基于NLP的COVID-19虚假新闻检测

    基于NLP的COVID-19虚假新闻检测 摘要 全文约2400字,建议阅读时间7分钟.本文为大家介绍了基于自然语言处理的COVID-19虚假新闻检测方法以及可视化方法,并结合真实的新闻数据集以及完整的 ...

  6. 【论文翻译 虚假新闻检测综述 KDD 2017】Fake News Detection on Social Media: A Data Mining Perspective

    论文题目:Fake News Detection on Social Media: A Data Mining Perspective 论文来源:KDD 2017 美国亚利桑那州立大学, 美国密歇根州 ...

  7. 虚假新闻检测论文调研

    虚假新闻检测论文调研 Evidence Inference Networks for Interpretable Claim Verification 基本信息 发表刊物和年份:2021 AAAI 摘 ...

  8. SIGIR 2021 | 基于用户偏好感知的虚假新闻检测

    ©PaperWeekly 原创 · 作者 | 金金 单位 | 阿里巴巴研究实习生 研究方向 | 推荐系统 简介 近年来,虚假信息和假新闻对个人和社会造成了不利影响,引起了对假新闻检测的广泛关注.大多数 ...

  9. 智源-计算所虚假新闻检测大赛 | 探秘假新闻中的视觉信息

    2019 年 8 月,北京智源人工智能研究院联合中科院计算所.数据评测平台 biendata,共同发布了中文多模态虚假新闻数据集,并同步开放了评测竞赛(2019 年 8 月-11 月初),总奖金 10 ...

最新文章

  1. 后端传输大量log数据_京东智联云MySQL读写分离最佳实践 ,轻松搞定数据库高性能扩展...
  2. 理论物理极础1. 经典物理的本性
  3. [转].NET学习网站收集
  4. ITK:跳过特定区域时在图像上迭代
  5. newcode wyh的吃鸡(优势队列+BFS)题解
  6. C++的4种类型转换关键字及其特点
  7. NBT:你想成为计算生物学家?
  8. 程序员都在用的IDEA插件(不断更新)
  9. 为什么你的ASO效果不好_ASO优化重要吗
  10. 大数据商业化应用的价值和应用场景是什么?
  11. 用python验证谷角猜想_角谷猜想 - 寂寞暴走伤的个人空间 - OSCHINA - 中文开源技术交流社区...
  12. 谷歌浏览器(Chrome)输入框总是有历史输入记录,解决办法
  13. iphone 传android,安卓和苹果手机怎么互传文件_安卓与苹果手机之间互传文件的方法教程_3DM手游...
  14. DPDK 网卡驱动学习
  15. SQL*Loader使用方法nbsp;(转自一沙弥的…
  16. vivo手机便签如何快速彻底一键换机使用?
  17. FPGA hold违例
  18. Count,TPM,FPKM,CPM之间的格式转换——Count转TPM
  19. 如何挑选一双合适的童鞋
  20. Linux下常用的系统监控软件

热门文章

  1. 微信小程序 实现点击按钮选择图片后显示图片并且可以预览该图片
  2. 记录一次dns修复过程
  3. 华为云搭建web服务器(WordPress)
  4. 2k17服务器维护,我的NBA2K17无法打开怎么办 我的NBA2K17登录不了解决方案
  5. 网贷天眼:11月P2P车贷平台交易规模排行榜
  6. Spring boot热部署的作用和原理
  7. 2022年裂解(裂化)工艺考试题库模拟考试平台操作
  8. python 图像等比例缩放
  9. 并查集-POJ2912 Rochambeau
  10. linux xfce占用资源,Xfce之所以大行其道的七大原因