大数据文摘出品

作者:周素云

近期,HBO出品的台剧《我们与恶的距离》热播,在感慨剧情深度的同时,也引发了对于媒体行业生存现状的反思。

《我们与恶的距离》剧照

一方面,人们希望媒体能够坚持所谓“新闻理想”,另一方面,在信息爆炸讯息光速传递的今天,媒体人要坚守“客观真实”的报道,实属难得。

作为一位媒体从业者,文摘菌对于女主角新闻台副总监“宋乔安“印象深刻。

贾静雯饰演宋乔安,演技炸裂

影片一开始,我们就目睹了一起抢热点的假新闻事件。多家媒体同一时间播报了一条泰国发生爆炸的消息,令宋乔安和同事感到措手不及。这条消息没有得到前方记者的证实,也缺乏官方认证,用媒体术语来说,就是不具有权威信源。但是,该爆炸性新闻自带流量,若证实有中国游客身亡,更会让它成为一条名副其实的爆款新闻。

竞争对手们争相播报,宋乔安压力颇大,尽管没有拿到真的信源,依然硬着头皮播了这条新闻,但最终,它被证实是一条假消息。

机器学习假新闻判别

宋乔安的尴尬处境也恰恰是当代媒体真实写照。突发新热点多,真假难以被证实。或许,我们可以在算法的帮助下,打破这一困境。

《我们与恶的距离》剧照

AI谣言粉碎机

今年愚人节当天,阿里宣布了一项新技术被称为“AI谣言粉碎机”。这项技术的算法模型通过深度学习和神经网络,设计了包括发布信息、社交画像、回复者立场、回复信息、传播路径在内的判断系统,将谣言识别和社交用户观点识别打通,最快1秒内判定结果。在特定场景中的准确率可达到81%。

阿里希望帮助社交平台和新闻网站在假新闻尚未造成大面积伤害时就快速识别出来,遏制其传播。在信息被证实为谣言后,AI还可通过虚假信息的传播路径,定向给阅读过此信息的用户进行辟谣。

SemEval语义测试大赛中,根据主办方提供的过去两年社交媒体Twitter和Reddit上的近500个真实言论和1万多条相关反馈数据,阿里巴巴的人工智能技术对假新闻识别的准确率创造了新的纪录。达摩院语言技术实验室首席科学家司罗表示,“AI谣言粉碎机”未来有望帮助社交媒体的审核机构承担60%的工作量。

Breaking Data

英国有一家体育媒体GiveMeSport,是一个主要基Faceboook发布体育相关的新闻,最后被人工智能公司Breaking Data 收购,目前在新闻频道的两个终端应用了AI技术,可以分析和反应片段及重大新闻报道。

Breaking Data运用自然语言处理技术扫描Twitter,通过相关推文筛选预定关键词,如运动队、球员姓名、球队名称、俱乐部、联赛或运动场。经过筛选和验证关键词,将其分为“重大事件”,“相关新闻”或“大幕新闻”等类别; 并在BreakingSports Slack频道中作为警报发送给记者。GiveMeSport正在使用Breaking Data的技术将其他公开可用的数据源(如Facebook,Reddit和Wikipedia)整合在一起。

这个平台通过识别可靠的信息来源来判断推文是否可靠,例如,欧冠中当巴萨以3:0战胜利物浦时,人工智能平台可以跟踪Twitter上的内容何时首次出现,并将该帐户标记为可靠的权限。

用AI打假AI合成图片

除了假新闻,AI合成的视频和照片也越来越多,利用算法实现AI换脸技术已经很成熟。针对此种情况,成立于2017年的旧金山初创企业人工智能基金会(AI Foundation),他们正在开发的Reality Defender将帮助人们识别由人工智能算法生成的内容,以检测潜在的虚假媒体。

与病毒防护类似,他们的工具扫描每一幅图像、视频和其他媒体,寻找已知的假象,允许你报告可疑的假新闻,并使用各种人工智能驱动的分析技术,以检测变化或人为生成的迹象。

虚假、合成的照片和视频在网络的传播,也会造成品牌和个人造成不可挽回的名誉损毁。但试图监管全球媒体数据将是一项艰巨的任务,使用AI技术任何人都可以炮制出数百万张看起来逼真的假照片。鉴于虚假图像和视频的改善速度之快,或许验证“什么是真实的”的商业模式可能更有效,也许媒体和个人很快应该拥有自己的数字指纹,可AI合成的底线又在哪?

假新闻训练模型及数据集

在某种程度上假新闻的是一个微观领域问题,它和谣言分类、事实判断、标题党检测、垃圾内容挖掘等都比较类似,在宏观上说都属于内容质量的领域,所以很多方法其实是通用的框架。腾讯科技高级研究员孙子荀将假消息辨别模型分为两类:

  • 基于内容的建模;

  • 基于社交网络的模型。

后者可以通过对虚假新闻的传播游走轨迹跟踪,以及通过图模型和演化模型中针对特定假新闻的进一步调查;其次,识别虚假新闻的关键传播者,对于减轻社交媒体的传播范围至关重要。

在2017年,Kai Shu等人的论文中将假新闻的研究主要分为三个方向:

数据方面的研究:目前还没有标准的测评数据集,需要去建立的。可以通过传播特性提前检测假新闻。

模型特征方面的研究:通过使用用户的画像特征,内容特征(NLP、CV)结合深度学习,还有传播网络特征,比如用户和内容之间的关系构造出来的网络特征,网络本身的embedding表现。

模型方面的研究:这方面的工作可分为特征之间的组合、预测目标的变化、对内容源、内容反馈和文章风格的限制,组合这些模型,也可通过空间变换,把特征变换到另外的latent语义空间尝试解决。

鉴定假新闻是一件任重而道远的事,对假新闻机器学习模型感兴趣的同学也可以通过以下开放的数据集进行尝试。

1. FakeNewsNet

BuzzFeed和PolitiFact两个平台的数据集,包括新闻内容本身(作者,标题,正文,图片视频)和社交上下文内容(用户画像,收听,关注等)。

数据集获取方式:

https://github.com/KaiDMML/FakeNewsNet

2.LIAR

该数据集也是来自PolitiFact,包括内容本身和内容的基础属性数据,比如来源,正文等。

数据集获取方式:

http://www.cs.ucsb.edu/~william/data/liar_dataset.zip

3. Twitter and Weibo DataSet

一个比较全的数据集包括帖子ID,发帖用户ID,正文,回复等数据。

数据集获取方式:

http://alt.qcri.org/~wgao/data/rumdect.zip

4. Twitter15 Twitter16

来自 Twitter 15、16 年的帖子,包括了帖子之间的树状收听,关注关系和帖子正文等。

数据集获取方式:

https://www.dropbox.com/s/7ewzdrbelpmrnxu/rumdetect2017.zip?dl=0

5. Buzzfeed Election Dataset & Political News Dataset

Buzzfeed’s 2016 收集的选举假新闻,以及作者收集的 75个新闻故事。包括假新闻,真新闻和讽刺新闻。

数据集获取方式:

https://github.com/rpitrust/fakenewsdata1

相关链接:

http://www.sohu.com/a/311856780_99928473?sec=wd

https://zhuanlan.zhihu.com/p/57124028

《我们与恶的距离》引发媒体反思:假新闻抢热点,机器学习能做些什么?相关推荐

  1. 疫苗事件引发的思考:MES能为药品生产安全做些什么

    "长生生物"疫苗事件余热未消,阿里.百度.腾讯甚至360都陆续推出疫苗查询工具,可以通过扫描疫苗包装盒上的追溯条形码,了解疫苗是否有问题.不论是阿里.百度还是腾讯.360,这个时候 ...

  2. 观后感之《我们与恶的距离》

    <我们与恶的距离> 上映时间:2020年台湾 简介:「到底什么是好人, 什么是坏人,有标准答案吗? 」 这是由一场无差别杀人事件,延伸出的几个家庭间,不同立场.不同参与者的故事. 故事剧情 ...

  3. Python分析《我们与恶的距离》豆瓣剧评

    ​Python分析<我们与恶的距离>豆瓣剧评 <我们与恶的距离>是一部非常有深度的台剧.演员的演技无可挑剔,剧情编排也很新颖,而且逻辑严谨,剧情环环相扣,不拖泥带水.剧中出了很 ...

  4. 诚之和:《鱿鱼游戏》普通人与恶的距离,究竟有多远

    最近,韩剧<鱿鱼游戏>成了爆款.为何这部剧会爆火呢? 它虚构了一个封闭环境中的比赛系统,乍看是对"一二三木头人".拔河.打弹珠等童年游戏的复刻,实际上这个比赛系统却借此 ...

  5. 新媒体时代的新闻写作与宣传

    新媒体时代的新闻写作与宣传 课程背景: 天天都在接触新闻,但我们真的了解新闻吗?经常都会采编新闻,可我们真的会写新闻吗?好不容易在新媒体上发了一篇新闻,但关注的人却很少,这究竟是为什么呢?总算引发别人 ...

  6. 【新媒体】现阶段新闻聚合的玩法

    郑昀 20070824<?xml:namespace prefix = o ns = "urn:schemas-microsoft-com:office:office" /& ...

  7. 【新媒体】现阶段新闻聚合的玩法 1

    郑昀 20070824 新浪科技主编曹增辉的<新闻聚合的门槛>论及了玩聚所处的一些大环境之先天不足,主要是环境门槛.细分市场的门槛,以及入口问题. 我的理解呢: 1:现阶段,群众性智慧一定 ...

  8. 地方性自媒体如何运营?微信公众号可以做地方性自媒体吗?

    地方性自媒体如何运营?微信公众号可以做地方性自媒体吗? 地方性自媒体地兴盛,本就是意料之中的事,它可以说是行业发展的必然趋势.就如同:主流市场被瓜分干净之后,必然会有越来越多的互联网企业选择从利基市场 ...

  9. 媒体邀约邀请媒体参加发布会新闻发布,2元起发10分钟收录

    网络上关于新闻营销的文章很多,但是都是直接谈新闻稿发布的,并没有谈到具体如何发布,其实新闻稿发布的一个重要环节就是媒体渠道.把媒体邀请到现场然后进行媒体报道的新闻营销费用偏高,但是这样发布的新闻质量也 ...

最新文章

  1. Markdown编辑器“MarkdownPad”下载安装(图)
  2. JUnit4中使用Hamcrest测试框架的assertThat断言 小实例
  3. django 利用PIL 保存图片
  4. Python 实现针对时间序列预测的特征选择
  5. 在2003上实现Custom Task Pane
  6. 从并行 SCSI 到串行 SCSI
  7. Android TV框架TIF
  8. Depth Map Prediction from a Single Image using a Multi-Scale Deep Network(NIPS2014)论文阅读
  9. mac m1 安装svn/subversion
  10. Android 游戏开发工具包 (AGDK)
  11. 南方cass简码识别大全_CASS分类简码
  12. 使用elastic job 不分片任务加载失败的可能原因
  13. 误差函数erf的数值计算方法
  14. Linux部署启动服务脚本
  15. DFI Update的原理与实现
  16. html数独游戏源代码,数独算法及源代码
  17. WHMCS V7.60 新增短信宝短信插件
  18. java json 长度限制_tomcat解决POST请求过长的限制
  19. 正点原子DS100手持示波器测试记录
  20. 授权(authorization)的设计思路

热门文章

  1. DTCC2022 | openGauss打造企业级开源数据库,服务行业核心系统
  2. 2023学习Linux云计算可以做什么岗位的工作?
  3. 天气选择页面html,CSS3 天气预报界面组件
  4. 比Teambition、Worktile 更适合研发团队的几大工具盘点
  5. python深度优先搜索传教士和野人_ai1 带回溯的深度优先策略:解决经典野人传教士过河问题的求解:三个修道士和三个野人过河 - 下载 - 搜珍网...
  6. 魅族16s Pro体验:精益求精的打磨升级款
  7. 5g无线图传信号测试软件,5G时代,移动无线图传网络构架和无线图传传输技术...
  8. 《可爱的Python》读书笔记(二)
  9. VMware Workstation pro无法在Windows上运行,检查可在Windows上运行的此应用的更新版本
  10. 网易雷火防护工程师面经