对于日益严重的假新闻问题,不同的研究团队正在利用 AI 技术去更准确的判定和甄别假新闻。但技术是相对的,另一方面,在暗处,也有着另一波人在不断用 AI 技术生产假新闻、假评论。

今年的愚人节,你收到假新闻了吗?据统计,2016 年以来,「假新闻」一词的使用率增加了 365% 。

扎克伯格曾表示,构建全面的假消息检测需要很长时间,因为传统的思路是要理解消息的内容,综合发布时间和来源进行判断,这需要很大的工作量或技术要求。

但如果换一种思路呢?AI 也许不需要用人的思路去解决这个问题。事实上,当前的发展下,已经有新的 AI 方法在帮助人们判断网络中的假新闻。

不止在愚人节愚人的假新闻

就在几天前,微软发布公告称,今年它们不过愚人节。也许这个消息不算意外,因为谷歌就曾经因为愚人节开大了玩笑,而向用户公开致歉。

在 2016 年愚人节,Gmail 因在邮件中加入「小黄人扔麦克风」表情而引发众怒

进入互联网时代后,愚人节逐渐从一些小的捉弄把戏,发展到在网络上传播一些大的事件。看似恶作剧的行为,却在一些场合,因为巨大的传播量和太过于「真实」,造成了大众的恐慌。

这个本来应该是轻松的节日,之所以会变成一些人害怕的日子,是因为在这一天,会有大量的假新闻产生。

所谓的假新闻,往往是一些媒体为了增加读者或网络分享而产生出来的虚假内容。假新闻生产者类似标题党,为了实现博眼球或者吸引流量的目的而无视内容的真假。

假新闻往往有着吸引人的标题,耸人听闻的故事,或者追逐热门的话题。正因如此,假新闻更容易获取广告收入、受到关注。

除了在愚人节大家会针对性的制造噱头之外,随着网络的便捷性和媒体报道的门槛降低,在平常的日子里,假新闻也比真新闻传播的更快更广泛。对于这个令人头疼的问题,最好的一种设想是有一个智能的过滤器,帮助我们去筛选。

打假:MIT 借 AI 从语言模式上识别假新闻

MIT 的研究者使用了从语言模式上来判别假新闻的方法。

在一篇题目为 The Language of Fake News: Opening the Black-Box of Deep Learning Based Detectors 的论文中,MIT 的研究团队使用机器学习模型,捕捉真新闻与假新闻语言中的微妙差异,从而判断新闻的真假。

他们使用卷积神经网络,训练假新闻和真实新闻的数据集。在训练中,他们使用了一个名为 Kaggle 的流行假新闻研究数据集,其中包含来自 244 个不同网站的大约 12000 个假新闻样本文章。对于真新闻的数据集,则是来自于纽约时报的 2000 多份和卫报的  9000 多份新闻。

模型用在真新闻分析中,会有大量的紫色和红色的词语

训练的模型将文章的语言捕获为「单词嵌入」,其中单词表示为向量,基本上是数字数组,具有相似语义含义的单词更紧密地聚集在一起,分析出真新闻和假新闻常用的语言模式。然后对一篇新文章,模型会扫描文本中的相似模式,并通过一系列图层发送它们。最终输出层确定每个模式的概率:真实或假。

该模型总结了在真实或虚假新闻中出现频次高的词汇特点。比如虚假新闻喜欢用夸张或最高级的形容词,然而真实新闻则倾向于使用相对保守的词语。

模型用在 GTP-2 虚构的假新闻分析中,只有黄色的标识词语

MIT 的研究人员称,他们的部分研究也揭示了这种深度学习技术的黑匣子,即找出此模型捕获的单词和短语,并对这些内容进行预测和分析,也就是知道深度学习判定的依据和方式。

论文地址: https://cbmm.mit.edu/sites/default/files/publications/fake-news-paper-NIPS.pdf

打假:Fabula AI 从传播方式上识别假新闻

英国的一家科技公司 Fabula AI 报道,他们利用新闻的传播方式对虚假新闻进行甄别。

Fabula AI 公司网站的宣传语

Fabula AI 利用几何深度学习( Geometric Deep Learning )的方法检测假新闻。这种方法不是从新闻内容入手,而是着眼于此类信息如何在社交网络上传播,以及谁在传播这些信息。他们已经为此技术申请了专利。

Fabula AI 的联合创始人兼首席科学家 Michael Bronstein 说:「我们对新闻在社交网络上的传播方式进行了长期的观察。经分析得到,假新闻和真新闻的传播方式是不同的。几何深度学习的本质是它可以处理网络结构数据。我们可以合并异质数据比如用户特征、用户之间的社交网络互动、新闻本身的传播。从而产生判断。」

最后, AI 会根据真假新闻的可信程度,对内容进行分类,而且给出评定分数。将虚假与真实新闻从传播模式上进行可视化:以分享假新闻为主的用户是红色的,而完全不分享假新闻的用户是蓝色的。Fabula AI 表示,这显示了明显的群体分化,以及在传播方式上立即识别的差异。

Fabula AI 的方法标记用户

此外,该公司称, Fabula AI 技术的主要优势在于它与新闻的内容和语言无关,而且因为它依赖于社交平台用户的集体行为,更难被技术的方法去对抗。而且系统能够用更快的速度,在发布之后的短时间内,以非常准确的方式检测出假新闻(> 93% 的 ROC AUC )。

文章博客:https://fabula.ai/news-index/2019/2/7/fabula-ai-announces-breakthrough-in-algorithmic-fake-news-detection

当然,用 AI 判断假新闻的方法,还没有达到完全可以公布使用的阶段,目前也处在研究或者需要人力辅助的阶段,仍然有一些细节需要去改进。

但在另一方面,AI 生成文本和影像的功力,也随着技术的发展而日臻成熟,在很多地方已经达到了以假乱真的地步,也许你今天看到的某则假新闻就是 AI 所撰写。某种角度来说,这在反方面督促着检测技术的完善。

造假:OpenAI 编造假新闻以假乱真

OpenAI 在今年年初公布的 GPT -2 ,依靠超大的参数规模和训练数据,在对网页上大量文本进行无监督训练后,系统生成或续写文本的效果非常好。据称,他们用来练习的文本涵盖了经过 Reddit 筛选出的 4500 万页网页内容。

Open AI 发布 GPT-2 的推文,引发了大量的关注和讨论

这个模型能根据提供引导语句生成看似可信的文本,拿来写新闻的话,一点都不含糊。

比如:

人为给出示范:Russia has declared war on the United States after Donald Trump accidentally fired a missile in the air.

译文:在唐纳德·特朗普不小心向空中发射导弹后,俄罗斯向美国宣战。

AI 补充的文本:Russia said it had 「identified the missile’s trajectory and will take necessary measures to ensure the security of the Russian population and the country’s strategic nuclear forces.」The White House said it was 「extremely concerned by the Russian violation」of a treaty banning intermediate-range ballistic missiles.

The US and Russia have had an uneasy relationship since 2014, when Moscow annexed Ukraine’s Crimea region and backed separatists in eastern Ukraine.

译文:

俄罗斯表示,它已经「确定了导弹的弹道,并将采取必要措施确保俄罗斯人民和国家战略性核武装的安全」。白宫表示,它「极为关切俄罗斯违反了」禁止中程弹道导弹的条约。

自2014年莫斯科吞并乌克兰克里米亚地区并支持乌克兰东部的分离主义者以来,美俄关系一直紧张。

你没看错,以上这段故事就是完全由人工智能独立自主编造的。而提供给它的材料仅仅只是一句「在唐纳德·特朗普不小心……,俄罗斯向美国宣战」。

GPT -2 生成文本的例子

诚然, OpenAI 团队不会故意去生成假新闻,但却没法阻止不法分子,以此做不道德的事情。OpenAI 也因为这个模型太过强大,选择了不公布关键的数据和代码。

造假:AI 在生成影像内容上也不逊色

此外,对于 AI 生成的视频内容,人们也可能会失去分辨力度。

某种 AI 模型生成虚假人像的例子

去年年初,国外某视频网站上,有人上传了一段看上去像是法国著名音乐人 Françoise Hardy 的视频。

视频中,有画外音提问她,为什么特朗普要让白宫发言人斯宾塞在他的总统就职典礼观礼人数问题上撒谎。

Hardy 回答说,斯宾塞先生只是「提出了另外一种事实」。

不过,这段视频中破绽百出,Hardy 的嗓音很明显是特朗普的顾问 Kellyanne Conway 的。

更明显的是,这位本应该 73 岁的 Hardy 看上去只有 20 岁左右。

原来,这段名为《 Alternative Face v1.1 》的视频是艺术家 Mario Klingemann 搞出来的一个艺术作品。在这个作品中 Hardy 口中说出的话实际上是 Conway 回答 NBC 记者提问的答案。

据介绍,Klingemann 使用生成式对抗网络( GAN )的机器学习算法,并提供了大量 Hardy 年轻时期的 MTV 视频给这个程序。他提取了68 个面部标记,得到了 2000 个训练样例,然后将这些样例输入 pix2pix 模型。经过三天的训练,他又将 Conway 的面部特征输入系统,便得到了这个视频作品。

除此之外, 利用 GAN 等技术生成图片,声音,甚至换脸技术,也都在技术和硬件的驱动下越来越逼真。技术本身没有对错,但就像 Google Brain 的研究人员 Goodfellow 说到的那样,「AI 将彻底改变我们对可信任之物的看法。」

对于分辨和甄别假新闻, AI 的方法越来越强大,不过,技术也让造假的的内容更加逼真,对于这种类似「矛与盾」的对抗结果,可能就要交给时间去检验。但我们还是应该期怀着这样的愿景:希望厉害的技术都被用在正确的地方。

AI 打假和制假,都是人的选择

居斯塔夫•勒庞早在「乌合之众」里就讲清了假新闻的源头:群体从来不渴望真理。面对他们不喜欢的明显事实,他们会转过身去,宁可把谬论奉为神明,只要这种谬论吸引他们。

当有些媒体利用群体意识里的弱点,使用 AI 制造谣言和假新闻时,责任并不在技术本身。因为 AI 自己并没有任何意志,主动生产假新闻和消灭假新闻,在这背后还是媒体自己的操作和人为干预。

如果我们真的想要清除假消息,要清除的其实是人的执念。

愚人节不快乐。

点击阅读原文

转载于:https://juejin.im/post/5ca4624251882543b81adebc

愚人节的背后:技术在一面打假,一面造假相关推荐

  1. 百度愚人节恶搞背后的趋势

    愚人节就像是一阵狂风,过了4月1日,大家又开始正经起来,似乎忘记昨天还在调侃.嬉笑.恶搞,真正留下来供回味的,凤毛麟角.今年的惊喜在百度这家公司身上--从资源宾馆诞生以来,10多年时间,百度第一次官方 ...

  2. 阿里愚人节发布“如影计划”,黑科技让支付宝与掌心融为一体

    雷锋网消息,4月1日愚人节,科技圈在这一天都有发布"黑科技"的习惯,阿里巴巴集团也不例外,它一共发布了两个产品--阿里云的"云计蒜"与支付宝"如影计划 ...

  3. 愚人节导入_最好的开发商愚人节

    愚人节导入 在一个安静的星期天,开发人员世界中发生了许多事态发展,这使您无法逃脱您的注意. 但是,在对写作团队寄予厚望和烦人的同时,似乎所有人都参与了愚人节活动. 这些年来,技术失误足够多了,我们不应 ...

  4. 愚人节,看你们把AI逼成什么样了?

    点击上方↑↑↑蓝字关注我们~ 「2019 Python开发者日」,购票请扫码咨询 ↑↑↑ 作者 | 一一 出品 | AI科技大本营(ID:rgznai100) 每逢愚人节,科技公司就坐不住了. 也不全 ...

  5. 一键反推食谱,与狗对话,识别女票表情…愚人节,AI 也被玩坏了...

    掐指一算,又是一年 4 月 1 日愚人节. 这一天,是自带调侃和谅解属性的一天.想在愚人节搞点事情的,不仅仅是那些想要表白却害怕被拒绝而导致尴尬的年轻人,也不仅仅那些推出奇葩新品来吸引消费者眼球的商家 ...

  6. 一键反推食谱,与狗对话,识别女票表情…愚人节,AI 也被玩坏了

    掐指一算,又是一年 4 月 1 日愚人节. 这一天,是自带调侃和谅解属性的一天.想在愚人节搞点事情的,不仅仅是那些想要表白却害怕被拒绝而导致尴尬的年轻人,也不仅仅那些推出奇葩新品来吸引消费者眼球的商家 ...

  7. 独家丨支付宝在愚人节推出全球首款会飞的区块链手机!

    今天是愚人节,按照不成文的惯例,科技公司通常会选择在这一天向外界show自家的"黑科技".支付宝在今年的愚人节给大家开了一个巨大的脑洞,推出了一款极具想象力的超级智能手机. 从视频 ...

  8. 愚人节,聊聊那些开源的「傻问题」

    感谢腾源会导师刘天栋.肖宇.赵生宇.万慧.张开翔.谭中意.姜宁.单致豪.彭友顺.耿航(排名不分先后)对本文的贡献! 每年愚人节总会看到一句话,叫 Stay Hungry.Stay Foolish(求知 ...

  9. 支付宝发布黑科技“如影计划”,这真的不是愚人节的玩笑

    在众多"玩笑"中,支付宝照样玩出了花. 按照以往愚人节发布"黑科技"的"传统",继往年的视网膜支付.意念支付.空付.到位.蚂上等,支付宝又在 ...

  10. 写在08年“愚人节”

    从博客园学了很多东西,是时候该回馈了.谢谢博客园给我们提供这么好的平台交流技术. 刚发了文章习惯性的看了下自己博客的首页代码,感觉日历不够精良. 我做过的一个ajax日历,可以参考解放日报 艺术家具版 ...

最新文章

  1. IROS 2021 | 激光视觉融合新思路?Lidar强度图+VPR
  2. Google平台搭建虚机
  3. Hadoop系列六:Hadoop之HBase篇
  4. Ubuntu 下 apt-get 命令
  5. mysql是哪五个字符集_MySQL中涉及的几个字符集
  6. 进程丶线程丶CPU关系简述
  7. android菜鸟学习笔记27----Fragment的简单使用
  8. dotnet中的counter
  9. 系统架构设计师考试999999999999
  10. MFC 程序来龙去脉
  11. 【恋上数据结构】基数排序、桶排序、休眠排序
  12. 《高质量C/C++编程指南》学习笔记
  13. 【Android综合编程】CH2EventBus
  14. 信用评分-(scorecard)记分卡开发流程,详细介绍分数校准原理calibration
  15. 通过银行卡号获取银行名称
  16. (售前)销售经理和产品经理的区别以及未来发展
  17. 【数据结构】十字链表
  18. 前往庄园失败 当前服务器不稳定,摩尔庄园手游登录不了是怎么回事 摩尔庄园手游登录失败怎么办...
  19. ArrayList 源码分析 -- 扩容问题及序列化问题
  20. uni-app自定义配置安卓模拟器 - MuMu模拟器

热门文章

  1. python树莓派_树莓派python
  2. 快乐牛牛终极板creator1.82 shader 挫牌代码
  3. 服务器运维 考什么证书,腾讯云服务器运维高级工程师认证(TCP)证书有效期、考试内容、费用...
  4. 缤纷彩色文字广告代码,文字广告代码美化版,给网站添加文字广告教程
  5. Embase,PubMed,Cochrane,WebOfScience,ScienceDirect检索方法
  6. 关于unity商店里的隐藏组件
  7. getinfo()java,Java Provider getInfo()用法及代碼示例
  8. 【保姆级入门系列】阿ken教你学 Python(五) ——函数
  9. ArcGIS地形图地理配准
  10. 计算机病毒学课本,计算机病毒及防治教案