识别“数据陷阱”，发现数据的可疑之处

我们信任数据，认为数据总是客观情况的客观反映。可事实真的如此吗？

当下，人工智能分析处理数据的速度远超人类分析师，并且能够找出人脑难以发现的行为模式和规律，但是也会犯下人脑不会犯的错误。

复旦大曾学开设了一门新的通识课程，邀请学校多个专业的教授对学生每天可能接触到的信息进行“真伪鉴定”，向学生阐述什么是“伪科学”，一经开课便节节爆满。

这门名叫“似是而非”的新课并非复旦大学首创，它的灵感来源于美国华盛顿大学的“拆穿胡扯”（ Calling Bullshit ）公开课。

生物学家Carl Bergstrom和数据科学家Jevin West在他们的新书《拆穿胡扯：数据世界的怀疑艺术》（Calling Bullshit: The Art of Scepticism in a Data-Driven World）中，分享了如何识别科学论文、新闻报道、广告、社交媒体内容中误导人的统计方法。

“数字简直是传播胡扯的完美载体。”两位作者说，“它们看上去很客观，但很容易被人利用。”

识别数据陷阱，已然成为当代生活的刚需。

作者伯格斯特龙和韦斯特认为：

数据胡扯就是全然不顾事实、逻辑连贯性或实际传递的信息，而是利用语言、统计数字、数据图表和其他表现形式，通过分散注意力、震慑或恐吓等方法，达到说服或打动听话人的目的。

数据胡扯的最终目的，是通过有意为之的操作，使本应该客观的数据，为己所用。

我们暴露在胡扯面前的时间和机率可能远远超过我们所认为的，形式也是五花八门。

那么，应如何避开数据陷阱呢？首先，需要人脑干预。

只有人具备给数据分类打标签的能力，因此不能简单地把数据丢给机器算法，寄希望于人工智能解决所有问题而无须人脑干预。

其次是防止数据删失（data censoring），制作进准的数据模型，数据删失是一种选择偏倚，指的是故意或无意将特定数据从最终分析中剔除，这可能会导致不准确和误导性的结果。如果遗漏了关键数据，研究的结论就可能是无效的。看数据集的时候，一定要关注它没有显示的东西。

提防有缺陷的数据，那些充斥着专业的术语、晦涩的技术、专门的设备的论文可能很难评估。与其尝试把这些元素理出个究竟，建议直接分析数据。无论一篇论文的技术性有多强，如果方法或结论不符合常识，它即可能有严重缺陷。

防止陷入“数据陷阱”，需要保持冷静并明智地使用数据。

识别“数据陷阱”，发现数据的可疑之处相关推荐

【数据架构系列-01】数据架构之数据血缘：数据从哪里来，到哪里去
为了直观的感受数据血缘,先从网上找了两张典型的数据血缘的图.下图特点是按照数据仓库数据管理模型给出了基于表(实体)的数据血缘图. 此图是截取Solidatus软件生成的数据血缘图,该图与上图的区别在于 ...
java服务器修改缓存数据,java监控服务器数据存入缓存
java监控服务器数据存入缓存内容精选换一换本节定义了云数据库GaussDB(for MySQL)上报云监控的监控指标的命名空间,监控指标列表和维度定义,用户可以通过云监控提供的API接口来检索 ...
大数据陷阱：需要读懂的10个小故事
自2011年以来,大数据旋风以"迅雷不及掩耳之势"席卷中国.毋庸置疑,大数据已然成为继云计算.物联网之后新一轮的技术变革热潮,不仅是信息领域,经济.政治.社会等诸多领域都" ...
七大数据陷阱之技术过失（上）：数据整理中的问题
引言许多著名运动员都曾坦言:我所做的不过是令自己精力充沛,技巧娴熟.同样的,虽然之前谈论了不少与数据科学相关的理论和思想, 但实际的数据工作也不外乎基础设施的性能优化,以及到各种到位的技术性操作,如 ...
新未来简史：区块链、人工智能、大数据陷阱与数字化生活 - 电子书下载（高清版PDF格式+EPUB格式）...
新未来简史:区块链.人工智能.大数据陷阱与数字化生活-王骥在线阅读百度网盘下载(gc5s) 书名:新未来简史:区块链.人工智能.大数据陷阱与数字化生活作者:王 ...
七大数据陷阱之技术过失之数学失误-如何计算数据（上）
引言十九世纪英国的著名思想家John Henry Newman曾言"Calculation never made a hero",calculation本义是计算,这里的意思应该 ...
基于深度学习的脑电图识别综述篇(二)数据采样及处理
作者|Memory逆光本文由作者授权分享导读脑电图(EEG)是一个复杂的信号,一个医生可能需要几年的训练并利用先进的信号处理和特征提取方法,才能正确解释其含义.而如今机器学习和深度学习的发展,大 ...
以人为本的机器学习：谷歌人工智能产品设计概述 By 机器之心2017年7月17日 12:13 取代了手动编程，机器学习（ML）是一种帮助计算机发现数据中的模式和关系的科学。对于创建个人的和动态的经历
以人为本的机器学习:谷歌人工智能产品设计概述 By 机器之心2017年7月17日 12:13 取代了手动编程,机器学习(ML)是一种帮助计算机发现数据中的模式和关系的科学.对于创建个人的和动态的经历来 ...
大数据陷阱：谁有权享有大数据，谁有权分析大数据
既要保持数据的自由流动性,又要维护每个主体在数据上的权益,这是个空前的法律难题.而创制和维护这样的数据利用秩序却是大数据应用的前提,是大数据战略得以实施的根本保证中国信息通信研究院在第十六届中国互联 ...

识别“数据陷阱”，发现数据的可疑之处

识别“数据陷阱”，发现数据的可疑之处相关推荐

最新文章

热门文章