统计数据会说谎

Mark Twain once said that “Facts are stubborn things, but statistics are pliable.”

马克·吐温曾经说过: “事实是固执的东西,但统计数字却很柔和。”

In the science of statistics the truth is in the analysis and this truth is fluid since there are scores of techniques available to cut and chart the information! But not all investigations are created equal. The study of statistics is rich with opportunities for analysts to map data and occasionally misrepresent it. With all the information streaming onto social media and the news every minute it is essential to recognize the trickery from fraud or incompetence.

在统计科学中,真理在分析中,而真理是流动的,因为有许多技术可以用来切割和绘制信息! 但是,并非所有调查都是平等的。 统计研究为分析人员提供了映射数据并偶尔歪曲数据的机会。 所有信息每分钟都会流到社交媒体和新闻上,因此必须认识到欺诈或无能为力的欺骗行为。

For example, this is a graph of Coronavirus deaths in Minnesota for the first 150 days of the pandemic using data provided by the Minnesota Department of Health. The top graph counts the deaths per day. The lower graph sums all of the Coronavirus deaths for the first 150 days of the pandemic.

例如,这是使用明尼苏达州卫生部提供的数据绘制的大流行前150天明尼苏达州冠状病毒死亡的图表。 最上面的图表计算每天的死亡人数。 下方的图表汇总了大流行前150天的所有冠状病毒死亡人数。

Minnesota Coronavirus Deaths
明尼苏达州冠状病毒死亡

At first glance the Coronavirus death statistics are only random and subsiding noise. Yet when summed over time the data clearly shows a flattened curve. However there are so many more options available to spin or graph the data.

乍看之下,冠状病毒的死亡统计数据只是随机的和消沉的噪声。 然而,随着时间的流逝,数据显然显示出平坦的曲线。 但是,还有许多其他选项可用于旋转或图形化数据。

  1. Sample Bias

    样本偏差

Sample Bias in Coronavirus deaths
冠状病毒死亡的样本偏倚

The first option to spin the data is Sample Bias. This bias exists on the account of the researcher cherry-picking information to support a half-truth. In this example I have excluded fifty days of death data. Student News Daily recently reviewed the New York Times and found that it excluded New York from its chart on the growth of new positive cases for the Coronavirus. But not all bias is the result of half-truths. For example, news stations occasionally like to run polls with their audience on a variety of topics. However these polls are inclined to be flawed for the reason that they are a voluntary response from the audience. The poll results can be further skewed by undercoverage and even the choice of wording in the question.

旋转数据的第一个选项是“ 采样偏差”。 这种偏见的存在是由于研究人员从樱桃中获取信息以支持半真相。 在此示例中,我排除了五十天的死亡数据。 《学生新闻日报》最近查看了《纽约时报》,发现它把纽约从冠状病毒新阳性病例增长的图表中排除了。 但是,并非所有偏见都是半真相的结果。 例如,新闻台偶尔喜欢与听众就各种主题进行民意测验。 但是,由于民意测验是观众的自愿回应,因此这些民意测验倾向于存在缺陷 。 民意调查的覆盖率甚至问题的措词选择可能会进一步歪曲民意调查结果。

2. Wrong Scales

2.错误的天平

Wrong scale of deaths in log
日志中的死亡人数比例错误

Scaling bias is another tool of the half-truth researcher. This bias is achieved by simply rescaling the graph. In this illustration I changed the earlier linear scale on the left axis into a much more alarming logarithmic scale. The deception is still obvious by the self-evident non-zero start of the scale of the left axis. News organizations can use this method to obscure the truth in plain sight knowing that their audience rarely read the scales or they could exclude the scale altogether.

比例偏差是半真研究者的另一种工具。 这种偏差可以通过简单地缩放图形来实现。 在此图例中,我将左轴上的较早线性标度更改为更令人震惊的对数标度。 通过不言而喻的左轴刻度开始,欺骗仍然很明显。 新闻机构可以使用这种方法来掩盖真相,因为他们知道听众很少阅读音阶,也可以完全排除音阶。

Logarithmic scales still find legit applications in the financial markets for the representation of percentages. Log scales are attractive for the reason that analysts can conveniently represent the 100% increase or decrease in the price of a stock or commodity.

对数标度仍在金融市场中找到合法的百分比表示形式。 对数刻度具有吸引力,因为分析师可以方便地表示股票或商品价格100%的涨跌。

3. Statistical Non-Correlation

3.统计非相关

Statistical Non-Correlation of deaths
死亡统计不相关

In the study of statistics it is the task of the researcher to show that a variable X correlates with variable Y. This variable Y should increase with variable X or it should decrease with X. Likewise, the variable Y could decrease while X increases. There is also the possibility that the variables X and Y are dependent on a third variable Z. For example, X and Y could be the heat and pressure that is dependent on burn rate Z. The final option is that the variables are totally unrelated.

在统计研究中,研究人员的任务是证明变量X与变量Y相关。该变量Y应随变量X增大或随变量X减小。同样,变量Y随X增大而减小。 变量X和Y也可能依赖于第三变量Z。例如,X和Y可能是取决于燃烧率Z的热量和压力。最后的选择是变量完全不相关。

In the above chart the number of Coronavirus deaths per day in Minnesota is displayed on the left next to the Intensive Care Unit (ICU) hospitalizations on the center right. Likewise for clarity, the average number of deaths on the center left is compared to the average number of ICU hospitalizations on the right. On the surface the ICU hospitalizations may appear correlated with the Coronavirus deaths and to the untrained observer they are. This is a bogus correlation.

在上面的图表中,明尼苏达州每天发生的冠状病毒死亡人数显示在中间中间的重症监护病房(ICU)住院病人的左侧。 同样,为了清楚起见,将左侧中间的平均死亡人数与右侧的ICU住院平均人数进行比较。 从表面上看,ICU的住院治疗可能与冠状病毒的死亡以及未经培训的观察员有关。 这是假的相关性。

The problem with statistics is that it’s been carefully crafted over the centuries to find correlations in information; where sometimes this correlation is fictional. Besides false correlations, mathematicians further have to contend with the illusions of Simpson’s Paradox. Simpson’s Paradox trends can appear in an individual set of data but vanish when it is combined with another set of data. For example, Berkeley University was once accused of favoring male applicants over females. Yet when they analyzed the admission statistics for specific disciplines women did better than the men.

统计数据的问题在于,经过几个世纪的精心设计,才能找到信息的相关性。 有时这种关联是虚构的。 除了错误的相关性之外,数学家还必须应对辛普森悖论的幻想。 辛普森(Simpson)的悖论趋势可以出现在单独的一组数据中,但是当与另一组数据组合时就会消失。 例如,伯克利大学曾经被指控偏爱男性申请者而不是女性。 然而,当他们分析特定学科的录取统计数据时,女性的表现要好于男性。

My deception is obvious with the addition of trend lines in the subsequent graph.

在下一张图中添加趋势线后,我的欺骗显而易见。

Adjusted Correlation of deaths
调整后的死亡相关性

It is these interpretations that tear open the discipline to incompetence, fraud and the general underming of the scientific process.

正是这些解释使学科无能为力,欺诈和科学过程的普遍失败。

Outsmarting The Fake News

超越假新闻

In the age of fake news it is easy to be manipulated, but you don’t have to be a fool. You just need to ask yourself three questions anytime you see a chart.

在虚假新闻时代,很容易被人为操纵,但您不必傻瓜。 看到图表时,您只需要问自己三个问题。

  • Is there a bias in the sampling of the information?信息采样是否有偏差?
  • Is there another variable that is affecting the data?是否有另一个变量会影响数据?
  • Could additional research contradict this finding?其他研究是否可能与这一发现相矛盾?
  • Is the data being overly generalized?数据是否过于笼统?

翻译自: https://medium.com/@daverauschenfels/three-ways-statistics-are-lying-to-you-3e015b8815ee

统计数据会说谎


http://www.taodudu.cc/news/show-2209692.html

相关文章:

  • 读书|《赤裸裸的统计学》:统计数字很容易说谎
  • [独家]MIT课程笔记:数据可视化会撒谎
  • 统计案例 | 统计数据会说谎?
  • 《统计数据会说谎》阅读总结
  • 《赤裸裸的统计学》读后感
  • 华为S2000系列交换机电源维修
  • 华为交换机端口基本配置指南
  • 华为交换机端口限速配置说明
  • h3c交换机服务器无响应,华为(H3C)交换机版本升级遇到的问题总结
  • 交换机常用配置命令(华为)
  • linux aaa认证服务器,华为设备安全之AAA认证
  • RSPAN-华为二层(s2000 HI)
  • linux下Cacti网络监控之监控华为quidway s2000交换机
  • 华为交换机开启web管理
  • 华为手机序列号前三位_华为所有型号交换机查看序列号方法
  • 华为储存服务器许可证,华为存储配件,华为维保服务,华为服务器
  • 华为修改优先级命令_华为交换机优先级配置
  • 六,华为交换路由做NAT五种方法
  • 华为交换机恢复出厂设置的三种方法
  • 华为S2000-HI交换机与cisco的acs结合做认证
  • 烽火交换机S2000单独划分VLAN的方法
  • 华为 S2000配置手册
  • 华为各系列交换机限速配置
  • 华为 Quidway S2000 的配置全解
  • 城域网体系结构
  • 无线网络技术复习笔记(5)——无线城域网、广域网
  • VRRP在城域网中的应用
  • 局域网、城域网IEEE802(LAN/MAN)标准——【局域网、城域网网络知识基础篇】
  • IP城域网域内组播功能测试
  • 计算机三级考点2:管理和运营宽带城域网的关键技术

统计数据会说谎_统计数据对您说谎的三种方式相关推荐

  1. mybatis 时间_开发工具:Mybatis.Plus.插件三种方式的逆向工程

    一.逆向工程简介 在Java开发中,持久层最常用的框架就是mybatis,该框架需要编写sql语句,mybatis官方提供逆向工程,可以把数据表自动生成执行所需要的基础代码,例如:mapper接口,s ...

  2. java全局异常处理_详解Spring全局异常处理的三种方式

    在J2EE项目的开发中,不管是对底层的数据库操作过程,还是业务层的处理过程,还是控制层的处理过程,都不可避免会遇到各种可预知的.不可预知的异常需要处理.每个过程都单独处理异常,系统的代码耦合度高,工作 ...

  3. 反射_获取字节码Class对象的三种方式

    * 获取Class对象的方式: 1. Class.forName("全类名"):将字节码文件加载进内存,返回Class对象     * 多用于配置文件,将类名定义在配置文件中.读取 ...

  4. react项目_如何从零开始创建React项目(三种方式)

    在开发React项目前最关键的当然是项目的创建,现在的前端工程化使得前端项目的创建也变得越来越复杂,在这里介绍三种从零开始创建React项目的方式,分别是在浏览器中直接引入.使用官方脚手架create ...

  5. c语言双链表排序交换节点_图解:单链表翻转的三种方式!

    当我们在聊到链表反转的时候,一定说的都是单链表,双链表本身就具有前驱指针 Prev 和后续指针 next,无需进行翻转. 单链表反转,反转后的效果如下: 看起来很简单,只需要将单链表所有结点的 nex ...

  6. python读取图像数据流_浅谈TensorFlow中读取图像数据的三种方式

    本文面对三种常常遇到的情况,总结三种读取数据的方式,分别用于处理单张图片.大量图片,和TFRecorder读取方式.并且还补充了功能相近的tf函数. 1.处理单张图片 我们训练完模型之后,常常要用图片 ...

  7. 大数据搜索引擎技术_网络数据搜索技术

    大数据搜索引擎技术 Nowadays this is a very big problem to search appropriate data on web search engines. This ...

  8. 【大数据开发】SparkCore——进阶算子、Action算子、查看分区数的三种方式

    源代码中的大写V,指的是value rdd.getNumberPartitions获取分区数量 Transformation算⼦全都是RDD[U,T]类型的 Action算子的返回值一般情况下不会是R ...

  9. 微服务中数据聚合的三种方式

    在微服务暴热的情形下,似乎不弄点微服务,已经是跟不上IT的大潮了. 因此,公司结合本身情况,以及将来的可拓展性,在我的主导下,在新的项目中采用了微服务架构 然而,实施过程中遇到一个挠头的问题,就是数据 ...

  10. discard connection丢失数据_python kafka 生产者发送数据的三种方式

    python kafka 生产者发送数据的三种方式 发送方式 同步发送 发送数据耗时最长 有发送数据的状态,不会丢失数据,数据可靠性高 以同步的方式发送消息时,一条一条的发送,对每条消息返回的结果判断 ...

最新文章

  1. Scrum Master的职业发展路线
  2. 数据结构-----AVL树的插入删除操作
  3. 她是如何从传统金融行业转行产品经理的?
  4. Java8 时区DateTime API
  5. 好用到让设计师尖叫的UI设计网格素材
  6. 程序员常用的网站和博客
  7. 【Github使用感触之一】使多文件多版本变得简单
  8. 别把紧张情绪带回家 下班后的10个最佳放松法
  9. Oracle11G数据库的双机热备份配置--基础篇
  10. 1月23日阴阳师服务器维护,阴阳师1月23日体验服更新 双神降临概率UP
  11. CSP共空间模式详解
  12. jquery省份城市联动选择下拉框
  13. Excel重命名工作表:一键修改为指定的表名
  14. 最长递增子序列问题(你真的会了吗)
  15. MongoDB 全面总结
  16. asp.net mvc 项目使用Quartz.net添加定时任务
  17. 初学GWT-安装GWT
  18. 代谢组学检测公司怎么挑选,需要考虑哪些方面?-百趣生物
  19. 计算机用户账户密码重置,简单三步重置忘记的电脑密码,记得收藏!
  20. win10计算机本地无法连接,win10系统电脑本地连接不见了解决方法

热门文章

  1. 关于matlab的erf与erfc
  2. visio如何粘附或取消粘附连接线
  3. 基于Tableau探索分析世界银行提供的关于科学技术的数据
  4. 技嘉服务器主板装系统,技嘉主板u盘装系统怎么进行bios设置的方法
  5. python 实现读取图片的像素值。
  6. 微软上架激活工具,自己破解自己?
  7. 【图文】Allegro测量工具同时显mil和mm
  8. 如何提高公文写作水平?公文写作笔杆子写材料经典语句汇编(7类3800多字)
  9. simulink 汽车低压电网简单仿真
  10. 华硕t100安装linux,华硕T100ta 安装凤凰OS失败