作者:herain  R语言中文社区专栏作者

知乎ID:https://www.zhihu.com/people/herain-14

个人公众号:趣味数据周刊

本篇统计学知识点:

统计描述:统计量包括:衡量中心趋势的均值、中位数、众数,衡量相对位置的分位数,衡量离散程度的方差和标准差,以及衡量相关性的Pearson相关系数。统计图则包括直方图、ECDF图、箱图和散点图。

统计推断:假设检验

提起 「肥」与「瘦」不由的想起了苏轼 老人家的诗词《孙莘老求墨妙亭诗》其中一句传为经典:“短长肥瘦各有态,玉环飞燕谁敢憎”,促成 “环肥燕瘦”一词。苏轼诗词韵味无一,但诗意却有点武断,不可否认“短长肥瘦各有态”,但“玉环飞燕谁敢憎”有点主观异端。今天如果我们把“谁”代指财富,不想看看 “富” 是憎肥?还是憎瘦。也巧妙的证伪本文主题。

先一睹,以肥为美的唐美人:杨玉环

杨玉环

托夫勒斯基赵四说:“没有调查没有发言权,没有数据也不敢妄下断言。“

数据来源:

CDC(Center for Disease Control and Prevention)#疾病预防控制中心BRFSS (Behavioral Risk Factor Surveillance System)#行为风险因素监测系统网站数据地址:https://www.cdc.gov/brfss/annual_data/annual_2015.html

About BRFSS:

The Behavioral Risk Factor Surveillance System (BRFSS) is the nation's premier system of health-related telephone surveys that collect state data about U.S. residents regarding their health-related risk behaviors, chronic health conditions, and use of preventive services. Established in 1984 with 15 states, BRFSS now collects data in all 50 states as well as the District of Columbia and three U.S. territories. BRFSS completes more than 400,000 adult interviews each year, making it the largest continuously conducted health survey system in the world.

大意:BRFSS机构每年走访调查美国50个州的40万成年人的各项(2018有200多项)健康相关指标。数据权威性高,准确度高。

本文提取两个数据指标:BMI(体重/身高计算的平方而来),BMI指数,用来衡量人的胖瘦程度,BMI指数越高人越胖。income(收入等级),这里分了8级,分别用数字1到8代表,8级是年家庭收入超过7.5万美元的人群,在这里我们将8级的人群定义为富人,其他1-7级的人群定义为普通人。过滤存在缺失值的调查数据,有效数据行数:343092行。分成如下两组数据:

两组数据概览

从表中我们可以初步的看出 富人的BMI的平均值27.45小于普通人的BMI平均值28.58,心虚的似乎富人比普通人更瘦一些(富人与普通人的均值差:27.45-28.58= -1.09)。为了防止真实情况“被平均”,我们进一步计算两组数据的中位数,众数。至此,我们仍然无法理直气壮的给出答案。需要更进一步的探索

两组数据的中位数与众数

我们来看看两组数据的分布情况,绘制直观的直方图,两组数据的BMI都集中在「20~40」之间。也存在异常值的BMI在「60~100」的个例。


为了更清新和准确的的对比两组数据,我们忽略掉异常BMI值的影响,选取BMI在「10~60」的区间数据,做两组数据的偏度对比图,根据偏度是不是可以发现点什么呢?:


两组数据的偏度对比

接着我们绘制更直观的 经验累积分布函数图:ECDF(Empirical Cumulative Distribution Function),原理:将两组BMI数据从小到大排列,并用排名除以总数计算每个数据点在所有数据中的位置占比。比如总共100个数据中排第20位的数据,其位置占比为20/100=0.2 。将所有的数据以BMI值为横坐标(X轴),占比值为「0~1」的纵轴(Y轴):


两组数据的ECDF图

从两组数据的ECDF图普通人群(绿色点)比富人(蓝色点)的分布更靠右,即向BMI变大的方向偏移。也可以看出富人较普通人偏廋。不如我们更清新的看看两组的数据的箱线图:

看看两张数据的方差和标准差:
rich people: Variance = 34.81, Standard deviation = 5.90ordinary people: Variance = 48.60, Standard deviation = 6.97

当考虑了样本数据的离散度后,就能够更精准的衡量两类人群BMI值的差异,即使用一个新的量:Cohen's d,它可以简单看做是均值的差值除以两个样本综合的标准差。其公式定义如下:


计算的Cohen’s d的绝对值是0.163,0.163代表两类人群的BMI值有差异,经过几番层层的验证,我们可以初步的一个结论:富人较普通人偏瘦。

我们再看看 BMI 与体重的相关性(协方差,相关系数,读者自己计算吧):

散点图

是否,是否,总是富肥穷瘦?答案是:否。

用假设检验的方法来,再一次验证结论,提高可靠性。

开始假设检验(统计推断的重要方法):

(1) 结合问题建立假设;问题:富人的BMI平均值是否等于,总体所有人的BMI平均值?建立假设:原假设:富人的BMI均值等于总体所有人的BMI均值28.188。备择假设:富人的BMI均值小于总体所有人的BMI均值28.188.#这是一个单边检验问题。

(2) 选择检验统计量;选择t统计量检验方法,也可选择z统计量检验方法。

(3) 给出显著性水平;我们选择显著水平的值为:0.1

(4) 根据样本数据,计算检验统计量样本值;提取富人的BMI集合:x <- 富人的BMI值的向量

(5) 在原假设成立的条件下,根据检验统计量的样本值和检验统计量的分布,计算p值;t.test(x, mu = 28.188);计算出p值:0.000000001

(6) 比较 显著性水平 和p值,若p值小于 显著性水平,则拒绝 原假设;否则接受原假设。 因为p值小于0.1的显著水平,所以我们拒绝原假设,选择备择假设,富人的BMI均值小于总体所有人的BMI 均值。

在经济快速发展的今天,人们物质生活水平不断提高的社会,“富不一定肥,穷不一定瘦”也是社会进步的一种表现。同时心中有一个很大的“问号”,为什么“富缺偏瘦”,富与瘦到底有没有因果关系?谁是因?谁是果呢?

有人认为:“富人因为拥有高于常有的财富,他们拥有健康的三餐,享受健康的医疗”。

有人认为:“拥有自律的生活,积极的锻炼,对自己身材有掌控力的人,他们更容易获得财富”

是否难断,但是 富和瘦是存在相关性的,也许在这个快速发展的社会,可以说胖是对穷的一种潜标签,不管是富憎肥,还是穷憎瘦。我们都应在提醒自己保持健康的生活方式,强有力的体魄都是我们必须的,祝大家远离肥胖,健康多金。

最后,一窥瘦也极致的大汉美人:赵飞燕


投票公布

上周小编在R VS Python, 你会选择谁呢?下面发起了关于R与Python,你选谁的投票。自发文到上周日22点共有1208人投票,具体数据如下图:

柱状图

折线图

从上图中看出很多大佬都是左手用R右手Python,仗剑走天涯。如果你也想这样,小编推荐你阅读左手用R右手Python系列。在这篇投票发出之后,小编就猜第一个选项应该是得票最高的,没想到大家都是机灵鬼,哈哈哈。除了投票,也有一些精彩的评论,小编就截取几个放在下面,如果你想得到完整版评论,可以点击R VS Python, 你会选择谁呢?下拉到最后就看到了。

评论中还有小伙伴不走寻常路:

哈哈哈,如何加入?只需要投稿就有机会加入哦,小编微信是:tswenqu,欢迎来撩!


今日话题:

你心中的古代美女是谁?快快将你的答案写在评论区。


往期精彩:

  • 精选|2019年1月R新包推荐

  • 找工作难,面试失败的核心原因已经找到

  • R语言中文社区2018年终文章整理(作者篇)

  • R语言中文社区2018年终文章整理(类型篇)

公众号后台回复关键字即可学习

回复 爬虫            爬虫三大案例实战
回复 Python       1小时破冰入门
回复 数据挖掘     R语言入门及数据挖掘
回复 人工智能     三个月入门人工智能
回复 数据分析师  数据分析师成长之路 
回复 机器学习     机器学习的商业应用
回复 数据科学     数据科学实战
回复 常用算法     常用数据挖掘算法

无论胖瘦,自己活着舒服就行

是否,是否,总是富肥穷瘦?(文末上周投票公布)相关推荐

  1. 【书虫录】富爸爸穷爸爸

    前言 笔者文章以及前端技术文合集详见Github:Nealyang/PersonalBlog 关注我公众号的都知道,我们在 2020 年初约定了彼此的 Flag. 一时冲动... 但是话都说出去了,总 ...

  2. 站长自勉:12条标准反思你是富是穷!

    站长自勉:12条标准反思你是富是穷! (品味注:虽然此篇文章跟网络赚钱没有太大的插边,但对于战斗在一线的站长们,此文有助于站长闲时自我反思,激发斗志,所以觉得还是值得推荐的) 燕雀安知鸿鹄之志!王侯将 ...

  3. 富爸爸穷爸爸害了我_这是我必须告诉爸爸的-在我们的时间用完之前

    富爸爸穷爸爸害了我 by Bram Bos 通过Bram Bos 这是我必须告诉爸爸的-在我们的时间用完之前 (This is what I must tell my dad - before our ...

  4. 读《富爸爸,穷爸爸》后感(三)

    虽互不曾谋面,但希望能和你成为笔尖下的朋友 以读书,技术,生活为主,偶尔撒点鸡汤 不作,不敷衍,意在真诚吐露,用心分享 点击左上方,可关注本刊 时长:27:38 主播:一个靠前排的90后帅小伙 撰文 ...

  5. Qt开发技术:Qt富文本(一)富文本介绍、文档结构

    若该文为原创文章,未经允许不得转载 原博主博客地址:https://blog.csdn.net/qq21497936 原博主博客导航:https://blog.csdn.net/qq21497936/ ...

  6. 《富爸爸穷爸爸》书摘-富爸爸穷爸爸

    我有两个爸爸,一个富,一个穷.一个受过良好的教育,聪明绝顶,拥有博士的光环,他曾经在不到两年的时间里修完了四年制的大学本科学业,随后又在斯坦福大学.芝加哥大学和西北大学进一步深造,并且在所有这些学校都 ...

  7. 《富爸爸,穷爸爸》思维导图

    富爸爸穷爸爸 富爸爸穷爸爸 富爸爸穷爸爸 <富爸爸穷爸爸>读书笔记 富爸爸穷爸爸 富爸爸穷爸爸的读书笔记,思维导图 富爸爸穷爸爸 该书讲述了清崎有两个爸爸:"穷爸爸"是 ...

  8. 一个人,不管是富是穷,都可以富养自己

    富养自己  一个人,不管是富是穷,都可以富养自己.富养自己,不仅仅是用金钱来滋养自身,更为重要的,是懂得如何去善待自己的身体,如何去善待自己的心灵与精神.懂得富养自己的人,即使贫穷,也能富养自己:不懂 ...

  9. 如果想赚钱,先学理财吧,那么入门书籍有哪些?富爸爸穷爸爸 名副其实NO1

    花了一个周末,读完<富爸爸穷爸爸>这本书.我读的是四川出版社出版,富爸爸财商教育系统20周年修订版. 相信很多人都读过,但不一定是这版.如何记住或吃透一本书,并理解它.我觉得读书笔记是个不 ...

  10. 读书笔记之富爸爸穷爸爸

    富爸爸穷爸爸 作者:罗伯特.T.清崎 莎伦.L.莱希特 序言 本书献给全世界的父母--孩子们最重要的老师 一代一代重复"老鼠赛跑" 跳出"老鼠怪圈"的唯一方法是 ...

最新文章

  1. Linux服务器网络开发模型
  2. 正则表达式和re模块知识点汇总
  3. Numpy练习题100题-提高你的数据分析技能
  4. zookeeker如何解决HBase单节点故障
  5. 《WinForm开发系列之控件篇》Item31 MenuStrip(暂无)
  6. GeoTools——shp转geojson
  7. grep配置颜色显示
  8. python 字典查询比列表快_为什么python字典要比列表快以及哈希查找解释。
  9. HTML的form表单标签
  10. 用GlobalMemoryStatus获取系统内存信息
  11. 对Map集合排序,先对value降序,value相同的情况下,key升序
  12. Window10下修改User文件夹中的 用户文件夹 名称
  13. 今晚8点,dotnet课堂全新起航,张善友/陈计节/刘腾飞我们一起来聊聊abp的故事...
  14. 教你如何用python轻轻松松解析XML和PDF,一文就够了,赶紧码住!!!
  15. 解决上传 Gitee 后图片显示不出来
  16. 017 打渔晒网问题
  17. 百鸡百钱问题和( 30人消费50元,可能包括男人女人小孩,男人3元,女人2元,小孩1元,问各有多少人)问题
  18. python绘制随机网络图形
  19. 汽车ABS系统-第一周作业
  20. 学术会议日常英语交流_有效的日常会议的3个问题

热门文章

  1. 掌管大局的IoC Service Provider
  2. J2EE 领域的一些技术框架结构图
  3. react-native 学习
  4. Ubuntu下Eclipse中文乱码解决
  5. 开源巨献:腾讯最热门30款开源项目
  6. “百度贴吧之父”俞军:百度最大的问题是缺少竞争
  7. 底图切换_如何用PPT切换效果制作时间轴推进动画?
  8. 对Python中列表和数组的赋值,浅拷贝和深拷贝的实例讲解
  9. Mysql——应用学习之旅
  10. javascript入门之算术乘法表