统计了50万人的身高数据才发现:大家都爱虚报身高
作者
二胖并不胖
来源
大数据前言
已获原作者授权,如需转载,请联系原作者。
前些天在知乎上看到一个关于身高的问题。我想既然大家都对身高这么感兴趣,正好之前我在相亲网上爬了50万用户的信息,那不妨来做个统计。关于身高,看看我们能挖出哪些好玩的信息吧。
数据说明
1
数据来源
本次的统计数据来自某相亲网站,信息都是用户自己填写的。
正常情况下大家报身高都是往高虚报,极少人往矮报吧?所以,本次统计的身高结果应该会比真实情况更高一些,当然,这只是我二胖的个人揣测啦。
样本用户生活在北京、上海、广州和重庆四个城市,选择这四座城市的原因:
一是因为四座城市在祖国的不同方位,收集样本范围够广;
二是因为这四座城市都是大城市,外来人口较多,汇集了全国各地的人,能在一定程度上体现总体趋势。
2
年龄分布
这里我先对统计用户的年龄进行了可视化,x轴是年龄,y轴是人数,波峰是27岁。
统计用户的年龄分布
除此之外我还分别统计了男性和女性的年龄分布,女性年龄的波峰出现在27岁,男性年龄的波峰出现在29岁。
总体平均年龄:32.332岁
男性平均年龄:33.239岁
女性平均年龄:31.929岁
3
性别分布
本次统计用户的性别分布情况
本次统计的用户中女性占了大多数。
其实是我爬数据的时候先抓取了女性数据,在女性数据抓取完成后才抓取的男性数据,而当我看数据库样本数据到50万的时候就把爬虫停了。
正态分布
在看统计结果之前,我们先提一下“正态分布”。
正态分布(Normal distribution),也称“常态分布”,又名高斯分布(Gaussian distribution)。正态分布是一种概率分布。它是具有两个参数μ和σ的连续型随机变量的一种分布。
这里我们就不过多地介绍正态分布啦,我们只需知道,身高在样本数量足够大的时候应该服从正态分布(当然这是我的一己之见,如果有不同的意见,欢迎指正)。
正态分布的曲线图应该如下图所示(中间高,两边低,两侧大致对称),在这种情况下,数据才具有一定的真实性,否则数据就有一定的作假嫌疑。
正态分布示意图
当然目测是不准确的,还需要通过方差、期望等来判断。不过当人肉眼都能看出一条曲线不符合正态分布时,那这个数据的真实性就真有待商榷了。
数据展示
好啦,讲完正态分布,我们来看看本次统计样本的身高分布图。
1
男性
统计用户中男性的身高分布情况
可以看到男性身高的分布情况不那么符合正态分布。
波峰出现在170cm,人数是24515人。
身高人数前五名是:
不知大家发现没有,这些身高都是极其常见的身高。
让二胖来揣测一下,在大多数自报身高的情况下——不足170cm同学的都报170cm,不足175cm的都报175cm。
其实大家办理户口录入身高时就是这样操作的,常见身高就是这几个数字。所以二胖才在开头说,大家的真实身高应该会比统计值稍微低一些。
我们来算一下平均值,再把脏数据去除之后,算出来的所有男性的身高平均值是(单位cm):
2
女性
女性的身高统计方式和男性一样,二胖就不过多解释了,这里直接展示统计结果:
统计用户中女性的身高分布情况
女性身高分布图有点狠啊,160cm远远超过了其他身高值。
身高人数前五名是:
女性平均身高(单位cm):
结论
看完这个统计结果,二胖对比了一下国家公布的数字,下图是百度百科公布的2015年国家统计的身高数据:
看样子相亲网站上的身高数据比国家的统计高出了约6厘米。
到底是因为相亲网上的用户中年轻人较多而年轻人又长得高,还是大家填写的身高数据水分比较大呢?
还有一种可能就是二胖此次统计的用户是城市居民,而城市居民的平均身高会相对高一些。
对此,你怎么看呢?
(——本文的数据分析和数据可视化全部由ElasticSearch完成。)
完
01
微 信 群
添加小编微信:tangguoyemeng,备注“进群”即可,加入【云计算学习交流群】,和志同道合的朋友们共同打卡学习!
成为群成员,或拉人进群,
还有机会参与红包抽奖,获得免费赠书哦~~
02
征 稿
CSDN作为国内专业的云计算服务平台,目前提供云计算、大数据、虚拟化、数据中心、OpenStack、CloudStack、机器学习、智能算法等相关云计算观点、技术、平台、实践、云产业咨询等服务。CSDN 公众号也一直坚持「与千万技术人共成长」的理念,深度解读行业内热门技术与场景应用,致力于让所有开发者保持敏锐的技术嗅觉、对行业趋势与技术获得更广阔的认知。
文章题材
首先你需要关注我们的公众号“CSDN云计算”,这样你会更准确了解我们需要的文章风格;
侧重于云计算领域相关的文章,可以是技术、运维、趋势等方面的务实内容;
原创,要求文章有鲜明观点和看法。
投稿须知
稿费:根据原创性、实用性和时效性等方面进行审核,通过的文章会发布在本微信平台。一经采用,我们将支付作者酬劳。酬劳可能不多,这代表的是一个心意,更多是因为爱好,是有识之士抒发胸怀的一种方式;
字数要求:稿件字数以2K-8K为宜,少于2K或多于8K都会一定程度降低阅读愉悦感;
投稿邮箱:lijy@csdn.net。或者添加微信表明来意,微信号:tangguoyemeng。请备注投稿+姓名+公司职位。
如果咱们的合作稳定又愉快,还可以签订合同长期合作哦!
统计了50万人的身高数据才发现:大家都爱虚报身高相关推荐
- Slack:日活跃用户50万人、6周增幅35%造就奇迹
[机器人读报]Slack:日活跃用户50万人.6周增幅35%造就奇迹 机器学习企业应用SaaS大数据云计算机器人读报 width="22" height="16&q ...
- 客流量居亚洲之首 广州南站每天50万人如何快速吞吐?
广州南站春运忙而不乱,秩序井然 郭军 摄 广州南站春运忙而不乱,秩序井然 郭军 摄 中新网广州1月28日电 (郭军 曾勇)记者27日在广州南站采访时发现,虽然正值春运客流高峰期,但车站乘降组织和平日一 ...
- zui佳情侣身高差问题,专家通过多组情侣身高数据研究发现,zui佳的情侣身高差遵循着一个公式:(女方的身高)×1.09 =(男方的身高)。
Description 专家通过多组情侣身高数据研究发现,最佳的情侣身高差遵循着一个公式:(女方的身高)×1.09 =(男方的身高). 如果符合,你俩的身高差不管是牵手.拥抱.接吻,都是最和谐的差度. ...
- 一万三的手机,十四万人预约,我才知道,原谅不是经济不行,是我不行
我一直以为今年经济不太行,直到我看见,一万三的手机,十四万人预约,我才知道,原谅不是经济不行,是我不行[破涕为笑]我一直以为今年经济不太行,直到我看见,一万三的手机,十四万人预约,我才知道,原谅不是经 ...
- 50万人数据库UK Biobank使用介绍
UK Biobank(英国生物样本数据库),简称为UKB,UKB生物数据库是由维康信托基金和英国政府(医学研究委员会.卫生部和苏格兰行政院)资助,并注册成为一家慈善公司.该生物数据库是一个试点项目,目 ...
- 美国演员选拔公司泄露了超26万人的隐私数据
一个为电影和电视节目挑选人才的流行网站泄露了大约26万人的在线个人数据. 在ZDNet独家分享的一份报告中,由Anurag Sen领导的网络安全小组的安全侦探说,这次入侵是在今年6月初被发现的. 总部 ...
- 当IT遭遇传销: 闻50万人传销大案有感
从山东省公安厅获悉,奋战6个多月,山东聊城市警方一举捣毁"3·01"非法传销犯罪团伙.该案传销参与人员涉及20个省市的50余万人,其中A级头目达500余人,涉案金额20多亿元.据悉 ...
- 雅虎因发送垃圾短信面临50万人集体诉讼
1月5日消息,据路透社报道,美国芝加哥一联邦法官周一判定,雅虎垃圾短信案必须以集体诉讼方式审理.此案原告指控雅虎未经许可向手机用户发送短信,违反了<电话消费者保护法>. 法院文件显示,有资 ...
- 蚂蚁森林上线了9.7KG能量球,50万人争着为它买保护罩
自从支付宝上线蚂蚁森林,就成了追逐排名的battle新战场,比比谁种的树最多则成为了大家称霸森林排行的新方法. 当然,想要排名好,自然要付出不小的努力,但是最近的一个新消息,却一下子在蚂蚁森林的&qu ...
最新文章
- 生物岛实验室闵明玮课题组诚聘副研究员/博士后/科研助理/实习生
- 按钮不通过表单连接servlet_JavaWeb之Servlet(一)
- 对于一个IE8兼容性问题的反思
- mysql降级_mysql8降级到mysql5的方法介绍
- cortex M0 软件分层架构 RTOS
- 基于MicroPython的家庭可燃气体泄露微信报警器
- ROS-ROS中的坐标管理系统 TF
- Google手机移动网站适配(双向注释)
- windows窗口添加菜单[SDK]
- 邮件服务器 文件服务器,搭建邮件、终端和文件服务器应用方案
- 【OS】单道程序设计VS多道程序设计
- 如何实现pdf转换成cad呢?
- 静默安装weblogic
- dns服务器 响应超时,DNS 客户端解析超时 - Windows Server | Microsoft Docs
- layui表格时间显示格式
- tomcat 日志拆分
- 计算机是怎样跑起来在线看,计算机是怎样跑起来的
- 英文中常见连读规律总结
- Matlab -----求矩阵特征多项式和特征值
- linux kernel idr机制
热门文章
- python 爬取贝壳网小区名称_Python爬虫实战:爬取贝壳网二手房40000条数据
- mat 和asmatrix的区别_R语言的稀疏矩阵太大可能就不能用as.matrix了
- java的流传输的进度条_JAVA程序设计(17)----- 制作文件拷贝软件 进程 输入流输出流 NIO 进度条 底层拷贝 多线程...
- 你愿意隐姓埋名一辈子吗?” #百年百人系列
- 早起21天,奖你 1000元!
- 从0到1 | 0基础/转行如何用3个月搞定机器学习
- (pytorch-深度学习系列)pytorch实现多层感知机(手动定义模型)对Fashion-MNIST数据集进行分类-学习笔记
- WiFi的基本调制过程
- java多线程笔记补充之	线程控制操作
- 使用反射调用构造器创建对象