数据统计之描述性统计:

变量类型

包括分类变量和连续变量。如果细分分类变量又可以分为名义变量和等级变量,名义变量没有高低贵贱之分,如男女性别,等级变量存在等级之间的划分,如成绩的优良、中等、及格等:

度量标准

分类变量:
分类变量使用频次和百分比(行汇总、列汇总呢、总计百分比)来进行度量,至于频次就可以使用列联表来进行展示,百分比可以用柱形图等。
连续变量:
连续变量的度量就比较复杂了,主要包含三个方面:集中趋势、离散程度、偏态和峰度,具体可见下图所示,图片来源于dmer老师,当然了有些时候为了方便看变量的分布会把连续变量分组,变成离散变量,然后看各个区间的数据分布。

----------------------集中趋势-----------------------

均值:
就是平均数,在这里不多讲,需要注意的一点是我们在求平均值的时候一般是剔除掉缺失值的。均值比较容易被大众理解,但是很容易被极值带偏,想起一个笑话:张村有个张千万,隔壁九个穷光蛋,平均起来算一算,人人都是张百万,所以说我们一般在变量基本符合正态分布的时候,才使用均值来对变量进行描述。
中位数:
就是对变量按照从小到大的排序,如果样本数量为奇数个就是最中间的那个数,如果样本数量是偶数个,就是最中间2个数的均值。中位数比较稳定,不容易受到极端值的影响,在样本左右偏的时候可以用中位数来进行度量。
众数:
就是样本中出现次数最多的那个数,这个一般在样本质量较好的情况下使用,比如有些时候你拿到数据,没太注意,人家用了9999来代替缺失值和异常值,这个时候一统计,可能就会出现一些问题,这个时候需要用到异众比率来衡量众数的代表性。
异众比率越大,说明非众数组的频数占总频数的比重越大,众数的代表性就越差;异众比率越小,说明非众数组的频数占总频数的比重越小,众数的代表性越好。

均值、中位数和众数之间的关系如下图所示,一般变量是对称分布的时候使用均值来度量,左偏和右偏使用中位数来进行度量。如果牵涉到建模,发现变量的概率密度函数左右偏的时候,一般取log将其转化成正态分布。

--------------------离散程度-----------------------

衡量一个变量的离散程度,可以用极差、方差、标准差、平均绝对偏差、四分位差、离散系数等指标来进行度量。
极差
极差 = 样本最大值 - 样本的最小值
方差
方差也没啥可讲的,只是分母下面是n-1,需要注意一下,因为牵涉到一个无偏估计的问题,如果样本量很少,特别是那种生物医学实验,一般对照样本量很少(50个以内),这个1就很重要了,对于现在上千上万的数据量而言,这个1其实基本上就没什么影响了,感兴趣的可以参考下面的博文,关于为什么分母是N-1的问题:
https://blog.csdn.net/aaronmorgan/article/details/87521392

标准差
没什么可说的哈,就是方差开根号。
平均绝对偏差

四分位差
四分位差 = 上四分位数 - 下四分位数,描述的是50%样本的离散程度,上四分位数的位置是3(n+1)/4,下四分位数的位置是(n+1)/4。那么四分位数怎么求呢?以下四分位数为例,假设有10个样本,先对它进行排序,然后下四分位数的位置(10+1)/4=2.75,那么下四分位数=第2个位置的值 + (第三个位置的值 - 第二个位置的值) * 0.75。
一般用箱线图来表达。

离散系数
当进行两个或多个资料离散程度的比较时,如果度量单位与均值相同,可以直接利用标准差来比较。如果单位和(或)平均数不同时,比较其离散程度就不能采用标准差,而需采用标准差与平均数的比值(相对值)来比较 :

--------------------分布形状-----------------------


偏态系数
数据偏斜程度的测定。

SK表示偏斜系数:偏态系数小于0,因为平均数在众数之左,是一种左偏的分布,又称为负偏。偏态系数大于0,因为均值在众数之右,是一种右偏的分布,又称为正偏;当SK=0时,数据完全对称分布。在建模的时候一般认为|SK|<1,便认为他是服从正态分布的;一般说来,右边的变量取个log之后就能转化成正态分布,方便建模。
峰态系数
数据扁平程度的测定。

当K=3时,扁平程度适中;当K>3时为尖峰分布;当K<3时为扁平分布。

统计分析知识之--描述性统计相关推荐

  1. 机器学习数学基础:数理统计与描述性统计

    ↑↑↑关注后"星标"Datawhale 每日干货 & 每月组队学习,不错过 Datawhale干货 作者:吴忠强,Datawhale优秀学习者 所谓机器学习和深度学习, ...

  2. 发掘数据中的信息 -- 数据探索之描述性统计

    在如今这个大数据时代,数据的价值得到普遍的认可.可是,数据为什么有价值呢?如果,数据只是静静地躺在服务器中,又或是默默地流淌在网络中,它们又能带来什么? 数据就如同海边的沙子,潮起潮落,岁月轮转,它们 ...

  3. [转载] python查看的统计量_python 描述性统计_Python中的基本统计:描述性统计

    参考链接: Python中的统计函数 1(中位数和平均值的度量) python 描述性统计 The field of statistics is often misunderstood, but it ...

  4. python数据分析及可视化(一)课程介绍以及统计学的应用、介绍、分类、基本概念及描述性统计

    数据分析及可视化介绍 这门课涉及多个库,其中Numpy用于数值运算:Pandas用于数据处理:Matplotlib.Seaborn.Pyecharts用于数据可视化. 数据分析介绍 概念 用适当的统计 ...

  5. 描述性统计、参数估计和假设检验

    描述性统计分析 描述性统计所提取的统计的信息称为统计量,包括频数与频率,反映集中趋势的均值.中位数.众数和分位数,反映离散程度的极差.方差和标准差,反映分布形状(相对于正态分布)的偏度和峰度. 变量分 ...

  6. python 描述性统计_Python中的基本统计:描述性统计

    python 描述性统计 The field of statistics is often misunderstood, but it plays an essential role in our e ...

  7. Python描述性统计示例

    Python描述性统计示例 1 声明 本文的数据来自网络,部分代码也有所参照,这里做了注释和延伸,旨在技术交流,如有冒犯之处请联系博主及时处理. 2 描述性统计分析简介 描述性统计分析是指运用制表和分 ...

  8. SPSS数据分析之描述性统计、区间估计与假设检验【操作详解】

    文章目录 1.描述统计 2.区间估计 3.假设检验 1.描述统计 (1)依次点击分析,描述性统计,描述. (2)选项可以选择需要进行描述统计的统计变量. (3)描述性统计分析结果 范围统计为极大值与极 ...

  9. pandas——描述性统计方法和时间类型

    1.pandas描述性统计方法 pandas提供了更加便利的方法来计算均值 ,如 detail['amounts'].mean()  pandas还提供了一个方法叫作 describe,能够一次性得出 ...

最新文章

  1. HDOJ1871 无题
  2. java:static关键字
  3. 爬虫程序,从图片网站或者贴吧爬取图片(含代码)
  4. CodeForces - 613D Kingdom and its Cities(虚树+贪心)
  5. python一键取消注释_Python文件去除注释的方法
  6. create-react-app入门教程
  7. 学习腾讯的hover效果
  8. atan和atan2反正切计算
  9. 【libuv】实现UDP转发
  10. JAVA数组的遍历 获取最大值最小值 数组的反转 数组的查找 练习 定义方法创建指定大小的数组,并添加指定元素 拼接两个数组
  11. 2020最新注册卡密微信在线充值购卡功能(适用于各种网络验证开发)【易语言源码】
  12. 【原创】使用高德 API
  13. 协成zookeeper
  14. jQuery 已经落幕了~
  15. Unity一般工程升级到HDRP
  16. CAD显示全屏控件(网页版)
  17. 自定义Android视频播放器 - 切换横竖屏
  18. python程序设计从基础到开发电子书_Python核心编程从入门到开发实战(pdf+txt+epub+azw3+mobi电子书在线阅读下载)...
  19. VMware虚拟机的使用
  20. 信息系统项目管理师-项目范围管理

热门文章

  1. true在php中代表,true是什么意思
  2. 双球坐标系_坐标系为啥有多种,笛卡尔坐标系、柱坐标系、球坐标系都有啥区别...
  3. SSM+小程序知识点,防入坑!!!
  4. iview button根据条件 disabled可用或者不可用
  5. SpringBoot整合Mybatis-Plus入门案例
  6. Mesos+Marathon搭建部署
  7. 西游记中13大高手排名
  8. 特斯拉官网上贷款利息年化费率计算错误
  9. 2020.2.26 数学函数(吃苹果问题)
  10. C++ 常用生僻函数小记