01.描述性统计
基本知识:
描述性统计是指运用制表和分类,图形以及计筠概括性数据来描述数据的集中趋势、离散趋势、偏度、峰度。描述性统计量包括均值、方差、标准差、最大值、最小值、极差、中位数、分位数、众数、变异系数、中心矩、原点炬、偏度、峰度、协方差和相关系数。
数据的分布特征:
  • 分布的集中趋势,反应各数据向其中心值靠拢或聚集的程度(平均数,中位数,四分位数,众数)
  • 分布的离散程度,反应各数据远离其中心值的趋势(异众比率,四分位差,极差,平均差,方差,标准差,离散系数)
  • 分布的形状,反应数据分布的偏斜程度和峰度(偏态系数,峰度系数)
----
平均数(均值)(mean):一组数据相加后除以数据的个数而得到结果。
中位数(median):一组数据排序后处于中间位置上的变量值。
四分位数(quartile):一组数据排序后处于25%(下四分位数)和75%(上四分位数)位置上的值。先计算位置,然后计算四分位数的值。50%处即为中位数。
众数(mode):一组数据中出现频数最多的数值。
附:众数vs中位数vs平均数
众数是一组数据分布的峰值,不受极端值的影响。主要适合作为分类数据的集中趋势测度值。
中位数是一组数据中间位置上的代表值,不受数据极端值的影响。主要适合作为顺序数据的集中趋势测度值。
平均数是针对数值型数据计算的,利用了全部数据信息,它是实际中应用最广泛的集中趋势测度值,容易受极端值的影响。
----
分类数据-
异众比率(variation ratio):是指非众数组的频数占总频数的比例。
顺序数据-
四分位差(quartile deviation) :上四分位数与下四分位数之差。
数值型数据-
极差(全距)(range):一组数据的最大值与最小值之差。
平均差(mean deviation):各变量值与其平均数离差绝对值的平均数。
方差(variance):各变量值与其平均数离差平方的平均数。
标准差(standard deviation):方差的平方根。
相对离散程度-
离散系数(变异系数)(coefficient of variation):是一组数据的标准差与其相应的平均数之比。
----
偏态(skewness):数据分布的不对称性,称为偏态。
峰态(kurtosis):数据分布的平峰或尖峰程度,称为峰态。
----
R语言实现:
-----数据未分组(即为整体数据)------
1. summary()函数
——最大值,最小值,四分位数(上,下),中位数,均值
2.str()函数
——以简洁的方式显示对象的数据结构及内容,可以查看数据框中每个变量的属性
3. attributes()函数
——可以提取对象除长度和模式以外的各种属性
4. Hmisc包中的describe()函数
——变量和观测的数量、缺失值和唯一值的数目、平均值、分位数,以及五个最大的值和五个最小的值
5.psych包中的describe()函数
——非缺失值的数量、平均数、标准差、中位数、截尾均值、绝对中位差、最小值、最大值、值域、偏度、峰度和平均值的标准误
6.pastecs包中的stat.desc()的函数
——所有值、空值、缺失值、最小、最大、值域(范围)、总和、中位数、均值、均值标准误、均值置信度95%的置信区间、方差、标准差及变异系数
stat.desc(x,basic=TRUE,desc=TRUE,norm=FALSE,p=0.95)
其中的x是一个数据框或时间序列。
若basic=TRUE(默认值),则计算其中所有值、空值、缺失值的数量,以及最小值、最大值、值域,还有总和。
若desc=TRUE(同样也是默认值),则计算中位数、平均数、平均数的标准误、平均数置信度为95%的置信区间、方差、标准差以及变异系数。
最后,若norm=TRUE(不是默认的),则返回正态分布统计量,包括偏度和峰度(以及它们的统计显著程度)和Shapiro–Wilk正态检验结果。
这里使用了p值来计算平均数的置信区间(默认置信度为0.95)。
-----数据分组------
1.aggregate()函数
仅允许在每次调用中使用平均数、标准差这样的单返回值函数,它无法一次返回若干个统计量
2.by()函数
格式为:by(data,INDICES,FUN),其中data是一个数据框或矩阵,INDICES是一个因子或因子组成的列表,定义了分组,FUN是任意函数。
3.doBy包中的summaryBy()函数
4.psych包中的describe.by()函数
参考:
[1]《统计学(第六版)》 贾俊平、何晓群著;中国人民出版社
[2]https://blog.csdn.net/ssxysxy123/article/details/51878487
[3]www.cnblogs.com/wujiadong2014/p/4924541.html

数据分析方法——01描述性统计相关推荐

  1. 数据分析方法之描述性统计与推断性统计

  2. 数据分析方法01对比分析法

    对比分析法 1.概念 基于相同的数据标准下,把两个及以上相互联系的指标数据进行比较,准确量化的分析他们的差异,说明研究对象在规模大小,水平高低,速度快慢等的不同表现,目的是为了找到差异的原因,从而找到 ...

  3. python做线性回归统计推断提取参数_概率分析方法与推断统计(来自我写的python书)...

    在数据分析统计的场景里,常用的方法除了描述性统计方法外,还有推断统计方法,如果再从工作性质上来划分,推断统计包含了参数估计和假设验证这两方面的内容.而推断统计用到了很多概率统计方法,所以本小节在介绍推 ...

  4. 概率分析方法与推断统计(来自我写的python书)

    在数据分析统计的场景里,常用的方法除了描述性统计方法外,还有推断统计方法,如果再从工作性质上来划分,推断统计包含了参数估计和假设验证这两方面的内容.而推断统计用到了很多概率统计方法,所以本小节在介绍推 ...

  5. 哪些是常用的数据分析方法

    数据分析工作中都是有很多的数据分析方法的,我们掌握了数据分析方法以后才能够做好数据分析的工作.那么数据分析的方法都有哪些呢?常用的数据分析方法有描述统计.信度分析.相关分析.回归分析.聚类分析等.如果 ...

  6. 数据分析师必须掌握的常见数据分析方法

    通过数据分析结果,能够为企业的发展以及产业优化提供极大的数据支撑以及理论依据.越来越多的企业认识到数据分析的重要作用,逐渐打开数据分析师的招聘市场.那作为数据分析师应该掌握哪些常见的数据分析方法呢? ...

  7. python 实现描述性统计、频数分布图、正态分布检验、概率密度曲线拟合

    描述性统计 频数分布图 正态分布检验 概率密度曲线拟合 #单个项目数据分析 #单个项目描述性统计 from scipy.stats import chi2 # 卡方分布 from scipy.stat ...

  8. [转载] python查看的统计量_python 描述性统计_Python中的基本统计:描述性统计

    参考链接: Python中的统计函数 1(中位数和平均值的度量) python 描述性统计 The field of statistics is often misunderstood, but it ...

  9. python 描述性统计_Python中的基本统计:描述性统计

    python 描述性统计 The field of statistics is often misunderstood, but it plays an essential role in our e ...

  10. dataframe 众数的方法_学习数据分析数据方法论 [描述性统计分析]

    数理统计: 数理统计是以概率论为基础,研究社会和自然界中大量随机现象数量变化基本规律的一种方法.分为: 描述统计 (描述统计的任务是搜集资料,进行整理.分组,编制次数分配表,绘制次数分配曲线,计算各种 ...

最新文章

  1. 操作系统(十一)处理机调度概述
  2. DOCKER - 容器抓包
  3. 又一大波机械动图来了,工作原理都能看明白!
  4. 信息奥赛一本通(1311:【例2.5】求逆序对)
  5. 使用跟踪和调试进行条件编译
  6. Vue-cli 自定义配置
  7. dial tcp xxx: connectex: A connection attempt failed
  8. 小数点后最多几位_一个“90后”女生的月账单,花得最多的果然是这个
  9. php入门案例,thinkphp3.2.1入门之--简单案例实现
  10. [转] 由Request Method:OPTIONS初窥CORS
  11. Base64编码工具类
  12. STM32驱动SPI LCD屏幕
  13. 日语一级800个核心词汇
  14. 连快递小哥都会的OS,你还不会(一)
  15. 三、Linux文件管理
  16. Excel删除区域内的空白格
  17. 忘记阿里云用户密码,如何修改
  18. linux磁盘检测工具
  19. mysql架构与存储引擎
  20. Rocket之加速器

热门文章

  1. 【Django】基于PythonWeb的Django框架设计实现天天生鲜系统-5数据库操作
  2. 掌财社:一边亏钱一边被骂,爱奇艺需要出路
  3. azkaban 与 java任务_任务调度工具oozie和azkaban的对比
  4. 简谈浅层拷贝和深层拷贝
  5. python多线程爬堆糖的图片
  6. 前端性能优化的关键时间点
  7. TPM设备管理之设备采购方法及注意事项
  8. 计算机组策略主要功能,组策略的作用和功能
  9. java对象复制_Java对象的复制三种方式
  10. conda 环境复制