拿到数据之后,首先要对数据要有个基本了解,可以从集中趋势,离散程度及分布形状出发,来了解自己的数据。分析数据之后,对数据有初步了解,对后面数据开发及算法起到至关重要的作用。

目录

  1. 集中趋势

  2. 离散度

  3. 分布形状

一、集中趋势

集中趋势是一组数据向其中心靠拢的倾向和程度;测度集中趋势就是寻找数据一般水平的代表值和中心值;不同类型的数据用不同的集中趋势测度值

众数:集中趋势的测度值之一;出现次数最多的变量值;不受极端值的影响;数据可能没有众数或有几个众数;主用用于定类数据,也可以用于定序数据和数值型数据

中位数:集中趋势的测度值之一;排序后处于中间位置的值;不受极端值的影响;主要用于定序数据,也可用数值型数据,但不能用于定类数据

数值平均数:集中趋势的测度值之一;最常用的测度值;一组数据的均衡点所在;易受极端值的影响;用于数值型数据,不能用于定类数据和定序数据

X = ΣXi / N

调和平均数:集中趋势的测度值之一;易受极端值得的影响;用于定比数据;不能用于定类数据和定序数据

Hm =ΣMi  / Σ(Mi / X i)

几何平均数:集中趋势的测度值之一;N个变量值乘积的N次方根;适用于特殊的数据;主要用于计算平均发展速度;可看做是均值的一种变形

众数,中位数和算术平均数的关系

Code:

import numpy as np
import stats as sts
scores = [31, 24, 23, 25, 14, 25, 13, 12, 14, 23,32, 34, 43, 41, 21, 23, 26, 26, 34, 42,43, 25, 24, 23, 24, 44, 23, 14, 52,32,42, 44, 35, 28, 17, 21, 32, 42, 12, 34]#集中趋势的度量
print('求和:',np.sum(scores))
print('个数:',len(scores))
print('平均值:',np.mean(scores))
print('中位数:',np.median(scores))
print('众数:',sts.mode(scores))
print('上四分位数',sts.quantile(scores,p=0.75))
print('下四分位数',sts.quantile(scores,p=0.25))
求和:1137
个数:40
平均值: 28.425
中位数: 25.5
众数: 23
上四分位数 23
下四分位数 34

二、离散度

数据分布的另一个重要特性;离散度是的各测度值是对数据离散程度所做的描述;反映各变量值远离其中心值的程度,因此也称之为离中趋势;从另一个侧面说明了集中趋势测度值的代表程度;不同类型的数据有不同的离散程度测度值

1.定类数据:异众比率

离散程度的测度值之一;非众数组的频数占总频数的比率;用于衡量众数的代表性

Vr = 1 - Fm/ ΣFi

解:Vr =(200-112) / 200 = 1- 112/200 = 44%

在所调查的200人当中,关注非商品广告的人数占44%,异众比率还是比较大。因此,用"商品广告"来访问城市对广告关注的一般趋势,其代表性不是很好

2.定序数据:四分位差

也称为内距和四分间距;上四分位数与下四分位数之差 ;反映了中间50%数据的离散程度,不受极端值的影响,用于衡量中位数的代表性

Qd = Qu - Ql

解:设非常不满意为,不满意,一般,满意,非常满意为1,2,3,4,5

四分位差:Qd = Qu- Ql = 3 -2 = 1

3.定距和定比数据:方差和标准差

极差:一组数据的最大值与最小值之差;离散程度的最简单测度值;易受极端值影响;未考虑数据的分布  ; R= max(Xi) - min(Xi)

平均差:各变量值域其均值离差绝对值的平均数;数学性质较差,实际中应用较少

方差和标准差:最常用的测度值;反映了数据的分布;反映了各变量值与均值的平均差异

样本方差:

样本方差与方差的区别:

https://blog.csdn.net/hearthougan/article/details/77859173

4.相对离散程度:离散系数

变异系数 :各种变异指标与其相应的均值之比

消除了数据水平高低和计量单位的影响;测度了数据的相对离散程度;用于对不同总体数据离散度的比较

标准差系数:标准差与其相应的均值之比

消除了数据水平高低和计量单位的影响;测度了数据的相对离散度程度;用于对不同组别数据离散程度的比较

Vs = S / x均值

Code:

#离散趋势的度量
print('最大值:',np.max(scores))
print('最小值:',np.min(scores))
print('极差:',np.max(scores)-np.min(scores))
print('四分位差',sts.quantile(scores,p=0.75)-sts.quantile(scores,p=0.25))
print('标准差:',np.std(scores))
print('方差:',np.var(scores))
print('离散系数:',np.std(scores)/np.mean(scores))
最大值: 52
最小值: 12
极差: 40
四分位差 11
标准差: 10.312340907863742
方差: 106.34437499999999
离散系数: 0.3627912368641598

三、分布形状

偏态分布(skewness distribution)指频数分布的高峰位于一侧,尾部向另一侧延伸的分布。它分为正偏态和负偏态。偏态分布的资料有时取对数后可以转化为正态分布,反映偏态分布的集中趋势往往用中位数。偏度系数反映数据分布偏移中心位置的程度,记为SK,则有

SK= (均值一中位数)/标准差.

在正态分布条件下,由于均值等于中位数,所以偏度系数等于0。当偏度系数大于0时,则为正偏态;当偏度系数小于0时,则为负偏态

峰度

峰度表示分布的尾部与正态分布的区别。使用峰度可帮助您初步了解有关数据分布的一般特征。

完全服从正态分布的数据的峰度值为 0。正态分布的数据为峰度建立了基准。如果样本的峰度值显著偏离 0,则表明数据不服从正态分布。

基线:峰度值 0

完全服从正态分布的数据的峰度值为 0。正态分布的数据为峰度建立了基准。如果样本的峰度值显著偏离 0,则表明数据不服从正态分布。

正峰度

具有正峰度值的分布表明,相比于正态分布,该分布有更重的尾部。例如,服从 t 分布的数据具有正峰度值。实线表示正态分布,虚线表示具有正峰度值的分布。

负峰度

具有负峰度值的分布表明,相比于正态分布,该分布有更轻的尾部。例如,服从 Beta 分布(第一个和第二个分布形状参数等于 2)的数据具有负峰度值。实线表示正态分布,虚线表示具有负峰度值的分布。

Code:


import pandas as pd
import numpy as np
import matplotlib.pyplot as pltdata = list(np.random.randn(10000))
plt.hist(data, 100, density=True, facecolor='g', alpha=0.9)
plt.show()s = pd.Series(data)# 偏度
print(s.skew())
# 峰度
print(s.kurt())

偏度: 0.013733544615700723
峰度: -0.10684258156839554

往期精选

机器学习|梯度下降法

机器学习|逻辑回归

机器学习|决策树

数据分析|数据的整理&展示

关注公众号,加小编微信即可拉入线上交流群

数据分析|数据分布特征的描述相关推荐

  1. 数据分析 数据清理_数据清理| 数据科学

    数据分析 数据清理 数据清理 (Data Cleaning) Data cleaning is the way toward altering information to guarantee tha ...

  2. 研华数据采集卡如何采集压力信号转化为数字信号_我所了解的数据-数据分析-数据产品...

    做数据产品经理有一小段时间了,接下来对数据相关来一个阶段总结,以便更好的了解自己的肤浅与不足,方便接下来做改进. 本文大纲: 第一部分 数据 1数据是如何出现的? 公元前4千年,生活在美索不达米亚平原 ...

  3. Tableau数据分析数据可视化分析平台

    Tableau数据分析&数据可视化分析平台 ​ 本文章内涉及的资源包以及素材均来自于互联网,仅供大家用来交流学习与研究使用,努力提升自己的一篇文章.各类安装包以及素材版权归属原版权方所有,版权 ...

  4. 大数据职业理解_3大数据职业职位描述及其职业要求

    1. 数据工程师 职位描述:处理大量数据的公司,并管理数据通道.这意味着,当需要时,你要能确保有效地从数据源收集和检索数据,并进行清理和预处理. 为什么它很重要:如果你只处理过相对小的(<5Gb ...

  5. 大数据数学基础 python描述_大数据数学基础(Python语言描述)

    第 1章 绪论 1n 1.1 大数据与数学 1n 1.1.1 大数据的定义 1n 1.1.2 数学在大数据领域的作用 2n 1.2 数学与Python 4n 1.2.1 NumPy 4n 1.2.2 ...

  6. MATLAB-基于长短期记忆网络(LSTM)的SP500的股票价格预测 股价预测 matlab实战 数据分析 数据可视化 时序数据预测 变种RNN 股票预测

    MATLAB-基于长短期记忆网络(LSTM)的SP500的股票价格预测 股价预测 matlab实战 数据分析 数据可视化 时序数据预测 变种RNN 股票预测 摘要 近些年,随着计算机技术的不断发展,神 ...

  7. 大数据职业理解_【职业大数据】3大数据职业职位描述及其职业要求

    原标题:[职业大数据]3大数据职业职位描述及其职业要求 1. 数据工程师 职位描述:处理大量数据的公司,并管理数据通道.这意味着,当需要时,你要能确保有效地从数据源收集和检索数据,并进行清理和预处理. ...

  8. 用户行为数据分析——数据埋点篇

    用户行为数据分析--数据埋点篇 在用户行为数据分析当中,我们常用的采集数据方式有两种,一种是埋点数据,另一种是无埋点技术,我们今天主要来分析一下埋点技术与无埋点技术的优劣势,他们的之间的特点及其使用场 ...

  9. 数据分析 数据预处理

    一.概述 1.数据可能存在的问题: 正式进行分析前,需要先进行数据质量分析.可能存在以下问题: "数据缺失"(Incomplete):数据值为空,如Occupancy=" ...

  10. 型数据保留几位小数_Python数据分析—数据框的简单操作

    本文是数据分析的第三课,教大家如何在python中对数据框进行简单操作,包括更改列名.显示某列中的部分字符.对某列的数值型数据进行取整等. 本文目录 更改列名 显示某列中的部分字符 抽取某列的部分字符 ...

最新文章

  1. AI 不可以作为专利认证发明人,“因为它不是人”
  2. AI领域我重点关注的几个今日头条号
  3. 《JavaScript高级程序设计》阅读笔记(二):ECMAScript中的原始类型
  4. rust(65)-rust常用指针
  5. 深入理解HashMap和LinkedHashMap的区别
  6. 日志收集十大技术细节
  7. 计算机网络(9)-----TCP可靠传输的实现
  8. 如何在网页中弹出的模式窗口,就像C/S中的SHOWMODAL类型窗口
  9. 坚果pro2刷原生android,坚果Pro2普通版(U3 Pro)魔趣OS 安卓10 纯净完美 原生极简 纯净推荐...
  10. ANDROID webview解决视频无法播放问题
  11. Python编写端口扫描器
  12. 什么是营销SaaS?
  13. 我是个Java开发者,我到底要不要学大数据开发?
  14. Longest Common Subsequence
  15. 银行贷款违约风险预测
  16. CentOS的下载与安装图文教程 (2020)
  17. [搞笑]后舍男生视频
  18. 360周鸿祎:互联网成功十大案例
  19. 一万五千字详解HTTP协议
  20. thymeleaf th:value 多个值拼接 使用+号(不适用于th:field)

热门文章

  1. 請教阿泰一個有關水晶報表的問題
  2. VoLTE网络各节点功能介绍
  3. oracle exadata x7发布,没有对比就没有伤害 QData T5完虐Oracle Exadata X7
  4. 浪潮PM8222-SHBA、RAID 2GB PM8204、RAID 4GB PM8204,阵列卡配置方法
  5. 简述linux的系统组成,【简答题】Linux操作系统有哪几个部分组成?请简述每个组成部分的作用。...
  6. hiberfil.sys彻底删除,释放C盘空间。
  7. php注入过程详解,PHP注入代码详解
  8. eclipse使用install报No compiler is provided in this environment. Perhaps you are running on a JRE rathe
  9. Debezium报错处理系列:Creation of database history topic failed, please create the topic manually
  10. 计算机组装有哪些,教你组装电脑主要配置有哪些