目录

  • 一、数据统计量描述
    • 1、集中度描述
      • 1.1 均值
      • 1.2 众数
      • 1.3 中位数
    • 2、离散度描述
      • 2.1 极差
      • 2.2 方差
      • 2.3 标准差
      • 2.4 变异系数
      • 2.5 贝塞尔校正
  • 二、数据处理工具
    • 1、EXCEL 函数
    • 2、EXCEL描述统计
    • 3、SQL
    • 4、R语言
    • 5、Python

一、数据统计量描述

1、集中度描述

1.1 均值

1)描述
一组数据的算术平均,反应一组数据的集中分布趋势,缺点是容易受极端值影响。
2)公式

1.2 众数

一组数据中出现次数最多的数字,可能不止一个,可能没有。适用于当数据具有明显集中趋势的情况。

1.3 中位数

一组数据从小到大排列,位于中间的数据,其中偶数个数的数据为中间两个数据的算术平均,缺点是数据不敏感。

2、离散度描述

2.1 极差

最大值-最小值,反应一组数据的范围大小,极差越大越分散。

2.2 方差

1)描述
反应数据的离散程度,用来度量随机变量与期望的偏差程度。
2)总体方差

2.3 标准差

1)描述
反应数据的分散程度,为方差的算术平方根。
2)公式

2.4 变异系数

1)变异系数 = 标准偏差/平均数。
2)当需要比较两组数据的离散程度,但是两组数据量级大小不一致时,可以通过变异系数消除测量尺度带来的影响,但是不适用于平均值较小(接近0)的情况,会带来比较大的误差。
3)变异系数越大,数据越离散。
4)一般来讲,变异系数超过15%则考虑数据异常。

2.5 贝塞尔校正

在类似正态分布中,样本围绕在均值附近,抽取到边缘值的概率较小,样本值会偏向集中,因此计算出来的样本方差会较小,如果以此来估计整体方差时,需要进行适当放大,即除数修正为N-1。

二、数据处理工具

根据总体样本的大小进行处理的工具有多种,一般数据量级较少时采用EXCEL即可满足需求,数量级较大时(百万级别以上)一般采用SQL、R、python进行处理,须知方法只是作为满足需求的处理工具,一切以满足需要的便捷性出发,无需拘泥于工具本身。

1、EXCEL 函数

1.1、说明
采用 office Excel函数计算及数据分析功能。
1.2、实现


//平均值
=AVERAGE(数据区域)//众数 数值型
=MODE(数据范围)//众数文本型
=INDEX(数据范围,MAX(MATCH(数据范围,数据范围,数据范围,)))//中位数
=MEDIAN(数据范围)//极差
=MAX(数据范围)-MIN(数据范围)//方差
=VAR(数据范围)//标准差
=STDEV(数据范围)//变异系数
=STDEV(数据范围)/AVERAGE(数据区域)

2、EXCEL描述统计

1)功能开启

功能开启:文件 -》选项 -》加载项 -》转到 -》分析工具库



2)数据分析-描述统计
如果选择EXCEL的数据分析 -》描述统计功能,则可以一次性将以上所有指标一次性统计输出

3、SQL

3.1、说明
采用MYSQL及Navicat。
3.2、实现


//平均数
SELECT AVG(列名) FROM 表名//众数
SELECT 列名,count(列名) as n
FROM 表名
GROUP BY 列名
HAVING n >=
(SELECT max(n)
FROM (SELECT COUNT(列名) as nFROM 表名GROUP BY 列名)as tmp);//中位数
SELECT AVG(DISTINCT 列名)
FROM (SELECT T1.列名
from 表名 T1,表名 T2
GROUP BY T1.列名
HAVING
sum(CASE WHEN T2.列名>= T1.列名 THEN 1 ELSE 0 END) >= count(*)/2
and
sum(case WHEN T2.列名<= T1.列名 then 1 else 0 end) >=count(*)/2) tmp//极差
SELECT max(列名),min(列名),(max(列名)-min(列名)) from 表名
//方差
SELECT VARIANCE(列名) from 表名//标准差
SELECT STDEV(列名) from 表名//变异系数
SELECT STDEV(列名)/AVG(列名) from 表名

4、R语言

4.1、说明
1)采用Pycharm 编辑器(加载R模块)。
2)加载路径:File -》 Settings -》Plugins -》 搜索R -》安装 R Language IntelliJ

4.2、实现


array <- c(1,2,3,4,4,5)#中位数
mean(array)#众数
mode <- unique(array)//去重
index <- tabulate(match(array,mode))//获取因素频率
mode[index == max(index)]//匹配所有频率最大值#中位数
median(array)#极差
max(array)-min(array)#方差
var(array)#标准差
sd(array)#变异系数
sd(array)/mean(array)

5、Python

5.1、说明
采用Pycharm 编辑器,需要import 包名(建议采用线下安装方式,即本地下载包后pip,节省因网络波动导致的pip失败)。

numpy库说明:
NumPy(Numerical Python) 是 Python 语言的一个扩展程序库,支持大量的维度数组与矩阵运算,此外也针对数组运算提供大量的数学函数库。
教程指引:https://www.runoob.com/numpy/numpy-tutorial.html

Scipy是世界上著名的Python开源科学计算库,建立在Numpy之上。它增加的功能包括数值积分、最优化、统计和一些专用函数。 SciPy函数库在NumPy库的基础上增加了众多的数学、科学以及工程计算中常用的库函数。例如线性代数、常微分方程数值求解、信号处理、图像处理、稀疏矩阵等等。
5.2、实现


import numpy as np
from scipy import stats array = [1,2,3,4,4,5]#平均数
print("平均数"+np.mean(array))#众数
print("众数"+stats.mode(array)[0][0])#中位数
print("中位数"+np.median(array))#极差
print("极差"+(np.max(array)-np.min(array)))#方差
print("方差"+np.var(array))#变异系数
print("变异系数"+np.std(array)/np.mean(array))#标准差
print("标准差"+np.std(array))

统计分析【一】—— 描述性统计实现相关推荐

  1. R语言实战-统计分析基础-描述性统计4-psych-describe

    1 程辑包'psych'是用R版本3.5.3 来建造的 2 > describe(mtcars[vars]) 3 vars n mean sd median trimmed mad min ma ...

  2. 统计分析知识之--描述性统计

    数据统计之描述性统计: 变量类型 包括分类变量和连续变量.如果细分分类变量又可以分为名义变量和等级变量,名义变量没有高低贵贱之分,如男女性别,等级变量存在等级之间的划分,如成绩的优良.中等.及格等: ...

  3. 机器学习数学基础:数理统计与描述性统计

    ↑↑↑关注后"星标"Datawhale 每日干货 & 每月组队学习,不错过 Datawhale干货 作者:吴忠强,Datawhale优秀学习者 所谓机器学习和深度学习, ...

  4. 发掘数据中的信息 -- 数据探索之描述性统计

    在如今这个大数据时代,数据的价值得到普遍的认可.可是,数据为什么有价值呢?如果,数据只是静静地躺在服务器中,又或是默默地流淌在网络中,它们又能带来什么? 数据就如同海边的沙子,潮起潮落,岁月轮转,它们 ...

  5. Python描述性统计示例

    Python描述性统计示例 1 声明 本文的数据来自网络,部分代码也有所参照,这里做了注释和延伸,旨在技术交流,如有冒犯之处请联系博主及时处理. 2 描述性统计分析简介 描述性统计分析是指运用制表和分 ...

  6. SPSS数据分析之描述性统计、区间估计与假设检验【操作详解】

    文章目录 1.描述统计 2.区间估计 3.假设检验 1.描述统计 (1)依次点击分析,描述性统计,描述. (2)选项可以选择需要进行描述统计的统计变量. (3)描述性统计分析结果 范围统计为极大值与极 ...

  7. [转载] python查看的统计量_python 描述性统计_Python中的基本统计:描述性统计

    参考链接: Python中的统计函数 1(中位数和平均值的度量) python 描述性统计 The field of statistics is often misunderstood, but it ...

  8. pandas——描述性统计方法和时间类型

    1.pandas描述性统计方法 pandas提供了更加便利的方法来计算均值 ,如 detail['amounts'].mean()  pandas还提供了一个方法叫作 describe,能够一次性得出 ...

  9. 统计学之描述性统计(一)

    统计学之描述性统计(一) 1.描述性统计分析 描述性统计分析主要是对所收集的数据进行分析,得出反映客观现象的各种数量特征的一种分析方法,它包括数据的集中趋势分析.数据离散程度分析.数据的频数分布分析等 ...

  10. python数据分析及可视化(一)课程介绍以及统计学的应用、介绍、分类、基本概念及描述性统计

    数据分析及可视化介绍 这门课涉及多个库,其中Numpy用于数值运算:Pandas用于数据处理:Matplotlib.Seaborn.Pyecharts用于数据可视化. 数据分析介绍 概念 用适当的统计 ...

最新文章

  1. 【DocFX文档翻译】DocFX 入门 (Getting Started with DocFX)
  2. mysql 多个unique key_[MySQL]MySQL 中通过使用UNIQUE KEY 来控制字段值不重复的问题.
  3. SQL Server 2005 和JBOSS 4 系统运行缓慢--高并发系统探讨(1)
  4. 《C程序设计语言》读书笔记----习题1-21
  5. 【实战 Ids4】║ 在Swagger中调试认证授权中心
  6. .NET Framework学习笔记(十)
  7. [进阶] --- Python3 异步编程详解(史上最全篇)
  8. opencv计算物体姿态旋转_物体的三维识别与6D位姿估计:PPF系列论文介绍(五)...
  9. python怎么调用接口失败_python 调用接口
  10. node mysql 搭建博客_node.js+Hexo+Git搭建个人博客
  11. 基于 WebGL 的 HTML5 3D 工控隧道可视化系统
  12. 二级c语言程序设计教程微盘,二级C语言教程.pdf
  13. 电厂供配电模拟实训系统QY-GPD03
  14. 21-22(2)第2次线上赛
  15. c语言模拟交通信号,C语言编写的交通信号灯
  16. 网络笔记--交换机和路由器
  17. delphi 向窗体发送一个字符串_IoT Hub入门(2)模拟设备发送设备到云(d2c)的消息
  18. 视频转格式用什么工具?mp4格式转换器,好用的视频格式转换器
  19. ThinkPHP5多语言切换项目实战
  20. 阿里生态项目加入Activiti7遇到初始化异常的问题

热门文章

  1. Android文件存储与读取(手机内存、SD卡)
  2. Git 主分支 合并到 自己分支
  3. Caused by: android.content.res.Resources$NotFoundException: File res/drawable/main_tab_conversation_
  4. 2016-2021年各省高考分数线
  5. 利用python实现Apriori关联规则算法
  6. GridView简单使用
  7. 使用Virtualbox中的坑:双击鼠标或拖动鼠标就会自动切换视图模式
  8. 知识不等于智慧,学得越多距离智慧越远
  9. 一种模仿学习方法来训练机器人,而无需进行实际的人类演示
  10. 百度与英特尔成立5G+AI 边缘计算联合实验室