统计分析【一】—— 描述性统计实现
目录
- 一、数据统计量描述
- 1、集中度描述
- 1.1 均值
- 1.2 众数
- 1.3 中位数
- 2、离散度描述
- 2.1 极差
- 2.2 方差
- 2.3 标准差
- 2.4 变异系数
- 2.5 贝塞尔校正
- 二、数据处理工具
- 1、EXCEL 函数
- 2、EXCEL描述统计
- 3、SQL
- 4、R语言
- 5、Python
一、数据统计量描述
1、集中度描述
1.1 均值
1)描述
一组数据的算术平均,反应一组数据的集中分布趋势,缺点是容易受极端值影响。
2)公式
1.2 众数
一组数据中出现次数最多的数字,可能不止一个,可能没有。适用于当数据具有明显集中趋势的情况。
1.3 中位数
一组数据从小到大排列,位于中间的数据,其中偶数个数的数据为中间两个数据的算术平均,缺点是数据不敏感。
2、离散度描述
2.1 极差
最大值-最小值,反应一组数据的范围大小,极差越大越分散。
2.2 方差
1)描述
反应数据的离散程度,用来度量随机变量与期望的偏差程度。
2)总体方差
2.3 标准差
1)描述
反应数据的分散程度,为方差的算术平方根。
2)公式
2.4 变异系数
1)变异系数 = 标准偏差/平均数。
2)当需要比较两组数据的离散程度,但是两组数据量级大小不一致时,可以通过变异系数消除测量尺度带来的影响,但是不适用于平均值较小(接近0)的情况,会带来比较大的误差。
3)变异系数越大,数据越离散。
4)一般来讲,变异系数超过15%则考虑数据异常。
2.5 贝塞尔校正
在类似正态分布中,样本围绕在均值附近,抽取到边缘值的概率较小,样本值会偏向集中,因此计算出来的样本方差会较小,如果以此来估计整体方差时,需要进行适当放大,即除数修正为N-1。
二、数据处理工具
根据总体样本的大小进行处理的工具有多种,一般数据量级较少时采用EXCEL即可满足需求,数量级较大时(百万级别以上)一般采用SQL、R、python进行处理,须知方法只是作为满足需求的处理工具,一切以满足需要的便捷性出发,无需拘泥于工具本身。
1、EXCEL 函数
1.1、说明
采用 office Excel函数计算及数据分析功能。
1.2、实现
//平均值
=AVERAGE(数据区域)//众数 数值型
=MODE(数据范围)//众数文本型
=INDEX(数据范围,MAX(MATCH(数据范围,数据范围,数据范围,)))//中位数
=MEDIAN(数据范围)//极差
=MAX(数据范围)-MIN(数据范围)//方差
=VAR(数据范围)//标准差
=STDEV(数据范围)//变异系数
=STDEV(数据范围)/AVERAGE(数据区域)
2、EXCEL描述统计
1)功能开启
功能开启:文件 -》选项 -》加载项 -》转到 -》分析工具库
2)数据分析-描述统计
如果选择EXCEL的数据分析 -》描述统计功能,则可以一次性将以上所有指标一次性统计输出
3、SQL
3.1、说明
采用MYSQL及Navicat。
3.2、实现
//平均数
SELECT AVG(列名) FROM 表名//众数
SELECT 列名,count(列名) as n
FROM 表名
GROUP BY 列名
HAVING n >=
(SELECT max(n)
FROM (SELECT COUNT(列名) as nFROM 表名GROUP BY 列名)as tmp);//中位数
SELECT AVG(DISTINCT 列名)
FROM (SELECT T1.列名
from 表名 T1,表名 T2
GROUP BY T1.列名
HAVING
sum(CASE WHEN T2.列名>= T1.列名 THEN 1 ELSE 0 END) >= count(*)/2
and
sum(case WHEN T2.列名<= T1.列名 then 1 else 0 end) >=count(*)/2) tmp//极差
SELECT max(列名),min(列名),(max(列名)-min(列名)) from 表名
//方差
SELECT VARIANCE(列名) from 表名//标准差
SELECT STDEV(列名) from 表名//变异系数
SELECT STDEV(列名)/AVG(列名) from 表名
4、R语言
4.1、说明
1)采用Pycharm 编辑器(加载R模块)。
2)加载路径:File -》 Settings -》Plugins -》 搜索R -》安装 R Language IntelliJ
4.2、实现
array <- c(1,2,3,4,4,5)#中位数
mean(array)#众数
mode <- unique(array)//去重
index <- tabulate(match(array,mode))//获取因素频率
mode[index == max(index)]//匹配所有频率最大值#中位数
median(array)#极差
max(array)-min(array)#方差
var(array)#标准差
sd(array)#变异系数
sd(array)/mean(array)
5、Python
5.1、说明
采用Pycharm 编辑器,需要import 包名(建议采用线下安装方式,即本地下载包后pip,节省因网络波动导致的pip失败)。
numpy库说明:
NumPy(Numerical Python) 是 Python 语言的一个扩展程序库,支持大量的维度数组与矩阵运算,此外也针对数组运算提供大量的数学函数库。
教程指引:https://www.runoob.com/numpy/numpy-tutorial.html
Scipy是世界上著名的Python开源科学计算库,建立在Numpy之上。它增加的功能包括数值积分、最优化、统计和一些专用函数。 SciPy函数库在NumPy库的基础上增加了众多的数学、科学以及工程计算中常用的库函数。例如线性代数、常微分方程数值求解、信号处理、图像处理、稀疏矩阵等等。
5.2、实现
import numpy as np
from scipy import stats array = [1,2,3,4,4,5]#平均数
print("平均数"+np.mean(array))#众数
print("众数"+stats.mode(array)[0][0])#中位数
print("中位数"+np.median(array))#极差
print("极差"+(np.max(array)-np.min(array)))#方差
print("方差"+np.var(array))#变异系数
print("变异系数"+np.std(array)/np.mean(array))#标准差
print("标准差"+np.std(array))
统计分析【一】—— 描述性统计实现相关推荐
- R语言实战-统计分析基础-描述性统计4-psych-describe
1 程辑包'psych'是用R版本3.5.3 来建造的 2 > describe(mtcars[vars]) 3 vars n mean sd median trimmed mad min ma ...
- 统计分析知识之--描述性统计
数据统计之描述性统计: 变量类型 包括分类变量和连续变量.如果细分分类变量又可以分为名义变量和等级变量,名义变量没有高低贵贱之分,如男女性别,等级变量存在等级之间的划分,如成绩的优良.中等.及格等: ...
- 机器学习数学基础:数理统计与描述性统计
↑↑↑关注后"星标"Datawhale 每日干货 & 每月组队学习,不错过 Datawhale干货 作者:吴忠强,Datawhale优秀学习者 所谓机器学习和深度学习, ...
- 发掘数据中的信息 -- 数据探索之描述性统计
在如今这个大数据时代,数据的价值得到普遍的认可.可是,数据为什么有价值呢?如果,数据只是静静地躺在服务器中,又或是默默地流淌在网络中,它们又能带来什么? 数据就如同海边的沙子,潮起潮落,岁月轮转,它们 ...
- Python描述性统计示例
Python描述性统计示例 1 声明 本文的数据来自网络,部分代码也有所参照,这里做了注释和延伸,旨在技术交流,如有冒犯之处请联系博主及时处理. 2 描述性统计分析简介 描述性统计分析是指运用制表和分 ...
- SPSS数据分析之描述性统计、区间估计与假设检验【操作详解】
文章目录 1.描述统计 2.区间估计 3.假设检验 1.描述统计 (1)依次点击分析,描述性统计,描述. (2)选项可以选择需要进行描述统计的统计变量. (3)描述性统计分析结果 范围统计为极大值与极 ...
- [转载] python查看的统计量_python 描述性统计_Python中的基本统计:描述性统计
参考链接: Python中的统计函数 1(中位数和平均值的度量) python 描述性统计 The field of statistics is often misunderstood, but it ...
- pandas——描述性统计方法和时间类型
1.pandas描述性统计方法 pandas提供了更加便利的方法来计算均值 ,如 detail['amounts'].mean() pandas还提供了一个方法叫作 describe,能够一次性得出 ...
- 统计学之描述性统计(一)
统计学之描述性统计(一) 1.描述性统计分析 描述性统计分析主要是对所收集的数据进行分析,得出反映客观现象的各种数量特征的一种分析方法,它包括数据的集中趋势分析.数据离散程度分析.数据的频数分布分析等 ...
- python数据分析及可视化(一)课程介绍以及统计学的应用、介绍、分类、基本概念及描述性统计
数据分析及可视化介绍 这门课涉及多个库,其中Numpy用于数值运算:Pandas用于数据处理:Matplotlib.Seaborn.Pyecharts用于数据可视化. 数据分析介绍 概念 用适当的统计 ...
最新文章
- 【DocFX文档翻译】DocFX 入门 (Getting Started with DocFX)
- mysql 多个unique key_[MySQL]MySQL 中通过使用UNIQUE KEY 来控制字段值不重复的问题.
- SQL Server 2005 和JBOSS 4 系统运行缓慢--高并发系统探讨(1)
- 《C程序设计语言》读书笔记----习题1-21
- 【实战 Ids4】║ 在Swagger中调试认证授权中心
- .NET Framework学习笔记(十)
- [进阶] --- Python3 异步编程详解(史上最全篇)
- opencv计算物体姿态旋转_物体的三维识别与6D位姿估计:PPF系列论文介绍(五)...
- python怎么调用接口失败_python 调用接口
- node mysql 搭建博客_node.js+Hexo+Git搭建个人博客
- 基于 WebGL 的 HTML5 3D 工控隧道可视化系统
- 二级c语言程序设计教程微盘,二级C语言教程.pdf
- 电厂供配电模拟实训系统QY-GPD03
- 21-22(2)第2次线上赛
- c语言模拟交通信号,C语言编写的交通信号灯
- 网络笔记--交换机和路由器
- delphi 向窗体发送一个字符串_IoT Hub入门(2)模拟设备发送设备到云(d2c)的消息
- 视频转格式用什么工具?mp4格式转换器,好用的视频格式转换器
- ThinkPHP5多语言切换项目实战
- 阿里生态项目加入Activiti7遇到初始化异常的问题
热门文章
- Android文件存储与读取(手机内存、SD卡)
- Git 主分支 合并到 自己分支
- Caused by: android.content.res.Resources$NotFoundException: File res/drawable/main_tab_conversation_
- 2016-2021年各省高考分数线
- 利用python实现Apriori关联规则算法
- GridView简单使用
- 使用Virtualbox中的坑:双击鼠标或拖动鼠标就会自动切换视图模式
- 知识不等于智慧,学得越多距离智慧越远
- 一种模仿学习方法来训练机器人,而无需进行实际的人类演示
- 百度与英特尔成立5G+AI 边缘计算联合实验室