统计学基础知识有哪些?看这一篇就够了
1
什么是数据描述统计分析
(Descriptive Analysis)
简单而言,描述性统计分析是用几个关键的数字来描述数据集的整体情况<集中性和离散型(波动性大小)>。
描述数据集常用4个指标:平均值 四分位数 标准差 标准分,利用这些指标可以进行数据的频数分析、数据的集中趋势分析、数据离散程度分析、数据的分布、以及一些基本的统计图形。
通常我们拿到一份数据集,首先对获取的数据进行清洗,整理成我们业务所需要的新数据,然后再对新数据进行描述性统计分析,常用的是 Excel 中自带的分析分析工具(描述性统计分析),Excel加载后即可使用。
2
描述统计分析常用指标
1、均值
均值容易受极值的影响,当数据集中出现极值时,所得到的的均值结果将会出现较大的偏差。
2、中位数:
数据按照从小到大的顺序排列时,最中间的数据即为中位数。
当数据个数为奇数时,中位数即最中间的数,如果有N个数,则中间数的位置为(N+1)/2;当数据个数为偶数时,中位数为中间两个数的平均值,中间位置的算法是(N+1)/2。中位数不受极值影响,因此对极值缺乏敏感性。
3、众数
数据中出现次数最多的数字,即频数最大的数值。众数可能不止一个,众数不能能用于数值型数据,还可用于非数值型数据,不受极值影响。
4、极差
极差=最大值-最小值,是描述数据分散程度的量,极差描述了数据的范围,但无法描述其分布状态。且对异常值敏感,异常值的出现使得数据集的极差有很强的误导性。
5、四分位数
数据从小到大排列并分成四等份,处于三个分割点位置的数值,即为四分位数,四分位数分为上四分位数(数据从小到大排列排在第75%的数字,即最大的四分位数)、下四分位数(数据从小到大排列排在第25%位置的数字,即最小的四分位数)、中间的四分位数即为中位数。四分位数可以很容易地识别异常值。(一般通过箱线图表示数据更直观)
在上下边缘之外的数据一般认为是异常值。
6、标准差
标准差(Standard Deviation),也称均方差(mean square error),是各数据偏离平均数的距离的平均数,它是离均差平方和平均后的方根,用σ表示。标准差是方差的算术平方根。标准差能反映一个数据集的离散程度。
标准差越大,波动越大,平均数相同的,标准差未必相同。
标准差可以反映平均数不能反映出的东西(比如稳定度等)。
Excel中有STDEV、STDEVP;STDEVA,STDEVPA四个函数,分别表示样本标准差、总体标准差;包含逻辑值运算的样本标准差、包含逻辑值运算的总体标准差
在计算方法上的差异是:
样本标准差=(样本方差/(数据个数-1))^2
总体标准差=(总体方差/(数据个数))^2。
函数的excel分解:
(1)stdev()函数可以分解为(假设样本数据为A1:E10这样一个矩阵):
stdev(A1:E10)=sqrt(DEVSQ(A1:E10)/(COUNT(A1:E10)-1))
(2)stdevp()函数可以分解为(假设总体数据为A1:E10这样一个矩阵):
stdev(A1:E10)=sqrt(DEVSQ(A1:E10)/(COUNT(A1:E10)))
同样的道理stdeva()与stdevpa()也有同样的分解方法。
7、标准分
标准分又叫标准差的标准化值,每个数据距离平均值多少个标准差。
标准分布又称正太分布。
切比雪夫定理2.0正态分布中,至少有68%的数据,位于平均数1个标准差范围内。正态分布中,至少有95%的数据,位于平均数2个标准差范围内。正态分布中,至少有99.8%的数据,位于平均数3个标准差范围内。
3
统计概率思维
概率思维:
1、如果要求的是若干事件中"至少"有一个发生的概率,则马上联想到概率加法公式;当事件组相互独立时,用对立事件的概率公式;
2、若某事件是伴随着一个完备事件组的发生而发生,则马上联想到该事件的发生概率是用全概公式计算;若一个完备事件组的发生而发生,则马上联想到该事件的发生概率是用全概公式计算;
3、凡求解各概率分布已知的若干个独立随机变量组成的系统满足某种关系的概率(或已知概率求随机变量个数)的问题,马上联想到用中心极限定理处理。
4
统计概率常用
贝叶斯定律模型:
对于由证据的积累来推测一个事物发生的概率具有重大作用, 它告诉我们当我们要预测一个事物, 我们需要的是首先根据已有的经验和知识推断一个先验概率, 然后在新证据不断积累的情况下调整这个概率。整个通过积累证据来得到一个事件发生概率的过程我们称为贝叶斯分析。
二项分布:
二项分布是一种离散型的概率分布。二项代表特有两种可能的结果,把一种称为成功,另一种称为失败,每次试验成功和失败的概率是先沟通的,每次试验互相独立。例如:抛硬币。
泊松分布:
主要踊跃轨迹某事件在特定时间或空间中发生的次数,比图一天内中奖的个数,一个月内某机器损坏的次数等。
描述性统计分析是属于统计学中比较小的一个理论知识,但是在日常的数据分析中,能够快速地让我们对一份数据进行了解,并能够通过科学的图表展示,发现数据规律,进行未知数据的预测。
- END -
本文为转载分享,侵删
统计学基础知识有哪些?看这一篇就够了相关推荐
- Linux基础知识汇总,看这一篇就够了(2022最新整理)
前言 想入门Llinux,新手不知道Linux怎么入门?有这一篇就够了 提示:以下是本篇文章正文内容,下面案例可供参考 一.Linux入门概述 概述 Linux全称GNU/Linux,是一种免费使用和 ...
- 基础 | 零散的MySql基础记不住,看这一篇就够啦
❝ 这是小小本周的第二篇,本篇将会着重的讲解关于MySql基础的内容,MySql基础看这一篇就够啦. ❞ 送书反馈与继续送书 之情小微信公众号第一次送书,Java深度调试技术,书已经被中奖者麦洛签收, ...
- MySQL基础总结,认真看完这篇就够了!!!
文章目录 MySQL基础 服务的启动和停止 数据库的相关操作 数据库表的相关操作 表中数据的相关操作 排序和分页 分组查询 联表查询 MySQL事务基础 事务简介 事务操作 事务特征(ACID) 事务 ...
- CAN现场总线基础知识总结,看这一篇就理清了(CAN是什么,电气属性,CAN通协议等)
[系列专栏]:博主结合工作实践输出的,解决实际问题的专栏,朋友们看过来! <QT开发实战> <嵌入式通用开发实战> <从0到1学习嵌入式Linux开发> <A ...
- 【网络安全工程师】从零基础到进阶,看这一篇就够了
学前感言 1.这是一条需要坚持的道路,如果你只有三分钟的热情那么可以放弃往下看了. 2.多练多想,不要离开了教程什么都不会,最好看完教程自己独立完成技术方面的开发. 3.有问题多google,baid ...
- 2023零基础入门网络安全,看这一篇就够了
网络安全不难,网络安全入门更简单!可不要被它神秘的外衣给唬住了. 只要你接下来认真听完我的讲解,虽然保证不了你能成为大神,但就算你学习能力再差那也能达到入门级别. 开篇建议: 1.这是一条坚持的道路, ...
- docker 镜像修改的配置文件自动还原_Docker 基础与实战,看这一篇就够了
作者 | 单一色调责编 | ElleDocker 基础 什么是Docker Docker 使用 Google 公司推出的 Go 语言 进行开发实现,基于 Linux 内核的 cgroup,names ...
- Docker 基础与实战,看这一篇就够了
作者 | 单一色调 责编 | Elle Docker 基础 什么是Docker Docker 使用 Google 公司推出的 Go 语言 进行开发实现,基于 Linux 内核的 cgroup,nam ...
- python 入门基础-零基础入门Python,看这一篇就够了!
前言 Python语言,诞生于20世纪90年代初的一个圣诞节,始于创始人吉多·范罗苏姆 "打发无聊",至此已成功运行30年.其名Python(蟒蛇)取自于英国的电视喜剧<蒙提 ...
- 零基础入门网络安全,看这一篇就够了!
前景 很多零基础朋友开始将网络安全作为发展的大方向,的确,现如今网络安全已经成为了一个新的就业风口,不仅大学里开设相关学科,连市场上也开始大量招人. 那么网络安全到底前景如何?大致从市场规模.政策扶持 ...
最新文章
- mysql+redis
- Cisco路由器交换机安全配置
- Windiws环境安装轻量级文件服务器ftpserver
- Discretized Streams (DStreams)离散化流
- C++继承机制(一)——基本语法、三种继承方式、继承哪些数据
- 什么是php 的精华,PHP精华
- 软件测试——闭着眼睛测试软件
- vue x 兼容iphone_【前端vue系列】初始化一个vue工程
- c51串行通信汇编语言,51单片机双机串行通信汇编语言程序+Proteus仿真
- CMOS模拟集成电路设计 吴金 学习记录1
- 温习linux的常用命令
- 原创玄幻小说--那时花开--第一章前序
- scrapy框架中Spider源码解析
- OPPO A59s刷机包_OPPOA59s线刷包刷机教程
- 交互设计师必备的9种能力
- 用Python制作可视化GUI界面,一键实现证件照背景颜色的替换
- IT男拒绝枯燥系列之《漫画电子电路》!
- 熔断器 java_SpringCloud之熔断器使用(Hystrix)
- JS中的数组空位处理
- 使用Jquery完成动态表格的功能