数据分析基础篇---统计学基础
描述数据
1.频数分布表、树图、 频数密度=频数/组距
2.算数平均值、中位数、众数
3.四分位数间距法(剔除异常值)/百分位数
----展示方式:矩形-胡须图(也叫箱线图)
- 数据排序
- 中位数分成项数相等的高低两组
- 低值组中位数,第一四分位数Q1
- 高值组中位数,第三四分位数Q3
- 四分位间距 IQR=Q3-Q1
标准离差
1.方差
2.标准差
3.z-比值/标准比值 :从数据点到平均值的标准离差个数
4.经验法则:对于接近正态分布的数据集合,约68%的数据分布在平均值左右各一个的标准离差的区间内;约95%的数据分布在平均数左右各两个的标注离差的区间内。
概率
1.有关定义:随机试验、基本结果、样本空间、古典概率、相对频率、个别概率、
2.概率树: 1分出层级 2填写已知信息 3每一级分支的概率和为1
3.概率 交并补的计算 条件概率
4.贝叶斯法则 P(AIB)=P(A)*P(BIA)/P(A)*P(BIA)+P(A’)*P(BIA’)
随机变量
期望:概率分布的平均数
期望值 :随机变量的平均数=每个数值*发生概率之和
方差、标准离差:结果的分散性
E(X)+E(Y)=E(X+Y) Var(X+Y)=Var(X)+Var(y)
E(X)-E(Y)=E(X-Y) Var(X-Y)=Var(X)+Var(y)
排列组合
排列 (与顺序有关)
有序排列 阶乘 n ! 圆形排位 (n-1)!
重复排列公式(按类型排位):如果n个对象排位,其中包括第一个对象k个,第二类对象j个…,则排位公式 n!/j!k!m!..
组合(与顺序无关)
C(n r)=n!/r!(n-r)!
二项分布、几何分布及泊松分布
几何分布 :进行多次独立重复试验,每一次试验都有成功和失败的可能,取得成功需要试验几次。
P(X=r)=q(r-1)p
P(X>r)=q的r次幂
p(x<=r)=1- q的r次幂
X~Geo§:X符合几何分布,其成功率为p
期望E(X)=1/P
方差Var(X)=q/p2
二项分布 :一系列的独立重复试验,每一次试验都存在失败和成功的可能,每一次试验的成功概率相同,试验次数有限。
P(X=r)=[nCr]PrQn-r
[nCr]=n!/r!(n-r)!
X~B(n,p)
E(X)=np
Var(X)=npq
泊松分布 X~Po(λ) :单独事件在给定区间内随即发生、独立的发生,给定区间可以是时间或空间,已知该区间的事件平均发生次数(发生率),且为有限数值。
p(X=r)=e的-λ次幂* λ的r次幂/r! (e=2.718)
E(X)=λ
Var(X)=λ
当n很大且P很小时,可以用泊松分布代替二项分布 X~Po(np) 近似代替 X~B(n,p)
正态分布 :X~N(μ,δ2) μ曲线的中间位置,δ2分散性,δ2越大,正态分布曲线越扁平、越宽。
连续概率分布----概率密度函数:面积=概率 (总面积=1)
求法
- 确定分布和范围 均值μ,方差δ2
- 标准化 N(0,1) X-μ,Z=(X-μ) /δ
- 查找概率 概率表查找概率,Z保留2位小数 (例如-3.27 第一列找-3.2 第一行找0.07 )
- P(Z>z)=1-P(Z<z) P(a<Z<b)=P(Z<b)-P(Z<a)
- aX+b~N(aμ+b,a2δ2)
正态分布近似代替二项分布:如果X-B(N,P),且np>5,nq>5,则可以使用X~N(np,npq)近似代替二项分布。
μ=np且δ2=npq 使用时应该进行连续性修正, P(X<=a),应额外增加0.5, P(X>=a),应额外减去0.5,P(a<=X<=b)=P(a-0.5<X<b+0.5)
正态分布近似代替泊松分布 :如果X-Po(λ)且λ>15,则可用X~N(λ,λ)进行近似。 需要进行连续性修正。
抽样
简单随机抽样: 无偏性 独立性 重复/不重复抽样
分层抽样
整群抽样
等距抽样
机会抽样
中心极限定理 :
1.如果X的样本很大,则均值的分布近似为正态分布。
二项分布 X(均值-N(np,pq)
泊松分布X(均值)~N(λ,λ/n)
2.如果从一个非正态总体X中取出一个样本,且样本很大,则均值的分布近似为正态分布。如果总体的均值和方差为μ和δ2,且n很大。例如 >30,X(均值)~N(μ,δ2/n)
比列抽样分布:
E(Ps)=p Var(Ps)=pq/n
p为总体比例
比例标准误差√Var(Ps)
如果n>30,则Ps符合正态分布,Ps~N(p,pq/n),使用这个公式时需要进行连续性修正:± 1/2n
置信区间
- 选择总体统计量
- 求出其抽样分布
- 决定置信水平
- 求出置信上下限
- 求Z,用μ改写不等式,即可得到μ的置信区间,最后求均值
假设检验
- 确定要进行检验假设
- 选择检验统计量
- 确定用于作决策的拒绝域
- 求出检验统计量的P值
- 查看样本结果是否位于拒绝域内
- 做出决策
比较两个总体的方法
- 当总体数量少的时候,比较两总体的标准离差
- 当总体数量大的时候,比较两总体的平均数
实验设计
- 重复试验
- 局部控制
- 随机化
回归分析
- 误差平方和 SSE=∑(y-y(预测值))²
- 最佳拟合线 Y=a+bX
方差分析
- 拟合度
- SSR=SSE/SSyy
- R²=SSE/SSyy=1-SSE/SSyy (R²=1时,越完全拟合)
数据分析基础篇---统计学基础相关推荐
- java基础篇_java基础篇1
JAVA基础篇1 注释 单行注释 //这是一个单行注释,由两个斜杠组成,不能嵌套多行注释 多行注释 /*这是一个 多行注释 ,//里面不能嵌套多行注释, 但是可以嵌套单行注释*/ 文档注释 /**ja ...
- 【谷粒商城基础篇】基础环境搭建
谷粒商城笔记合集 分布式基础篇 分布式高级篇 高可用集群篇 ===简介&环境搭建=== 项目简介与分布式概念(第一.二章) 基础环境搭建(第三章) ===整合SpringCloud=== 整合 ...
- 数据分析概率及统计学基础
一.数据分析概述 1. 数据分析的概念 数据分析就是分析数据,从一大堆数据中提取你想要的信息.比较专业的回答:数据分析是有针对性的收集.加工.整理数据,并采用统计.挖掘技术分析和解释数据的科学与艺术. ...
- java官网教程(基础篇)—— 基础的Java类 —— 基础 I / O
目录 基本 Java 类 基础 I/O I/O流 字节流 字符流 缓冲流 扫描和格式化 扫描 格式化 从命令行中进行IO操作 数据流 对象流 文件 I/O(采用 NIO.2) 什么是路径? Path类 ...
- Extjs 基础篇—— Function基础
这里主要是JS的基础知识,也是深入理解Ext的基础. 1.参数可变长,注意跟Java还是有一点区别的. 例: view source print? 1.function getUser(name,ag ...
- MYSQL 基础篇 | 02-MYSQL基础应用
文章目录 1 MySQL概述 2 SQL 2.1 SQL通用语法 2.2 SQL分类 2.3 DDL 2.3.1 数据库操作 2.3.2 表操作 2.4 DML 2.4.1 添加数据 2.4.2 修改 ...
- php学习基础篇之基础函数(数学 日期 字符串)、php循环流程控制
知识点: 一 . 基础函数(数学 日期 字符串) 二 . php循环流程控制 一 . 基础 函数(数学 日期 字符串) 函数 : 执行某项功能的特定代码. sin() cos() 数学中 sin(3 ...
- 基础篇——HTML基础 一
HTML基础 标签语义化 h 和 p标签 bui 和 小伙伴 img图片标签 链接 表单 标签语义化 在合适的地方使用合适的标签:该放p时就放p 为什么要标签语义化:因为浏览器只认识标签,没有语音语调 ...
- 鸟哥的Linux私房菜(基础篇)- 一些基础的Linux 问题
一些基礎的Linux問題 最近更新日期:2005/05/23 一些基礎的 Linux 問題與討論: 注意:如果您有更好的試題,或者是有相關的資料要提供給VBird 的話,我也會盡快的將他寫到網頁中的! ...
最新文章
- java 接口定义(翻译自Java Tutorials)
- webkit qt版快速编译 支持wml版本
- java简单的面试题目_简单的面试题目,大跌眼镜的结果
- ML之Clustering之K-means:K-means算法简介、应用、经典案例之详细攻略
- 一种table超出高度自动出滚动条的解决方案
- 转载:【微信小程序】 wx:if 与 hidden(隐藏元素)区别
- Python ATM实战
- api laravel 统一返回方法_Laravel-自定义API返回的JSON格式
- 2020.07.08_Multi-passage BERT: A Globally Normalized BERT Model for Open-domain Question Answering
- 删除Visual Studio最近的项目(收藏)
- Java如何配置环境变量
- mysql怎么排成绩前三名_Mysql查询各科成绩前三名并分别排序
- 中文语音合成软件Ekho(余音)的使用教程
- Linux提高CPU使用率并设置固定占比
- 算法讲解 -- 莫队算法
- vue父子传值,slot插槽的使用
- 保存相片是什么图像格式?
- 虾皮shopee蓝海词怎么找?挖掘shopee蓝海词有哪些技巧?
- use ida6.8 + windbg on win10
- 机械学习07: 常用统计分布:正态分布、T分布、卡方分布、F分布
热门文章
- 华为路由器负载均衡_华为AR路由器配置双出口静态IP双链路负载 | 铭泰网络
- EBS开发_固定资产成批增加
- 蓝桥杯——种植园问题(prev54)
- Windows10 桌面不停的闪烁问题
- 欧氏空间距离和内积_欧式空间、内积空间和赋范空间之间的关系
- Camera 的3A
- Linux TF卡ext4文件系统录制视频文件用拷贝不用移动的影响
- matlab绘制垂线(x轴或y轴)
- deployer部署_Laravel使用CircleCI和Deployer进行连续部署
- 【目标检测】SSD(Single Shot MultiBox Detector)的复现