描述数据
1.频数分布表、树图、 频数密度=频数/组距

2.算数平均值、中位数、众数

3.四分位数间距法(剔除异常值)/百分位数
----展示方式:矩形-胡须图(也叫箱线图)

  1. 数据排序
  2. 中位数分成项数相等的高低两组
  3. 低值组中位数,第一四分位数Q1
  4. 高值组中位数,第三四分位数Q3
  5. 四分位间距 IQR=Q3-Q1

标准离差
1.方差

2.标准差

3.z-比值/标准比值 :从数据点到平均值的标准离差个数

4.经验法则:对于接近正态分布的数据集合,约68%的数据分布在平均值左右各一个的标准离差的区间内;约95%的数据分布在平均数左右各两个的标注离差的区间内。

概率
1.有关定义:随机试验、基本结果、样本空间、古典概率、相对频率、个别概率、

2.概率树: 1分出层级 2填写已知信息 3每一级分支的概率和为1

3.概率 交并补的计算 条件概率

4.贝叶斯法则 P(AIB)=P(A)*P(BIA)/P(A)*P(BIA)+P(A’)*P(BIA’)

随机变量

期望:概率分布的平均数
期望值 :随机变量的平均数=每个数值*发生概率之和

方差、标准离差:结果的分散性
E(X)+E(Y)=E(X+Y) Var(X+Y)=Var(X)+Var(y)
E(X)-E(Y)=E(X-Y) Var(X-Y)=Var(X)+Var(y)

排列组合
排列 (与顺序有关)
有序排列 阶乘 n ! 圆形排位 (n-1)!
重复排列公式(按类型排位):如果n个对象排位,其中包括第一个对象k个,第二类对象j个…,则排位公式 n!/j!k!m!.. ​

组合(与顺序无关)
C(n r)=n!/r!(n-r)!

二项分布、几何分布及泊松分布
几何分布 :进行多次独立重复试验,每一次试验都有成功和失败的可能,取得成功需要试验几次。

P(X=r)=q(r-1)p
P(X>r)=q的r次幂
p(x<=r)=1- q的r次幂
X~Geo§:X符合几何分布,其成功率为p
期望E(X)=1/P
方差Var(X)=q/p2

二项分布 :一系列的独立重复试验,每一次试验都存在失败和成功的可能,每一次试验的成功概率相同,试验次数有限。
P(X=r)=[nCr]PrQn-r
[nCr]=n!/r!(n-r)!
X~B(n,p)
E(X)=np
Var(X)=npq

泊松分布 X~Po(λ) :单独事件在给定区间内随即发生、独立的发生,给定区间可以是时间或空间,已知该区间的事件平均发生次数(发生率),且为有限数值。

p(X=r)=e的-λ次幂* λ的r次幂/r! (e=2.718)
E(X)=λ
Var(X)=λ
当n很大且P很小时,可以用泊松分布代替二项分布 X~Po(np) 近似代替 X~B(n,p)

正态分布 :X~N(μ,δ2) μ曲线的中间位置,δ2分散性,δ2越大,正态分布曲线越扁平、越宽。

连续概率分布----概率密度函数:面积=概率 (总面积=1)

求法

  1. 确定分布和范围 均值μ,方差δ2
  2. 标准化 N(0,1) X-μ,Z=(X-μ) /δ
  3. 查找概率 概率表查找概率,Z保留2位小数 (例如-3.27 第一列找-3.2 第一行找0.07 )
  4. P(Z>z)=1-P(Z<z) P(a<Z<b)=P(Z<b)-P(Z<a)
  5. aX+b~N(aμ+b,a2δ2)

正态分布近似代替二项分布:如果X-B(N,P),且np>5,nq>5,则可以使用X~N(np,npq)近似代替二项分布。
μ=np且δ2=npq 使用时应该进行连续性修正, P(X<=a),应额外增加0.5, P(X>=a),应额外减去0.5,P(a<=X<=b)=P(a-0.5<X<b+0.5)

正态分布近似代替泊松分布 :如果X-Po(λ)且λ>15,则可用X~N(λ,λ)进行近似。 需要进行连续性修正。

抽样
简单随机抽样: 无偏性 独立性 重复/不重复抽样
分层抽样
整群抽样
等距抽样
机会抽样

中心极限定理 :
1.如果X的样本很大,则均值的分布近似为正态分布。
二项分布 X(均值-N(np,pq)
泊松分布X(均值)~N(λ,λ/n)

2.如果从一个非正态总体X中取出一个样本,且样本很大,则均值的分布近似为正态分布。如果总体的均值和方差为μ和δ2,且n很大。例如 >30,X(均值)~N(μ,δ2/n)

比列抽样分布:
E(Ps)=p Var(Ps)=pq/n
p为总体比例
比例标准误差√Var(Ps)
如果n>30,则Ps符合正态分布,Ps~N(p,pq/n),使用这个公式时需要进行连续性修正:± 1/2n

置信区间

  1. 选择总体统计量
  2. 求出其抽样分布
  3. 决定置信水平
  4. 求出置信上下限
  5. 求Z,用μ改写不等式,即可得到μ的置信区间,最后求均值

假设检验

  1. 确定要进行检验假设
  2. 选择检验统计量
  3. 确定用于作决策的拒绝域
  4. 求出检验统计量的P值
  5. 查看样本结果是否位于拒绝域内
  6. 做出决策

比较两个总体的方法

  1. 当总体数量少的时候,比较两总体的标准离差
  2. 当总体数量大的时候,比较两总体的平均数

实验设计

  1. 重复试验
  2. 局部控制
  3. 随机化

回归分析

  1. 误差平方和 SSE=∑(y-y(预测值))²
  2. 最佳拟合线 Y=a+bX

方差分析

  1. 拟合度
  2. SSR=SSE/SSyy
  3. R²=SSE/SSyy=1-SSE/SSyy (R²=1时,越完全拟合)

数据分析基础篇---统计学基础相关推荐

  1. java基础篇_java基础篇1

    JAVA基础篇1 注释 单行注释 //这是一个单行注释,由两个斜杠组成,不能嵌套多行注释 多行注释 /*这是一个 多行注释 ,//里面不能嵌套多行注释, 但是可以嵌套单行注释*/ 文档注释 /**ja ...

  2. 【谷粒商城基础篇】基础环境搭建

    谷粒商城笔记合集 分布式基础篇 分布式高级篇 高可用集群篇 ===简介&环境搭建=== 项目简介与分布式概念(第一.二章) 基础环境搭建(第三章) ===整合SpringCloud=== 整合 ...

  3. 数据分析概率及统计学基础

    一.数据分析概述 1. 数据分析的概念 数据分析就是分析数据,从一大堆数据中提取你想要的信息.比较专业的回答:数据分析是有针对性的收集.加工.整理数据,并采用统计.挖掘技术分析和解释数据的科学与艺术. ...

  4. java官网教程(基础篇)—— 基础的Java类 —— 基础 I / O

    目录 基本 Java 类 基础 I/O I/O流 字节流 字符流 缓冲流 扫描和格式化 扫描 格式化 从命令行中进行IO操作 数据流 对象流 文件 I/O(采用 NIO.2) 什么是路径? Path类 ...

  5. Extjs 基础篇—— Function基础

    这里主要是JS的基础知识,也是深入理解Ext的基础. 1.参数可变长,注意跟Java还是有一点区别的. 例: view source print? 1.function getUser(name,ag ...

  6. MYSQL 基础篇 | 02-MYSQL基础应用

    文章目录 1 MySQL概述 2 SQL 2.1 SQL通用语法 2.2 SQL分类 2.3 DDL 2.3.1 数据库操作 2.3.2 表操作 2.4 DML 2.4.1 添加数据 2.4.2 修改 ...

  7. php学习基础篇之基础函数(数学 日期 字符串)、php循环流程控制

    知识点: 一 . 基础函数(数学 日期 字符串) 二 . php循环流程控制 一 . 基础 函数(数学 日期 字符串) 函数 : 执行某项功能的特定代码. sin()  cos() 数学中 sin(3 ...

  8. 基础篇——HTML基础 一

    HTML基础 标签语义化 h 和 p标签 bui 和 小伙伴 img图片标签 链接 表单 标签语义化 在合适的地方使用合适的标签:该放p时就放p 为什么要标签语义化:因为浏览器只认识标签,没有语音语调 ...

  9. 鸟哥的Linux私房菜(基础篇)- 一些基础的Linux 问题

    一些基礎的Linux問題 最近更新日期:2005/05/23 一些基礎的 Linux 問題與討論: 注意:如果您有更好的試題,或者是有相關的資料要提供給VBird 的話,我也會盡快的將他寫到網頁中的! ...

最新文章

  1. java 接口定义(翻译自Java Tutorials)
  2. webkit qt版快速编译 支持wml版本
  3. java简单的面试题目_简单的面试题目,大跌眼镜的结果
  4. ML之Clustering之K-means:K-means算法简介、应用、经典案例之详细攻略
  5. 一种table超出高度自动出滚动条的解决方案
  6. 转载:【微信小程序】 wx:if 与 hidden(隐藏元素)区别
  7. Python ATM实战
  8. api laravel 统一返回方法_Laravel-自定义API返回的JSON格式
  9. 2020.07.08_Multi-passage BERT: A Globally Normalized BERT Model for Open-domain Question Answering
  10. 删除Visual Studio最近的项目(收藏)
  11. Java如何配置环境变量
  12. mysql怎么排成绩前三名_Mysql查询各科成绩前三名并分别排序
  13. 中文语音合成软件Ekho(余音)的使用教程
  14. Linux提高CPU使用率并设置固定占比
  15. 算法讲解 -- 莫队算法
  16. vue父子传值,slot插槽的使用
  17. 保存相片是什么图像格式?
  18. 虾皮shopee蓝海词怎么找?挖掘shopee蓝海词有哪些技巧?
  19. use ida6.8 + windbg on win10
  20. 机械学习07: 常用统计分布:正态分布、T分布、卡方分布、F分布

热门文章

  1. 华为路由器负载均衡_华为AR路由器配置双出口静态IP双链路负载 | 铭泰网络
  2. EBS开发_固定资产成批增加
  3. 蓝桥杯——种植园问题(prev54)
  4. Windows10 桌面不停的闪烁问题
  5. 欧氏空间距离和内积_欧式空间、内积空间和赋范空间之间的关系
  6. Camera 的3A
  7. Linux TF卡ext4文件系统录制视频文件用拷贝不用移动的影响
  8. matlab绘制垂线(x轴或y轴)
  9. deployer部署_Laravel使用CircleCI和Deployer进行连续部署
  10. 【目标检测】SSD(Single Shot MultiBox Detector)的复现