第三章 描述统计学2:数值方法

这章主要罗列一些常用的描述统计量。

位置的度量

也就是集中趋势的度量。

平均数
样本平均数

总体平均数

加权平均数

中位数
就是将一组数据按大小排序,找到中间数即可。

几何平均数

一般用于分析财务数据的增长率。几何平均数可以用于发生在所有时间长度的连续时期的任何数量的变化率。除了年变化率之外,几何平均数也常常用于发现季度、月、周以及天的平均变化率。

众数
众数就是出现次数最多的数据,可以存在也可以不存在,可以唯一也可以不唯一。

百分位数

四分位数
和上面公式相同,运用更加广泛一点,比如在异常值的识别这件事情上。

变异程度的度量

变异程度就是离散程度(离散趋势)的度量。

极差
极差 = 最大值 - 最小值

四分位数间距
IQR = Q3 - Q1

方差
总体方差

样本方差

标准差
标准差为什么比方差适用范围更广?是因为标准差和原始数据的单位度量相同,标准差更容易与平均数和其他与原始数据有相同测量单位的统计量进行比较。

标准差系数
也叫变异系数,在比较具有不同标准差和不同平均数的变量的变异程度时,标准差系数是一个很有用的统计量。

分布形态、相对位置的度量以及异常值的检测

这些在 EDA 中其实都是比较常见的,这里看一下对于分布形态的度量。

分布形态


对于一个对称的分布,平均数和中位数是相等的。当数据的偏度为正时,通常平均数要比中位数大;当数据的偏度为负时,通常平均数要比中位数小。当数据严重偏离的时候,中位数是位置度量的首选。

z-分数
这个统计量是来衡量数据集中数据的相对位置(可以看作是标准化)。

z-分数往往被称为标准化数值。z-分数zi,能被解释为xi与平均数的距离是zi个标准差。

切比雪夫定理
感觉一般会在选择题里面考到,估算置信区间之类的。
切比雪夫定理的优点之一就是,她 适用于任何数据集而不论其数据分布的形状。

经验法则
在实际应用中,当数据集近似服从正态分布(即呈对称的钟形或峰形分布时),就可以运用经验法则来确定与平均数的距离在某个特定个数的标准差之内的数据值所占的比例。

异常值的检测
异常值可能是一个被错误记录的数据值,也可能是一个被错误包含在数据集中的观测值,也可能就是一个反常的数据值。
检测方法:

  1. z-分数可以用来确认异常值,通过经验法则来判断,建议把z-分数小于-3或大于+3的任何数值都是为异常值
  2. 以第一四分位数和第三四分位数以及四分位数间距为依据,首先计算上限和下限:

    如果一个观测值的数值小于下限或大于上限,则被归类为异常值。

五数概括法和箱形图

这两个其实本质是一样的,就是一个是数值,一个是图示。

五数概括法

箱形图

利用箱形图的比较分析

两变量关系的度量

协方差
即为两个变量之间线性关系的度量。


相关系数


相关系数要比协方差更容易度量变量之间的线性关系,因为相关系数是没有单位量纲的。


第四章 概率

概率就是对事件发生可能性的数值度量。

随机试验、计数法则和概率分配

随机试验:是一个过程,它所产生的实验结果是完全确定的。在每一次重复或者试验中,出现哪种结果完全由偶然性来决定。
样本空间:是试验所有结果组成的一个集合。
一种特定的试验结果被称为样本点,它是样本空间的一个元素。

事件及其概率

事件是样本点的一个集合。
事件的概率等于事件种所有样本点的概率之和。

概率的基本性质

P(A)=1−P(Ac)P(A)=1-P(A^c) P(A)=1−P(Ac)
两个事件的并:A∪BA\cup BA∪B
两个事件的交:A∩BA\cap BA∩B

加法公式:

互斥时(一个发生另一个一定不会发生,即没有公共样本点)

条件概率

这个知识点还是蛮常考的,也是后面的贝叶斯定理的基础。
条件概率就是指在事件A发生的条件下事件B发生的可能性。

独立事件即事件A的概率不会因为事件B的发生与否而改变。

乘法公式

贝叶斯定理

  • 先验概率
  • 后验概率



贝叶斯定理用到了条件概率公式和全概率公式。


第五章 离散型概率分布

这一章和下一章的话笔试面试应该是比较常问的,比如说:**xxxx,是服从什么分布的?**或者说,让你求一些随机变量的期望和方差等等。
所以还是要仔细的记录一下。

随机变量

随机变量是对试验结果的数值描述。分为离散型和连续型。

离散型概率分布
随机变量的概率分布是描述随机变量取不同值得概率。对于离散型随机变量x,概率函数给出随机变量取每种值得概率,记作f(x)。

离散型概率函数的基本条件

  • f(x)≥0f(x)\geq 0f(x)≥0
  • ∑f(x)=1\sum_{} f(x)=1∑​f(x)=1

离散型均匀概率函数
f(x)=1nf(x)=\frac{1}{n}f(x)=n1​

数学期望与方差

数学期望是指对随机变量中心位置的一种度量。

方差是用来描述随机变量取值的变异性。

随机变量之间的协方差
书上给了一种公式,应该是变形:

正常用的是下面这个:

随机变量之间的相关系数


二项概率分布

二项试验

  1. 试验由一系列相同的n个试验组成
  2. 每次有两种可能的结果
  3. 每次试验成功的概率相同,用p来表示
  4. 试验相互独立


二项分布的数学期望和方差

泊松概率分布

泊松试验的性质

  1. 在任意两个相等长度的区间上,事件发生的概率相等
  2. 事件在某一区间上是否发生与事件在其他区间上是否发生是独立的

超几何概率分布

这个分布描述了从有限N个物件(其中包含M个指定种类的物件)中抽出n个物件,成功抽出该指定种类的物件的次数(不放回)。
超几何概率分布与二项分布联系密切,这两种概率分布主要有两处不同:在超几何概率分布种,各次试验不是独立的,并且各次试验中成功的概率不相等。

均值和方差

[概率统计]商务与经济统计知识点总结 Part 2相关推荐

  1. 高等数学+线性代数+概率统计知识点梳理(参考李林108题)

    写在前面:请大家支持正版!!!李林老师口碑甚好,本文仅用于构建个人知识体系.所用参考资料为李林2021年高频考点透析108题. 文章目录 高等数学 考点1 函数的性质 考点2 极限的定义和性质 考点3 ...

  2. 概率与计算机论文,数学概率统计论文范文

    一.引言 如本校数学与应用数学专业和信息与计算科学专业,该课程实践教学主要是利用计算机对理论知识的模拟和实证.这样的实践教学对理论知识的理解有一定的帮助,但对于实际的运用却缺少训练.基于此,在实践教. ...

  3. 读书笔记:程序员的数学 概率统计

    读书笔记:程序员的数学 概率统计 特点 内容 第一.二章 概率定义 多随机变量 第三.四章 离散.连续分布 第五章 协方差矩阵与多元正态分布 第六.七章 估计与检验 伪随机数 第八章 各类应用 体会 ...

  4. 为什么边缘概率密度是联合概率密度的积分_高等数学线性代数概率统计每日一题20201006不定积分 齐次线性方程 边缘概率密度...

    高等数学线性代数概率统计每日一题20201006不定积分 齐次线性方程 边缘概率密度 微信公众号:大学数学云课堂 专注于大学数学,线性代数,概率统计,高等数学,数值分析, matlab编程,数学建模, ...

  5. 机器学习中的数学:概率统计

    内容亮点 详解 6 大核心板块:概率思想.随机变量.统计推断.随机过程.采样理论.概率模型,筑牢机器学习核心基础. 教你熟练使用 Python 工具库:依托 NumPy.SciPy.Matplotli ...

  6. 应用概率统计(陈魁)部分答案7~11章

    数理统计应用概率统计(陈魁)部分答案7~11章 第七章 数理统计的基本概念 习题7.2.7.3.7.4.7.6,答案见下图 第八章 参数估计 习题8.1.8.4.8.6.8.8.8.11.8.12,答 ...

  7. 概率统计笔记:高斯威沙特分布

    1 介绍 在概率论和统计学中,高斯威沙特分布是一个多变量四参数连续概率分布. 它是一个具有未知均值和精度矩阵(协方差矩阵的逆)的多元正态分布的共轭先验 2 定义 假设均值μ 满足如下的高斯分布 其中满 ...

  8. Matlab在概率统计中的应用问题及解决方案集锦

    前言 关于MATLAB系列的精品专栏大家可参见 MATLAB-30天带你从入门到精通 MATLAB深入理解高级教程(附源码) 喜欢的小伙伴可自行订阅,你的支持就是我不断更新的动力哟! Matlab在概 ...

  9. Matlab概率统计编程指南

    Matlab概率统计编程指南 第4章 概率统计 本章介绍MATLAB在概率统计中的若干命令和使用格式,这些命令存放于MatlabR12\Toolbox\Stats中. 4.1 随机数的产生 4.1.1 ...

  10. 距离算法在概率统计C语言,基于CBM-TOF探测器无触发数据获取系统的压缩算法-应用概率统计.PDF...

    基于CBM-TOF探测器无触发数据获取系统的压缩算法-应用概率统计 第39 卷 第6 期 核 技 术 Vol.39, No.6 2016 年6 月 NUCLEAR TECHNIQUES June 20 ...

最新文章

  1. HTML的文本中只允许有日期输入
  2. 【Kubernetes】离线业务:Job与CronJob
  3. DevExpress RichEditControl 上下翻页功能 z
  4. 为什么ABAP整型的1转成string之后,后面会多个空格
  5. 数据分析Python:sklearn数据预处理中fit(),transform()与fit_transform()的区别
  6. 2篇word文档比较重复率_论文深耕 | 论文重复率太高怎么办?7个降重技巧收好了!...
  7. C#使用结构来传递多个参数
  8. html5图片动且平移,HTML5 Canvas平移,放缩,旋转演示
  9. ArcMAP栅格数据裁剪小技巧
  10. 天线理论巴拉尼斯_天线学习类图书推荐 - 欧源通天线厂家
  11. NeoKylin(linux)操作系统基本操作(自用)
  12. 网络协议安全性分析(思维导图word版本)
  13. node配置微信小程序解密消息以及推送消息
  14. 兆骑科创创新创业服务平台,海内外高层次人才引进,活动赛事
  15. error LNK2001的解决方法
  16. 小学生智力测试软件,测试小学生智力的问题及答案
  17. 慧安-PLC4X学习
  18. 偷听李开复“内心的声音”
  19. android listview渐变,android ListView的overscroll(模糊渐变效果)
  20. 游戏3D建模要美术基础吗?

热门文章

  1. linux如何装coap协议,coap协议源码安装与测试
  2. Pytorch 残差网络 ResNet
  3. 深度学习入门:基于Python的理论与实现——第一章Python入门
  4. Docker安装JanusGraph
  5. java 淘口令_简单实现淘口令
  6. E盾网络验证介绍以及教程分享
  7. 记 2022年11月5日 信息安全工程师考试
  8. 做高级PPT的一点经验
  9. 2路10核物理服务器能否虚拟40vcpu,计算vCPU数量 依据公式
  10. 工业机器人电柜布线_工业机器人示教器及其连线图