机器学习知识总结系列-机器学习中的数学-概率与数理统计(1-3-1)
文章目录
- 目录
- 1.概率与统计
- 1.1 机器学习与概率统计之间的关系
- 1.2 重要的统计量
- 1.2.1 期望
- 1.2.2 方差
- 1.2.3 协方差,相关系数
- 协方差
- 相关系数
- 1.2.4 矩
- 1.3 重要的定理与不等式
- 1.4 用样本估计参数
目录
1.概率与统计
1.1 机器学习与概率统计之间的关系
1.什么是概率问题和统计问题
- 概率问题:已知数据的整体分布,然后求取抽样数据的概率。
- 统计问题:是概率问题的逆过程,即已知抽样数据的概率,求数据的整体分布。
2.监督学习----概率统计
- 训练过程:统计的过程
- 预测过程:概率的过程
3.机器学习与概率统计的关系
- 统计估计的是一个分布,机器学习训练出来的是一个模型,模型可以包含多个分布。
- 训练和预测的核心评价指标是模型的误差,误差本身可以为概率的形式
- 对误差的不同定义方式可以转换为对不同损失函数的定义。
- 机器学习是概率与统计的进阶版本(不严谨的说法)
1.2 重要的统计量
1.2.1 期望
1.离散型:E(x) = ∑ixipi\sum_{i}x_ip_i∑ixipi
2.连续型:E(x) = ∫−+xf(x)dx\int _-^+xf(x)d_x∫−+xf(x)dx
期望可以理解为数据加权下的平均值
3.性质
- 无条件成立:E(kx) = kE(x) E(x + y) = E(x) + E(y)
- 如果x,y为相互独立:E(XY) = E(X) E(Y)
独立:P(AB) = P(A)*P(B)
互斥:P(AB) = 0 P(A+B) = P(A) + P(B)
若:E(XY) = E(X)E(Y)只能说明X和Y不相关。
1.2.2 方差
1.定义:
var(x) = E(x−E(x))2=E(x2)−E2(x)E{(x - E(x))^2}=E(x^2)-E^2(x)E(x−E(x))2=E(x2)−E2(x)
2.性质
- 无条件成立:
- var(c)=0var(c) = 0var(c)=0
- var(x+c)=var(c)var(x+c) = var(c)var(x+c)=var(c)
- var(kx)=k2var(x)var(kx) = k^2var(x)var(kx)=k2var(x)
- 当x和y相互独立的时候:
var(x+y)=var(x)+var(y)var(x+y) = var(x) + var(y)var(x+y)=var(x)+var(y)
方差的平方根称为标准差
方差可以理解为整体数据偏移平均值的一个程度。
1.2.3 协方差,相关系数
协方差
1.定义:
cov(x,y) = E{[x-E(x)]*[y-E(y)]}
从定义可以看出,协方差是从方差定义扩张而来的,方差只针对的单变量,而协方差则考量的是2个变量之间的关系。
x和y如果是离散的变量,则x和y的维度必须相等。
2.性质
- 无条件成立:
- cov(x,y)=cov(y,x)对称性cov(x,y) = cov(y,x) 对称性cov(x,y)=cov(y,x)对称性
- cov(ax+b,cy+d)=accov(x,y)cov(ax+b , cy+d) = accov(x,y)cov(ax+b,cy+d)=accov(x,y)
- cov(x1+x2,y)=cov(x1,y)+cov(x2,y)cov(x_1+x_2,y) = cov(x_1,y) + cov(x_2,y)cov(x1+x2,y)=cov(x1,y)+cov(x2,y)
- cov(x,y)=E(xy)−E(x)∗E(y)cov(x,y) = E(xy) - E(x)*E(y)cov(x,y)=E(xy)−E(x)∗E(y)
- 当x,y相互独立的时候:cov(x,y)=0
cov(x,y)=0 只能得出变量x,y是不相关,无法得出独立的结论
3.意义:
协方差可以度量两个变量具在相同方向上的变化趋势。
- 如果cov(x,y) > 0: x,y的变化趋势相同
- 如果cov(x,y) < 0: x,y的变化趋势相反
- 如果cov(x,y) > 0: x,y不相关
可以使用协方差来衡量特征和特征,特征和标签之间的相关性,即可以基于协方差来进行特征的筛选。
协方差只能用于衡量2个变量之间的相关性,衡量多个变量之间的相关性需要协方差矩阵。
4.协方差的上界
如果:var(x)=θ12var(x) = \theta_1^2var(x)=θ12 var(y)=θ22var(y) = \theta_2^2var(y)=θ22 则:|cov(x,y) ≤θ1∗θ2\le\theta_1*\theta_2≤θ1∗θ2|
5.协方差矩阵:
对于n个随机变量{x1,x2,....,xnx_1,x_2,....,x_nx1,x2,....,xn},任意两个元素xi,xjx_i , x_jxi,xj都可以得到一个协方差,从而形成一个n*n的矩阵,其中协方差矩阵是对称阵。
相关系数
1.peason相关系数
- 定义:Px,y=cov(x,y)/(var(x)∗var(y))P_{x,y}=cov(x,y)/\sqrt(var(x)*var(y))Px,y=cov(x,y)/(var(x)∗var(y))
- 性质:
- 由协方差的上界可知:|P|$\le$1
- 当且仅当x,y线性相关时,等号成立
- 相关系数是标准尺度下的协方差。上面关于协方差的性质也适用于相关系数。
- 相关系数取值在(0,1)之间,越接近1则说明两变量的相关性越大,越接近0则说明相关性越低。(线性相关)。
2.相关系数矩阵(可画出热图)
对多个变量两两之间求取相关系数,并组成矩阵,则为相关系数矩阵
- 相关系数矩阵可以发现特征之间的相关性
- 协方差矩阵归一化后便可以得到相关系数矩阵
- 实际中使用较多的是相关系数矩阵而非协方差矩阵,因为协方差矩阵取值范围较大,表现不明显
- 使用相关系数矩阵的目的是为了进行特征的选择。
- 负相关也是相关。当两个特征向量之间的相关系数为1,则可以去除其中的某一个。
3.独立和不相关
- 一般指的不相关指的是线性独立
- 如果x,y不相关,则x,y没有线性关系,但是可以有其他函数关系。
1.2.4 矩
1.定义:对于随机变量X,X的K阶原点矩为:E(XK)E(X^K)E(XK)
X的K阶中心矩为:E[X−E(X)]KE[X-E(X)]^KE[X−E(X)]K
从上面给出的矩的定义,我们可以看出期望是一阶原点矩 , 方差是二阶中心距
- 变异系数:标准差和均值的比值为变异系数
- 偏度(skewness):三阶矩
- 峰度(kurtosis):四阶矩
1.3 重要的定理与不等式
1.jenson不等式(函数f凸函数)
- 基本jenson不等式定义:
f(θx+(1−θ)y)≤θf(x)+(1−θ)f(y)f(\theta x + (1-\theta)y)\le\theta f(x) + (1-\theta)f(y)f(θx+(1−θ)y)≤θf(x)+(1−θ)f(y)
2.如果:θ1,θ2,...,θk≥0\theta _1,\theta_2,...,\theta_k \ge0θ1,θ2,...,θk≥0 且 θ1+θ2+...+θk=1\theta_1+\theta_2+...+\theta_k=1θ1+θ2+...+θk=1 则:f(θ1x1+...+θkxk)≤θ1f(x1)+...+θkf(xk)f(\theta_1x_1 + ...+\theta_kx_k) \le\theta_1f(x_1)+...+\theta_kf(x_k)f(θ1x1+...+θkxk)≤θ1f(x1)+...+θkf(xk)
2.切比雪夫不等式
度量两个变量之间的距离方法有很多,但是要满足一些条件。同时,也可以度量两个分布之间的距离,即度量两个分布之间的相关性,这个对于机器学习是非常有用的,常常可以作为损失函数。
- 定义:设随机变量X的期望为u ,方差为θ2\theta^2θ2,对于任意的正数ξ\xiξ,有:P(∣X−u∣≤ξ)≤θ2/ξ2P(|X-u|\le\xi)\le\theta^2/\xi^2P(∣X−u∣≤ξ)≤θ2/ξ2
- 意义:切比雪夫不等式说明,X的方差越小,事件(∣X−u∣≤ξ)(|X-u|\le\xi)(∣X−u∣≤ξ)的发生概率越大。
- 该不等式证明了方差的意义。
- 该不等式可以证明大数定理。
3.大数定理
- 定义:设随机变量x1,x2,...,xnx_1,x_2,...,x_nx1,x2,...,xn相互独立,并且具有相同的期望u和方差θ2\theta^2θ2,取前K个随机变量,且该K个随机变量的期望为Yn=1/k∑i=1kxiY_n = 1/k\sum_{i=1}^kx_iYn=1/k∑i=1kxi,则有:limn−>∝p(∣Yn−u∣<ξ)=1lim_{n->\propto}p(|Y_n - u| < \xi)=1limn−>∝p(∣Yn−u∣<ξ)=1
- 意义:当样本的数目足够大时,样本的期望逼近于整体的期望,这是统计方法的基石。
4.中心极限定理 - 定义:设随机变量x1,x2,...,xnx_1,x_2,...,x_nx1,x2,...,xn相互独立,且服从同一分布,具有相同的期望u和方差θ2\theta^2θ2,则有:Yn=∑i=1n(xi−n∗u)/((n)∗θ)Y_n=\sum_{i=1}^n(x_i-n*u)/(\sqrt(n)*\theta)Yn=∑i=1n(xi−n∗u)/((n)∗θ)
- 意义:实际问题中,很多随机变量现象可以看成很多独立影响的综合反应,且这些独立因素服从正太分布。
1.4 用样本估计参数
1.矩估计
- 基本思想:首先假设整体的满足某个分布,其中给分布中有n个未知的参数。然后,由样本求出n对中心距和原点矩,接着由假设的分布公式求出这n对中心距和原点矩,通过等式关系,解出这n个参数,得出整体的分布。
该方法的计算量比较大,在实践过程中用的比较少。常用于两个分布相关性的比较。
2.最大似然估计
- 贝叶斯公式:P(D/A)=(P(A/D)∗P(A))/P(D)P(D/A) = (P(A/D)*P(A))/P(D)P(D/A)=(P(A/D)∗P(A))/P(D)
- 物理意义:公式中D为样本数据,A为模型参数或者随机事件。则P(D/A)P(D/A)P(D/A)表示A在数据D上的后验概率,P(A/D)为A在数据D上的条件概率,P(A)为A的先验概率
- 发生过的概率就是最大的
- 设问题A中的模型有3个:m1,m2,m3m_1,m_2,m_3m1,m2,m3,抽取的样本数为K:x1,x2,...,xkx_1,x_2,...,x_kx1,x2,...,xk,设3个模型的分布为:f(m1),f(m2),f(m3)f(m_1),f(m_2),f(m_3)f(m1),f(m2),f(m3),则已将抽取样本的概率为P=∑i=1kfi(m1)∗fi(m2)∗fi(m3)P=\sum_{i=1}^kf_i(m_1)*f_i(m_2)*f_i(m_3)P=∑i=1kfi(m1)∗fi(m2)∗fi(m3),然后求概率P最大时对应的参数既可以求出整体的分布。
机器学习知识总结系列-机器学习中的数学-概率与数理统计(1-3-1)相关推荐
- 机器学习知识总结系列-机器学习中的数学-矩阵(1-3-2)
矩阵 SVD 矩阵的乘法 状态转移矩阵 状态转移矩阵 特征值和特征向量 对称阵 正交阵 正定阵 数据白化 矩阵求导 向量对向量求导 标量对向量求导 标量对矩阵求导 一.矩阵 1.1 SVD 奇异值分解 ...
- 机器学习知识总结系列-机器学习中的优化算法总结(1-4)
文章目录 1.梯度下降 1.1批量梯度下降(BGD) 1.2随机梯度下降(SGD) 1.3 小批量随机梯度下降(MSGD) 1.4 比较: 1.5 动量算法(momentum) 1.6 Nestrov ...
- 机器学习知识总结系列- 基本概念(1-0)
文章目录 目录 1. 机器学习的定义 2. 机器学习的分类 2.1根据是否在人类监督下进行训练 监督学习 非监督学习 半监督学习 强化学习 2.2根据是否可以动态渐进的学习 在线学习 批量学习 2.3 ...
- 机器学习知识总结系列- 知识图谱(0-0)
文章目录 目录 机器学习知识图谱 目录 本系列的文章只是根据个人的习惯进行总结,可能结构与一些书籍上不太一样,开始的内容比较简单,会随着后续的深入,不断丰富和更新图谱,同时也期待有相同兴趣的朋友一起给 ...
- 机器学习知识总结系列- 模型评估(1-2)
- 机器学习知识总结系列- 特征工程(1-1)
文章目录 目录 目录
- 【机器学习知识体系】- 机器学习问题的一般流程
https://www.toutiao.com/a6678981598257349134/ 今天开始会陆续将之前的文章做一下梳理,整理出一个完整的知识体系,有需要的伙伴们可以更方便地查找自己需要的知识 ...
- 数学/物理知识在软件/算法中应用(1),数学知识应用
> 数学知识 1.拉普拉斯算子可以给图像锐化:2.傅里叶变化可以给图像去燥啊,压缩啊,提取特征那些吧. 3.高斯模糊:4.RSA,大数难分解:5.了解矩阵,Android开发之图像处理那点事-- ...
- 信奥中的数学:质数与合数
什么是质数 ? 什么是质数 ?_哔哩哔哩_bilibili 质数与合数知识导览 质数与合数知识导览_哔哩哔哩_bilibili 质数和合数. 质数和合数._哔哩哔哩_bilibili 质数与合数_哔哩 ...
最新文章
- 开发奇淫巧技Tips(Android篇)
- 关于解决form表单记录上次保存填写记录清空
- java设置行显示复选框_java spring cheakbox复选框怎么行或者列删除添加
- FullCalendar 七:FullCalendar应用——整合农历节气和节日
- laravel控制器方法中,用函数作为变量进行传递时的处理方法
- 网易云免费OSS服务用做Markdown图床或博客图片外链
- docker 不包含依赖 打包_Docker打包深度学习项目(解决:Opencv依赖库、共享内存)...
- MyBatis-Plus updateById方法更新不了空字符串/null解决方法
- 【自己看的笔记】Unity基础操作认识
- Qt中通过Qpixmap设置图片透明度
- Incorrect string value: '\xF0\x9F\x91\x80' for column数据库中添加表情报错
- 运动式蓝牙耳机什么牌子好、运动式蓝牙耳机推荐
- ERROR: 错误 1406。未能将值 写入项 \Software\Classes\CLSID\{4B75FA16-56AF-4DC4-941D-F84B279DDB15}\LocalServer3
- SystemVerilog学习-10-验证量化和覆盖率
- GuessingGame
- 《基于海思35xx nnie引擎进行经典目标检测算法模型推理》视频课程介绍
- 双连通分量(DCC)
- 科学松鼠会压缩感知科普文章两篇:“压缩感知与单像素相机(陶哲轩)”“填补空白:用数学方法将低分辨率图像变成高分辨率图像(Jordan Ellenberg)
- Gradle构造Spring boot项目(使用私服地址)
- 使用扫码枪扫码二维码并采集二维码信息
热门文章
- 奥拉星插件flash下载手机版下载安装_终于等到你!安卓微信7.0.13内测版发布 支持夜间模式 附下载地址!...
- qt能使用logback_X04Logback的配置
- 图片文件夹要放在html,在网页中插入图像,若图像文件位于html文件的上两级文件夹,则在文件名之前加入()...
- ajax中怎么验证data,我应该在jQuery的ajax成功处理程序中验证响应数据吗?
- REVERSE-PRACTICE-BUUCTF-8
- 【LeetCode - 123】买卖股票的最佳时机 III
- *【ZOJ - 3604】Tunnel Network (Cayley定理,purfer数列,无根树定理,构造,结论,或dp)
- C++中string类的length()与size()方法和C语言的strlen()函数有什么区别?
- (ECC)椭圆曲线加密算法原理和C++实现源码
- 修改DNS的Linux脚本,Shell脚本-配置网络