以下是在看模型识别,机器学习及数理统计时,对贝叶斯决策、概率分布、样本关系的总结,每想到一点就写下来,比较乱,这块需要反复学习、慢慢理解。

1. 机器学习的一些概念:

什么是机器学习?

机器学习包含哪些基本要素?

机器学习,就是由已知数据,训练出一个模型,形成一个假设的空间,在拿到新的数据后,能在假设空间搜索出一个合理的结果。

搜索出合理的结果,只是评价机器学习的效果,模型的好坏。

如何建立模型,才是机器学习算法的核心,包括假设,推理,验证。

如何保证目标概念在假设空间内?

是否有包含所有假设的空间?

如何保证收敛?

假设空间的大小与训练样例数量的关系?

概率、贝叶斯公式与机器学习的关系?

概率论,特别是贝叶斯公式,为机器学习提供了强有力的推导依据。

1. 统计与概率、机器学习是什么关系?

概率论及其分布函数、特性,是理论基础。而统计是应用,利用样本统计量来估计概率模型中的参数,而后更进一步获取更有用的统计数据。

统计是机器学习中统计判决部分的理论基础。或者是说统计分析在机器学习方面的应用。

2.

贝叶斯学习

两个前提条件:

1)类别,一般是已知类别的个数,各个类别的需要概率的初始知识,即先验概率P(h)。

2)特征数据在各个类别中的概率分布,即先验条件分布P(x|h)。

待解决的问题:

已知采集的数据:

训练数据D:包含特征数据和类别

求:

假设的分类面,或者一个采集到数据的分类。

其中,问题又可分为 类别的先验概率P(h)已知,和未知两种情况。

1)P(h)已知的情况。求解,相对简单,普通的贝叶斯公式。

2)P(h)未知,但一种类别的错误率已知的情况,求另外一个类别的错误率。可以利用聂曼-皮尔逊决策(N-P判决)来计算决策面。

3. h为类别,D为特征数据,P(D|h)与P(h|D)的区别?

计算假设目标的概率P(D|h). 假设成立时,观测到D的概率。有多种假设 都能观测到数据D,每种假设所占的比率。先验概率

P(h|D),假设h的后验概率,其反应了训练数据后,假设h成立的概率。其反应了训练数据的影响。

但先验概率p(h)是与训练数据D相互独立的.

极大后验假设MAP, max a posteriori 最大可能假设。

MAP = max(P(h|D))

贝叶斯推理的概率,很大程度上依赖于 先验概率。 首先,需要知道 先验概率。

由贝叶斯推理,推导出最大似然估计,再推导出最小方差估计(平方误差最小估计)。

---------------------------------------

1.

在模式分类中,贝叶斯决策,比较简单的场景是:先验概率已知,然后,某两种或多种条件下,某事件发生的概率已知。 求出后验概率,即贝叶斯公式,根据后验概率的大小,做出决策。

稍微复杂的场景:

先验概率已知,连续概率密度函数的类型已知,但是参数未知。 有大量的抽样数据,

则据抽样数据,估计概率密度函数的参数。

然后,据贝叶斯公式,计算出决策函数,决策面。

拿到决策面,就能对测试数据进行分类了。

在这里,有几个问题,如果弄清楚,对贝叶斯决策就会由比较清晰的掌握。

1)什么判决函数,什么是判决面?

对特征点进行分类的界面,就是判决面;而分类界面的函数就是判决函数。

2) 后验概率与贝叶斯公式的关系,使用后验概率、贝叶斯决策的先决条件?

类别的经验分布概率、特征在不同类别下的先验概率(即条件概率)已知,或者可计算

3)经典分布概率,包括

类别的先验概率

类别特征的条件经验分布概率,即特征在不同类别中的概率

4) max 与最小误差判决面的关系

5)高斯分布

如何求每个类别的高斯分布?

相邻判决面的求解?那非相邻类别那?

6)高斯分布的分类,哪些因素有关?

均值:决定中心位置

方差:决定了判决面到中的距离

7) 错误率有哪些?

P1(e): P(w2|x), 分类为w1时,错误率

P2(e): P(w1|x), 分类为w2时,错误率

如何计算总的错误率?

P(e) = 积分(max[P(w2|x)*P(x), P(w1|x)*P(x)])

如何应用最大似然估计推导错误率?

错误样本的个数t,总样本个数为N,假设错误率为e

则其联合分布密度为

二项分布

求极值

计算出,错误率的估计量 t/N

8)聂曼-皮尔逊决策 的使用场景:

P(wi)先验概率未知,在P2(e)已知的情况下,使P1(e)尽可能小的决策面。求判决阈值。

采用拉格朗日乘数法 进行推导计算。

因为P1(e)错误的后果比较严重,所以要严格限制其错误率。

两种类别的概率密度函数已知:p(x|w1), p(x|w2)

则判决函数为 p(x|w1) / p(x|w2)

判决面为 p(x|w1) / p(x|w2) = lamda, lamda为阈值。

阈值lamda如何求解?

已知错误率P1(e),p(x1 | w1), 查表,可以求出阈值

9) 均值向量,协方差矩阵未知情况下,如何利用样本进行估计

向量形式:均值

协方差矩阵:

bays的训练,就是利用各个类别的样本,估计各个类别的方差和均值。然后计算决策面。

判决函数,应该是一组空间的集合;而判决面就是两组空间的交集/交面。

---------------------------------------

归纳偏置

什么是无偏的学习器?

期望与样本均值相等。线性特征。

学习器必须对目标概念做预先的假设,否则无法对未来的实例进行分类。

由于归纳学习需要预先假设,这种形式,被称为归纳偏置。 用自己话说就是 归纳假设。

如何评估假设?

1. 估计的方差

均值的误差程度,也是概率分布的宽度或散度。随机变量与其均值的差有多大。即使均值无偏,方差可能比较大。

2. 估计的偏差

期望值,与真实值,差距

精度的分析

即或是分类的精度

样本错误率:统计样本被错误分类的比率

真实错误率:按真实概率分布抽取实例,然后统计器错误率

样本错误率与真实错误率的关系?

样本错误率是对真实错误率的估计。

如何评价这种估计?

统计理论:

100%:真实错误率,是样本错误率

95%:真实错误率,是一个区间,以样本错误率为中心的区间

百分比,又称为置信度,而真实错误率的区间,又称为,置信区间。对于二项分布,样本个数越大,置信度不变,置信区间就越小。

测试样本错误率多次

每次选用不同的样本,统计的错误率符合 二项分布。

独立且多次尝试的0-1实验,生成一个独立的、同分布的随机变量序列,这个序列

其分布为 二项分布

np(1-p) >= 5 或 n>=30时,二项分布可以用正态分布近似表示。

--------------------------------------------------

1. 朴素贝叶斯分类器

即MAP,最大后验概率分类器。如何训练分类器?

已知训练数据。

只需统计各个类别的频率p(h),及特征数据在各个类别中的频率(D|h)。

已知待分类数据D,可以求其max(P(h|D)),等同于max(p(hj) * p(D|hj))

2. 贝叶斯网络

是指一组条件概率,而朴素贝叶斯分类器假设所有特征变量是相互独立的。而贝叶斯网络将此条件放宽。

理解贝叶斯网络,就需要理解条件独立性。两个变量间无相互影响,及相互独立。条件独立,两个变量,在给定条件下,如第三个变量的指定值的条件下,相互独立。

条件概率,具有传播性,形成一个链式的规则。

x -> y -> z -> w

每两个相邻变量的条件概率都知道,如何求P(w|x)。这就是贝叶斯定理的概率传播。

联合概分布的求解。

p(xyzw) = p(x) * p(y|x) * p(z|x,y) * p(w|x, y, z)

贝叶斯网络的一个重要性质,一个节点独立于非前驱节点。即p(xi | x(i-1)...x1) = p(xi | x(i-1)) 类似马尔科夫过程。

贝叶斯网络,也可以看做马尔科夫链的非线性扩展。

结构形式:

有向无环图(DAG),即是一个前向多段图的结构

如何学习 贝叶斯置信网络?

1. 可以预先给出网络结构

2. 也可以 由训练数据来获取

网络变量如何获取?

有的可以从训练样例中得到,有些不能得到。

需要理解的概念:

1. 条件概率,条件独立性。

p(x3 | x2, x1) = p(x3 | x2)

p(x3 | x1)  链式计算

p(x1 | x3)

或者,可以理解,给定前驱节点的值时,本节点独立于非前驱节点。而前驱节点不确定时,本节点与非相邻节点就有不独立了。

2. 贝叶斯网络的概率推理,概率链式计算。

3. 变量消元算法,进行推理计算

4. 团树传播算法,进行推理计算

5. 近似推理,大数定律

6. 结构学习:发现变量之间的图关系

7. 参数学习: 决定变量之间相互关联的量化关系: 最大似然估计,贝叶斯估计

------------------------------------------------------------------------------------------------

高斯混合模型

序列视频图像,背景分析的处理方式:

1. 直接选用一帧,作为背景

2. 序列图像,加权

3. 高斯混合建模GMM

1)判定

2)更新

前两个比较好理解。而GMM的理解需要 高斯分布、样本与总体的关系理解作为基础。

单分布高斯背景建模 是指所有像素都服从同一分布。

高斯混合背景建模 是指多个像素服从不同的高斯分布,且不同的权值。

首先,假设,一个像素点作为背景像素的分布服从高斯分布。一个像素点的连续序列如X1,X2,...Xn都是随机变量,服从同一正态分布。即单分布高斯背景建模

而一个像素点的实际值就是样本值。

样本与样本值要区分开的。

高斯分布的参数:期望,方差都是未知的。所以,需要样本进行估计分析。

由序列图像,可以计算出样本均值/期望,样本方差/协方差,再有一个样本值,与均值、样本值的关系。当大于某阈值时,就认定为背景,小于某阈值时,判定为前景。

样本值、均值、方差、权值

学习率

机器学习中贝叶斯判决、概率分布、样本等概念间的关系相关推荐

  1. 机器学习朴素贝叶斯算法_机器学习中的朴素贝叶斯算法

    机器学习朴素贝叶斯算法 朴素贝叶斯算法 (Naive Bayes Algorithm) Naive Bayes is basically used for text learning. Using t ...

  2. 【机器学习】贝叶斯机器学习:经典模型与代码实现

    贝叶斯机器学习 Author:louwill Machine Learning Lab 贝叶斯定理是概率模型中最著名的理论之一,在机器学习中也有着广泛的应用.基于贝叶斯理论常用的机器学习概率模型包括朴 ...

  3. 机器学习 | 朴素贝叶斯法知识总结

    机器学习 | 朴素贝叶斯法理论知识 贝叶斯决策论是概率框架下实施决策的基本方法.对分类任务来说,在所有相关概率都已知的理想情况下,贝叶斯决策论考虑如何基于这些概率和误判损失来选择最优的类别标记.朴素贝 ...

  4. 机器学习---朴素贝叶斯模型

    机器学习-朴素贝叶斯模型 1.通俗解释: 朴素贝叶斯模型的基本思路就是利用贝叶斯的后验概率公式来推算当前属性下的数据样本属于哪一个类别.直白一点说,就是在特征属性为当前取值的条件下,该样本归属于那个类 ...

  5. 【机器学习】贝叶斯模型(Bayesian Model)

    贝叶斯模型 最小错误率贝叶斯 先验概率 似然概率 二类判决问题 最小错误率贝叶斯公式 误差 例题 极大似然估计 例题 最小风险贝叶斯 癌症诊断 分类器设计 生成模型(Generative Model) ...

  6. 秒懂机器学习---朴素贝叶斯

    秒懂机器学习---朴素贝叶斯 一.总结 一句话总结: 尽管朴素贝叶斯的条件独立性假设存在一定的问题,但是朴素贝叶斯算法仍然能取得比较理想的分类预测结果. 1.朴素贝叶斯分类算法 和 KNN分类算法和决 ...

  7. 机器学习朴素贝叶斯算法+tkinter库界面实现好瓜坏西瓜分类

    机器学习朴素贝叶斯算法+tkinter库界面实现好瓜坏西瓜分类 一.界面实现 from tkinter import * from tkinter import ttk import NBdef ma ...

  8. 机器学习: 贝叶斯算法的应用

    机器学习: 贝叶斯算法的应用 背景 数据集及源码 互联网经济蓬勃发展的背景下,食品经营模式发生了天翻地覆的变化,人们的消费习惯也悄然发生了转变.通过点击手机APP上自己喜欢的食品, 这些食品就能按时准 ...

  9. python机器学习-朴素贝叶斯(Naive Bayes)模型建立及评估(完整代码+实现效果)

    实现功能: python机器学习-朴素贝叶斯(Naive Bayes)模型建立及评估. 实现代码: # 导入需要的库 from warnings import simplefilter simplef ...

最新文章

  1. Flink SQL Client方言切换与datagen->Hive(DDL形式+streaming形式)
  2. mysql 触发器 定时触发_mysql 触发器和存储过程组合使用,实现定时触发操作
  3. C++ 使用VS2010创建MFC ActiveX工程项目
  4. Python数据结构与算法(3.1)——栈
  5. 2010年全国职称计算机考试专用教程——AutoCAD 2004制图软件 (含光盘下载)
  6. RSA加密解密中pkcs1与pkcs8格式私钥互相转换
  7. 阿里云WordPress建网站的方法
  8. STM32实现薄膜压力传感器数据采集(标准库和HAL库实现)
  9. 经验分享 | ENVI app store
  10. 巅峰战舰正在连接服务器,人气冲天《巅峰战舰》火爆连续加开服务器
  11. 获取注册表信息-HKEY_LOCAL_MACHINE\SOFTWARE\Microsoft\Cryptography的MachineGuid的值
  12. 阿里云国际站实名认证上传材料填写样例(域名持有者为组织)
  13. AI写小说!ChatGPT创作福尔摩斯小说,3分钟狂写856字,就问人类慌不慌?
  14. 2021-3-21-第三周
  15. js复制图片文字图文分享到微信/QQ,插件clipboard.js的应用案例
  16. C语言位运算的高级应用(尤其适合单片机和嵌入式编程)
  17. kaggle的toxic_comment_classification比赛21th经验总结
  18. Snmp学习总结系列
  19. 常见的光纤连接器有哪些?光纤连接器的种类科普
  20. JavaWeb中最新版web.xml代码

热门文章

  1. 免费提供中国土地市场网,城市售票网,银行卡号归属地查询,健康驿站房间线上预约系统等分析和代码
  2. unity--2018版本terrain
  3. 多媒体计算机应配置得硬件,多媒体计算机可处理的信息类型有
  4. java充值卡号生成_Java工具集-通用卡号转换
  5. 【Python】实现自动扫雷,挑战世界纪录
  6. 雅迪G5G6电摩锂电池组接线图
  7. 【系统架构设计师】软考高级职称,一次通过,倾尽所有,【系统架构设计师】备考学习资料
  8. 微软操作系统(winXP、Windows7、Windows8、Windows8.1和Windows10等若干版本)纯净版资源汇总
  9. 怎么在网上赚钱?这几个副业也许会适合你
  10. Java swing(GUI) mysql实现的桌面通讯录备忘录管理系统源码