模式识别学习笔记——绪论

一、从数据集D中产生训练集S和测试集T,主要有以下方法:

——hold-out(留出法)

——cross-validation(交叉验证法)

——bootstrapping(自助法)

hold-out(留出法)

将数据集分为两个互斥的集合,D=S∪T,且S∩T=∅。

attention:

1、训练集和测试集中的类别比例相似,可以利用分层抽样得到。比如说1000个样本中有男女各500个,若训练集和测试集数据个数分别为800和200个,则训练集应该包含400个男,400个女;测试集应该包含100个男,100个女。

2、即使是分层抽样,仍有很多种划分方式对数据集进行分割,因此一般采用若干次随机划分、重复进行实验评估后取平均值作为留出法的评估结果

一般从数据集中取2/3~4/5作为训练集,剩余作为测试集。

cross-validation(交叉验证法)

将数据集D分成k个大小相似的两两互斥的集合。和留出法一样,k个集合中的每个集合的类别比例通过分层抽样得到。每次用k-1个集合作为训练集,剩下的集合作为测试集,则共有k组训练集和测试集。

attention:

1、交叉验证法评估结果的稳定性和保真性很大程度上取决于k的取值

2、和留出法一样k折交叉验证需要随机使用不同的划分p次,故最终评估结果为p次k折交叉验证评估结果的均值

3、当k等于D中的样本数时,就得到了一个特例:留一法(leave one out ,LOO)。留一法的评估结果被认为比较准确,但是当数据集比较大时,数据计算量太大。

bootstrapping(自助法)

利用数据集D(有m个样本)产生数据集D’(类似于有放回的摸球):每次从数据集D中挑选一个样本,拷贝到数据集D’中,再放回数据集D,重复m次,则数据集D’和数据集D有相同的样本个数(称为自助采样)。但是数据集D’中有些样本是重复的,且数据集D中的有些样本没有采到,数据集D中有0.368的样本没有被采到,将D’作为训练集,其他没采到的作为测试集。

attention:

1、自助法适用于数据集小,难以有效划分训练和数据集的情况

2、因为自助法产生的数据集改变了初始数据集的分布,会引入估计偏差,故初始数据量足够时,常采用留出法和交叉验证法。

二、生成模型和判别模型

生成(generative)模型:表示各个类别内部结构或特征分布p(x|c)

判别(discriminative)模型:表示不同类别之间的区别,一般为判别函数、边界函数或后验概率P(c|x)

生成学习:得到每个类别的结构描述或分布函数,不同类别分别学习

判别学习:得到判别函数或者边界函数的参数,所有类别同时学习

参考资料:

中国科学院大学硕士课《模式识别》ppt

西瓜书——《机器学习》周志华

模式识别学习笔记(1)——基本概念相关推荐

  1. 模式识别学习笔记(一)模式识别初认识

    这是本人第一次写博客,把学到的东西以及自己的理解用类似于学习笔记的形式表达出来.如果有不妥的地方,希望大家指正.谢谢! 一.模式识别的定义 关于模式识别(pattern recognition)的定义 ...

  2. 模式识别学习笔记(1)概率论基础知识

    大学的时候,我的<概率论和数理统计>这门课一共挂过3次,而且我记得最后一次考过的时候刚刚及格,只有60分.你可以想象我的<概率论>这门课学的是有多差了.后来,我工作以后,在学习 ...

  3. 模式识别学习笔记——第2章—2.4 两类错误率、Neyman-Pearson决策与ROC曲线

    上一节学习了决策表,这一节我们在只有两类情况的决策表中继续深入研究.假设现在我们有两类状态分别是阳性和阴性.可以绘制出如下的决策表: 截至<模式识别(第三版)>阳性阴性状态与决策的可能性关 ...

  4. 模式识别学习笔记-lecture2-统计判别1

    作为统计判别问题的模式分类 模式识别的目的就是要确定某一个给定的模式样本属于哪一类 输入:被识别对象的特征向量 输出:被识别样本的类别 贝叶斯判别原则 两类模式集的分类 目的:要确定xxx是属于ω1\ ...

  5. 模式识别学习笔记之——统计决策方法

    统计决策方法 1.一个简单的例子引出一些基本概念 假如我手里拿着一枚硬币,让你猜是多少钱的硬币,这其实就可以看作是一个分类决策的问题:你需要从各种可能的硬币中做出一个决策.如果我告诉你这是一枚一角或五 ...

  6. 模式识别学习笔记(3)——高斯概率密度

    概率密度估计方法 参数法:只需将均值和协方差矩阵保存下来,就可知道其分布. 半参数法:GM通过解析求解:期望最大化是极大似然估计的特例,多次迭代才能求得 高斯密度函数 牢记密度函数公式!!! 把协方差 ...

  7. 模式识别学习笔记(12)——聚类

    聚类 对一批没有类别标签的样本集,按照样本之间的相似程度分类,相似的归为一类,不相似的归为其它类.这种分类称为聚类分析,也称为无监督分类. --聚类的质量(或结果)取决于对度量标准的选择. --聚类结 ...

  8. XY的模式识别学习笔记-最小平方误差准则分类 MSE

    最小平方误差准则分类 MSE 最小平方误差准则分类 定义 简单例题及Matlab代码实现 大三数学狗,记录一下学习过程. 最小平方误差准则分类 定义 对线性不可分的样本集,不等式组 a T y i & ...

  9. 模式识别学习笔记(10)——距离度量

    距离度量 度量会影响分类性能 metric learning(度量学习) -Parameters in metric optimized in learning (e.g., empirical ri ...

最新文章

  1. python launcher怎么使用_python的launcher用法知识点总结
  2. secureCRT常用设置
  3. Java系列笔记(1) - Java 类加载与初始化
  4. [html] 回车表单自动跳转如何禁止
  5. mySQL 数据库错误
  6. 爱因斯坦为什么不是普通人?看他怎么喝茶就明白了,差距太明显了!没法比.......
  7. $.post把表单对象传递过去_FormData对象
  8. 整理的部分Java和C#不同点
  9. 管理感悟:不要做自己想做的事情
  10. Tomcat下载及安装(Windows)
  11. 射频百科 | 高速射频连接器
  12. (8)seetaface6 JNI之人脸相似度1:1(包含戴口罩人脸相似度)计算
  13. web前端设计与开发,css段落首行缩进2字符怎么设置
  14. 点到直线的距离公式推导
  15. install -save 和 -save-dev区别
  16. Word下划线怎么打?速速get这5个实用方法!
  17. 【PHP MySQL】数据库专题 第八课 表连接
  18. Spring学习笔记7_使用JSR 330标准注解(Using JSR 330 Standard Annotations)
  19. 技术总监任职资格要求
  20. 基于2.4GHz射频NRF24L01模块的智能家居项目总结

热门文章

  1. GOAP 目标导向型行为计划 AI 算法
  2. 飞机大战c语言设计报告,中南大学电信-C语言飞机大战实验报告.doc
  3. 为防护加码,飞凌嵌入式i.MX93系列开发板让通信安全又稳定
  4. 2022年3月电子学会Python等级考试试卷(一级)答案解析
  5. 颈椎病类型繁多,看看自己是哪一种
  6. 程序员 《相见恨晚的超实用网站》
  7. powerkey(开关机)实例
  8. 上网行为管理系统都有哪些呢
  9. 毕业论文怎么写 || 应届毕业生的经验分享
  10. Multisim基础 电压表,电流表的使用