解决模式识别问题的方法:基于知识和基于数据。基于知识归在人工智能范畴中。

分类器的定义:基于数据的方法是模式识别最主要的方法,在无特别说明的情况下,人们说模式识别通常就是指这一类方法,其任务可以描述为:在类别标号y与特征向量x存在一定的未知依赖关系、但已知的信息只有一组训练数据对{(x,y)}的情况下,求解定义在x上的某一函数y’=f(x),对未知样本的类别进行预测。这一函数叫做分类器。这种根据样本建立分类器的过程也称作一作学习过程。

监督模式识别与非监督模式识别

监督模式识别:在要解决的模式识别问题中,我们已知要划分的类别,并且能够获得一定数量的类别已知的训练样本,这种情况下建议分类器的问题属于监督学习问题,称作监督模式识别。
非监督模式识别:我们事先不知道要划分的是什么类别,更没有类别已知的样本用作训练,很多情况下我们甚至不知道有多少类别。我们要做的是根据样本特征将样本聚成几个类,使属于同一类的样本在一定意义上是相似的,而不同类之间的样本则有较大差异。这种学习过程称作非监督模式识别。(在统计中通常被称作聚类)

贝叶斯决策就是在不完全情报下,对部分未知的状态用主观概率估计,然后用贝叶斯公式对发生概率进行修正,最后再利用期望值和修正概率做出最优决策
什么是贝叶斯决策:在类条件概率密度和先验概率已知(或可以估计)的情况下,通过贝叶斯公式比较样本属于两类的后验概率,将类别决策为后验概率大的一类,这样做的目的是为了使总体错误率最小。
最小错误贝叶斯决策 :从最小错误率的要求出发,利用贝叶斯公式就能得出使错误率最小的分类决策。
最小风险贝叶斯决策:考虑各种错误造成损失不同时的一种最优决策。

贝叶斯决策基本思想:根据一定的概率模型得到样本属于某类的后验概率,然后根据后验概率的大小来进行决策。
统计决策的基本原理:根据各类特征的概率模型来估算后验概率,通过比较后验概率进行决策。

概率密度函数估计方法分为参数估计与非参数估计:
参数估计:已知概率密度的形式,但其中部分或者全部参数未知,概率密度函数的估计问题就是用样本来估计这些参数。主要方法分为:最大似然估计和贝叶斯估计。
非参数估计:概率密度函数的形式也未知,或者概率密度函数不符合目前研究的任何分布模型,因此不能仅仅估计几个参数,而是用样本把概率密度函数数值化地估计出来。

基于样本直接设计分类器需要确定的三个基本要素:①分类器即判别函数的类型②分类器设计的目标或准则③在前两个要素明确之后,如何设计算法利用样本数据搜索到最优的函数参数。

Fisher线性判别的思想:选择投影方向,使投影后两类相隔尽可能远,而同时每一类内部的样本又尽可能聚集。(投影后类内方差最小,类间方差最大)

感知器:一种直接得到完整的线性判别函数的方法。是最简单的可以学习的机器。只能解决线性可分的问题。经过有限次的迭代梯度下降法可以收敛到一个解,当样本不是线性可分时,仍然使用感知器算法,则算法不会收敛。

最优分类超平面:一个超平面,如果它能够将训练样本没有错误地分开,并且两类训练样本中离超平面最近的样本与超平面之间的距离是最大的,则把这个超平面称作为最优分类超平面。最优超平面的解最后完全是由支持向量决定。

关于经验风险与期望风险:在某个权值参数w下,对所有训练样本的分类进行决策的损失成为经验风险;我们真正关心的是在权值w下,未来所有可能出现的样本的错误率或风险,称为以期望风险。
经验风险与期望风险的关系:经验风险只是在给定的训练样本上对期望风险的估计。经验风险可以为0,但一般来讲期望风险是小于期望风险的。

人工神经网络的基本思想:根据对自然神经系统构造和机理的认识,神经系统是由大量的神经细胞构成的复杂的网络,人们对这一网络建立一定的数学模型和算法,设法使它能够实现诸如基于数据的模式识别、函数映射等带有“智能”的功能,这种网络就是人工神经网络。

BP算法的基本做法:在训练开始前,随机赋予各权值一定的初值。训练过程中,轮流对网络施加各个训练样本。当某个训练样本作用于神经网络输入端后,利用当前权值计算神经网络的输出,这是一个信号从输入到隐层再到输出的过程,称作前向过程。考察所得到的输出与训练样本的已知正确输出之间的误差,根据误差对输出层权值的偏导数 修正输出层的权值;把误差反向传递到倒数第二层的各节点上,根据误差对这些节点权值的偏导数修正这些权值,依此类推,直到把各层的权值都修正一次。然后,从训练集中抽出另外一个样本进行同样的训练过程。如此不断进行下去,直到在一轮训练中的总的误差水平达到预先设定的阈值,或者训练时间达到了预定的上限。

人工神经网络的三要素:神经元的传递函数、网络结构(神经元的数目和相互间的连接形式)和连接权值的学习算法。

选择多层感知器网络的隐层节点数目(和隐层个数)可有三种做法:
① 根据具体问题进行试探选择
② 根据对问题的先验知识去精心设计隐层节点的层数和节点数目
③ 试图用算法来确定隐层节点数目

支持向量机
支持向量机就是采用引入特征变换来将原空间中的非线性问题转换成新空间中的线性问题。
支持向量机的基本思想:首先通过非线性变换将输入空间变换到一个高纬空间,然后在这个新空间中求最优分类面即最大间隔分类面,而这种非线性变换是通过定义适当的内积核函数实现的。
支持向量机最主要的特点:它能够在样本数相对较少、特征维数高的情况下仍然取得很好的推广能力

最近邻法:对于一个新样本,把它逐一与已知样本比较,找出距离新样本最近的已知样本,以该样本的类别作为新样本的类别。
交叉验证的基本思想:在现有总样本不变的情况下,随机选用一部分样本作为临时的训练集,用剩余样本作为临时的测试集,得到一个错误率估计:然后选用另外一部分样本作为临时训练集,起于样本作为临时测试机,在得到一个错误率估计……如此反复多次,最后将各个错误率求平均,得到交叉验证错误率。

决策树:利用一定的训练样本,从数据中“学习”出决策规则,自动构造出决策树。 要做的就是,把经验变成有说服力的客观数据,或是由什么推断而来的。
随机森林:顾名思义,就是建立很多决策树,组成一个决策树的“森林”,通过多棵树投票来进行决策。
随机森林方法三个基本步骤
①首先,随机森林方法对样本数据进行自举重采样,得到多个样本集。
②用每个重采样样本集作为训练样本构造一个决策树。
③得到所需数目的决策树后,随机森林方法对这些树的输出进行投票,以得票最多的类作为随机森林的决策。

遗传算法:思路来源人们对生物进化过程的认识。适者生存,最优时示值的解有最大可能留住。
基本步骤:①初始化,t=0,,随机地产生一个包含L条不同染色体的种群M(0);
②计算当前种群M(t)中每一条染色体的适应度f(m);
③按照选择概率p(f(m))对种群中的染色体进行采样,由采样出的染色体经过一定的操作繁殖出下一代染色体,组成下一代的种群M(t+1);
④回到②,直到达到终止条件,输出适应度最大的染色体作为找到的最优解。终止条件通常是某条染色体的适应度达到设定的阈值。

特征选择与特征提取的不同点:特征选择是已知N个特征,从其中选出n个特征(n<N),而特征提取是已知N个特征,通过适当的变换把N个特征转换成n个特征(n<N)。都是特征空间降维的方法

主成分分析法(PCA):是一种特征提取的方法。通常的做法是首先用样本估算协方差矩阵或自相关矩阵,求解其特征方程,得到各个主成分方向,选择适当数目的主成分作为样本的新特征,讲样本投影到这些主成分方向上进行分类或聚类。
在模式识别中,使用主成分分析可以实现对特征的变换和降维。这种特征变换是非监督的,没有考虑样本类别的信息。在监督模式识别的情况下,以方差大为目标进行的主成分分析并不一定总有利于后续的分类。

参考书目:模式识别(清华大学出版社,第三版,张学工编著)

模式识别基本概念小结(学习笔记)相关推荐

  1. Vue学习(增删改查、ES6模块化概念)-学习笔记

    文章目录 Vue学习(增删改查.ES6模块化概念)-学习笔记 增删改查案例 ES6模块化概念 Vue学习(增删改查.ES6模块化概念)-学习笔记 增删改查案例 <!DOCTYPE html> ...

  2. web阶段概念语法----学习笔记

    web学习笔记大纲 一.Oracle数据库 1.概念 2.sql命令(增删改查) 1)select命令 2)insert命令 3)update命令 4)delete命令 3.函数--- oracle提 ...

  3. javacode基本概念语法--学习笔记

    javacode学习笔记大纲 一.语法规范 二.键盘输入 三.数据类型分类及类型转换 四.局部变量.switch-case.随机数 五.函数 六.数组 1.基础概念 2.数组扩容及排序 3.保留小数( ...

  4. html响应式布局的概念,HTMLCSS学习笔记(十八)响应式布局概念

    原标题:HTMLCSS学习笔记(十八)响应式布局概念 常见的布局方案 固定布局:以像素作为页面的基本单位,不管设备屏幕及浏览器宽度,只设计一套尺寸: 可切换的固定布局:同样以像素作为页面单位,参考主流 ...

  5. mysql分页概念_MySQL学习笔记之数据定义表约束,分页方法总结

    本文实例讲述了MySQL学习笔记之数据定义表约束,分页方法.分享给大家供大家参考,具体如下: 1. primary key 主键 特点:主键是用于唯一标识一条记录的约束,一张表最多只能有一个主键,不能 ...

  6. 《数据库系统概念》学习笔记——恢复系统

    数据库系统概念--恢复系统 恢复系统 故障分类 存储器 稳定存储器的实现 数据访问 恢复与原子性 日志记录 数据库修改 并发控制和恢复 事务提交 使用日志来重做和撤销事务 检查点 恢复算法 事务回滚 ...

  7. USB驱动程序之概念介绍学习笔记

    现象:把USB设备接到PC 1. 右下角弹出"发现android phone" 2. 跳出一个对话框,提示你安装驱动程序 问1. 既然还没有"驱动程序",为何能 ...

  8. python语句命令的概念_Python学习笔记1-基础概念

    1. 库 库:Python的一个一个的项目 标准库:Python安装时自带的库 第三方库:所有pythoner开发经过审核后作为第三方库 自己写的库:项目名 2. 包 2.1. 包的概念 包是一个有层 ...

  9. 《数据库系统概念》学习笔记——第十章 存储和文件结构

    目录 第十章 存储和文件结构 10.1 物理存储介质概述 10.2 磁盘和快闪存储器 10.2.1 磁盘的物理特性 10.2.2 磁盘性能的度量 10.2.3 磁盘块访问的优化 10.2.4 快闪存储 ...

最新文章

  1. FileZilla无法连接到服务器,不安全的服务器,不支持 FTP over TLS的解决方案
  2. C++11新特性之新类型与初始化
  3. BSPreloadTableVew带有预加载功能的tableView
  4. java_IO_File(3)_遍历、递归
  5. 拓展小知识(一)——使用 CSS 和 JS 加载阿里小图标
  6. 11.14 mii-tool:管理网络接口的状态
  7. LeetCode C语言刷题——day1
  8. @90后程序员,“颜值即正义”的现在,程序员应该如何更新穿搭?
  9. 顺丰控股:2月速运物流业务营业收入98.49亿元,同比下降3.36%
  10. Windows Azure Storage (3) Windows Azure Storage Service存储服务之Blob详解(中)
  11. 3分钟通过日志定位bug,这个技能测试人必须会
  12. [ISSUE]invalid 'cobj' in function 'lua_cocos2dx_EventDispatcher_dispatchCustomEvent'
  13. java包含_【Java】判断字符串是否包含子字符串
  14. ORC 和 Parquet比较入门
  15. 转帖科学观点:没有特异性的免疫屏障
  16. 关于使用,NI采集卡+labview信号采集,问题交流【第二贴】
  17. CISSP第一章:安全与风险管理知识点
  18. xUtils更新到3.0后的基本使用规则
  19. react 跨域—— jsonp 跨域
  20. 优质数据平台如何打造?从网易云音乐看内容生态的运营法则

热门文章

  1. 【基于MATLAB的数字图像处理】第四章·图像增强
  2. 【BP靶场portswigger-服务端6】信息泄露漏洞-5个实验(全)
  3. AUTOSAR MCAL SPI配置
  4. IIP3/IMD/IM3/P1dB
  5. opengl绘制金字塔
  6. 未解Bug-邮箱字母莫名变成大写,导致修改密码时密码不一致
  7. Docker容器之compose容器集群的快速编排
  8. 字节员工收黑钱、操控抖音热榜,判刑了!
  9. 如何用java股票量化交易接口读取股票数据?
  10. JSD-2204-Session-Token-JWT-Day12