目录

  • 写在前面的话
    • 笔记

写在前面的话

(完结)模式识别–武汉理工大学

听课笔记~

笔记

1、单个特征选取考虑选什么?设置的门限是多少?选取的特征要尽量区分开不同的类别,降低错误率。还可以考虑结合特征降低错误率。特征越多,维度越高。同时特征的选取还不能对噪声非常敏感,并且要好提取。

2、相关性特征考虑投影变换的方法。有时还可以考虑多个分类器组合在一起。

3、n维向量和其转置矩阵相乘为协方差矩阵。反过来相乘就得到n维向量的模。

4、欧氏距离的缺点在于量纲发生变化,聚类结果会发生变化。可用归一化处理减轻这种影响。

5、马氏距离一定程度上克服了欧氏距离的缺点,具有平移,旋转和缩放等不变性


6、明氏距离,当m=1时就是三角形的两条直角边之和,肯定是大于欧式距离。

7、余弦距离。两个向量如果不平行一定有夹角,余弦大小在0到1之间,如果取0说明两个向量完全重叠,如果取1说明两个向量差别较大。

8、Tanimoto适用于特征向量里面的特征值要么是0要么是1的情况。这个测度在0到1之间,等于0则说明两个向量相等,如果等于1则说明两个向量完全不相等。

9、近邻聚类法。算法的实现,先随机找一个点作为中心样本点,设置一个距离阈值T。然后计算下一个样本和中心样本点的距离,看是否大于T,大于T则将其定义为下一个聚类中心点。再找下一个节点就需要和前面两个中心点算距离,判断方法也是一样的。


10、近邻聚类法参数优化重点就在于T的选择。

11、最大最小距离算法。和近邻算法不同在于,它是把最远距离的点算作第二个聚类中心。然后计算其他点距离这两个聚类中心点的距离,也就是每个点对于两个聚类中心点有两个距离,里面肯定有一个最小的。把这些最小的距离找出来排序,找最大距离,如果这个最大距离大于T以上则设为下一个聚类中心,这个T的依据于前面聚类中心点距离的比率值,一般这个比例为1/2。



12、层次聚类。求一个n*n的距离矩阵,在里面找最小元素,最小元素会对应两个点,将这两个点合并成一类。后面的距离矩阵由前面的推导,新合并的类和其他类的距离选之前最小的。当然不能一直重复,设定一个阈值T,当最小元素大于T就结束。注意距离矩阵上三角和下三角值一样,对角线为0。






13、动态聚类算法和前面的算法不同在于要判断,要修改,要更新。

14、k均值算法。注意这里的聚类中心是变化的,所以我们的准则函数中的自变量含有聚类中心,这个准则函数的值越小聚类效果越好,最优化问题。最优化问题需要求最值,需要对准则函数求导设为0,即我们每个类的聚类中心应该为该类样本的均值。算法流程就是先随机取k个样本中心,然后按照最小距离原则将其余样本分配到k个类别中。再算一个均值向量,按照这个均值向量重新聚类,直到算出来的聚类均值向量和前一次算的相等就停止算法。很明显,初始的类别数量和初始选取的中心很重要









15、多分类问题可以转化为二分类问题。下面这个就是设置多个判别函数,有几个类别设置几个判别函数,当带入一个向量,一个判别函数大于0其余判别函数都小于0则说明该向量属于这个判别函数。但是这个方法由局限性,当带入这个向量存在多个判别函数大于0时就会出现盲区。


16、下面这个二分法就是考虑了这个盲区的问题。每个类别会和别的类别有关联,则每两个类别都存在一个对应的判别函数,简单来说,一共m个类别,给我一个向量,带入各个判别函数后,与i有关的所有判别函数均大于0才认为该向量属于i类。但是这样的方法仍然存在盲区,因为在中间的部分会存在大于0小于0的混合情况。


17、最后得出一个最好的方法,也就是前面那个的特例。它把没两个类别的判别函数计算分成两个类别判别函数相减,也就是每个类别设置一个判别函数,一共有m个判别函数。只要一个向量代入所有判别函数都有一个对应的值,从里面取最大值就行。并且这样的方法是不存在盲区的。


18、线性判别函数的一般形式。

19、广义线性判别函数。低维向量映射到高维空间,再用线性判别函数。在低维中,由于空间狭小,样本之间存在重叠。当映射到高维空间,样本就会分散,比较好区分。映射函数,比如我们要映射到k维空间,我们需要k个映射函数,其中自变量为原始的向量,每个函数的输出就是k维空间的一个属性(特征)。注意这k个函数可能相同也可能不同,可能是线性的可能是非线性的,这样会造成维数灾难。但是也有解决办法,支持向量机,它作为广义线性判别函数的特例,如果样本是线性可分的,那么找一个最大间隔的判别函数,这个最大间隔的邻近的向量叫做支持向量;如果线性不可分的就映射到高维空间再用最大间隔。支持向量机巧妙之处在于用了向量对偶的这种形式,和内积计算。这就只需要我们在低维用核函数做内积计算即可,也就是说支持向量机巧妙避开了去找映射函数,只用核函数去计算高维空间中的内积计算,大大减少运算量。



20、几何性质。W0是超平面的法向量,方向由超平面的负侧指向正侧。判别函数正比于点X到超平面的代数距离。



21、很明显,我们得找到权重空间与权向量。我们将所有类别映射放在超平面的同一侧,对于一个二分类问题就将其中本来被判别函数判为负的情况再加一个负号即可。注意这里的超平面有n个,即所有样本的个数,只是这些样本向量都在超平面的正侧。我们需要在权空间找出一个权向量把两类分开,这个权向量就在超平面正侧的重叠区域中。我们的问题就简化为找一个解区域。并且在解空间里面,越靠近中间这个解向量越靠谱。



22、二分法。这里的二分法就是把样本分为两类,考虑到正负一共有2N2^N2N个分法。看下面这个图,你会发现其中存在非线性的分法,那么就有一个问题,给我样本后有多大概率能用线性分法?假设我们有N个样本,每个样本有n维特征,线性二分法的总数是可以求出的。得出的结论是样本个数小于或等于增广模式的维数n+1,样本的类别总是线性可分的。



23、感知器算法是有监督学习算法,要求样本有标签。选取样本后要进行规范化处理,对于二分类问题就是加负号,把所有样本都放在超平面的正侧。在解空间里面随机取一个初始的解向量开始迭代,也可以真的随机取(但是我觉得取解空间里面更好)。第一次迭代就是把所有样本放在权重为初始解向量的判别函数中,看分类是否正确。如果分类正确就对权向量进行奖励,就是不调整,如果分类错误,也就是得到的值为小于等于0,就惩罚,进行调整。调整就是加上一共常数乘以错误样本向量的乘积。不断重复直到分类正确。


24、感知器算法当线性可分时,一定收敛。注意这个感知器算法得到的判别函数不一定唯一,这和初始值的选取有关。




25、梯度法。梯度方向是增长最快的方向,梯度相反的方向是下降最快的方向。回到最初的感知器算法,寻找解向量权重的过程其实是一个求解不等式的过程,梯度算法的思想是把这个过程转化为求解准则函数极小值的问题。这就需要设计一个存在最小值的准则函数。


26、梯度法的思路和感知器算法的思路类似,奖惩,不同在于判别和调整的方式。梯度法定义一个对错误分类敏感的准则函数,将权重往准则函数梯度反方向上引导。首先对样本规范化,选择准则函数。每次样本进来算一个梯度,对权重进行调整,识别错误时梯度不为0,识别正确时梯度为0,不断重复直到所有样本算的梯度均为0。



27、均方最小误差。注意前面提到的两者在线性可分的时候能够收敛,在线性不可分的时候不能收敛。引入均分最小误差算法能够对可分模式收敛,同时还能指出类别不可分的情况。

28、感知器算法



29、LMSE把解不等式转化为求解方程。B都是正值就和不等式等价,但是由于方程组中行数远大于列数时通常无解,所以可以考虑求近似解,只要能求出近似解的权向量依然能满足我们的需求。此时LMSE选择一个准则函数J,当J到最小值时即可得到近似解。这个准则函数就是LMSE。要求最小值就需要求导,要求导就需要把函数变形成一般的形式利于求导,可以写成各个分量的平方和。变化后可知准则函数存在两个变量W和B,由此存在与问题相关的两个梯度,可将W和B联系起来,即我们得到相应的B就能得到想要的W。









30、最小错误贝叶斯决策。先验概率表示类别出现的概率。条件概率表示某一类别样本的分布状态。后验概率表示某一样本出现后属于某一个类别的概率有多大。利用后验概率去分类。后验概率依赖于先验概率和条件概率,由于分母与分类无关所以只要分子取最大值就可以。考虑一个二分类问题,只对分子作比较,同时可以变形为比值形式,也就是似然比形式和似然比阈值,再取对数是为了计算方便。





31、前面提到的是最小错误贝叶斯决策,它只告诉你这样设计的分类器错误率最小,但是对于风险没有评价,有些错误是很致命的,比如医院相关的误判病例是很严重的。由此为了避免这样的事情,提出了基于平均风险最小规则的最小贝叶斯决策。这里引入条件风险的概念,即我们把一个样本判定为某一类时可能错误可能正确,这里就需要计算出这个决策的平均损失,涉及到损失函数和样本真实类别的概率问题。一般来看,对于一个样本对于所有类别的都有属于该类别的概率,由此可以计算该样本对于每一类对应的条件风险。从里面找到最小的即该样本的类别。其实最小风险贝叶斯决策就是在最小错误贝叶斯决策最后的比较上用损失函数加权,也就是似然比阈值变化了。整个算法的流程就是先定义损失函数,得出似然比阈值,计算损失函数进行判决。







32、最大似然估计。大家应该注意到了,我们条件概率一般来说是不能直接得到的,我们只有样本和对应的标签,并不知道这个样本在该类中的分布情况。这就需要用到参数估计,参数估计需要这个样本分布的函数形式确定,比如高斯分布,泊松分布,只是这里面的参数我们不知道。这里有两种方法,最大似然估计和贝叶斯估计。

33、最大似然估计。每个类都存在一个类概率密度函数,函数的形式是确定的。构建似然函数通过在类别中独立抽取N个样本,将这些样本的联合概率密度函数为似然函数,如果这样样本独立分布则可以写成乘积的形式。注意,不同的参数确定不同的分布函数,那我们这N个样本是从哪个分布函数抽取过来的呢?直观来说某一个函数得到联合概率最大,我们就认为这是从该分布函数抽取过来的。也就是不同的参数对应的联合概率也不同,里面会存在一个最大值,相对应一个分布函数,我们认为这N个样本是从这个分布函数抽取的。怎么找最大值?变形求导,变形就是取对数。注意一般参数存在多维情况,在求导时需要对每一维的参数进行求偏导,最后得到最大似然估计的参数值。考虑一个正态分布的情况,也就是二维情况,那么参数的第一个维度表示均值,第二个维度表示方差。对于多维的正太分布情况,第一个仍然是向量的均值情况,第二个就是协方差矩阵的最大似然估计,N个矩阵的算术平均。





34、特征提取。特征提取的目的在于提取有用的特征。可分性,可靠性,独立性和特征量少。注意特征选择和特征提取是不同的,特征选择是从原有特征中选择特征,选出来的特征组合是原有的子集。特征提取是把原有的特征做一个变换,得到新的特征集合,一般方法是子空间投影方法,L*M子空间投影方法降维。



35、特征选择:

36、特征提取,高维空间投影到低维空间,需要找一个投影方向。比如这个圆的平面投影到一维坐标上,投影的方向的选择很重要,因为会出现重叠的情况,当没有重叠就能很好区分开来。

37、会发现之前说的可分性等性质都是抽象的,我们需要用数学的方法表示出来,即需要一个类别可分性测度。类内距离即各样间的均方距离。
【什么是自相关矩阵,自协方差矩阵,互相关矩阵,互协方差矩阵?】
对于类内距离,直白说就是同一类中各样本的均方距离,数学上体现在该类分布的协方差矩阵,通过协方差矩阵的迹可以看出该类的离散情况。
对于类间距离,从各个类别的均值向量出发与整体均值向量比较。








38、用类内散布矩阵作为生成矩阵进行特征提取。n维压缩为m维,高维变低维,维数降低后,在低维空间里各特征之间的分布规律至少保持不变或者更加优化。

39、基于类内散布矩阵的特征提取步骤。第一步先求一类的协方差矩阵。第二步计算协方差矩阵的特征值,再对特征值从小到大排序,选择前m个。第三步计算前m个特征值对应的特征向量并且归一化处理,将归一化后的特征向量作为矩阵A的行。第四步将A左乘X得到低维的模式向量。




40、基于KL变换的特征提取,这是另外一种特征提取的方法,它的基本思想是最小均方误差意义下的最优正交变换。如果把样本向量看成信号,可以理解为若干个正交的基信号线性组合而成,如果我们只选择一部分基信号进行组合构成的信号和原始信号之间就会存在误差,KL特征变换就是从重建误差的角度进行特征提取,这里面的误差就是丢弃的系数平方和再求期望。



41、第一步求X的自相关矩阵,求出特征值从大到小排列。我们的目的是求a,X为原始的向量,u是我们选取的特征向量,可以写成矩阵的形式。第二步选取前d个较大的特征值,从而计算出它们的特征向量,归一化后构成变换矩阵U。接着对数据集中每个x进行KL变换。最后得到的X*就是基向量线性组后后所对应的系数

42、前面选取的变换矩阵是自相关矩阵,我们还可以选取类类和类间散布矩阵来解决KL变换,这里我们可以选择较大的特征值和较小的特征值,较大突出内容,较小突出边缘。


模式识别听课笔记【武汉理工大学】相关推荐

  1. 武汉理工大学 mooc网 的无线传感网技术笔记

    武汉理工大学 mooc网 的无线传感网技术笔记 只有截屏,该笔记仅供学习使用. 第一章 P1 第一章 P2 第一章 P3 第二章 P1 信源熵的定义:信源各个离散消息的自信息量的数学期望(即概率加权的 ...

  2. 智能车竞赛技术报告 | 智能车视觉 - 武汉理工大学 - WHY

    学 校:武汉理工大学 队伍名称:WHY      参赛队员:何镇豪    殷芳锐    汪正华           带队教师:邹斌,夏婉扬 第一章 引言   全国大学生智能车竞赛受教育部高等教育司委托 ...

  3. 计算机科学与技术 课表 武汉,欢迎访问武汉理工大学计算机科学与技术学院

    为进一步加强和推进课程建设,保障课程审核顺利进行,根据<武汉理工大学关于加强课程建设的意见>有关精神,结合计算机科学与技术学院的学科特点,特制定本课程审核实施方案. 计算机科学与技术学院于 ...

  4. 武汉理工大学计算机学院导师联系方式,武汉理工大学计算机学院班主任(班导师)工作条例.doc...

    武汉理工大学计算机学院班主任(班导师)工作条例 武汉理工大学计算机学院班主任(班导师)工作条例 (试 行) 为深入贯彻落实<武汉理工大学班主任(班导师)队伍建设实施细则>,切实加强学院班主 ...

  5. 武汉理工大学2021计算机考研经验分享

    武汉理工大学2021计算机考研经验分享 前言 一.初试 数学 英语 政治 408专业课 二.关于复试 1.面试 2.笔试 3.机试 资料 前言 我本科来自武汉理工大学,参加2021年考研报考武汉理工大 ...

  6. 2021届武汉理工大学计算机技术/软件工程考研成功经验分享

    离上岸也差不多半年了,其实一直都想系统写一下自己考研上岸的这一段经历的,一直因为拖延症的缘故没有写,难得自己最近有时间和心情,就趁这个劲头再回忆一下那段难忘的时光吧. 1.个人基本情况 本科是武汉理工 ...

  7. 武汉理工学计算机能保研吗,欢迎访问武汉理工大学计算机科学与技术学院

    --记保研优秀学生郑永川 郑永川,男,汉族,共青团员,计算机科学与技术学院软件sy1201班本科生,保研优秀学生荣誉称号获得者.在本科学习阶段,他在学习和工作方面表现突出.通过自身不断地努力,他本科三 ...

  8. 武汉理工大学自动化学院研究生07年就业情况(官方统计)

    http://bbs.kaoyan.com/t2701374p1 专业        就业单位        地点 电力电子与电力传动        武汉商贸职业学院        湖北省武汉市 电力 ...

  9. Flink在美团的应用与实践听课笔记

    本文系<Flink在美团的应用与实践>的听课笔记 原始视频视频资源已经在优酷公开:2018.8.11 Flink China Meetup·北京站-Flink在美团的应用与实践 作者:刘迪 ...

最新文章

  1. Java获取Mybatis动态生成的sql
  2. withCredentials--相同主域跨域解决方法
  3. 熟练掌握python是什么概念-想要熟练掌握Python元组?你需要了解这10件应知事项...
  4. python电影推荐算法_电影推荐系统python实现
  5. alexnet 论文翻译
  6. android旋转动画和平移动画具体解释,补充说一下假设制作gif动画放到csdn博客上...
  7. RabbitMQ之Consumer消费模式(Push Pull)
  8. SAP BTP 上使用 Mobile Back-End Tools(MBT)进行全栈开发的方法概述
  9. 收件服务器主机名未响应,邮箱收件服务器主机名是什么
  10. 面试官:元素排序Comparable和Comparator有什么区别?
  11. it just sudo_just do it是什么梗
  12. Authorize.Net使用小结
  13. Oracle 数据库逻辑结构.md
  14. [EACL17]K-best Iterative Viterbi Parsing(K-best迭代维特比句法分析)
  15. java实现23种设计模式之普通工厂模式和抽象工厂模式
  16. 关于施耐德PLC下载程序错误出现“断言失败:‘Abort=Quit,Retry=Debug,lgnore=Continue’”
  17. hr标签---中心线:设置颜色
  18. C语言程序设计教程_第四章:键盘输入与屏幕输出_笔记整理
  19. maven 打包错误:Please refer to xxx\target\surefire-reports for the individual test results.
  20. c语言数组如何把一串数字存入数组_第十七章、C语言之数组1

热门文章

  1. 现身说法“好奇心害死人啊”
  2. DreamFactory - 第3章生成数据库支持的API
  3. DreamFactory入门指南
  4. 容器编排技术 -- Kubernetes kubectl create rolebinding 命令详解
  5. Docker教程(三) Docker网络访问和数据管理
  6. BGP——community团体属性(讲解+配置)@
  7. Windows10 环境下Jupyter Notebook的安装与使用
  8. Redis简单命令(部分示例代码)
  9. iOS开发用如何用类quot;SKStoreProductViewControllerquot;跳转AppStore点赞评分?
  10. VSCode 如何支持 Flow