特征选择(三)-K-L变换

各个特征(各个分量)对分类来说,其重要性当然是不同的。
舍去不重要的分量,这就是降维。

聚类变换认为:重要的分量就是能让变换后类内距离小的分量。

类内距离小,意味着抱团抱得紧。

但是,抱团抱得紧,真的就一定容易分类么?

如图1所示,根据聚类变换的原则,我们要留下方差小的分量,把方差大(波动大)的分量丢掉,所以两个椭圆都要向y轴投影,这样悲剧了,两个重叠在一起,根本分不开了。而另一种情况却可以这么做,把方差大的分量丢掉,于是向x轴投影,很顺利就能分开了。因此,聚类变换并不是每次都能成功的。

图1

摧枯拉朽的K-L变换

K-L变换是理论上“最好”的变换:是均方误差(MSE,MeanSquare Error)意义下的最佳变换,它在数据压缩技术中占有重要地位。

聚类变换还有一个问题是,必须一类一类地处理,把每类分别变换,让它们各自抱团。

K-L变换要把所有的类别放在一起变换,希望通过这个一次性的变换,让它们分的足够开。

K-L变换认为:各类抱团紧不一定好区分。目标应该是怎么样让类间距离大,或者让不同类好区分。因此对应于2种K-L变换。

其一:最优描述的K-L变换(沿类间距离大的方向降维)

首先来看个二维二类的例子,如图2所示。

图2

如果使用聚类变换,方向是方差最小的方向,因此降维向方向投影,得到2类之间的距离即为2条绿线之间的距离,但是这并不是相隔最远的投影方向。将椭圆投影到方向,得到2类之间的距离为2条红线之间的距离。这个方向就是用自相关矩阵的统计平均得到的特征向量

设共有M个类别,各类出现的先验概率为

表示来自第i类的向量。则第i类集群的自相关矩阵为:

混合分布的自相关矩阵R是:

然后求出R的特征向量和特征值:

将特征值降序排列(注意与聚类变换区别)

为了降到m维,取前m个特征向量,构成变换矩阵A

以上便完成了最优描述的K-L变换。

为什么K-L变换是均方误差(MSE,MeanSquare Error)意义下的最佳变换?

其中表示n维向量y的第j个分量,表示第个特征分量。

引入的误差

均方误差为

从m+1开始的特征值都是最小的几个,所以均方误差得到最小。

以上方法称为最优描述的K-L变换,是沿类间距离大的方向降维,从而均方误差最佳。

本质上说,最优描述的K-L变换扔掉了最不显著的特征,然而,显著的特征其实并不一定对分类有帮助。我们的目标还是要找出对分类作用大的特征,而不应该管这些特征本身的强弱。这就诞生了第2种的K-L变换方法。

其二:最优区分的K-L变换(混合白化后抽取特征)

针对上述问题,最优区分的K-L变换先把混合分布白化,再来根据特征值的分离程度进行排序。

最优区分的K-L变换步骤

首先还是混合分布的自相关矩阵R

然后求出R的特征向量和特征值:

以上是主轴变换,实际上是坐标旋转,之前已经介绍过。

令变换矩阵

则有

这个作用是白化R矩阵,这一步是坐标尺度变换,相当于把椭圆整形成圆,如图3所示。

图3

以二类混合分布问题为例。

分别求出二类的特征向量和特征值,有

则二者的特征向量完全相同,唯一的据别在于其特征根,而且还负相关,即如果取降序排列时,则以升序排列。

为了获得最优区分,要使得两者的特征值足够不同。因此,需要舍弃特征值接近0.5的那些特征,而保留使大的那些特征,按这个原则选出了m个特征向量记作

则总的最优区分的K-L变换就是:

特征选择降维聚类变换集群变换KL变换模式识别相关推荐

  1. k-l变换算法c语言,K-L变换(示例代码)

    K-L变换( Karhunen-Loeve Transform)是建立在统计特性基础上的一种变换,有的文献也称为霍特林(Hotelling)变换,因他在1933年最先给出将离散信号变换成一串不相关系数 ...

  2. 数字图像处理,图像的频域变换(四)——K-L变换详解 以及 哈尔变换Haar简介

    https://zh.wikipedia.org/wiki/%E5%8D%8F%E6%96%B9%E5%B7%AE%E7%9F%A9%E9%98%B5 KL中将五副图像作为原始图像的五个分量,然后使用 ...

  3. 深度解析K-L变换 及其 在特征识别中的应用

    1.K-L变换定义.意义  K-L变换也常称为主成分变换(PCA),是一种基于图像统计特性的变换,它的协方差矩阵除对角线以外的元素都是零(所以大家也叫它最佳变换),消除了数据之间的相关性,从而在信息压 ...

  4. 主成分分析(PCA)与K-L变换

    主成分分析与K-L变换 1. 主成分分析 -- 基于最大方差的描述 1.1 投影数据的方差 1.2 高维数据的降维 2. K-L变换 -- 基于最小误差的描述 2.1 内积空间中的正交变换 2.2 信 ...

  5. 主成分分析(PCA)算法,K-L变换 角度

    主成分分析(PCA)是多元统计分析中用来分析数据的一种方法,它是用一种较少数 量的特征对样本进行描述以达到降低特征空间维数的方法,它的本质实际上是K-L变换.PCA方法最著名的应用应该是在人脸识别中特 ...

  6. 模式识别(Pattern Recognition)学习笔记(三十五)-- K-L变换与PCA

    K-L变换的理论知识 K-L变换是除了PCA外的另一种常用的特征提取方法,它有很多种形式,最基本的形式跟PCA类似,它跟PCA的不同在于,PCA是一种无监督的特征变换,而K-L变换能够考虑到不同的分类 ...

  7. KL变换生成人脸特征图

    近来课程上做了一个PCA生成特征脸的小工程,刚好实验室科研做不下去了就放松下写个博客梳理下吧,由于是用了KL变换,所以撒呼呼地去找背景知识科普时翻查了些KL散度的知识点,后来发现好像和KL变换关系不大 ...

  8. 【matlab 图像处理】离散傅里叶变换离散余弦变换K-L变换小波变换

    [matlab 图像处理]离散傅里叶变换&离散余弦变换&K-L变换&小波变换 正交变换是信号处理的一种有效工具.图像信号不仅可以在空间域表示,也可以在频域表示,后者将有利于许多 ...

  9. 【科普】集群趣谈:孙悟空分身术

    本文首发于我的公众号 Linux云计算网络(id: cloud_dev),专注于干货分享,号内有 10T 书籍和视频资源,后台回复 「1024」 即可领取,欢迎大家关注,二维码文末可以扫. 在孙悟空的 ...

最新文章

  1. 监测SQLServer数据库中表的数据变化 方案
  2. OA办公系统的核心-工作流
  3. 让linux系统做网关,代理上网!!!
  4. MYSQL数据库学习十七 日志管理
  5. python调用百度地图画轨迹图_[宜配屋]听图阁
  6. getprivateprofilestring读不到数据_Tomcat NIO(11)请求数据读取
  7. 问题 H: 简单的打折计算 山东科技大学OJ C语言
  8. 编程语言流行指数:Python 稳居宝座,Java 滑坡!
  9. ajax-登陆+验证码
  10. SlideSwitch仿iphone滑动开关组件,仿百度魔图滑动开关组件Android
  11. 啊哈算法---快速排序(C语言)
  12. WIN10重新下载安装MicroSoft Store的三种方法
  13. Java学习资料--网盘分享
  14. bootbox 使用方式
  15. 计算机没网络怎么更新网卡驱动,电脑显示没有网卡驱动怎么办?电脑显示没有网卡驱动的解决方法...
  16. Android Material-dialogs的使用(kotlin)
  17. 太阳系各大行星3D展开贴图资源
  18. SSH、SSL、TSL
  19. 80年代的人为什么不结婚
  20. 尤雨溪:Vue3 将在2022年2月7日成为新的默认版本(你准备好了吗?)

热门文章

  1. Timeline Service V2.0 Reader 启动不了
  2. 服务器上批量将.mp4格式的视频转化成.m3u8的shell脚本
  3. Python实现进制转换器
  4. idea恢复主题/背景颜色设置(一步搞定,安全)
  5. 面向集团客户云计算运营平台的运营开通技术方案及应用架构——之云计算运营平台方案(三)
  6. Hybrid APP架构设计思路
  7. linux exp parfile用法,逻辑备份与恢复-使用EXP进行逻辑备份
  8. Java String的API方法总结
  9. linux搭建h5学习日记
  10. PFC开关电源仿真 全桥LLC 单相Boost PFC全桥LLC串联谐振开关电源Simulink/Matlab仿真模型