https://www.toutiao.com/a6682312202654843403/

2019-04-21 19:44:11

特征抽取和特征选择是DimensionalityReduction(降维)两种方法,但是这两个有相同点,也有不同点之处:

1. 概念:

特征抽取(Feature Extraction):Creatting a subset of new features by combinations of the exsiting features.也就是说,特征抽取后的新特征是原来特征的一个映射。

特征选择(Feature Selection):choosing a subset of all the features(the ones more informative)。也就是说,特征选择后的特征是原来特征的一个子集。

2. 相同点和不同点

特征选择和特征抽取有着些许的相似点,这两者达到的效果是一样的,就是试图去减少特征数据集中的属性(或者称为特征)的数目;但是两者所采用的方式方法却不同:特征抽取的方法主要是通过属性间的关系,如组合不同的属性得新的属性,这样就改变了原来的特征空间;而特征选择的方法是从原始特征数据集中选择出子集,是一种包含的关系,没有更改原始的特征空间。

3. 特征抽取:

主成分分析(Principle Components Analysis ,PCA)和线性评判分析(Linear Discriminant Analysis,LDA)是特征抽取的两种主要经典方法。

1.. PCA V.S LDA

对于特征抽取,有两种类别:

(1)Signal representation(信号表示): The goal of the feature extraction mapping is to represent the samples accurately in a low-dimensional space. 也就是说,特征抽取后的特征要能够精确地表示样本信息,使得信息丢失很小。对应的方法是PCA.

(2)Signal classification(信号分类): The goal of the feature extraction mapping is toenhance the class-discriminatory information in a low-dimensional space. 也就是说,特征抽取后的特征,要使得分类后的准确率很高,不能比原来特征进行分类的准确率低。对与线性来说,对应的方法是LDA . 非线性这里暂时不考虑。

可见, PCA和LDA两种方法的目标不一样,因此导致他们的方法也不一样。PCA得到的投影空间是协方差矩阵的特征向量,而LDA则是通过求得一个变换W,使得变换之后的新均值之差最大、方差最大(也就是最大化类间距离和最小化类内距离),变换W就是特征的投影方向。

4. 特征选择:

一个正确的数学模型应当在形式上是简单的。构造机器学习的模型的目的是希望能够从原始的特征数据集中学习出问题的结构与问题的本质,当然此时的挑选出的特征就应该能够对问题有更好的解释,所以特征选择的目标大致如下:

提高预测的准确性

构造更快,消耗更低的预测模型

能够对模型有更好的理解和解释

特征选择的方法

主要有三种方法:

4.1.1、Filter方法

其主要思想是:对每一维的特征“打分”,即给每一维的特征赋予权重,这样的权重就代表着该维特征的重要性,然后依据权重排序。

主要的方法有:

Chi-squared test(卡方检验)

information gain(信息增益)

correlation coefficient scores(相关系数)

4.1.2、Wrapper方法

其主要思想是:将子集的选择看作是一个搜索寻优问题,生成不同的组合,对组合进行评价,再与其他的组合进行比较。这样就将子集的选择看作是一个是一个优化问题,这里有很多的优化算法可以解决,尤其是一些启发式的优化算法,如GA,PSO,DE,ABC等,

主要方法有:recursive feature elimination algorithm(递归特征消除算法)

4.1.33、Embedded方法

其主要思想是:在模型既定的情况下学习出对提高模型准确性最好的属性。这句话并不是很好理解,其实是讲在确定模型的过程中,挑选出那些对模型的训练有重要意义的属性。

主要方法:正则化,岭回归就是在基本线性回归的过程中加入了正则项。

5. 总结

特征选择不同于特征提取,特征和模型是分不开,选择不同的特征训练出的模型是不同的。在机器学习=模型+策略+算法的框架下,特征选择就是模型选择的一部分,是分不开的。

对于先进行分组还是先进行特征选择,答案是先进行分组,因为交叉验证的目的是做模型选择,既然特征选择是模型选择的一部分,那么理所应当是先进行分组。如果先进行特征选择,即在整个数据集中挑选择机,这样挑选的子集就具有随机性。

我们可以拿正则化来举例,正则化是对权重约束,这样的约束参数是在模型训练的过程中确定的,而不是事先定好然后再进行交叉验证的。

机器学习(1)特征选择与特征抽取相关推荐

  1. 【机器学习】特征选择方法—Filter,Wrapper,Embedded

    [机器学习]特征选择方法 什么是特征选择? 为什么需要特征选择? 特征选择的两个关键环节 常见的特征选择方法 参考链接: 什么是特征选择? Feature Selection 是在模型构建过程中选择最 ...

  2. 机器学习中特征选择怎么做?这篇文章告诉你

    点击上方"Datawhale",选择"星标"公众号 第一时间获取价值内容 来源 | AI开发者 简  介 据<福布斯>报道,每天大约会有 250 万 ...

  3. 机器学习:特征选择和降维实例

    https://www.toutiao.com/a6672721847512990216/ "特征选择是选择用于模型构建的相关特征的子集的过程",或者换句话说,选择最重要的特征. ...

  4. Python中机器学习的特征选择工具

    特征选择,即在数据集中查找和选择最有用的特征的过程,是机器学习的关键步骤.不必要的特征会降低训练速度.模型的可解释性,最重要的是会降低测试集的泛化性能. 我对临时的特征选择方法感到很失望,但是在解决机 ...

  5. Python中机器学习的特征选择技术

    Introduction 介绍 Feature selection is the selection of reliable features from the bundle of large num ...

  6. python利用特征进行可视化样本显示_利用Python进行机器学习之特征选择

    毫无疑问,解决一个问题最重要的是恰当选取特征.甚至创造特征的能力,这叫做特征选取和特征工程.对于特征选取工作,我个人认为分为两个方面: 1)利用python中已有的算法进行特征选取. 2)人为分析各个 ...

  7. 机器学习中特征选择概述

    1. 背景 1.1 问题 在机器学习的实际应用中,特征数量可能较多,其中可能存在不相关的特征,特征之间也可能存在相关性,容易导致如下的后果: (1) 特征个数越多,分析特征.训练模型所需的时间就越长, ...

  8. 机器学习(特征选择与稀疏学习)

    在做图像识别的程序中,我们经常遇到特征这个词语,也常有特征提取作为识别的前序工作,通常我们可以根据提取到的特征,根据应有特征进行对比,最终完成对物体缺陷等的识别.那么在提取到的众多特征中,如何有效的提 ...

  9. 机器学习中特征选择与稀疏学习的一些知识

    我们将属性称为"特征" (feature) ,对当前学习任务有 用的属性称为"相关特征" (relevant feature) .没什么用的属性称为" ...

最新文章

  1. 大数据计算引擎发展的四个阶段
  2. 拨出网线后,网卡IP丢失
  3. HTML框架标签的使用-lt;framesetgt;
  4. Asp.net 自定义config文件读取
  5. MySQL -- 获取当前数据行号
  6. Loadrunner报错“Too many local variablesAction.c”解决方法
  7. 【转】为360极速浏览器添加搜索引擎
  8. 吴恩达机器学习 4.逻辑回归(Logistic Regression)
  9. android studio 登录与注册,Android Studio登录/注册系统构想
  10. 直流无刷电机的一些介绍
  11. 概率算法中的Monte carlo算法
  12. 调整计算机繁体,在线繁体转换
  13. 兴义智力象机器人_中科院科普讲师专家赴黔西南州做科普报告巡讲
  14. “用户体验及可用性测试”第4-6章-读书笔记
  15. centos7.4运行hyperLedger fabric 1.3.0 first network
  16. 一影碎念,一场风花,浅吟低唱成悲曲:伤感日志
  17. 使用Cookies登录网站--登录豆瓣网站
  18. Vlan和pvlan全面解析
  19. C/C++基础进阶篇:C++11 中引入的 delete 描述符使用场景
  20. mysql中ddl和ddm_浅析分布式数据库中间件DDM

热门文章

  1. np.eye解释较好的
  2. CRF算法中辅助概念 团 极大团 最大团
  3. pyplot.plot画图turtouil
  4. jadclipse设置,这个解决了问题
  5. angularjs html5模式,angularjs – 确定在控制器中启用了HTML5模式
  6. 大模型技术实践路线图出炉,唐杰牵头,近百位智源、清华、北大、MILA等顶尖研究者联合推出...
  7. 《强化学习周刊》第28期:UNCC提出全新脑-机交互学习模式:内在互动强化学习...
  8. 青源LIVE第29期|清华叉院高阳:使用1/500数据掌控Atari游戏-EfficientZero算法详解
  9. 一盘棋都没下过,AI只听人类评论比赛,就学会了国际象棋,还战胜了DeepChess...
  10. MoviePy - 中文文档2-快速上手-MoviePy-预览