为什么会有降维和特征选择???

我们知道机器学习的终极目标就是为了预测,当然预测前我们要对数据进行训练。通常我们不会拿原始数据来训练,为什么呢?可能有些人觉得原始信息(original data)包含了样本最丰富的信息,没有经过任何处理的raw data能最完整表达样本,这个观点没有错。但是用raw data来直接训练的话,有一个问题就是我们设计的分类器在训练集上会得到很好的performance,但在测试集上的performance却变得非常差。这就是过拟合(overfitting)的问题。用raw data直接训练还有一个问题就是原始维度太高,耗时长。


概念理解Concept understanding

  1. 特征选择feature selection:也被称为variable selection或者attribute selection.
    是选取已有属性的子集subset来进行建模的一种方式.

    进行特征选择的目的主要有: 简化模型,缩短训练时间,避免维数灾难(curse of dimensionality),
    增强model的泛化能力.

  2. 降维dimensionality reduction:
    通过对原有的feature进行重新组合,形成新的feature,选取其中的principal components.
    常用降维方法有PCA和SVD分解.

    dimensionality reduction和feature selection差别主要在于:
    前者在原有的feature上生成了新的feature, 后者只是选取原有feautre 集合中的子集,而不对原有集合进行修改.


特征选择的方法Feature Selection methods

  • Feature Selection – Wrapper method
  • Feature Selection – Filter method
  • Approaches for Feature Selection
  • Summary: the modern approaches for Feature Selection

机器学习Machine Learning:特征选择Feature Selection 与 数据降维Dimension Reduction的区别?相关推荐

  1. R语言基于Boruta进行机器学习特征筛选(Feature Selection)

    R语言基于Boruta进行机器学习特征筛选(Feature Selection) 对一个学习任务来说,给定属性集,有些属性很有用,另一些则可能没什么用.这里的属性即称为"特征"(f ...

  2. 数据挖掘(data mining),机器学习(machine learning),和人工智能(AI)的区别是什么? 数据科学(data science)和商业分析(business analytics

    数据挖掘(data mining),机器学习(machine learning),和人工智能(AI)的区别是什么? 数据科学(data science)和商业分析(business analytics ...

  3. 【github】机器学习(Machine Learning)深度学习(Deep Learning)资料

    转自:https://github.com/ty4z2008/Qix/blob/master/dl.md# <Brief History of Machine Learning> 介绍:这 ...

  4. 机器学习(Machine Learning)深度学习(Deep Learning)资料汇总

    本文来源:https://github.com/ty4z2008/Qix/blob/master/dl.md 机器学习(Machine Learning)&深度学习(Deep Learning ...

  5. 机器学习----(Machine Learning)深度学习(Deep Learning)资料(Chapter 1)

    文章转至:作者:yf210yf  感谢您提供的资源 资料汇总的很多,转载一下也方便自己以后慢慢学习 注:机器学习资料篇目一共500条,篇目二开始更新 希望转载的朋友,你可以不用联系我.但是一定要保留原 ...

  6. 机器学习(Machine Learning)深度学习(Deep Learning)资料【转】

    转自:机器学习(Machine Learning)&深度学习(Deep Learning)资料 <Brief History of Machine Learning> 介绍:这是一 ...

  7. 机器学习(Machine Learning)深度学习(Deep Learning)资料集合

    机器学习(Machine Learning)&深度学习(Deep Learning)资料 原文链接:https://github.com/ty4z2008/Qix/blob/master/dl ...

  8. 机器学习(Machine Learning)深度学习(Deep Learning)资料(Chapter 1

    <Brief History of Machine Learning> 介绍:这是一篇介绍机器学习历史的文章,介绍很全面,从感知机.神经网络.决策树.SVM.Adaboost到随机森林.D ...

  9. 转【重磅干货整理】机器学习(Machine Learning)与深度学习(Deep Learning)资料汇总

    原文出处:http://blog.csdn.net/zhongwen7710/article/details/45331915 介绍:这是一篇介绍机器学习历史的文章,介绍很全面,从感知机.神经网络.决 ...

最新文章

  1. 建立可扩展的silverlight应用框架 step-4
  2. 只有这种AI芯片才能拯救人工智能?
  3. 试用去水印_教你一键视频去水印,支持抖音、快手、小红书、哔哩哔哩等几十个平台...
  4. python监控端口_python3 端口监控
  5. php 网路io是什么意思,io接口位于什么和什么之间
  6. 互补滤波系数_四元数+互补滤波 - osc_5aksh307的个人空间 - OSCHINA - 中文开源技术交流社区...
  7. 零基础转行网络安全可以做什么工作
  8. 高通平台如何抓RAMDUMP
  9. 渗透测试思路 - 关于黑灰产的那些事(番外篇)
  10. Hadoop源代码分析
  11. 2023年企业固定资产管理怎么破局?
  12. 人的感性和理性做出的决断往往不一致,为什么
  13. 「镁客早报」三星第十一代商务旗舰W2019发布;美国实现120KW无线充电
  14. 计算机语言python怎么读,python编程怎么读音发音
  15. 专业课学习——建立 SCT 数据库
  16. 目前最新NIST随机数测试软件下载、安装、及使用教程
  17. 深入浅出了解Unet
  18. DMHS DM7 单向同步
  19. wps office 2007 10.1.0.7224
  20. Dell XPS13 9350 安装win7,遇到的坑

热门文章

  1. python 客户端同构_同构python算法
  2. BZOJ1412: [ZJOI2009]狼和羊的故事
  3. 什么是数据分层,数据分层的作用!
  4. 模拟电路学习-之容抗和感抗
  5. 图像处理算法之模糊检测
  6. python实现千牛客服自动回复语_千牛会用到的回复语有哪些?千牛自动回复短语大全...
  7. Unity 游戏多语言解决方案和字体错误解决方法的想法
  8. 带有小叉号的textview
  9. 如何浏览自己的新浪微博图床
  10. 《FaceBoxes: A CPU Real-time Face Detector with High Accuracy》论文笔记