提供好的特征是机器学习任务中最重要的工作,那么何为优秀的机器学习特征?以及如何高效地组合这些特征?

以二分类问题为例,好的特征具有很好的区分性。例如学习任务是区分两种不同类型的狗:灰猎犬(Greyhound)和拉布拉多犬(Labrador)。假设有身高和眼睛的颜色两种特征。一般而言,灰猎犬的平均身高要比拉布拉多犬要高一些,而狗的眼睛的颜色不取决于够的品种,因此可以认为“身高”这个特征就比“眼睛颜色”这个特征更有用,因为“眼睛颜色”这个特征没有告诉我们任何信息。

虽然灰猎犬的平均身高要比拉布拉多犬要高一些,但并不是说所有灰猎犬的身高都要比拉布拉多犬要高,那么为什么“身高”是一个有用的特征呢?假设在一个数据集D上两种类型的狗的身高分布如下图所示,其中红色表示灰猎犬,蓝色表示比拉布拉多犬。在这个数据集D上灰猎犬和拉布拉多犬各有500值,平均身高分别为28英寸和24英寸。

现在我们需要断定在特定的身高每种狗的概率分布。现假设有一批身高为20英寸的狗,我们该如何预测这批狗的品种,使得我们的预测错误率最低呢?根据上面的图,我们判断这批狗中的大部分可能是拉布拉多犬。同样,看图的靠右侧的柱状图,比如35英寸的身高的狗我们有信心认为其是灰猎犬。25英寸高的狗呢?这个时候我们就很难判断其是什么品种了。综上,身高是一个有用的特征,但它并不完美。一般而言,机器学习任务都很难只需要单一的特征。这就是为什么在机器学习任务里我们需要多种特征,否则就不需要机器学习算法,而只需要写if else语句就够了。Features capture different types of information。

假设一个特征的取值在二分类任务的正例和反例中各占大概一半的比例,那么这样的特征是没有用的,比如上面例子中的狗的眼睛颜色。无用的特征会降低分类器的准确率,特别是在样本数量较少的情况下。

由于不同类型的特征还应该包含不同类型的信息,这样才能够起到互相补充的作用。也就是说应该避免冗余的特征。比如“单位为英寸的身高”和“单位和厘米的身高”两个特征之间并不是相互独立的,只是同一个属性的2种不同维度的测试数据而已,因此这2个特征只要保留其中一个就可以了。应该删除与已有特征高度密切相关的特征。

最后,好的特征还应该是易于理解的。比如要预测从一个城市寄一封信去另一个城市需要多长时间可以到达,一个易于理解的特征的例子是这2座城市之间的距离;一个不易于理解的特征组合是这2个城市各种的经纬度信息。因为简单的关系更加易于学习,复杂的关系则需要更多的训练数据,因此更难被学习出来。

总结

  • 避免无用的特征(avoid useless features)
  • 避免冗余的特征(avoid redundant features)
  • 使用易于理解的简单特征(good features should easy to understand)

好的特征具有如下的特点:

  • 有区分性(Informative)
  • 特征之间相互独立(Independent)
  • 简单易于理解(Simple)

转载于:https://www.cnblogs.com/end/p/10795547.html

何为优秀的机器学习特征 zz相关推荐

  1. 机器学习-特征工程中的数据预处理

    对于一个机器学习问题,数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限.由此可见,数据和特征在模型的整个开发过程中是比较重要.特征工程,顾名思义,是对原始数据进行一系列工程处理,将其提炼为 ...

  2. 【持续更新】机器学习特征工程实用技巧大全

    https://zhuanlan.zhihu.com/p/26444240 (2018/2/6 更新:修改了部分名词的翻译) 与其说是教程类的科普,不如说是一篇经验向的个人笔记,所以细节上比较懒.其实 ...

  3. 机器学习特征筛选:方差选择法VarianceThreshold

    机器学习特征筛选:方差选择法VarianceThreshold 方差是衡量一个变量的离散程度(即数据偏离平均值的程度大小): 变量的方差越大,我们就可以认为它的离散程度越大,也就是意味着这个变量对模型 ...

  4. 机器学习特征筛选:互信息法(mutual information)

    机器学习特征筛选:互信息法(mutual information) 互信息法多为分类问题的分类变量的筛选方法 经典的互信息也是评价定性自变量对定性因变量的相关性的,为了处理定量数据,最大信息系数法被提 ...

  5. 机器学习特征筛选:相关系数法(correlation)

    机器学习特征筛选:相关系数法(correlation) 通过计算特征与特征之间的相关系数的大小,可判定两两特征之间的相关程度. 取值区间在[-1, 1]之间,取值关系如下: corr(x1,x2)相关 ...

  6. 机器学习特征工程之连续变量离散化:聚类法进行分箱

    机器学习特征工程之连续变量离散化:聚类法进行分箱 离散化,就是把无限空间中有限的个体映射到有限的空间中: 根据用户的听音乐的数据来预测哪些歌曲更受欢迎. 假设大部分人听歌都很平均,会不停的听新的歌曲, ...

  7. 机器学习特征工程之连续变量离散化:等频分箱

    机器学习特征工程之连续变量离散化:等频分箱 离散化,就是把无限空间中有限的个体映射到有限的空间中: 根据用户的听音乐的数据来预测哪些歌曲更受欢迎. 假设大部分人听歌都很平均,会不停的听新的歌曲,但是有 ...

  8. 机器学习特征工程之连续变量离散化:连续变量二值化(Binarizer)

    机器学习特征工程之连续变量离散化:连续变量二值化(Binarizer) 离散化,就是把无限空间中有限的个体映射到有限的空间中: 根据用户的听音乐的数据来预测哪些歌曲更受欢迎. 假设大部分人听歌都很平均 ...

  9. 机器学习特征工程之连续变量离散化:等宽分箱

    机器学习特征工程之连续变量离散化:等宽分箱 离散化,就是把无限空间中有限的个体映射到有限的空间中: 根据用户的听音乐的数据来预测哪些歌曲更受欢迎. 假设大部分人听歌都很平均,会不停的听新的歌曲,但是有 ...

最新文章

  1. Java 初始化顺序
  2. 企业网站建设中seo不能缺
  3. Ubuntu 16.04设置Redis为开机自动启动服务
  4. 嵌入式根文件系统制作
  5. 深刻理解Servlet运行机制和生命周期
  6. php中修改弹窗的样式,CSS变形弹窗效果示例
  7. 教你如何使用redis分布式锁
  8. 【kafka】 kafka如何设置指定分区进行发送和消费
  9. jquery实现的滚动新闻(多个实例代码)
  10. autoCAD编辑图案填充
  11. Unity Shader零基础入门2:环境光、漫反射、高光
  12. EV 鼠标被消费者誉为世界“第八大奇迹”内幕
  13. 比基尼新娘沉醉花海之爱。(组图)
  14. 第三批游戏版号下发 移动安全从业者有话说
  15. 上下五千年历史朝代歌
  16. java.util.Date的getYear()
  17. 【缺陷管理】9:偶尔出现的缺陷如何处理?
  18. Java面向对象之构造器
  19. Redis核心技术与实战-学习笔记(五)内存快照RDB
  20. 使用Spine制作柔性的骨骼动画详解

热门文章

  1. 类型转换:隐式转化(算数转换,整型提升,混合提升,赋值转换),强制转换【C语言】
  2. css怎样通过超链接更改背景,css超链接的底色如何设置
  3. Linux下监控磁盘io,如何在Linux下监控磁盘IO?
  4. 抢购网站服务器时间表,js获取服务器时间,实现抢购倒计时
  5. 电源空间辐射CDN余量低_EMI辐射整改
  6. post提交调用的却是doget方法_Python基础教程 | Requests库的使用方法和细节
  7. VMware VCP
  8. 【科普】为什么ip地址通常以192.168开头?
  9. 台式计算机m9870t,JBT9870_水力测功器最新标准规范(14页)-原创力文档
  10. 欢迎参与 KubeVela 官方文档翻译活动