用于分析的数据集可能包含数以百计的属性,其中大部分属性可能与挖掘任务不相关,或者是冗余的。例如,如果分析任务是按顾客听到广告后是否愿意在AllElectronics购买新的流行CD将顾客分类,与属性age(年龄)和music_taste(音乐鉴赏力)不同,诸如顾客的电话号码等属性多半是不相关的。尽管领域专家可以挑选出有用的属性,但这可能是一项困难而费时的任务,特别是当数据的行为不是十分清楚的时候更是如此(因此,需要分析)。遗漏相关属性或留下不相关属性都可能是有害的,会导致所用的挖掘算法无所适从。这可能导致发现质量很差的模式。此外,不相关或冗余的属性增加了数据量,103可能会减慢挖掘进程。

属性子集选择1通过删除不相关或冗余的属性(或维)减少数据量。属性子集选择的目标是找出最小属性集,使得数据类的概率分布尽可能地接近使用所有属性得到的原分布。在缩小的属性集上挖掘还有其他的优点:它减少了出现在发现模式上的属性数目,使得模式更易于理解。

“如何找出原属性的一个‘好的’子集?”对于n个属性,有2n个可能的子集。穷举搜索找出属性的最佳子集可能是不现实的,特别是当n和数据类的数目增加时。因此,对于属性子集选择,通常使用压缩搜索空间的启发式算法。通常,这些方法是典型的贪心算法,在搜索属性空间时,总是做看上去是最佳的选择。它们的策略是做局部最优选择,期望由此导致全局最优解。在实践中,这种贪心方法是有效的,并可以逼近最优解。

“最好的”(和“最差的”)属性通常使用统计显著性检验来确定。这种检验假定属性是相互独立的。也可以使用一些其他属性评估度量,如建立分类决策树使用的信息增益度量2。

属性子集选择的基本启发式方法包括以下技术,其中一些在图3.6中给出。

(1)逐步向前选择:该过程由空属性集作为归约集开始,确定原属性集中最好的属性,并将它添加到归约集中。在其后的每一次迭代,将剩下的原属性集中的最好的属性添加到该集合中。

(2)逐步向后删除:该过程由整个属性集开始。在每一步中,删除尚在属性集中最差的属性。

(3)逐步向前选择和逐步向后删除的组合:可以将逐步向前选择和逐步向后删除方法结合在一起,每一步选择一个最好的属性,并在剩余属性中删除一个最差的属性。

(4)决策树归纳:决策树算法(例如,ID3、C4.5和CART)最初是用于分类的。决策树归纳构造一个类似于流程图的结构,其中每个内部(非树叶)结点表示一个属性上的测试,每个分枝对应于测试的一个结果;每个外部(树叶)结点表示一个类预测。在每个结点上,算法选择“最好”的属性,将数据划分成类。

当决策树归纳用于属性子集选择时,由给定的数据构造决策树。不出现在树中的所有属性假定是不相关的。出现在树中的属性形成归约后的属性子集。

这些方法的结束条件可以不同。该过程可以使用一个度量阈值来决定何时停止属性选择过程。

在某些情况下,我们可能基于其他属性创建一些新属性。这种属性构造1可以帮助提高准确性和对高维数据结构的理解。例如,我们可能希望根据属性height(高度)和width(宽度)增加属性area(面积)。通过组合属性,属性构造可以发现关于数据属性间联系的缺失信息,这对知识发现是有用的。

_____________________________________________________

1 在机器学习中,属性子集选择称为特征子集选择。

2 信息增益度量在第8章详细介绍。

1 在机器学习文献中,属性构造又称特征构造。

属性子集选择的基本启发方法_3.4.4 属性子集选择相关推荐

  1. 属性子集选择的基本启发方法_一文看懂数据预处理最重要的3种思想和方法

    导读:本文我们考虑应当采用哪些预处理步骤,让数据更加适合挖掘.数据预处理是一个广泛的领域,包含大量以复杂的方式相关联的不同策略和技术.我们将讨论一些最重要的思想和方法,并试图指出它们之间的相互联系. ...

  2. 属性子集选择的基本启发方法_Java机器学习库(Java ML)(三、特征选择)

    本文章翻译至Java ML技术文档featureselection.pdf,代码部分是参考该文档使用IDEA编写,同时加入了运行结果. 特征选择 本文简要介绍了功能选择的概念.在本章的其他小节中,我们 ...

  3. 属性子集选择的基本启发方法_图网络基本属性

    如何描述一个网络 Degree Distribution P(k): 随机选择的节点, 度为k的的概率分布, 使用直方图来描述 其中 表示度为k的节点数, 比如上图中,度为1的节点数有6, 所有节点数 ...

  4. java子类调用抽象父类方法_【坑】Spring中抽象父类属性注入,子类调用父类方法使用父类注入属性...

    运行环境 idea 2017.1.1 spring 3.2.9.RELEASE 需求背景 需要实现一个功能,该功能有2个场景A.B,大同小异 抽象一个抽象基类Base,实现了基本相同的方法BaseMe ...

  5. 如何选择最好的研究方法?——Nvivo教程

    NVivo是一款支持定性研究方法和混合研究方法的软件.它可以帮助您收集.整理和分析访谈.焦点小组讨论.问卷调查.音频等内容.全新的NVivo12更可协助您处理社交媒体和网页内容.NVivo强大的搜索. ...

  6. vue、Cascader 级联选择、Cascader 属性事件方法、vue Cascader 所有级联选择样式、vue Cascader 级联选择全部属性事件方法

    vue.Cascader 级联选择.Cascader 属性事件方法.vue Cascader 所有级联选择样式.vue Cascader 级联选择全部属性事件方法 Cascader 级联选择 何时使用 ...

  7. dnf选择服务器显示数字,DNF:遴选属性如何选择?两种方法精确找到最优解

    原标题:DNF:遴选属性如何选择?两种方法精确找到最优解 DNF:遴选属性如何选择?两种方法精确找到最优解 本文由Sky灬素颜游戏视频原创,请勿抄袭或转载,谢谢. 自黑鸦之境更新以来,很多小伙伴都问到 ...

  8. jQuery选择id属性带有.点符号元素的方法

    如果jquery要选择的元素id中带有点符号,在选择时需要在点前面加上两个反斜杠,如: $("#address\\.street").text("Enter this f ...

  9. solidworks模板_SolidWorks文件属性分类和创建方法,图纸自动属性的基础

    1.文件属性 文件属性描述了基于Windows系统的文件的一些可用于识别该文件的细节信息.我们可以通过文件属性来搜索和组织文件.SolidWorks的文件添加有其独有的文件属性,这些属性可更好地用于工 ...

最新文章

  1. 解决 C# GetPixel 和 SetPixel 效率问题(转)
  2. 海量数据库解决方案2011030401
  3. Navigation execution entry point
  4. matlab meshgrid
  5. leetcode738. 单调递增的数字(贪心)
  6. 重置一个画面大小的方法
  7. 国内开源社区软件 PHPWind 团队已解散
  8. Python编程一定要注意的那些“坑”(六)
  9. android 关联源码
  10. python getopt模块_python里argparse模块和getopt模块的区别
  11. 【Android Studio快捷键】之导入相应包声明(import packages)
  12. 观察者模式代码php,PHP 观察者模式的实现代码
  13. 2014华为机试西安地区B组试题
  14. NetApp 全闪存数据存储软件 AFF A 系列
  15. c语言中20的倍数为真,0723-0802 C语言笔记(李明杰前8天)
  16. 倍加福光电传感器OBE10M-18GM60-SE5-V1
  17. Andriod 获取手机CPU型号设备信息
  18. 诸葛新增快应用SDK,满足客户更多数据采集方案支持!
  19. 基因编辑最新研究成果进展(2021年11月)
  20. 键盘按钮keyCode对照表

热门文章

  1. 浏览器f12, ::before ::after是什么意思?
  2. 基于java的坦克大战游戏-计算机毕业设计
  3. 装机软件测试工资,实际性能测试及总结_DIY攒机装机不求人-中关村在线
  4. 2020杭电计算机考研复试面试
  5. 网站性能检测尖刀-YUI-Yslow
  6. 分形几何python代码_Python教程之绘制Mandelbrot集合
  7. iOS上的APP纷纷绕过苹果支付躲避30%抽成:“热更新”“马甲包”
  8. 渗透分支写脚本_抖音文案怎么写吸引人?最新文案创作技巧分享(赠文案脚本模板)...
  9. svn使用过程中遇到的错误
  10. 对于美国中部覆盖图防护林形态的自动检测技术