第二章 输入:概念、实例和属性

2.1 概念

数据挖掘的应用有4种类型:分类学习(监督学习,训练集中数据有明确的类别)、关联学习(通常仅包含非数值的属性)、聚类(当样本不存在一个特定的类时)和数值预测。不管采用什么方式进行学习,被学习的东西成为概念,学习方案产生的输出就是概念描述。

2.2 样本

每一个实例都是一个被用来学习的单一、独立的概念样本。一个有限关系(复杂、非独立)的有限集总是能通过反向规格化方法被重新转换成单个表(独立实例组成),但是缺陷是会产生虚假规则性。

2.3 属性

存在四种测量标准:名词性值(sunny, overcast, rainy)、有序值(hot, mild, cool)、区间值和比率值。其中,主要运用名词性值和有序值。

2.4 输入准备

数据收集之后,将其转换成ARFF格式(格式如下所示)。

% ARFF file for the weather data 注释

@relation weather 关系名称为weather

@attribute outlook { sunny, overcast, rainy }  名词属性值

@attribute temperature numeric  数值属性

@attribute humidity numeric

@attribute windy { true, false }

@attribute play? { yes, no }  类属性,要预测的值

@data  实例数据开始的标志

% 14 instances  14个实例如下

sunny, 85, 85, false, no

overcast, 83, 86, false, yes  如果有残缺值,用?代替

… …

尽管天气问题需要从其他属性值中预测出类值:play?,但是在数据文件中类属性与其他属性并没有任何区别。这意味着可以在同样的文件上考察每一个属性究竟能否从其他属性预测出,或用同样的文件来寻找关联规则和聚类。

ARFF格式除了名词属性值和数值属性值之外,还有字符串属性值和日期属性:

@attributedescription string         @attributetoday date

另外,输入准备还需要处理数据稀疏性、残缺值和不正确值。

第三章输出:知识表达

3.1 决策表

表示机器学习输出结构的最简单、最基本的方法是采用和输入一样形式——决策表。当然关键问题是要确定去除哪些属性而不会影响最终的决策。

3.2 决策树

分治法思想自然引申出决策树的表达形式。对各类属性值进行分支时,值得注意的是对残缺值的处理:作为一个独立的值;将它分配到获得最多实例的那个分支。

3.3 分类规则

分类规则是取代决策树的一种普遍使用方法。一些逻辑表达式组成的条件语句。

如: if x = 1 and y = 0 then class =a; … …

3.4 关联规则

关联规则能够预测任何属性,不仅仅是类,所有关联规则也能预测属性的组合。一个关联规则的覆盖量(coverage)是关联规则能够正确预测的实例数量。正确率(accuracy)也叫置信度(confidence)是将正确预测的实例数量表示为它在关联规则应用所涉及的全部实例中占据的比例。

对于双重结论的规则一定要注意:

If  windy = false and  play = no  then outlook = sunny  and  humidity = high

它不仅仅是下面两句的简写形式,因为这个涉及到满足最小覆盖量和最小正确率(参考4.5),因此,这个其实更加严格。

If  windy = false and  play = no  then outlook = sunny

If  windy = false and  play = no  then humidity = high

3.5 包含例外的规则

当出现新的实例并且不符合现有的规则,此时用例外(except)对原规则修改,更符合人们的思维。规则格式示例:

Default:Iris-setosa    缺省类

except  if  … …

then  … …

except  … …    例外

else  … …

3.6 包含关系的规则

属性值并不重要,重要的是属性之间的关系,这样的规则称为关系规则。大多数机器学习方法并不考虑关系规则,因为代价太大,但是可以使用命题规则的方法来使用关系,新增一个属性来表示两个原始属性之间的关系。

3.7 数值预测树

对于预测数值构建的决策树,其叶节点是所有到达这个叶节点的实例的平均值,这样的决策树称为回归树(regression tree)。一般回归树的平均误差比回归公式小,但是建立较复杂,并且计算平均误差并不是一个评估模型性能的好方法。

3.8 基于实例的表达

对一个新实例,在训练实例中寻找与之最相似的一个,问题就转化为如何衡量相似。这种方法的缺点是,它不能对所学到的给出一个清晰的数据结构。

3.9 聚类

表示聚类的不同方法有:绝对划分、允许重叠部分的划分、属于不同聚类的概率和分级聚类(树图描述)。

《数据挖掘》读书笔记2、3章节相关推荐

  1. Hadoop大数据分析及数据挖掘 读书笔记(1)

    前言 阅读时间:20180318-20180322 来源:Kindle 数据挖掘基础 数据挖掘的概念: 从数据中"淘金",从大量数据(文本)中挖掘出隐含的.未知的.对决策有潜在的关 ...

  2. 海量数据挖掘 - 读书笔记 - 第三章:寻找相似的项目

    2020/07/21 - 引言 这个章节的内容如下: 将相似度比较问题转化为集合论的问题,找到相似对也就是找到两个相交集非常大的集合 文章相似度的比较过程中,可以利用shingling的方式,就是n- ...

  3. UNIX网络编程第三版(卷1)读书笔记以及习题-章节1

    1. 几个关键点: client使用read读取socket返回的数据的时候,总是使用一个循环包裹,最主要的原因就是tcp/ip协议传输的时候,数据会根据实际情况进行分节,因此只有循环才能保证读出全部 ...

  4. 【计算智能】读书笔记 第六章节 粒子群优化算法

    文章目录 1. 算法简介 2. 算法基本流程 算法流程图 伪代码 3. 算法改进研究 3.1 算法理论研究的改进 3.2 算法拓扑结构的改进 3.2.1 静态拓扑结构的改进 3.2.2 动态拓扑结构的 ...

  5. 【计算智能】读书笔记 第七章节 免疫算法 Part1

    文章目录 1. 什么是免疫算法 2.二进制模型 2.1 识别 2.2 刺激 3. 算法的基本模型 3.1 免疫系统名词与免疫算法名词比较 3.2 算法的基本流程图 3.3 识别抗体&初始化 3 ...

  6. 数据挖掘读书笔记--第八章(下):分类:模型评估与选择、提高分类器准确率技术

    散记知识点 --"评估分类器,提高分类器" 5. 模型评估与选择 5.1 评估分类器性能 (1) 评估分类器性能的度量 评估分类器性能的度量主要有:准确率(识别率).敏感度(召回率 ...

  7. mybatis从入门到精通(刘增辉著)-读书笔记第一章

    前言: 本读书笔记共11章节 本版本采用idea编写,不采用作者书中所说的eclipse jdk8 maven3.6.1 mysql5.7 1.idea新建maven项目,配置pom.xml < ...

  8. 数据挖掘导论Pangaea-Ning Tan 读书笔记——(第一,二,三章)

    <数据挖掘导论>Pang-Ning Tan ,Michael Steinbach,Vipin Kumar 读书笔记, 第一章 绪论 数据挖掘任务 预测任务 描述任务 分类任务 回归任务 聚 ...

  9. 老男孩shell实战读书笔记 (6-10章节)

    老男孩shell教程 (6-10章节) shell脚本的条件测试与比较 在bash编程中,条件测试常用的语法形式如下表: 说明⚠️: 语法1中的test命令和语法2中的[]是等价的. 语法3中的[[] ...

  10. 《控制系统设计指南》_George Ellis著_部分章节读书笔记

    Attention: 强烈建议做控制的同学先通读一遍这本书 这本书写得有点像科普文的感觉,但又不失严谨和实验论证.感慨作者太强了!完全从读者的角度出发用一个一个的例子去说明概念,读完后感觉自己以前控制 ...

最新文章

  1. iOS 排序算法总结、二分法查找
  2. ORA-29786: SIHA attribute GET failed with error
  3. python写前端和js_Python之路【第十二篇】前端之jsdomejQuery
  4. python——asyncio模块实现协程、异步编程(三)
  5. 不分享“年度报告”的人,多少有点难言之隐
  6. String被设计成不可变和不能被继承的原因
  7. GitHub#python#:ppt(批量)转换为pdf
  8. Golang实现Server和Client的TCP通讯
  9. vue导出excel并修改表头样式
  10. otf字体转ttf字体
  11. 坚果pro2刷Nitrogen OS安卓pie纯正原生
  12. 布同:统计英文单词的个数
  13. openwrt在mt7620a上的折腾笔记
  14. 美国主机中的RAID磁盘是什么意思?
  15. vmd安装包_【MMD相关】推荐点软件/插件
  16. Visual Studio 增加每行最多字符数限制参考线
  17. 让Windows无缝地跑在Mac上,VMware发布VMware Fusion 7
  18. 申报绿色工厂对企业有什么好处
  19. ESP32游戏机总体设计
  20. Docker常用容器命令

热门文章

  1. 决策树与随机森林初探
  2. 一个项目的经验教训:关于打乱和拆分数据
  3. EXCEL类十字拖拽操作上千条数据的技巧
  4. 继Facebook之后,微软正式宣布:全面进军「元宇宙」
  5. 联想服务器开机滴一下不显示,电脑开机没有滴的一声显示器不亮怎么办 电脑开机故障解决方法【图文】...
  6. VSCode 返回上一个光标 (上一个浏览位置)
  7. Floating-Point overflow and underflow
  8. 产品经理求职方法指南:面试通关
  9. IT行业是吃青春饭的吗?
  10. Fedora 使用 yaourt