数据挖掘导论(完整版)阅读笔记--第一章

  • 了解数据挖掘
    • 一、什么是数据挖掘
    • 二、了解KDD
    • 三、数据挖掘要解决的问题(了解即可)
    • 四、数据挖掘任务

了解数据挖掘

一、什么是数据挖掘

数据挖掘是在大型数据存储库中,自动地发现有用信息的过程。数据挖掘技术用来探查大型数据库,发现先前未知的有用模式。

这部分的重点在于区别:数据挖掘技术和其他信息检索任务

例如:根据可赢利性划分公司客户

答案:这不是数据挖掘任务,这是一个会计计算。但是,预测新客户的赢利能力是数据挖掘。

二、了解KDD

数据库中知识发现(knowledge discovery in database,KDD)是将未加工的数据转换成有用信息的过程。

三、数据挖掘要解决的问题(了解即可)

1.可伸缩: 由于数据产生和收集技术的进步,数据挖掘算法常常需要处理海量数据集,则算法必须是可伸缩的(scalabie)。为实现可伸缩还有可能实现新的数据结构。
2.高维性: 现在常常会遇到具有成百上千属性的数据集。
3.异种数据和复杂数据: 如今的数据集不仅仅只有相同的数据属性,还会有很多复杂的,且多种属性的数据
4.数据的所有权与分布: 由于分析的数据分布在属于多个机构的资源中,因此需要开发分布式数据挖掘技术。
分布式数据挖掘算法的主要挑战包括:
1.如何降低执行分布式计算所需的通信量
2.如何有效地统一从多个资源得到数据挖掘的结果
3.如何处理数据安全性问题
5.非传统分析: 传统的统计方法基于一种假设-检验模式。当前数据分析常常伴随数千种假设。因此需要自动的产生和评估假设

总结: 可伸缩表示可以处理大量数据、高维性表示科研解决高维数据集问题、异种数据和复杂数据处理表示能够处理同一个数据集具有不同是数据属性、数据的所有权与分布表示要开发分布式数据挖掘技术并且解决该技术所带来的问题、非传统分析表示要具有大量自动产生和评估假设能力。

四、数据挖掘任务

数据挖掘任务通常分为两大类:预测任务以及描述任务

预测任务的目标是根据其他属性的值,预测特定属性的值。被预测的属性称为因变量,用来做预测的属性为自变量。
描述任务的目标是导出概括数据中潜在联系的模式(相关、趋势、聚类、轨迹、异常)。常常需要后处理技术验证和解释结果。

预测建模以自变量函数,为因变量建立模型。有以下两类任务:
分类:用于预测离散的目标变量
回归:用于预测连续的目标变量

关联分析用来描述数据中的强关联特征的模式。所发现的模式通常用于蕴涵规则特征子集的形式表示。

聚类分析旨在发现紧密相关的观测值组群,使得与属于不同簇的观测值相比,属于同一簇的观察值相互之间尽可能类似

异常检测识别其特征显著不同于其他数据的观察值。这类观察值称为异常点或离群点。一个好的异常检测必须具有高检测率和低误报率。

数据挖掘导论阅读笔记第一章:绪论相关推荐

  1. 小吴的《机器学习 周志华》学习笔记 第一章 绪论

    小吴的<机器学习 周志华>学习笔记 第一章 绪论 近一年时间接触到不少机器学习的知识,虽然断断续续学了一些,总感觉还没有入门(只学会了疯狂调包).因此,最近开始系统学习Machine Le ...

  2. 深入理解 C 指针阅读笔记 -- 第一章

    上周末,我在图书馆看到了这本很薄的书 -- <深入理解 C 指针>       这本书中写的内容,个人感觉适合一个初学者,内容不是很难.我也读了下,对每一章都做了笔记,笔记都是用代码的形式 ...

  3. 仿生学导论学习笔记——第一章

    第一章 仿生学基本概念 1.1 仿生学含义 1.1.1 定义原则 1.1.2 斯蒂尔定义 1.1.3 传统定义 1.1.4 现代定义 1.1.5 仿生学相关定义 1.1.6 仿生学英文释义 1.1.7 ...

  4. 《视觉计算理论》阅读笔记——第一章

    注:<视觉计算理论>翻译自Marr的<Vision> Vison: A computational investigation into the human represent ...

  5. 《西瓜书》阅读笔记——第一章

    第一章 1.1 基本术语 (色泽=青绿:根蒂=蜷缩:敲声=浊响), (色泽=乌黑:根蒂=稍蜷:敲声=沉闷), (色泽=浅白:根蒂=硬挺:敲声=清脆),... 数据集(data set):上述记录的集合 ...

  6. 大崩溃-正在降临的危机与金融风暴史(The Great Crash)阅读笔记 第一章 大崩溃:货币战争的真相

    图书信息 李晓鹏著 北京邮电大学出版社 修改记录 记录第一章 2012年2月21日6:10 - 2012年2月21日7:30 记录第二章 2012年2月22日6:04:58 -2012年2月22日7: ...

  7. 【机器学习】周志华 读书笔记 第一章 绪论

    1..什么是机器学习? 引言部分关于各种情景,是基于经验做出的的预判,机器学习的本质任务是预测. 特征 学习经验          =>从而做出有效的决策 def:① 机器学习是一门学科, ②  ...

  8. 《机器学习》 周志华学习笔记第一章 绪论(课后习题)

    最近需要学习机器学习,有一点点基础但是很少,希望能通过写博客的方式和大家交流以及学习达到共同进步的目的. 绪论 : 一.内容 1.基本术语 2.假设空间与版本空间 3.归纳偏好(常用的有奥卡姆剃刀) ...

  9. 【算法导论】笔记-第一章 算法基础

    第1章 算法基础 1.1 插入排序 关键词:我们要排序的数. 伪代码:我们使用最清晰,最简洁的表示方法来说明给定的算法. 约定: 缩进表示块结构 while,for与repeat-until等循环结构 ...

  10. [云炬ThinkPython阅读笔记]第一章 程序之道

    本书的目标是教你像计算机科学家一样思考.这一思考方式集成了数学.工程以及自然科学的一些最好的特点.像数学家一样,计算机科学家使用形式语言表示思想(具体来说是计算).像工程师一样,计算机科学家设计东西, ...

最新文章

  1. 【转】推荐给初级Java程序员的3本进阶书
  2. 降本增效利器!趣头条Spark Remote Shuffle Service最佳实践
  3. linux大文件系统管理,Linux 磁盘和文件系统管理
  4. Kubernetes 部署 Mysql 8.0 数据库(单节点)
  5. 老王讲设计模式(一)——策略模式
  6. 详解斯坦纳点及斯坦纳树及模版归纳总结
  7. hibernate 框架学习笔记
  8. 常用股票软件linux,在 Linux 下看股票?
  9. CSS 基本样式大全(一)
  10. 一些外汇交易专业术语
  11. 美通企业日报 | 网龙互动白板获德国红点设计奖;芬美意在华开设全球最大食用香精厂...
  12. 微信营销的总纲领:沐风微信水库理论 2.0
  13. 微信旧岛小程序章节目录
  14. web.xml中security-constraint安全认证标签说明
  15. 云计算 - 虚拟化技术Overview
  16. CVPR 2020 | 旷视研究院探究优化场景文字识别的「词汇依赖」问题
  17. N32926 usb gadget 加 adb驱动, 插入USB线一点反应都没有。
  18. 武田就欧盟委员会对拟收购Shire plc进行中的1期评审发表置评
  19. Delphi XE 将excel导入数据库
  20. 如何解决磁盘坏道的问题

热门文章

  1. 有赞团队:SaaS公司的系统稳定与安全机制,附Saas研报
  2. Linux之YUM方式安装SVN
  3. ABAQUS中获取参考点时间-位移曲线
  4. android网络工程师,网络工程师题库app下载
  5. html 显示shp,cesium加载本地shp数据
  6. 一般凸二次规划的有效集算法 Matlab程序
  7. 【CAD】DWF文件格式详细说明,清晰易懂
  8. NXP K60使用IAR烧录教程
  9. 夜间灯光数据dn值_一种基于NDBI的城市夜间灯光数据去饱和方法与流程
  10. 【CPLEX教程01】Cplex介绍,下载和安装Cplex