本节书摘来自华章出版社《Python数据挖掘:概念、方法与实践》一书中的第1章,第1.3节,作者[美] 梅甘·斯夸尔(Megan Squire),更多章节内容可以访问云栖社区“华章计算机”公众号查看。

1.3 在数据挖掘中使用哪些技术

现在我们对数据挖掘在整个KDD或者数据科学过程中的位置有了了解,下面就可以开始讨论完成这一任务的细节了。

从试图定义数据挖掘的早期起,几类相关的问题就一再出现。Fayyad等人在1996年的另一篇重要论文“From Data Mining to Knowledge Discovery in Databases”中提出了6类问题,我们将其总结如下:

分类问题。这里,有需要根据某些特征分成预定义类别的数据。我们需要一种算法,使用过去已经分类的数据,学习如何将未知数据置于正确的类别下。

聚类问题。这类问题是,我们需要根据数据点的特征将其分为不同类别,但是事先不知道这些类别。我们需要一种能够计量数据点之间相似性并自动根据这些相似性分割数据的算法。

回归问题。我们的数据必须根据某个预测变量进行映射,所以必须学习进行这种映射的函数。

摘要问题。假定我们的数据需要以某种方式缩短或者总结。这可能很简单,只是从数据计算基本统计数字;也可能很复杂,需要学习如何总结文本,或者为文本找出一个主题模型。

依赖性建模问题。对于这些问题,我们的数据之间可能有某种联系,我们需要开发一个算法,计算这种联系的概率,或者描述互相联系的数据的结构。

变化和偏差检测问题。在另一种情况下,我们的数据已经有了显著的变化,或者数据的一些子集偏离了正常值。为了解决这些问题,我们需要一种能够自动发现这些问题的算法。

在同年撰写的另一篇论文中,这些作者还加入了其他几种类别:

链接分析问题。我们有一些相关的数据点,必须发现它们之间的关系,并以数据集的支持程度和关系置信度的方式描述它们。

序列分析问题。想象我们的数据点遵循某种顺序,如时间序列或者基因组,我们必须发现序列中的趋势或者偏差,或者发现导致序列的原因,以及序列的演化方式。

韩家炜、Kamber和裴健在前面提及的教科书中描述了数据挖掘所能解决的4类问题,并进一步将其分为描述性和预测性两大类。描述性数据挖掘意味着找出模式,帮助我们理解拥有的数据。预测性数据挖掘意味着找出模式,帮助我们预测尚未拥有的数据。

在描述性类别中,他们列出了如下数据挖掘问题:

数据特性描述和数据区分问题,包括数据摘要或者概念特性描述(或称描述)。

频率挖掘,包括找出数据中的频繁模式、关联规则和相关性。

在预测性类别中,他们列出了如下问题:

分类,回归

聚类

离群值和异常检测

很容易看出,Fayyad等人和韩家炜等人的问题列表有许多相似之处,只是项目的分组不同。确实,如果你过去曾经完成过数据挖掘项目,这两个列表上出现的项目就是你可能已经熟悉的数据挖掘问题。分类、回归和聚类是非常流行的基本数据挖掘技术,所以从业者们所看到的每本数据挖掘书籍几乎都介绍过它们。

本书将使用哪些技术

由于本书是关于“精通”数据挖掘的图书,因此我们将介绍几种在标准书籍中不常介绍的技术。具体地说,我们将在第2章中介绍关联规则,在第9章中介绍异常检测。我们还将应用几种对数据清理和数据预处理有帮助的数据挖掘技术,也就是第9章中的缺失值处理和第3章中通过实体匹配进行的一些数据整合。

除了从技术上定义数据挖掘之外,有时候人们还根据所挖掘的数据类型,划分各种数据挖掘问题。例如,你可能听人说过文本挖掘或者社交网络分析。这些术语指的是所挖掘的数据类型,而不是用于挖掘的具体技术。例如,文本挖掘指的是任何应用于文本文档的数据挖掘技术,而网络挖掘指的是从网络图表数据中寻找模式。在本书中,我们将在第4章中进行一些网络挖掘,在第6、7、8章中进行不同类型的文本文档摘要,在第5章中根据情绪(文本中的情感)进行文本分类。

如果你和我一样,现在可能会想,“对这些背景资料我受够了,我想要写点代码。”我很高兴你对实际项目感兴趣。本书几乎已经做好了开始编码的准备,但是首先要建立一个好的工作环境。

《Python数据挖掘:概念、方法与实践》一1.3 在数据挖掘中使用哪些技术相关推荐

  1. python 字符串find方法怎么用_Python字符串find()方法

    Python字符串find()方法确定字符串str是出现在字符串中,还是在字符串指定范围的子串中,子字符串是由给给定起始索引beg和结束索引end切片得出. 语法 以下是find()方法的语法 - s ...

  2. 《Python数据挖掘:概念、方法与实践》——1.5节小结

    本节书摘来自华章社区<Python数据挖掘:概念.方法与实践>一书中的第1章,第1.5节小结,作者[美] 梅甘·斯夸尔(Megan Squire),更多章节内容可以访问云栖社区" ...

  3. 《Python数据挖掘:概念、方法与实践》一2.4 小结

    本节书摘来自华章出版社<Python数据挖掘:概念.方法与实践>一书中的第2章,第2.4节,作者[美] 梅甘·斯夸尔(Megan Squire),更多章节内容可以访问云栖社区"华 ...

  4. 《Python渗透测试编程技术:方法与实践》:信息的利用

    第六章.对漏洞进行渗透(基础部分) 本章学习如何开发一个漏洞渗透模块,选择的目标是一款简单的软件FreeFloat FTP Server.这款软件早期的版本存在一个栈溢出漏洞,因此被人利用从而发生远程 ...

  5. 概要设计、详细设计:概念、方法、实践步骤

    完整软件开发流程: 需求分析.概要设计.详细设计 一 1.  概念.方法.实践步骤 设计是指根据需求开发的结果,对产品的技术实现由粗到细进行设计的过程.根据设计粒度和目的的不同可以将设计分为概要设计. ...

  6. python基础学习[python编程从入门到实践读书笔记(连载五)]:数据可视化项目第16章

    文章目录 下载数据 制作全球地震散点图:JSON格式 end 几个实验结果: 每日最高气温: 地震图绘制: 下载数据 CSV文件格式 在文本文件中存储数据,一个简单方式是将数据作为一系列以逗号分隔的值 ...

  7. 金融系列白皮书 |《金融业线上渠道转型的方法与实践》上线

    今日,神策数据推出金融行业数字化转型系列白皮书之<金融业线上渠道转型的方法与实践>,聚焦金融业数字化转型的常见问题,提出金融业的数字化转型基本思路,并附以金融业数字化转型 MVP 实践. ...

  8. 计算机python程序设计导论,程序设计导论:Python计算与应用开发实践(原书第2版)...

    程序设计导论:Python计算与应用开发实践(原书第2版) 语音 编辑 锁定 讨论 上传视频 <程序设计导论:Python计算与应用开发实践(原书第2版)>是2018年机械工业出版社出版的 ...

  9. 数据分析与挖掘中常用Python库的介绍与实践案例

    数据分析与挖掘中常用Python库的介绍与实践案例 一.Python介绍 现在python一词对我们来说并不陌生,尤其是在学术圈,它的影响力远超其它任何一种编程语言, 作为一门简单易学且功能强大的编程 ...

  10. 【案例实践】Python多元线性回归、机器学习、深度学习在近红外光谱分析中的实践应用

    查看原文>>>基于Python多元线性回归.机器学习.深度学习在近红外光谱分析中的实践应用 [专家]: 郁磊副教授 主要从事MATLAB 编程.机器学习与数据挖掘.数据可视化和软件开 ...

最新文章

  1. MacroMedia FreeHand中文版
  2. factorybean 代理类不能按照类型注入_Spring注解驱动开发之四——@Import快速导入组件、FactoryBean 定义工厂注册组件...
  3. 130道ASP.NET面试题
  4. python中元组可以比较大小吗_python元组比较
  5. Django扩展xadmin后台管理
  6. c语言用指针两个字母交换,c语言指针基础之用指针交换两个数(代码实例)
  7. 搭建主从数据库出现的错误 error connecting to master ‘slave@172.17.0.2:3306‘ - retry-time: 30 retries: 1
  8. logrotate 命令切换linux系统日志
  9. PHP书写规范 匈牙利命名法+驼峰法命名
  10. 简单的java图像裁减
  11. c语言 异或_C语言位逻辑运算符的四种逻辑:取反,并,或,异或
  12. 《Web漏洞防护》读书笔记——第7章,访问控制防护
  13. HTML当当图书馆作业介绍
  14. 物联网全栈教程(1)——总目录
  15. Win7,Win10电脑内显示文件后缀(扩展名)的方法
  16. Spring Boot 事务详解
  17. 用一个电位器调节音调的简单电路
  18. 5s的app显示无法连接服务器,苹果手机无法连接到app store怎么办
  19. Android APK安装常见错误列表
  20. Unity打开电脑本地文件夹选择图片替换

热门文章

  1. 108次练习之模拟实现STL中的Vector(一)
  2. 解决Nginx + PHP(FastCGI)遇到的502 Bad Gateway错误[原创]
  3. 【分享】如何创建自己的Visual Studio 2005/2008配色
  4. java提取(获取)博客信息(内容)
  5. Request.Querystring中文乱码问题解决
  6. 【nginx】nginx的工作模式和信号量控制
  7. MSP430G2333下位机乘法运算需要注意的一个问题
  8. android hook 框架 ADBI 如何实现so注入
  9. Android SDK4.0(api14)安装
  10. C#笔记 使用自定义事件(含参)