数据挖掘的过程是什么?

  • 01 数据挖掘过程
    • 1. 数据采集
    • 2. 特征提取和数据清洗
    • 3. 分析处理和算法
  • 02 数据预处理阶段
    • 1. 特征提取
    • 2. 数据清洗
    • 3. 特征选择与转换
  • 03 分析阶段

作者:大数据DT
来源:大数据DT

导读:数据挖掘过程包含数据清洗、特征提取、算法设计等多个阶段,本文将讨论这些阶段。

01 数据挖掘过程

典型数据挖掘应用的过程包含以下几个阶段。

1. 数据采集

数据采集工作可能是使用像传感器网络这样的专门硬件、手工录入的用户调查,或者如Web爬虫那样的软件工具来收集文档。虽然这个阶段与具体应用息息相关,但常常落在数据挖掘分析师们所考虑的范围之外,而这个阶段对数据挖掘过程也是至关重要的,因为这一阶段所做的选择会明显地影响整个数据挖掘过程。

采集阶段产生的数据通常会先存入数据库,广义上称为数据仓库,然后进行处理。

2. 特征提取和数据清洗

上述采集阶段得到的数据,其格式往往不适合直接进行处理。例如,采集来的数据可能是使用复杂编码的日志或自由格式的文档,并在许多情况下,各种类型的数据又任意地混合在一起,形成自由格式的文档。

要使这样的数据适合进一步加工,有必要把它们转化为对数据挖掘算法较为合适的格式,比如多维数据、时序数据或者半结构化数据等。

多维数据是最常见的格式,其不同的字段对应于可以称为特征、属性或维度的各种测量属性。抽取这些特征是数据挖掘的一个至关重要的阶段,而特征提取阶段通常与数据清洗阶段并行进行,以便估计或校正丢失的数据以及错误的数据。

另外,在许多情况下,数据可能从多个来源聚集而成,进行处理时需要把它们转换为统一的格式。上述过程的最终结果是一个有较好结构的数据集,可以由计算机程序有效地使用。在特征提取阶段之后,数据可以存回到数据库中用于进一步的处理。

3. 分析处理和算法

数据挖掘过程的最后一步是为处理过的数据设计有效的分析方法。在许多情况下,不太可能将手头的应用直接转化成一个标准的数据挖掘问题,比如转化成关联模式挖掘、聚类、分类以及异常检测这四个“超级问题”中的某一个。

但这四个超级问题具有很广泛的覆盖性,可以构成数据挖掘任务的基本模块,而大多数应用都能由这些作为基本模块的组件拼搭起来实现。

整个数据挖掘过程可由图1-1表示。请注意,图中的分析处理模块显示了对特定应用设计的、由多个基本模块组合而成的解决方案,这一部分依赖于分析师的技能。通常的做法是使用四个主要问题中的一个或多个作为基本模块来搭建。

▲图1-1 数据处理流水线

需要承认的是,并非所有的数据挖掘应用都能用这四个主要问题来搭建解决方案,但许多应用可以这样解决,因此有必要给予这四个主要问题一个特殊的地位。下面我们使用一个有关推荐的应用实例来解释数据挖掘的整个过程。

  • 考虑这样一个网上零售商的场景,此零售商保存了客户访问其网站的访问日志,还收集了客户的基本情况信息。假设网站的每个网页对应一个商品,客户访问一个网页可能表明对相应的商品感兴趣。零售商希望通过对客户的个人资料及其购买行为的分析,有针对性地给客户推荐商品。

解决问题的流程示例:分析师的第一步工作是收集两种不同来源的数据,其一是从该网站的日志系统中抽取的日志,其二是从零售商的数据库中抽取的客户个人资料。这里的一个难题就是这两种数据使用了非常不同的数据格式,放到一起处理很不容易。例如,一条日志可以以下面这种形式出现。

日志中可能包含成千上万个这种条目,上面这一条目显示IP地址为98.206.207.157的客户访问了productA.htm这一网页。要确认使用一个IP地址的客户是谁,可以通过之前的登录信息,或者通过网页的cookie记录,甚至直接通过IP地址本身,但这个确认过程可能充满噪声,不可能总是产生准确的结果。

作为数据清洗和提取过程的一部分,分析师还需要设计算法对不同的日志条目进行有效的过滤,以便只使用那些提供准确结果的数据段,因为原始日志中包含很多对零售商可能没有任何用处的额外信息。

在特征提取阶段,零售商决定从网页访问日志中提取特征,为每个客户创建一条记录,其中将每个商品设置为一个属性,记录此客户对相应商品网页的访问次数。

因此,这个特征抽取需要对每条原始日志进行处理,并将多条日志中抽取的特征进行聚合。之后在数据集成时,再将这些属性数据添加到零售商的客户数据库中去。这个客户数据库包含客户个人资料,倘若个人资料记录中缺少某些条目,则需要为其进行进一步的数据清洗。

最终,我们得到一个数据集,将客户个人资料的属性及客户对商品访问次数的属性整合在一起。

此时,分析师需要决定如何使用此清洗过的数据集,为客户提供推荐。分析师可以将类似的客户分成几类群体,并根据每类群体的购买行为提出推荐意见。

聚类分析在这里可以作为一个基本模块,用于确定类似客户的群体。对每一个客户,可以为其推荐该客户所在群体作为一个整体访问最多次的商品(这里指的是商品网页)。这个案例包含了一个完整的数据挖掘流程。

有许多优美的提供推荐的方法,它们在不同的情况下各有优劣,因此,整个数据挖掘过程是一门艺术,很大程度由分析师的技能所决定,而不完全由特定的技术或基本模块所左右,这种技能只能通过在不同应用需求下处理各类不同数据的实践中获得。

02 数据预处理阶段

数据预处理阶段也许是数据挖掘过程中最关键的一个阶段,然而,这个阶段很少得到应有的探讨,因为大部分数据挖掘讨论的重点放在了数据分析方面。这一阶段在数据采集后就开始,包括以下步骤。

1. 特征提取

分析师可能面临大量的原始文件、系统日志、商业交易,但几乎没有任何指导性的快速入门方法将这些原始数据转化为有意义的数据。这一步骤高度依赖于分析师的抽象能力,以找出与手头应用最相关的特征。

例如,在信用卡欺诈检测应用中,收费金额、重复频率以及位置信息往往是找出欺诈的有效指标,而许多其他特征信息也许就用处不大。因此,提取正确的特征往往是个技术活,需要对手头应用相关的领域有充分的了解。

2. 数据清洗

上述特征提取得到的数据中可能含有错误,也有些条目可能在采集及提取时丢失。因此,我们可能要丢弃一些含有错误的数据记录,或者对缺失的条目进行估计填充,并剔除数据中的不一致性。

3. 特征选择与转换

当数据维度很高时,很多数据挖掘算法就会失效。而且当数据维度很高时,数据噪声会增加,可能带来数据挖掘的错误。因此,需要使用一些方法,移除与应用无关的特征,或者将数据变换到一个新的维度空间中,使数据分析更容易进行。

另一个相关的问题是数据转换,将一些属性转换为另一种相同或类似数据类型的属性。比如将年龄数值转化成年龄段,可能对分析更有效也更便利。

数据清洗过程中通常需要使用对缺失数据进行估计的统计方法,此外,为确保挖掘结果的准确性,通常需要剔除错误的数据条目。

由于特征选择和数据转换高度依赖于具体的分析问题,不应视为数据预处理的一部分,甚至在某些情况下,特征选择可能与具体算法或方法紧密结合,以一种包装模型或嵌入模型的形式出现。但在一般情况下,会在应用具体挖掘算法之前执行特征选择阶段。

03 分析阶段

一个主要的挑战是每个数据挖掘应用都是独特的,很难为很多类应用打造出一个灵活的、可复用的挖掘技术。然而,我们发现有些数据挖掘方法在各类应用中反复出现,即所谓的“超级问题”或数据挖掘的基本模块。

怎样在特定的数据挖掘应用中使用这些基本方法很大程度上取决于分析师的技能和经验,所以虽然可以对这些基本模块进行很好的描述,但怎样在实际应用中使用它们,只能通过实践来学习。

数据挖掘的过程是什么?通俗易懂相关推荐

  1. 数据挖掘的过程有哪些

    随着大数据时代的到来,各行各业都无法避免数据洪流的洗礼,一场无声的数据变革在悄然发生.谁能更好地将隐藏在数据背后有价值的信息挖掘出来,就意味着谁能在这种变化中获得主动权,能更快更好地发展.在这背景下, ...

  2. 数据挖掘 知识发现过程与应用结构

    知识发现的基本过程 KDD是一个多步骤的处理过程,分为问题定义.数据抽取.数据预处理.数据挖掘以及知识评估等基本阶段. 数据抽取与集成技术要点 首先准确地界定所选取数据源和抽取原则,将多数据库运行环境 ...

  3. 【干货】Kaggle 数据挖掘比赛经验分享(mark 专业的数据建模过程)

    简介 Kaggle 于 2010 年创立,专注数据科学,机器学习竞赛的举办,是全球最大的数据科学社区和数据竞赛平台.笔者从 2013 年开始,陆续参加了多场 Kaggle上面举办的比赛,相继获得了 C ...

  4. 数据挖掘的一个完整过程

    在现代社会中,公司大多数商务流程的核心部分是数据.而数据挖掘的任务就是在如此海量的数据中发现有用的数据.但是仅仅发现数据那是不够的.我们必须对这种模型做出一定的反应,并采取行动,最后将有用的数据转换成 ...

  5. 《移动数据挖掘》—— 第1章 引言 1.1 移动数据及其价值

    本节书摘来自华章出版社<移动数据挖掘>一 书中的第1章,第1.1节,作者潘晓.霍 峥.孟小峰,更多章节内容可以访问云栖社区"华章计算机"公众号查看. 第1章 引言 第1 ...

  6. 统计学习基础:数据挖掘、推理和预测_数据挖掘——智能财务进阶之梯(含视频、PPT)...

    6月20日,由上海国家会计学院主办,用友.元年科技.中兴新云.金蝶集团.浪潮集团联合主办的"信息技术赋能会计融合创新"高峰论坛暨2020年影响中国会计人员的十大信息技术评选结果发布 ...

  7. 数据挖掘方法论与工程化思考

    数据挖掘方法论与工程化思考 金融科技实战 百家号 08-11 23:41 数据挖掘标准流程 CRISP-DM (cross-industry standard process for data min ...

  8. Kaggle 数据挖掘比赛经验分享 (转载)

     [干货]Kaggle 数据挖掘比赛经验分享 (转载) 标签: 数据挖掘数据科学家机器学习kaggle 2017-05-21 19:25 99人阅读 评论(0) 收藏 举报 本文章已收录于: 分类 ...

  9. 数据挖掘的最佳学习清单

    本文来自:陈旸的专栏<数据分析实战 45 讲> 数据挖掘,从知识清单开始 我列了一个数据挖掘的知识清单,分别是数据挖掘的基本流程.十大算法和数学原理,以此来开启我们的学习之旅. 以下是我对 ...

最新文章

  1. asp.net文件上传下载的简单实现
  2. SQLite数据库简介
  3. 移动界面设计点滴:工欲善其事,必先利其器[转]
  4. 平板电脑有必要买吗_华为平板M6值得买吗
  5. 【论文解读】DCN-M:Google提出改进版DCN,用于大规模排序系统的特征交叉学习(附代码)...
  6. zTree v2.6 - v3.0 文件对比
  7. 随想录(一种新的读写锁的写法)
  8. sitecore系统教程之体验编辑器
  9. win7 中出现“为了配置TCP/IP,必须安装并启动网络适配卡“问题的解决办法
  10. LOJ 6409. 「ICPC World Finals 2018」熊猫保护区
  11. Redis支持的数据类型及其使用场景
  12. 电脑连接了HDMI线,电脑没有声音了,原因和解决办法
  13. RadioButtonList 横着排列
  14. 5款免费分区工具,快给你的磁盘洗洗澡吧
  15. R语言 |在官网查找程序包(packages)的官方说明书
  16. 什么是 SourceMap?
  17. 【愚公系列】2022年03月 微信小程序-富文本编辑器
  18. Mathematica入门教程笔记(可配套视频食用)
  19. Web矢量图设计器可以应用在那些领域
  20. SAP SD 基础知识之行项目类别(Item Category)

热门文章

  1. PDF文件有编辑权限,怎么编辑PDF文件?
  2. 笔记-项目干系人管理-控制干系人参与
  3. java基于ssm框架开发的高校实验室预约管理系统实战项目
  4. mysql主从skip1677_mysql主从复制部署
  5. 百度地图:为标记添加点击事件显示标注
  6. 银行招计算机专业算什么岗,银行计算机专业岗位全方位分析
  7. zblog php 优化,Zblog单页面优化,Zblog后台地址修改
  8. 令人生畏的源码,到底该怎样看?
  9. python含义是什么_python _=是什么意思
  10. 互联网晚报 | 7月9日 星期六 |马斯克终止收购推特;​B 站回应 2 亿余条用户账号疑泄露传闻;上海逐步开放电影院和演出场所...