什么是数据挖掘?

数据挖掘是从庞大的数据集中寻找潜在有用模式的过程。它是一种多学科技能,使用机器学习,统计学和AI来提取信息以评估未来事件的概率。从数据挖掘中获得的见解用于营销,欺诈检测,科学发现等。

数据挖掘就是要发现数据之间隐藏的、未被怀疑的、以前未知但有效的关系。数据挖掘也称为数据中的知识发现(KDD),知识提取,数据/模式分析,信息收集等。

数据类型

可以对以下类型的数据执行数据挖掘

  • 关系数据库
  • 数据仓库
  • 高级数据库和信息存储库
  • 面向对象和对象关系数据库
  • 事务数据库和空间数据库
  • 异构和旧式数据库
  • 多媒体和流媒体数据库
  • 文本数据库
  • 文本挖掘和网络挖掘

数据挖掘的实施流程

数据挖掘实施过程

让我们详细研究一下数据挖掘实施过程

业务理解:

在此阶段,将建立业务和数据挖掘目标。

  • 首先,您需要了解业务和客户目标。你需要定义你的客户想要什么(很多时候甚至他们自己都不知道)
  • 盘点当前数据挖掘方案。将资源、假设、约束和其他重要因素考虑到评估中。
  • 使用业务目标和当前方案,定义数据挖掘目标。
  • 一个好的数据挖掘计划非常详细,应该制定以实现业务和数据挖掘目标。

数据理解:

在此阶段,将对数据执行健全性检查,以检查其是否适合数据挖掘目标。

  • 首先,从组织中可用的多个数据源收集数据。
  • 这些数据源可能包括多个数据库、平面文件管理器或数据多维数据集。在数据集成过程中可能会出现对象匹配和架构集成等问题。这是一个相当复杂和棘手的过程,因为来自各种来源的数据不太可能容易匹配。例如,表 A 包含一个名为 cust_no 而另一个表 B 包含一个名为 cust-id 的实体。
  • 因此,很难确保这两个给定对象是否引用相同的值。在这里,应使用元数据来减少数据集成过程中的错误。
  • 接下来,步骤是搜索所获取数据的属性。浏览数据的一个好方法是使用查询、报告和可视化工具回答数据挖掘问题(在业务阶段决定)。
  • 根据查询结果,确定数据质量。如果有任何缺失的数据,则应获取。

数据准备:

在此阶段,数据已准备好生产。

数据准备过程消耗了大约 90% 的项目时间。

应选择、清理、转换、格式化、匿名和构造来自不同来源的数据(如果需要)。

数据清理是通过平滑噪声数据和填充缺失值来“清理”数据的过程。

例如,对于客户人口统计资料,缺少年龄数据。数据不完整,应填写。在某些情况下,可能存在数据异常值。例如,age 的值为 300。数据可能不一致。例如,客户的名称在不同的表中是不同的。

数据转换操作更改数据以使其在数据挖掘中有用。可以应用以下转换

数据转换:

数据转换操作将有助于挖掘过程的成功。

平滑:它有助于消除数据中的噪声。

集合体:汇总或聚合操作将应用于数据。即,将每周销售数据汇总以计算每月和每年的总计。

普遍化:在此步骤中,在概念层次结构的帮助下,低级数据被高级概念取代。例如,城市被县取代。

正常化:在属性数据纵向扩展或缩减时执行规范化。示例:数据应在规范化后介于 -2.0 到 2.0 之间。

属性构造:这些属性是构造的,并包含有助于数据挖掘的给定属性集。

此过程的结果是可用于建模的最终数据集。

造型

在此阶段,使用数学模型来确定数据模式。

  • 根据业务目标,应为准备好的数据集选择合适的建模技术。
  • 创建一个方案来测试检查模型的质量和有效性。
  • 在准备好的数据集上运行模型。
  • 所有利益干系人都应评估结果,以确保模型能够满足数据挖掘目标。

评估:

在此阶段,根据业务目标评估所标识的模式。

  • 应根据业务目标评估数据挖掘模型生成的结果。
  • 获得业务理解是一个迭代过程。事实上,在理解的同时,由于数据挖掘,可能会提出新的业务需求。
  • 在部署阶段,将做出“通过”或“不行”决策来移动模型。

部署:

在部署阶段,您可以将数据挖掘发现发布到日常业务运营中。

  • 在数据挖掘过程中发现的知识或信息应易于非技术利益相关者理解。
  • 创建详细的部署计划,用于数据挖掘发现的运输、维护和监视。
  • 创建最终项目报告,其中包含项目期间的经验教训和关键经验。这有助于改进组织的业务策略。

数据挖掘技术

数据挖掘技术

1.分类:

此分析用于检索有关数据和元数据的重要和相关信息。此数据挖掘方法有助于对不同类中的数据进行分类。

2. 聚类:

聚类分析是一种数据挖掘技术,用于识别彼此相似的数据。此过程有助于了解数据之间的差异和相似之处。

3. 回归:

回归分析是识别和分析变量之间关系的数据挖掘方法。它用于在给定其他变量存在的情况下识别特定变量的可能性。

4. 关联规则:

此数据挖掘技术有助于查找两个或多个项之间的关联。它在数据集中发现隐藏的模式。

5.外部检测:

这种类型的数据挖掘技术是指观察数据集中与预期模式或预期行为不匹配的数据项。该技术可用于各种领域,例如入侵,检测,欺诈或故障检测等。外部检测也称为异常值分析或异常值挖掘。

6. 顺序模式:

这种数据挖掘技术有助于发现或识别特定时期内交易数据中的类似模式或趋势。

7. 预测:

预测使用了其他数据挖掘技术的组合,如趋势,顺序模式,聚类,分类等。它以正确的顺序分析过去的事件或实例,以预测未来的事件。

实施数据挖掘的挑战:

  • 需要熟练的专家来制定数据挖掘查询。
  • 过拟合:由于训练数据库规模小,模型可能不适合未来的状态。
  • 数据挖掘需要大型数据库,有时难以管理
  • 可能需要修改业务实践,以确定使用未发现的信息。
  • 如果数据集不多样化,则数据挖掘结果可能不准确。
  • 异构数据库和全球信息系统所需的集成信息可能很复杂

数据挖掘示例:

现在,在此数据挖掘课程中,让我们通过示例了解数据挖掘:

示例 1:

考虑一下电信服务供应商的营销主管,他希望增加长途服务的收入。为了在他的销售和营销工作中获得高投资回报率,客户分析非常重要。他拥有庞大的客户信息数据库,如年龄,性别,收入,信用记录等。但是,通过手动分析无法确定喜欢长途电话的人的特征。使用数据挖掘技术,他可以发现高长途呼叫用户之间的模式及其特征。

例如,他可能会了解到,他最好的客户是年龄在45至54岁之间的已婚女性,她们的年收入超过8万美元。营销工作可以针对此类人群。

示例 2:

一家银行希望寻找新的方法来增加其信用卡业务的收入。他们想检查如果费用减半,使用量是否会翻倍。

银行在平均信用卡余额,付款金额,信用额度使用情况和其他关键参数方面有多年的记录。他们创建一个模型来检查建议的新业务策略的影响。数据结果显示,将目标客户群的费用减半可以增加1000万美元的收入。

数据挖掘工具



以下是工业中广泛使用的2种流行的数据挖掘工具

R 语言:

R语言是用于统计计算和图形的开源工具。R具有各种统计,经典统计测试,时间序列分析,分类和图形技术。它提供了有效的数据处理和存储设施。

在此处了解更多信息

甲骨文数据挖掘:

Oracle Data Mining俗称ODM是Oracle高级分析数据库的一个模块。此数据挖掘工具允许数据分析师生成详细的见解并进行预测。它有助于预测客户行为,开发客户档案,识别交叉销售机会。

​​

数据挖掘的优势:

  • 数据挖掘技术帮助企业获取基于知识的信息。
  • 数据挖掘可帮助组织在运营和生产中进行有利可图的调整。
  • 与其他统计数据应用程序相比,数据挖掘是一种经济高效且高效的解决方案。
  • 数据挖掘有助于决策过程。
  • 有助于自动预测趋势和行为,以及自动发现隐藏的模式。
  • 它可以在新系统以及现有平台中实现
  • 这是一个快速的过程,使用户很容易在更短的时间内分析大量数据。

数据挖掘的缺点

  • 公司有可能将其客户的有用信息出售给其他公司以获取金钱。例如,美国运通公司已将其客户的信用卡购买出售给其他公司。
  • 许多数据挖掘分析软件难以操作,需要提前培训才能使用。
  • 由于设计中采用了不同的算法,不同的数据挖掘工具以不同的方式工作。因此,选择正确的数据挖掘工具是一项非常艰巨的任务。
  • 数据挖掘技术不准确,因此在某些情况下可能会导致严重后果。

数据挖掘应用程序

应用 用法
通信 数据挖掘技术用于通信部门,以预测客户行为,以提供高度针对性和相关的活动。
保险 数据挖掘帮助保险公司对其产品进行有利可图的定价,并向新客户或现有客户推广新产品。
教育 数据挖掘使教育工作者能够访问学生数据,预测成就水平并找到需要额外关注的学生或学生群体。例如,数学科目薄弱的学生。
制造业 在数据挖掘的帮助下,制造商可以预测生产资产的磨损。他们可以预测维护,这有助于他们减少维护,从而最大限度地减少停机时间。
银行业 数据挖掘有助于金融部门了解市场风险并管理法规遵从性。它有助于银行识别可能的违约者,以决定是否发行信用卡,贷款等。
零售 数据挖掘技术可帮助零售商场和杂货店在最专注的位置识别和安排最畅销的物品。它可以帮助店主提出鼓励客户增加支出的优惠。
服务供应商 移动电话和公用事业行业等服务提供商使用数据挖掘来预测客户离开公司的原因。他们分析账单细节,客户服务互动,向公司提出的投诉,为每个客户分配概率分数并提供奖励。
电子商务 电子商务网站使用数据挖掘通过其网站提供交叉销售和追加销售。最着名的名称之一是亚马逊,他们使用数据挖掘技术让更多客户进入他们的电子商务商店。
超市 数据挖掘允许超市的制定规则来预测他们的购物者是否可能期待。通过评估他们的购买模式,他们可以找到最有可能怀孕的女性顾客。他们可以开始定位婴儿爽身粉,婴儿用品店,尿布等产品。
犯罪调查 数据挖掘帮助犯罪调查机构部署警察队伍(犯罪最有可能发生的地方和时间?),在边境口岸搜索谁等。
生物信息学 数据挖掘有助于从生物学和医学中收集的大量数据集中挖掘生物数据。

总结:

  • 数据挖掘定义:数据挖掘就是通过数据分析来解释过去和预测未来。
  • 数据挖掘有助于从大量数据中提取信息。这是从数据中挖掘知识的过程。
  • 数据挖掘过程包括业务理解、数据理解、数据准备、建模、演进、部署。
  • 重要的数据挖掘技术包括分类、聚类、回归、关联规则、外部检测、顺序模式和预测
  • R 语言和 Oracle 数据挖掘是著名的数据挖掘工具和技术。
  • 数据挖掘技术帮助企业获取基于知识的信息。
  • 数据挖掘的主要缺点是许多分析软件难以操作,需要提前培训才能使用。
  • 数据挖掘用于各种行业,如通信,保险,教育,制造,银行,零售,服务提供商,电子商务,超市生物信息学。

数据挖掘教程:什么是数据挖掘?技术,工艺相关推荐

  1. 周末送新书 | 世界名校数据挖掘经典《斯坦福数据挖掘教程(第3版)》

    <斯坦福数据挖掘教程(第3版)>上架之后,这是我们第一次整篇文章介绍这本书. 这本书相当受欢迎(前两个版本累计销量超过 5 万册),尤其是受学校青睐--在此也说声抱歉,出于出版时间的原因, ...

  2. 新书上市 | 世界名校数据挖掘经典《斯坦福数据挖掘教程(第3版)》

    题图 | 作者为 Scott  Ullman <斯坦福数据挖掘教程(第3版)>上架之后,这是我们第一次整篇文章介绍这本书. 这本书相当受欢迎(前两个版本累计销量超过 5 万册),尤其是受学 ...

  3. python医学数据挖掘_GitHub - SSSzhangSSS/Python-Data-mining-Tutorial: Python数据挖掘教程

    Python数据挖掘教程 作者 : 长行 说明 : 本教程以9周的数据挖掘教程为主,每周包括5天的知识学习和2天的案例实现. 以周为阶段,每周包括5天的知识内容(Day).1天的案例实现(Exampl ...

  4. 数据仓库与数据挖掘教程 || 警务数据仓库“犯罪_ETL”,“地址_ETL”和“派出所_ETL”数据流任务配置说明

    本文主要是关于清华大学出版社,黄德才老师<数据仓库与数据挖掘教程>第四章中关于警务数据仓库"犯罪_ETL","地址_ETL"和"派出所_E ...

  5. SPSS Modeler数据挖掘项目实战(数据挖掘、建模技术)-张璇-专题视频课程

    SPSS Modeler数据挖掘项目实战(数据挖掘.建模技术)-1018人已学习 课程介绍         本课程以SPSS Modeler为应用软件,以数据挖掘项目生命周期为线索,以实际数据挖掘项目 ...

  6. 《斯坦福数据挖掘教程·第三版》读书笔记(英文版)Chapter 12 Large-Scale Machine Learning

    来源:<斯坦福数据挖掘教程·第三版>对应的公开英文书和PPT Chapter 12 Large-Scale Machine Learning Algorithms called " ...

  7. 一位数据挖掘成功人士给数据挖掘在读研究生的建议

    为什么80%的码农都做不了架构师?>>>    关于数据挖掘方面的研究,我原来也走过一些弯路.其实从数据挖掘的起源可以发现,它并不是一门崭新的科学,而是综合了统计分析.机器学习.人工 ...

  8. 数据挖掘学习笔记01——数据挖掘的基本流程

    数据挖掘 前言 数据挖掘01--什么是数据挖掘,能解决什么问题 数据挖掘02--Python的数据结构和基本用法 数据挖掘03--工欲善其事必先利其器 扩展包与Python环境 数据挖掘04--数据学 ...

  9. 【数据挖掘笔记十三】数据挖掘的发展趋势和研究前沿

    13.数据挖掘的发展趋势和研究前沿 1.挖掘复杂数据类型,包括挖掘序列数据,如符合序列和生物学序列:挖掘图和网络:挖掘其他类型的数据,包括时间空间数据.信息物理系统数据.多媒体数据.文本和web数据, ...

最新文章

  1. [Android1.5]Android2.0版本以下Activity切换动画效果
  2. docker 数据卷 volume
  3. layer的一种用法,自己画出弹出框样式
  4. 新的服务器装Ubuntu系统(如何在windows下制作启动盘以及如何安装Ubuntu系统)
  5. 关于推送的一些记录要点
  6. Windows2003 + SQL2000群集安装手册(DELL MD3000) 之MD3000 RAID配置方法(2)
  7. 长话无需短说 讯飞输入法超长语音输入不限时
  8. 项目管理修炼之道-读书流水
  9. 关于Latent Dirichlet Allocation及Hierarchical LDA模型的必读文章和相关代码
  10. java spark 项目_spark应用程序如何在Java项目中运行
  11. 2020年下半年系统集成项目管理工程师上午试题解析(三)
  12. DbgView 显示OutputDebugString 输出内容 不能显示问题总结
  13. 无人驾驶中UTM坐标系GPS坐标系相关知识总结
  14. Elasticsearch检索分类深入详解—基础篇
  15. fiddler 手机 https 抓包
  16. 文献综述_软件单元测试
  17. ImageDataGenerator.flow_from_directory(...)
  18. python 自动玩 连连看 外挂
  19. 如何写一个优质的网站标题title?
  20. 记一个typeorm问题 Main alise is not set

热门文章

  1. C语言中的内部函数与外部函数
  2. mysql导出结构及数据结构,mysql导出数据结构+导出数据
  3. 杰理AC692X---在线EQ调试
  4. windows10系统如何解决“管理员已阻止你运行此应用“
  5. 反编译.class和原java文件的源码对比
  6. 科视Christie HS系列激光投影机为江苏园博园的夜晚增添亮丽风景线
  7. hive-关系运算符-存储压缩-hive调优
  8. U盘制作启动盘后只显示容量4M的问题解决
  9. vs2008安装问题
  10. 汇编语言零基础入门学习教程