1. 简介

大数据时代正在唤醒企业通过利用客户数据获得竞争优势的机会。数据的广泛使用性和高度复杂性让仅使用传统决策技术来盈利变成不可能。这些传统方法主要使用电子表格,数据库查询和其它商业智能工具。另外,人们对从大数据中提取的有用信息和知识方法越来越感兴趣,这使得决策风格从基于经验直觉逐渐转变成数据驱动。与此同时,强大的计算机和互联网技术,海量数据和高效算法的融合,催化了数据科学和数据挖掘技术的发展,最终提高和加快数据挖掘技术的推广并帮助企业获取竞争优势。本章旨在概述数据挖掘的一般概念,CRISP-DM流程以及可应用于各种商业问题的各种数据挖掘技术。

2. 什么是数据挖掘

谬误:数据挖掘是一个计算机驱动的过程,它在庞大,复杂的数据库中寻找模式,并自动给出结果。事实:数据挖掘是一个用户驱动的过程,它使用计算机浏览大量数据,从而发现有用的规律模式。

2.1. 解释数据挖掘

数据挖掘有许多不同的定义,下面是一些有见地的分享。
“从极大的数据库中提取从前未知的,可操作的信息以挖掘知识的过程。”
——Aaron Zornes, The META Group
“通过使用模式识别技术以及统计和数学技术筛选存储在数据库中的大量数据来发现有意义的新相关性,模式和趋势的过程。”
—— Erick Brethenoux, Gartner Group
“数据挖掘用于发现数据中的模式和关系,以帮助您做出更好的商业决策。”
——Robert Small, Two Crows
有许多数据挖掘相关的同义词可以互换使用,例如:数据科学,预测分析,数据分析,模式分析/识别,商业智能(BI),知识挖掘,知识提取,大数据分析和文本分析。然而,他们都有相同的意义,即从数据中提取知识,因此他们都属于数据挖掘这一大类。
数据挖掘是一个多维的概念,需要从四种不同的观点考虑:

  • 数据透视

  • 知识观念

  • 技术利用

  • 应用前景

数据透视:考虑不同的数据源如关系结构数据库,非关系结构数据库如XML数据库,多媒体数据,流数据和传感器数据等;
知识观念:包括数据分类,画像,聚类,趋势分析,离群分析等;
技术利用:包括机器学习算法,统计学和数据可视化等;
应用前景:十分广泛的概念,包括一系列部门,例如:电信行业中客户流失和客户留存问题。零售业中客户细分,交叉/向上的营销策略,市场关联分析,客户生命周期价值等。金融行业中信用风险,记分卡,欺诈检测等。政府。

图2.1从数据管理的角度描述数据挖掘过程的位置以及通常关联的职业。 在通向金字塔顶端的过程中,数据变得更加简洁,并且更加有潜力支持关键业务的决策。

3.数据挖掘思考

数据是最有价值的商业资本,也是数据挖掘的先决条件。有价值的信息源可以在企业中找到,并且边界很广。例如:内部和外部的数据源,既有结构化的,又有非结构化的。内部数据源(例如数据库,报告和电子表格)存储了大量的数据。外部数据库和各种互联网资源也是获取商业价值的极好的方法,可以和内部资源结合,以便更好的洞察正在研究的问题。数据的质量是有效数据挖掘的关键。没有适当的数据,即使雇佣了最好的数据挖掘专家,也不可能获得任何有价值的知识。
最重要的数据质量要求是:

  • 相关性 — 数据是否适用于当前问题

  • 有效性 — 数据是否遵循当前环境规律

  • 完整性 — 噪声数据或丢失数据是影响数据完整性的两大因素

  • 一致性 — 信息孤岛是数据不一致性的主要原因,利用集成信息系统可以解决这个问题

  • 展示 — 可视化;门户网站,聚合应用,仪表盘,图表,电子表格等

  • 信赖 — 使用可靠的数据源,有效的处理主观数据

  • 及时性 — 最小化数据收集和数据处理之间的时间延迟

4. 数据挖掘的策略

在数据挖掘项目之前有思考回答以下问题:

  • 需要解决的实质性问题是什么?
  • 什么数据是有用的,哪一部分数据是相关的?
  • 在项目开始前需要什么样的数据预处理和清洗?
  • 应该应用哪些数据挖掘技巧?
  • 数据挖掘的结果应该被怎样分析,验证,使用?
  • 如何从数据挖掘分析中获得最多的信息?

回答这些问题的最好方法是遵循结构化的方法:数据挖掘的跨行业标准(CRISP-DM)。

5. CRISP-DM 数据挖掘跨行业标准

CRISP-DM是一个行业标准的数据挖掘流程框。它描述了数据科学家用来解决问题的常用主流方法。CRISP-DM参考模型鼓励最佳实践,并为企业提供更好更快实现数据挖掘的最优框架。

如图2.2所示,数据挖掘生命周期由六个阶段组成。各阶段的顺序并不固定,在整个过程中经常需要往返移动。每一过程的结果都输入到下一阶段,如箭头所示。外部周期代表了数据挖掘本身的周期性。从所部署的解决方案中吸取的经验教训可能会引发新的业务问题。
总之,CRISP-DM阶段是:

  • 商业理解 — 确定商业目标和数据挖掘目标
  • 数据理解 — 收集,描述,研究和验证数据的意义和质量
  • 数据准备 — 选择,清理,构造,集成和格式化数据
  • 建立模型 — 选择,构建和验证模型
  • 模型评估 — 结果是否合理,是否达到业务目标?
  • 方法实施 — 将新知识加入到业务流程中

商业理解: 初始阶段的重点是从业务角度理解项目目标和需求。随后它被定义为一个数据挖掘问题,并进一步设计成一个计划来实现这些目标;
数据理解: 从最初的数据收集开始,让数据科学家熟悉数据,识别数据质量问题,检测有趣的子集以及形成有关隐藏信息的假设;
数据准备: 涵盖了构建最终数据集所需的所有活动。原始数据中的一些数据将被输入到模型中。数据准备任务可能被多次执行,而不是按任何规定的顺序执行。数据准备主要包括了数据画像,数据清洗,属性选择,以及建模工具的数据转换和清理。
建立模型: 通过指定的参数并将其校准为最佳值来选择并应用一种或多种建模技术。 通常对于同一个数据挖掘问题有多种技术。有些技术需要特定格式的数据,因此需要迭代数据准备。
模型评估: 十分重要的阶段。在最终部署模型之前,必须彻底评估模型并检查创建模型所执行的步骤,以确保模型正确的执行业务目标。这一步的关键目标是确定是否存在一些尚未考虑的重要业务问题。在此阶段结束时,应根据数据挖掘的结果得出结论。
与此同时,商业验证是十分重要的。因为它评估了模型的商业优势。商业验证的目的是测试模型是否能在独立的数据集上泛化,而独立的数据集是不同于用于构建模型的数据集的。测试此需求的最佳方案是使用图2.3所示的测试或验证数据集。


部署阶段将运行验证的数据模型。根据需求的不同,部署阶段可以简化为生成报告,也可以复杂到在整个企业中实现可重复的数据挖掘的过程。例如,使用所建立的模型对实时数据进行评分,以便立即做出决策。例如:接受/拒绝贷款。在一般情况下,执行部署步骤的是最终用户,而不是数据分析师。因此,对于最终用户来说,了解所创建的模型需要进行哪些操作是十分必要的。
图2.4以粗体显示了每个阶段的概要,并以斜体显示了一般任务和相关输出。

6. 数据挖掘技术分类

图2.5是数据挖掘的简单分类。
最顶层的划分将技术划分为有因变量和没有因变量。在该图中,这些变量被定义为响应变量。监督方法是有响应变量的方法,无监督方法是没有响应变量的方法。在第二个层次,有四个不同的模型,每种模型中有两种模型。对于面向预测的方法,主要区别在于响应变量的性质。分类模型与分类响应变量相关,线性回归模型与连续响应变量相关。流程图的底层显示了一组最流行的数据挖掘算法,如聚类分析,关联分析,决策树,逻辑回归,记分卡和线性回归等
下一节主要讲一下数据挖掘应用中一些常用的模型,欢迎大家参与讨论~
上述模型用Altair公司的knowledge works软件可以实现,且无需编码,大家可以去免费试用一下呀~

如果您想要了解更多信息,欢迎通过以下渠道联系我们:

公司网址:www.altair.com.cn
业务联系:KWinfo@altair.com.cn
技术联系:KWsupport@altair.com.cn

数据挖掘简介及模型介绍(一)相关推荐

  1. 数据挖掘简介及模型介绍(二)

    7.预测模型 预测模型检验并识别现有数据中的模式,以预测未来的结果.构建预测模型包括应用统计技术来获取和显示公开数据中所包含的信息. 决策树 决策树是最通用的建模技术之一.该模型可以单独用于预测,也可 ...

  2. 【Python数据挖掘】数据挖掘简介及Jupyter notebook操作介绍(图文解释 超详细)

    需要完整PPT请点赞关注收藏后评论区留言并且私信~~~ 一.数据挖掘简介 面对大量的数据,迫使人们不断寻找新的工具,对规律进行探索,为决策提供有价值的信息.数据挖掘有助于发现趋势,揭示已知的事实,预测 ...

  3. AIBlockChain:“知名博主独家讲授”人工智能创新应用竞赛【精选实战作品】之《基于计算机视觉、自然语言处理、区块链和爬虫技术的智能会议系统》软件系统案例的界面简介、功能介绍分享之四、数据挖掘

    AI&BlockChain:"知名博主独家讲授"人工智能创新应用竞赛[精选实战作品]之<基于计算机视觉.自然语言处理.区块链和爬虫技术的智能会议系统>软件系统案 ...

  4. SQL Server数据挖掘简介

    Prediction, is it a new thing for you? You won't believe you are predicting from the bed to the offi ...

  5. Interview之DS:人工智能领域求职岗位—数据科学家/数据科学工程师的职位简介、薪资介绍、知识结构之详细攻略

    Interview之DS:人工智能领域求职岗位-数据科学家/数据科学工程师的职位简介.薪资介绍.知识结构之详细攻略 目录 数据科学家/数据科学工程师的职位简介 资讯指数 1.各大互联网巨头的薪资介绍 ...

  6. Interview之CV:人工智能领域求职岗位—计算机视觉算法工程师的职位简介、薪资介绍、知识结构之详细攻略

    Interview之CV:人工智能领域求职岗位-计算机视觉算法工程师的职位简介.薪资介绍.知识结构之详细攻略 目录 计算机视觉算法工程师的职位简介 资讯指数 1.各大互联网巨头的薪资介绍 2.各大公司 ...

  7. AIBlockChain:“知名博主独家讲授”人工智能创新应用竞赛【精选实战作品】之《基于计算机视觉、自然语言处理、区块链和爬虫技术的智能会议系统》软件系统案例的界面简介、功能介绍分享之总篇

    AI&BlockChain:"知名博主独家讲授"人工智能创新应用竞赛[精选实战作品]之<基于计算机视觉.自然语言处理.区块链和爬虫技术的智能会议系统>软件系统案 ...

  8. 四川大学计算机徐教授,大话数据挖掘之数据挖掘简介

    原标题:大话数据挖掘之数据挖掘简介 人物介绍 许教授:国内数据挖掘专家.某985高校智能信息处理学术带头人 万总:某超市集团营销副总 李部长:某钢铁集团生产部部长 某985高校管理学院第五届EMBA班 ...

  9. 自动驾驶算法-滤波器系列(八)——IMM交互多模型介绍

    IMM交互多模型介绍 1. 简介 (1)IMM(Interacting Multiple Model) (2)马尔科夫概率转移矩阵 2. 算法流程 (1)输入交互(模型j) (2)卡尔曼滤波(模型j) ...

最新文章

  1. 数字图像处理:(5)非微分算子在数字图像处理中的应用
  2. 如何使用mklink命令DIY自己的Windows Live Writer——安装、保存博文到D盘
  3. BZOJ 3884 上帝与集合的正确用法 (欧拉定理)
  4. 软件详细设计说明书_校导周绪龙|软件测试第五篇——软件测试的底层思维
  5. ca证书 linux 导入_Linux CA证书服务器搭建
  6. 树莓派AI视觉云台——7、树莓派系统备份
  7. Redis实战(六):Redis的集群:AKF,主从复制的概念引入,CAP,Sentinel 哨兵
  8. 三个数差的平方公式推导过程_勾股数公式的简单推导
  9. 搭建linux测试环境有什么用_谈谈现在搭建网站用什么程序好,选择对的程序是很重要的开头...
  10. matlab 安装教程:matlab 2016a(matlab R2016a)
  11. cognos java,cognos10用JAVA如何获取passPortID(即实现单点登录)
  12. 中国气象局所有城市代码
  13. python 网站 批量 投票_python requests 简单实现易班自动登录,批量_文章发布,投票发布,评论,点赞,v2.0...
  14. 对话Oneledger联合创始人Edwin Zhang
  15. Git设置代理服务器
  16. eBPF-4-perf_map的丢失事件lost_event解读
  17. 【VMware】虚拟机中映射USB设备
  18. 3D轮廓检测技术讲解
  19. 早上喝水较健康 喝法有学问!
  20. POI使用详解 java 复杂excel导出

热门文章

  1. SQL入门之第十二讲——UNION 联合查询
  2. CentOS 8 安装天文学工具presto
  3. 常见的端口扫描类型及端口扫描原理
  4. sqlmap使用教程(sqli-labs11-20)
  5. 网站超过一个月一直不收录怎么办?亲测有效(百度和360)
  6. Appium Inspector的安装、设置及使用
  7. Excel创建sheet目录
  8. 蒙娜丽莎的微笑 css版
  9. Java 连接 Access 数据库
  10. 分布式session的问题