一、数据挖掘产生的背景

1、从数据分析看数据
政治算法、概率论与数理统计、数据挖掘
2、主要原因催生数据挖掘
海量数据的分析需求
应用对理论的挑战

大数据的特征
3V——Volume(海量)、Variety(多样)、Velocity(实时)
海量——数据量巨大,对TB、PB数据级的处理,已经成为基本配置。
多样——处理多样性的数据类型,结构化数据和非结构化数据,能处理Web数据,能处理语音数据甚至是图像、视频数据。
实时——在客户每次浏览页面,每次下订单的过程中都存在,都会需要对用户进行实时的推荐,决策已经变得实时。

二、什么是数据挖掘

数据挖掘(Data Mining)是从海量数据中抽取潜在的,不为人知的有用信息、模式和趋势。
(模式——标志了事物之间隐藏的规律关系)

数据挖掘过程必须是自动的或半自动的(用计算机)
数据的总量总是相当可观的,但从中发现的模式必须是有意义的,并能产生一些效益,通常是经济上的效益。

三、数据挖掘算法

从学习过程的类型划分:有指导的学习算法;无指导的学习算法。
有指导学习。
是指有结果度量(Outcome Measurement)的指导学习过程。
根据一组特征(Features)对结果度量进行预测。
通过学习已知数据集的特征和目标变量建立起预测模型。
根据目标变量是定性还是定量通常分为分类和回归。

无指导学习
在数据中探寻新的模式
归纳和总结数据

常见的数据挖掘算法
(1)分类预测算法
1、决策树算法:
C4.5、C5.0、CART、CHAID、QUEST
2、BP算法
3、回归分析方法
线性回归分析、Logistic回归
(2)探寻内部结构的算法
1、关联规则分析
Apriori算法、序列关联
2、聚类分析
K-means聚类、谱系聚类、两步聚类、Kohonen聚类

【数据挖掘】数据挖掘概述相关推荐

  1. 一小时了解数据挖掘⑤数据挖掘步骤&常用的聚类、决策树和CRISP-DM概念

    一小时了解数据挖掘⑤数据挖掘步骤&常用的聚类.决策树和CRISP-DM概念 接前面系列4篇: 一小时了解数据挖掘①:解析常见的大数据应用案例 一小时了解数据挖掘②:分类算法的应用和成熟案例解析 ...

  2. 数据挖掘-数据挖掘综述-基础知识和概念总结

    数据挖掘-数据挖掘综述-基础知识和概念总结                                                  目录 数据挖掘-数据挖掘综述-基础知识和概念总结 1.数据 ...

  3. 数据仓库数据挖掘——商业智能概述

    商业智能(简称:BI)这一概念最早是有Gartner公司于1996年提出 定义:是对商业信息的搜集.管理和分析过程,目的是使企业的各级决策者获得知识或洞察力,促使他们做出对企业更有利的决策 从作用上说 ...

  4. 数据挖掘——数据挖掘的起源

    数据挖掘的定义还远没有达成一致,甚至没有定义出数据挖掘的构成. 数据挖掘起源于多种学科,其中最重要的是统计学和机器学习. 统计学起源于数学其强调的是数学的精确性: 机器学习主要起源于计算机实践其更倾向 ...

  5. SPSS Modeler数据挖掘:数据挖掘概述

    什么是数据挖掘 数据挖掘:是一种通过数理模式来分析大量资料,以找出不同的客户或市场划分,分析出消费者喜好和行为的方法.可以描述为 :是按企业既定业务目标,对大量的企业数据进行探索和分析,揭示隐藏的.未 ...

  6. 【数据分析与数据挖掘】第一章:概述

    本系列文章是本人学习数据分析与数据挖掘的学习笔记,参考了许多教材,如果错误欢迎评论区指出,谢谢! 目录 1.1 数据分析与数据挖掘 1.1.1 数据分析 1.1.2 数据挖掘 1.1.3 数据分析与数 ...

  7. 数据挖掘网上资料大全

    转载自:http://fpcheng.blog.51cto.com/2549627/787036 Data Mining: What Is Data Mining ? http://www.ander ...

  8. 《数据挖掘》学习框架

    博主是学习了数据挖掘课后,结合教材和老师的课件,总结了这门课整体的一个知识点框架,还算比较详细,希望大家在学习数据挖掘的时候能够给大家一个参考,以及知识点的查漏补缺.有遗漏和错误的地方多谢指正. 参考 ...

  9. 数据挖掘技术的算法与应用读书报告

    数据挖掘作为现在比较有用的支持决策系统的一种手段有着广泛的应用.其有很多种方法,本文主要基于关联规则类等相关问题进行论述.按照挖掘过程进行组织.首先,有数据仓库的建立和数据挖掘的概述.其次是关联规则的 ...

最新文章

  1. 中南大学计算机跻身国内前10,南方科大工程排名超北航丨泰晤士2021世界大学学科排名...
  2. 声音大小与振幅的关系_原来声音的属性有这三种!
  3. 奇绩创坛 2021年秋季创业营 反馈:再接再厉
  4. MySQL 5.7建表时date类型提示默认值类型错误的问题处理
  5. 行业职业病+生活安全事项
  6. HDU--1872 稳定排序
  7. c++从入门到进阶--引用与常量
  8. HBase学习笔记——概念及原理
  9. Redis中使用Lua语言
  10. 如何关闭hibernate产生的大量日志
  11. php 重写sessionid,PHP 重置 phpsessionid
  12. 三种DSO(标准DSO、写优化DSO、直接更新DSO)、标准DSO覆盖合计规则
  13. CSS font-family 属性值大全
  14. 【数据结构】范浩强Treap(非旋转平衡树)可持久化Treap总结
  15. pragma once用法总结
  16. windows server2012 r2增加内网ip
  17. linux穷举pppoe密码,Ubuntu/Linux下如何用rp-pppoe3.8通过ADSL上网
  18. kinect v2 相机标定
  19. 搜狗浏览器屏蔽广告插件_搜狗浏览器屏蔽芒果TV视频广告:被判不正当竞争,赔了12万...
  20. 联想y7000/r7000 2020款加装固态硬盘及硬盘分区,硬盘测速方法

热门文章

  1. Visual Studio(VS) Code详解
  2. JavaScript中数组indexOf()增强版,返回所有匹配索引的数组
  3. 贪吃机器人DIY(一)
  4. Opencv连通域检测
  5. Failed to remove network i5unxjx3ahdfrhksw0fmyqpjd: Error response from daemon: network *
  6. mac浏览器没有网络,通讯软件(QQ、微信、飞书等)正常
  7. H5和微信小程序测试区别
  8. Python实例教程Mechanize模块编写爬虫的要点解析
  9. R语言之LDA算法应用
  10. python文件操作练习题【学生成绩.txt】