很久以前就一直想好好了解下数据挖掘相关的知识,一直拖到现在。现在正处于大数据时代,数据挖掘有着广泛的应用前景。数据挖掘概念与技术.pdf

1.什么是数据挖掘?其作用和意义是什么?

近年来互联网飞速发展,快速增长的海量数据收集,存放在大型数据库中。然而,虽然数据丰富,但信息贫乏,没有强有力的工具,理解它们已经远远超出了人的能力。数据挖掘就是从大量的数据中提取或"挖掘"知识,也叫知识挖掘。通过数据挖掘工具进行数据分析,发现重要的数据模式,将数据转换为知识。数据挖掘研究的目的开发有效的数据挖掘工具。

2.数据库知识发现的一般过程

(1)数据清理(消除噪音或不一致数据)

(2)数据集成(多种数据源可以组合在一起)

(3)数据选择(从数据库中提取与分析任务相关的数据)

(4)数据变换(数据变换或同一成适合数据挖掘的形式;如通过汇总或聚类操作)

(5)数据挖掘(基本步骤,使用智能方法提取数据模式)

(6)模式评估(根据某种兴趣度度量,识别提供知识的真正有趣的模式)

(7)知识表示(使用可视化和知识表示技术,向用户提供数据挖掘的知识)

3.数据挖掘系统的主要组成部分

(1)数据仓库:一种多个异种数据源在单个站点以统一的模式组织存储,以支持管理决策。

(2)知识库:邻域知识,用于指导搜索,或评估结果模式的兴趣度。

(3)数据挖掘引擎:数据挖掘系统基本的部分,由一组功能模块组成,用于特征,关联,分类,聚类分析,演变或偏差分析。

(4)模式评估模块:通常,该部分使用兴趣度度量,并与挖掘模块交换,以便将搜索聚焦在有趣的模式上。

4.模式兴趣度的客观度量

1)支持度

对于形如的关联规则,一种客观度量是规则的支持度。规则的支持度的表示满足规则的样本百分比。支持度是概率

,其中,表示同时包含X和Y的事务,如下式所示。

2)置信度

置信度是条件概率P(Y|X);即包含X的事务也包含Y事务的概率,如下式所示

数据挖掘概念与技术学习笔记(1)相关推荐

  1. 数据挖掘概念与技术课后笔记

    数据挖掘概念与技术一 数据爆炸:自动数据收集工具和成熟的数据库技术使大量的数据被收集,储存在数据库.数据仓库或其他信息库中以待分析. 数据挖掘:从大量的数据中挖掘令人感兴趣的.有用的.隐含的.先去未知 ...

  2. 【数据挖掘概念与技术】学习笔记5-数据立方体技术

    基本方体是数据立方体中泛化程度最低的方体.泛化程序最高的方体是顶点方体,通常用all表示.基本方体的单元是基本单元,非基本方体的单元是聚集单元. 聚集单元在一个或多个维上聚集,其中每个聚集维用单元记号 ...

  3. 【读书笔记-数据挖掘概念与技术】数据立方体技术

    基本概念: 基本单元:基本方体的单元 聚集单元:非基本方体的单元 冰山立方体:部分物化的立方体 最小支持度(最小支持度阀值):部分物化的最小阀值(说白了就是限定了一个范围) ∵冰山立方体仍有大量不感兴 ...

  4. 小五思科技术学习笔记之SSH

    下面介绍一下相关概念: SSH的概念: SSH的英文全称为Secure Shell,SSH使用TCP的22号端口,其目的是要在非安全的网络上提供安全的远程登陆和其他安全的网络服务, 为什么要使用SSH ...

  5. 知识图谱技术学习笔记

    知识图谱技术学习笔记 从一开始的Google搜索,到现在的聊天机器人.大数据风控.证券投资.智能医疗.自适应教育.推荐系统,无一不跟知识图谱相关.它在技术领域的热度也在逐年上升. 本文以通俗易懂的方式 ...

  6. SpringBoot整合第三方技术学习笔记(自用)

    SpringBoot整合第三方技术学习笔记 搬运黑马视频配套笔记 KF-4.数据层解决方案 KF-4-1.SQL 回忆一下之前做SSMP整合的时候数据层解决方案涉及到了哪些技术?MySQL数据库与My ...

  7. java mvc框架代码_JAVA技术学习笔记:SpringMVC框架(内附入门程序开发代码)

    原标题:JAVA技术学习笔记:SpringMVC框架(内附入门程序开发代码) JavaEE体系结构包括四层,从上到下分别是应用层.Web层.业务层.持久层.Struts和SpringMVC是Web层的 ...

  8. 《SAS编程与数据挖掘商业案例》学习笔记之十九

    继续<SAS编程与数据挖掘商业案例>学习笔记,本文侧重数据处理实践,包括:HASH对象.自定义format.以及功能强大的正则表达式 一:HASH对象 Hash对象又称散列表,是根据关键码 ...

  9. 《SAS编程与数据挖掘商业案例》学习笔记之十六

    <SAS编程与数据挖掘商业案例>学习笔记,本次重点:sas宏变量 内容包括:宏变量.宏函数.宏参数.通配函数.字符函数.计算函数.引用函数.宏语句.宏应用 1.宏触发器: %name-to ...

  10. 《SAS编程与数据挖掘商业案例》学习笔记之十四

    继续<SAS编程与数据挖掘商业案例>学习笔记系列,本次重点:常用全程语句 所谓全程语句,是指可以用在任何地方的sas语句,既可以用在data数据步语句里面,也可以用在proc过程步里面,甚 ...

最新文章

  1. Linux批量部署 EXPECT 使用
  2. [转]Teach Yourself Programming in Ten Years——用十年教会自己编程
  3. 002 模板实参推断、重载与模板
  4. mysql丢失链接_MySQL远程连接丢失问题解决方法
  5. vscode标记_高效扩展工具让 VS Code 如虎添翼
  6. python开发-常见面试题
  7. C# --- WinForm基本知识与绘图(上)
  8. vue 局部回到顶部_VUE回到顶部功能
  9. j3服务器维修教程,服务器维修基本技术手册.docx
  10. 知识点九:散列表(中)
  11. 60个英文阅读网站强力推荐
  12. Ubuntu 20.04/21.04 不能检测到外部HDMI显示器
  13. android九宫格隐藏,android九宫格锁屏控件
  14. 快速定量,Abbkine 蛋白质定量试剂盒BCA法来了!
  15. BIM——建筑信息模型 工程造价培训班
  16. html网络图片占位,界面图片的占位图的处理方法与流程
  17. 2023吉林大学计算机考研信息汇总
  18. Vue、Node全栈项目~面向小白的博客系统~
  19. 知到/智慧树——程序设计基础(C语言)进阶篇
  20. java语言不用pow函数求x的n次方_【算法】自己实现x的n次幂(pow函数)

热门文章

  1. hp6960无法连接计算机,惠普6960驱动
  2. ISO50001认证咨询,ISO50001能源管理体系认证企业初次审核需要准备的材料
  3. 信号与线性系统分析(吴大正,郭宝龙)(5-系统定义与典型系统)
  4. Clover 驱动文件夹_四叶草Clover相关
  5. pc版本Line电脑多开软件,多开分身软件
  6. android 二进制编辑器,二进制编辑器 (c + +)
  7. task文件服务器无法反弹,手把手带你玩转NAS 篇二十一:小米Redmi AC2100路由器刷机padavan保姆级教程...
  8. TK1装kuboki的USB驱动和TK1的无线网卡驱动
  9. html5游戏网页代码大全,HTML网页代码大全
  10. 用设计解决问题 ——访小米科技、小米路由器事业部总经理 唐沐