原书第三版
Jiawei Han     Micheline Kamber     Jian Pei  著


第一章 引论

为什么进行数据挖掘

解决“数据丰富,但信息贫乏”的问题。
数据的爆炸式增长,广泛可用,巨大数量  ——>   数据时代  ——>   需要功能强大和通用的工具,从海量数据中发现有价值的信息。

什么是数据挖掘

从数据中挖掘知识。

  • 数据清理(消除噪声和删除不一致的数据)
  • 数据集成(多种数据源可以组合在一起)
  • 数据选择(从数据库中提取与分析任务相关的数据)
  • 数据变换(通过汇总或聚集操作,把数据变换和统一成适合挖掘的形式)
  • 数据挖掘(基本步骤,使用智能方法提取数据模式)
  • 模式评估(根据某种兴趣度度量,识别代表知识的真正有趣的数据)
  • 知识表示(使用可视化和知识表示技术,向用户提供挖掘的知识)

可以挖掘什么类型的数据

  • 数据库数据

    • 由一组内部相关的数据和一组管理和存取数据的软件程序组成。
    • 关系数据库是表的汇集(属性—>字段或列,元祖—>记录或行)。对象被唯一关键字标识,被一组属性值描述。
  • 数据仓库
    • 从多个数据源收集的信息储存库(例如分部遍布全世界的公司的数据库)
  • 事务数据
    • 每个记录代表一个事务。
    • 包含一个唯一的事务标识号,以及一个组成事务的项。
      • 例如商场的第50条交易记录,用户购买了A,D,F这三件物品。
  • 其他类型的数据
    • 空间数据,超文本和多媒体数据……等等

可以挖掘什么类型的模式

  • 描述性(刻画目标数据中数据的一般性质)
  • 预测性(在当前数据上做出归纳,以便进行预测)

类/概念描述:特征化与区分
数据特征化:目标类数据的一般特性或特征的汇总
数据区分:将目标类,与一个或多个可比较类进行比较。
                 例如:定期购买电脑产品的客户和不购买电脑产品的客户进行比较。

挖掘频繁模式、关联和相关性
频繁模式:在数据中频繁出现的模式。

  • 频繁项集:频繁在事务数据集中一起出现(顾客在小卖部总是一起买牛奶和面包)
  • 频繁子序列:顾客先买数码相机,再买内存卡。
  • 频繁子结构

关联分析(例如分析,哪些商品总是一起被购买)

  • “computer”=>“software”[1% , 50%] 表示所有事务的1%显示计算机和软件被同时购买。购买了计算机的人,有50%的可能性会选择购买软件。

相关性(相关联的属性-值对之间的统计相关性)

用于预测分析的分类和回归

  • 分类:找出描述和区分数据类或概念的模型(或函数),预测类别标号。
  • 回归:建立连续值函数模型,预测缺失的或难以获得的数值数据值。

相关分析可能需要在分类和回归之前进行,它试图识别与分类和回归过程显著相关的属性。

聚类分析
聚类分析:分析数据对象,而不考虑类标号。可以使用聚类产生数据组群的类标号。
—>“最大化类内相似性,最小化类间相似性”

离群点分析
异常挖掘。有时看做噪声而丢弃,但是在比如欺诈检测等应用中,罕见事件的出现,更令人感兴趣。

所有模式都是有趣的吗?

  • 易于被人理解
  • 在某种确信度上,对于新的或检验数据是有效的
  • 潜在有用的
  • 新颖的

客观度量:支持度,置信度。

使用什么技术

  • 统计学:例如建立分类或预测模型之后,统计假设检验来验证模型
  • 机器学习:监督学习(基本上是分类的同义词),无监督学习(本质上是聚类的同义词),半监督学习,主动学习
  • 信息检索:搜索文档或文档中信息的科学

面向什么类型的应用

商务智能、Web搜索、生物信息学、卫生保健信息学、金融、数字图书馆……

数据挖掘的主要问题

  • 挖掘方法

    • 新的知识类型、多维空间中的知识、跨学科、网络环境下的挖掘能力、模式评估
  • 用户交互
    • 结合背景知识
    • 表示和可视化,使知识更容易理解
  • 有效性与可伸缩性
  • 处理多种多样的数据类型
    • 动态的、复杂的。
  • 数据挖掘与社会
    • 保护隐私
    • 社会影响

自己加油加油 笨鸟后飞也要飞呀飞

数据挖掘概念与技术——读书笔记(1)相关推荐

  1. 数据挖掘概念与技术课后笔记

    数据挖掘概念与技术一 数据爆炸:自动数据收集工具和成熟的数据库技术使大量的数据被收集,储存在数据库.数据仓库或其他信息库中以待分析. 数据挖掘:从大量的数据中挖掘令人感兴趣的.有用的.隐含的.先去未知 ...

  2. 【读书笔记-数据挖掘概念与技术】数据立方体技术

    基本概念: 基本单元:基本方体的单元 聚集单元:非基本方体的单元 冰山立方体:部分物化的立方体 最小支持度(最小支持度阀值):部分物化的最小阀值(说白了就是限定了一个范围) ∵冰山立方体仍有大量不感兴 ...

  3. 【数据挖掘概念与技术】学习笔记5-数据立方体技术

    基本方体是数据立方体中泛化程度最低的方体.泛化程序最高的方体是顶点方体,通常用all表示.基本方体的单元是基本单元,非基本方体的单元是聚集单元. 聚集单元在一个或多个维上聚集,其中每个聚集维用单元记号 ...

  4. 现代计算机密码学阶段主要有两个方向,密码学技术读书笔记

    关于密码学技术读书笔记 一.密码学的介绍 密码学(在西欧语文中,源于希腊语kryptós"隐藏的",和gráphein"书写")是研究如何隐密地传递信息的学科. ...

  5. 读书笔记《数据挖掘概念与技术》第2章 数据预处理 2.4 数据集成和变换

    <数据挖掘:概念与技术(原书第2版)> 2.4 数据集成和变换 数据挖掘经常需要数据集成-合并来自多个数据存储的数据.数据还可能需要转换成适于挖掘的形式.本节介绍数据集成和数据变换. 2. ...

  6. 数据挖掘 概念与技术(原书第3版)

    <数据挖掘:概念与技术(原书第3版)>完整全面地讲述数据挖掘的概念.方法.技术和全新研究进展.本书对前两版做了全面修订,加强和重新组织了全书的技术内容,重点论述了数据预处理.频繁模式挖掘. ...

  7. 数据挖掘导论Pangaea-Ning Tan 读书笔记——(第一,二,三章)

    <数据挖掘导论>Pang-Ning Tan ,Michael Steinbach,Vipin Kumar 读书笔记, 第一章 绪论 数据挖掘任务 预测任务 描述任务 分类任务 回归任务 聚 ...

  8. 【读书笔记-数据挖掘概念与技术】聚类分析:基本概念和方法

    下图摘自:http://blog.163.com/qianshch@126/blog/static/48972522201092254141315/ 主要的聚类方法可以划分为以下几类: 划分方法 层次 ...

  9. 【读书笔记-数据挖掘概念与技术】数据挖掘的发展趋势和研究前沿

    复杂的数据类型 数据挖掘的其他方法 关于数据挖掘基础的观点: 可视和听觉数据挖掘 数据可视化 数据挖掘结构可视化 数据挖掘过程可视化 交互式可视数据挖掘 数据挖掘的应用 转载于:https://www ...

  10. 【读书笔记-数据挖掘概念与技术】分类:高级方法

    贝叶斯信念网络 这个贝叶斯信念网络和上一章学的朴素贝叶斯分类,最大的不同点在于: 朴素贝叶斯分类法假定类条件独立,即给定元组的类标号,假定属性的值可以条件地相互独立.这一假定简化了计算. 贝叶斯信念网 ...

最新文章

  1. linux change linux login shell
  2. Py之av:av库的简介、安装、使用方法之详细攻略
  3. Java第十次作业--多线程
  4. java不同垃圾回收器_细述 Java垃圾回收机制→Types of Java Garbage Collectors
  5. c 结构体中的变长数组
  6. 神经网络入门--连载1
  7. 黑马博客——详细步骤(十)项目功能的实现之开发环境与生产环境
  8. 汇编三星题:已知数组A包含20个互不相等的字型整数,数组B包含30个互不相等的字型整数,试编制一程序把在A中而不在B中出现的整数放于数组C中。
  9. 小猿圈web分享-一个web全栈工程师的面试总结
  10. 【小憩】流光容易把人抛,红了樱桃,绿了芭蕉
  11. java获取本地真实ip
  12. App开发国内常用的应用市场
  13. Python爬取热门微博评论--问题与解决(1)
  14. 豆豆趣事[2014年04月]
  15. ReportNG测试报告的定制修改
  16. 计算机操作系统--缺页中断与越界中断
  17. 【个人网站】个人网站搭建预备工作
  18. 汉诺塔(hanio)
  19. 帆软报表文件上传、下载及删除功能
  20. 互联网金融开发软件公司值得选择的有哪些?

热门文章

  1. Silverlight XAP文件运行器
  2. python怎么重新运行_如何用python重新运行程序
  3. 【GitHub前端练手项目--50天50个项目---商品加载效果-----day08】
  4. Incorrect string value: '\xF0\x9F\x91\x80' for column数据库中添加表情报错
  5. 彻底研究jQuery教程
  6. python导入excel加入折线图_Python openpyxl 插入折线图实例
  7. mac苹果电脑有什么免费的系统清理软件?
  8. Android开发这么久你竟然还不知道Dropbox?
  9. 媒体专访 | 许彬教授:我们离元宇宙Big Bang有多近?
  10. mt管理器去除应用广告