数据挖掘概念与技术——读书笔记(1)
原书第三版
Jiawei Han Micheline Kamber Jian Pei 著
第一章 引论
为什么进行数据挖掘
解决“数据丰富,但信息贫乏”的问题。
数据的爆炸式增长,广泛可用,巨大数量 ——> 数据时代 ——> 需要功能强大和通用的工具,从海量数据中发现有价值的信息。
什么是数据挖掘
从数据中挖掘知识。
- 数据清理(消除噪声和删除不一致的数据)
- 数据集成(多种数据源可以组合在一起)
- 数据选择(从数据库中提取与分析任务相关的数据)
- 数据变换(通过汇总或聚集操作,把数据变换和统一成适合挖掘的形式)
- 数据挖掘(基本步骤,使用智能方法提取数据模式)
- 模式评估(根据某种兴趣度度量,识别代表知识的真正有趣的数据)
- 知识表示(使用可视化和知识表示技术,向用户提供挖掘的知识)
可以挖掘什么类型的数据
- 数据库数据
- 由一组内部相关的数据和一组管理和存取数据的软件程序组成。
- 关系数据库是表的汇集(属性—>字段或列,元祖—>记录或行)。对象被唯一关键字标识,被一组属性值描述。
- 数据仓库
- 从多个数据源收集的信息储存库(例如分部遍布全世界的公司的数据库)
- 从多个数据源收集的信息储存库(例如分部遍布全世界的公司的数据库)
- 事务数据
- 每个记录代表一个事务。
- 包含一个唯一的事务标识号,以及一个组成事务的项。
- 例如商场的第50条交易记录,用户购买了A,D,F这三件物品。
- 其他类型的数据
- 空间数据,超文本和多媒体数据……等等
可以挖掘什么类型的模式
- 描述性(刻画目标数据中数据的一般性质)
- 预测性(在当前数据上做出归纳,以便进行预测)
类/概念描述:特征化与区分
数据特征化:目标类数据的一般特性或特征的汇总
数据区分:将目标类,与一个或多个可比较类进行比较。
例如:定期购买电脑产品的客户和不购买电脑产品的客户进行比较。
挖掘频繁模式、关联和相关性
频繁模式:在数据中频繁出现的模式。
- 频繁项集:频繁在事务数据集中一起出现(顾客在小卖部总是一起买牛奶和面包)
- 频繁子序列:顾客先买数码相机,再买内存卡。
- 频繁子结构
关联分析(例如分析,哪些商品总是一起被购买)
- “computer”=>“software”[1% , 50%] 表示所有事务的1%显示计算机和软件被同时购买。购买了计算机的人,有50%的可能性会选择购买软件。
相关性(相关联的属性-值对之间的统计相关性)
用于预测分析的分类和回归
- 分类:找出描述和区分数据类或概念的模型(或函数),预测类别标号。
- 回归:建立连续值函数模型,预测缺失的或难以获得的数值数据值。
相关分析可能需要在分类和回归之前进行,它试图识别与分类和回归过程显著相关的属性。
聚类分析
聚类分析:分析数据对象,而不考虑类标号。可以使用聚类产生数据组群的类标号。
—>“最大化类内相似性,最小化类间相似性”
离群点分析
异常挖掘。有时看做噪声而丢弃,但是在比如欺诈检测等应用中,罕见事件的出现,更令人感兴趣。
所有模式都是有趣的吗?
- 易于被人理解
- 在某种确信度上,对于新的或检验数据是有效的
- 潜在有用的
- 新颖的
客观度量:支持度,置信度。
使用什么技术
- 统计学:例如建立分类或预测模型之后,统计假设检验来验证模型
- 机器学习:监督学习(基本上是分类的同义词),无监督学习(本质上是聚类的同义词),半监督学习,主动学习
- 信息检索:搜索文档或文档中信息的科学
面向什么类型的应用
商务智能、Web搜索、生物信息学、卫生保健信息学、金融、数字图书馆……
数据挖掘的主要问题
- 挖掘方法
- 新的知识类型、多维空间中的知识、跨学科、网络环境下的挖掘能力、模式评估
- 用户交互
- 结合背景知识
- 表示和可视化,使知识更容易理解
- 有效性与可伸缩性
- 处理多种多样的数据类型
- 动态的、复杂的。
- 数据挖掘与社会
- 保护隐私
- 社会影响
自己加油加油 笨鸟后飞也要飞呀飞
数据挖掘概念与技术——读书笔记(1)相关推荐
- 数据挖掘概念与技术课后笔记
数据挖掘概念与技术一 数据爆炸:自动数据收集工具和成熟的数据库技术使大量的数据被收集,储存在数据库.数据仓库或其他信息库中以待分析. 数据挖掘:从大量的数据中挖掘令人感兴趣的.有用的.隐含的.先去未知 ...
- 【读书笔记-数据挖掘概念与技术】数据立方体技术
基本概念: 基本单元:基本方体的单元 聚集单元:非基本方体的单元 冰山立方体:部分物化的立方体 最小支持度(最小支持度阀值):部分物化的最小阀值(说白了就是限定了一个范围) ∵冰山立方体仍有大量不感兴 ...
- 【数据挖掘概念与技术】学习笔记5-数据立方体技术
基本方体是数据立方体中泛化程度最低的方体.泛化程序最高的方体是顶点方体,通常用all表示.基本方体的单元是基本单元,非基本方体的单元是聚集单元. 聚集单元在一个或多个维上聚集,其中每个聚集维用单元记号 ...
- 现代计算机密码学阶段主要有两个方向,密码学技术读书笔记
关于密码学技术读书笔记 一.密码学的介绍 密码学(在西欧语文中,源于希腊语kryptós"隐藏的",和gráphein"书写")是研究如何隐密地传递信息的学科. ...
- 读书笔记《数据挖掘概念与技术》第2章 数据预处理 2.4 数据集成和变换
<数据挖掘:概念与技术(原书第2版)> 2.4 数据集成和变换 数据挖掘经常需要数据集成-合并来自多个数据存储的数据.数据还可能需要转换成适于挖掘的形式.本节介绍数据集成和数据变换. 2. ...
- 数据挖掘 概念与技术(原书第3版)
<数据挖掘:概念与技术(原书第3版)>完整全面地讲述数据挖掘的概念.方法.技术和全新研究进展.本书对前两版做了全面修订,加强和重新组织了全书的技术内容,重点论述了数据预处理.频繁模式挖掘. ...
- 数据挖掘导论Pangaea-Ning Tan 读书笔记——(第一,二,三章)
<数据挖掘导论>Pang-Ning Tan ,Michael Steinbach,Vipin Kumar 读书笔记, 第一章 绪论 数据挖掘任务 预测任务 描述任务 分类任务 回归任务 聚 ...
- 【读书笔记-数据挖掘概念与技术】聚类分析:基本概念和方法
下图摘自:http://blog.163.com/qianshch@126/blog/static/48972522201092254141315/ 主要的聚类方法可以划分为以下几类: 划分方法 层次 ...
- 【读书笔记-数据挖掘概念与技术】数据挖掘的发展趋势和研究前沿
复杂的数据类型 数据挖掘的其他方法 关于数据挖掘基础的观点: 可视和听觉数据挖掘 数据可视化 数据挖掘结构可视化 数据挖掘过程可视化 交互式可视数据挖掘 数据挖掘的应用 转载于:https://www ...
- 【读书笔记-数据挖掘概念与技术】分类:高级方法
贝叶斯信念网络 这个贝叶斯信念网络和上一章学的朴素贝叶斯分类,最大的不同点在于: 朴素贝叶斯分类法假定类条件独立,即给定元组的类标号,假定属性的值可以条件地相互独立.这一假定简化了计算. 贝叶斯信念网 ...
最新文章
- linux change linux login shell
- Py之av:av库的简介、安装、使用方法之详细攻略
- Java第十次作业--多线程
- java不同垃圾回收器_细述 Java垃圾回收机制→Types of Java Garbage Collectors
- c 结构体中的变长数组
- 神经网络入门--连载1
- 黑马博客——详细步骤(十)项目功能的实现之开发环境与生产环境
- 汇编三星题:已知数组A包含20个互不相等的字型整数,数组B包含30个互不相等的字型整数,试编制一程序把在A中而不在B中出现的整数放于数组C中。
- 小猿圈web分享-一个web全栈工程师的面试总结
- 【小憩】流光容易把人抛,红了樱桃,绿了芭蕉
- java获取本地真实ip
- App开发国内常用的应用市场
- Python爬取热门微博评论--问题与解决(1)
- 豆豆趣事[2014年04月]
- ReportNG测试报告的定制修改
- 计算机操作系统--缺页中断与越界中断
- 【个人网站】个人网站搭建预备工作
- 汉诺塔(hanio)
- 帆软报表文件上传、下载及删除功能
- 互联网金融开发软件公司值得选择的有哪些?
热门文章
- Silverlight XAP文件运行器
- python怎么重新运行_如何用python重新运行程序
- 【GitHub前端练手项目--50天50个项目---商品加载效果-----day08】
- Incorrect string value: '\xF0\x9F\x91\x80' for column数据库中添加表情报错
- 彻底研究jQuery教程
- python导入excel加入折线图_Python openpyxl 插入折线图实例
- mac苹果电脑有什么免费的系统清理软件?
- Android开发这么久你竟然还不知道Dropbox?
- 媒体专访 | 许彬教授:我们离元宇宙Big Bang有多近?
- mt管理器去除应用广告