【阅读笔记】《大话数据挖掘》定义和功能
1、什么是数据挖掘?
从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中、人们事先不知道的、但潜在有用的信息和知识的过程。
l 噪音数据 由于异常情况的干扰、仪器故障、人工输入或者抄写错误,使获得的数据偏离真实值。
l 事物的不确定性:
模糊性(事物本身从属概念的不确定性,高矮......)
不确定性(事件发生与否的不确定性)
l 数据仓库 Data Warehouse
数据仓库之父比尔·恩门(Bill Inmon)在1991年出版的“Building the Data Warehouse”(《建立数据仓库》)一书中所提出的定义被广泛接受——
数据仓库(Data Warehouse)是一个面向主题的(Subject Oriented)、集成的(Integrated)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理决策(Decision Making Support)。
主要功能:将组织透过资讯系统之联机事务处理(OLTP)经年累月所累积的大量资料,透过数据仓库理论所特有的资料储存架构,作一有系统的分析整理,以利各种分析方法如联机分析处理(OLAP)、数据挖掘(Data Mining)之进行,并进而支持如决策支持系统(DSS)、主管资讯系统(EIS)之创建,帮助决策者能快速有效的自大量资料中,分析出有价值的资讯,以利决策拟定及快速回应外在环境变动,帮助建构商业智能(BI)。
PS:
l EMBA Executive Master of Business Administration
高级管理人员MBA工商管理硕士
l 萨姆 沃尔顿 沃尔玛公司创始人
服务理念:
日落原则(今日事今日毕)
十英尺态度/三米微笑(每当你在三米以内遇到一位顾客时,你会看着他的眼睛与他打招呼,同时询问你能为他做些什么)
营销策略:
女裤理论(薄利多销)
啤酒与尿布(商品关联性分析,购物篮分析market basket analysis)
2、数据挖掘的功能
2.1 关联Association 规则挖掘
Apriori 经典关联算法
首先从事件集中寻找所有频繁出现的事件子集,然后从这些频繁出现的事件子集中发现可信度较高的规则。
2.2 聚类
将数据对象划分为若干个类,在同一类的对象具有较高的相似度,而不同的类中的对象差异较大。(进行聚类之前,并不知道所研究对象有多少个类)
基于距离的距离算法
l 划分方法Partitioning Method
(1)K-Means
(2)K-Medoids
l 层次聚类方法 Hierarchial Method
(3)聚集
(4)分裂
(1)K-Means 算法
把n个数据对象划分为K个类,使每个类中的数据点到该类中心的距离平方和最小。
PS:凡满足距离定义的四个条件(唯一性、非负性、对称性、三角不等式)的函数都可作为距离公式。
Ø 尝试找出使平方误差最小的聚类个数K,需要用若干个K去尝试。
Ø 将已经聚类的点的均值(质心)作为新的聚类中心
Ø 应用效果:当结果簇是密集的,而簇与簇之间区别明显时,K-Means算法的效果较好。
(1)K-Mediods算法
在K-Means 算法的基础上,K-Mediods算法用簇中靠近中心的一个对象代替该簇。
Ø K-Means算法用质心代替簇,可见K-Means算法对噪声和孤立点数据非常敏感,因为一个离群值会对质心的计算带来很大的影响。
Ø 而K-Mediods算法可有效消除这种影响。
Ø 两种算法的不足:
K-Means 算法 和 K-Mediods算法 只有在簇数据点的平均值有定义的情况下才能使用。
不适合涉及离散属性的数据,即不适合非球状的簇。
例如两本书:
A=(小说,英文,译林出版社) B=(诗歌,中文,人民文学出版社)
PS:
非球状的簇的聚类问题
基于密度的聚类算法 Density-based Method
从数据对象的分布密度出发,把密度足够大的区域连接起来,从而可以发现任意形状的簇,且此类算法还可有效去除噪声。
(3)层次聚类算法 Hierarchical Method
将数据分层建立簇,形成一棵以簇为节点的树。
Aggalomerative 凝聚 自底向上进行层次聚集
首先将每个对象作为一个簇,然后逐渐合并这些簇形成较大的的簇,知道所有对象都在同一簇中,或者满足某个终止条件。
Divisive 分裂法 自顶向下进行层次分解
首先将所有对象置于同一簇中,然后逐渐划分为越来越小的簇,直到每个对象自称一簇,或者达到某个终止条件,例如达到了期望的簇数目,或两个最近的簇之间的距离超过了一定的阈值。
优点:层次方法可以在不同粒度水平上对数据进行探测,容易实现相似度量或距离度量。
缺点:单纯的层次聚类算法终止条件含糊,执行合并或分裂簇的操作不可修正,可能导致聚类结果质量很低。而且需要检查和估算大量对象或簇才能决定簇的合并或分裂,所以可扩展性较差。所以实际解决中,将层次算法和其他聚类算法结合,形成多阶段聚类,能够改善聚类质量。这种方法包括:BRICH、CURE、ROCK、Chameleon等。
转载于:https://www.cnblogs.com/hhxxgdd/p/10466577.html
【阅读笔记】《大话数据挖掘》定义和功能相关推荐
- 1444_TC275 DataSheet阅读笔记5_部分管脚功能的梳理
全部学习汇总: GreyZhang/g_TC275: happy hacking for TC275! (github.com) 继续看这个DataSheet,其实从这里面还是能够看到很多新的概念的. ...
- 双稳态环PUF:一种强物理不可封闭功能的新架构阅读笔记
双稳态环PUF:一种强物理不可克隆函数的新架构阅读笔记 原文:<The Bistable Ring PUF: A New Architecture for Strong Physical Unc ...
- 经管文本分析 | 金融学文本大数据挖掘方法与研究进展阅读笔记
姚加权 张锟澎 罗平 <经济学动态>2020年第4期 沈艳 陈赟 黄卓 <经济学(季刊)> 2019年第4期 前言 本文是刊载于<经济学(季刊)>2019年第4期& ...
- 大话数据结构及JAVA数据结构阅读笔记
目录 一.大话数据结构随书阅读笔记 第一章 数据结构概述 第二章 算法概述 第三章 线性表 第四章 栈与队列 第五章 串 第六章 树 第七章 图 第八章 查找 第九章 排序 二.大话数据结构思维导图 ...
- 【阅读笔记】精益开发实践用看板管理大型项目
[阅读笔记]精益开发实践用看板管理大型项目 参考 精益开发实践用看板管理大型项目 文章目录 [阅读笔记]精益开发实践用看板管理大型项目 一.我们如何工作(案例研究) 1.项目背景 2.组织团队 3.每 ...
- 05《软件需求模式》阅读笔记
剩下的两个阅读笔记写第二部分.各类需求模式,共八个领域和它的需求模式,这一次写前四个. 基础需求模式,它是所有种类的系统都可能需要的一些东西.系统间接口需求模式使用系统间接口需求模式定义被定义的系统和 ...
- 代码分析:NASM源码阅读笔记
NASM源码阅读笔记 NASM(Netwide Assembler)的使用文档和代码间的注释相当齐全,这给阅读源码 提供了很大的方便.按作者的说法,这是一个模块化的,可重用的x86汇编器, 而且能够被 ...
- [python Cookbook]阅读笔记
@toc] 前记:为了补充一下python语法知识,感谢网友的推荐阅读了pythonCookbook,这本书确实不错,以问题为导向,引导解决思路. 这个博文是从阅读笔记typora中直接复制过来的没有 ...
- CI框架源码阅读笔记4 引导文件CodeIgniter.php
到了这里,终于进入CI框架的核心了.既然是"引导"文件,那么就是对用户的请求.参数等做相应的导向,让用户请求和数据流按照正确的线路各就各位.例如,用户的请求url: http:// ...
- Qt文档阅读笔记-共享库的创建与调用
使用共享库的符号 这个符号可以作用在变量.类.函数中,并且这些都可以被调用端使用. 在编译共享库中,需要使用export符号.在使用端调用的时候使用import符号. 这里是本人从文档中记录的笔记,大 ...
最新文章
- android 不可点击状态,Android开机指引后notification应为不可点击状态
- SDN协议与SD-WAN中使用的协议相比有何差别?
- AtomicInteger原子性
- java convexhull_图像上划凸多边形(convexHull()函数)
- Fast R-CNN: 我变快了,也变强了!
- SAP UI5里的abap.js
- 2020中国硬科技创新白皮书
- MySQL 8.0 表空间机制
- ArcEngine二次开发_04(鼠标点击图层点显示属性(两个及以上))
- 拒绝搜索引擎抓取页面
- 他对我有成见,怎么办
- atlas对webpart的增强
- html英文特殊字体代码,字体_中英文字体等(示例代码)
- 用 Python 实现电影订票系统 | 内附源码
- ffmpeg 音频处理
- 2020ICPC 昆明热身赛 C.Statues(小思维)
- 台湾文化记忆库网站现已正式上线
- android 投屏与反控,大屏也能反控手机了,type-c接口的无线投屏器带来的改变
- 【实战】PyTorch 在 CIFAR-10 数据集上的训练及测试过程
- 在window下查看占用tomcat进程,杀死进程并启用tomcat
热门文章
- jsplumb拖线_利用jsPlumb实现基于Html5拖拽连线
- react中settimeout_JS中setTimeout()的用法详解
- 盘点一个Python自动化办公实战案例
- android OTG
- EasyUI combobox下拉框 的 onchange事件
- 腾讯企点 for Mac(办公协同软件)中文免费版
- 解决使用Spring Boot上传图片路径错误问题【入坑之一】
- Error in v-on handler: “TypeError: this is not a function“
- ff7重制版青魔法_《最终幻想7重制版》敌方招式获取方式与效果
- C语言八进制数(避坑指南)