数据仓库与数据挖掘概述
数据仓库与数据挖掘概述
1. 数据仓库与传统数据库
传统型数据库
- 定义:面向业务,对事物进行处理
- 类似关系型数据库,对数据进行增删改查
数据仓库
定义:面向主题,集成,稳定,随时间变化的数据集,支持管理决策过程
数据仓库的数据来源:
DB,数据文件,其他数据运用数据ETL工具进行数据获取
ETL,用来描述将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程
讲解
两者关系
- 构建目的
- 传统—> 处理日常事务
- 数据仓库—> 为帮助管理者做决策
传统型数据库是创建数据仓库的一个数据源
- 构建目的
2. 数据挖掘与机器学习
- 什么是数据挖掘
- 定义:试图从海量数据中找出有用的知识
- 相识的知识发现:指发现的规则
- 什么是机器学习
- 定义:利用经验改善计算机系统自身的性能
3. 数据挖掘简要分析
3.1 数据挖掘的主要任务
3.1.1 预测型
也可以说是有监督学习:分类回归,离群点检测等
数据已经给出样本类别,答案等。
- 分类分析:用某种分类算法对表中数据进行分析,挖掘分类规则
- 规则应用:利用数据分析预测新数据的类别,对其录入规则。
3.1.2 描述型
也为无监督学习: 聚类, 关联分析,序列模式等
不知道类别和答案等
用聚类算法,根据给定的某种相似度标准,将没有类别标记的数据库记录集划分成若干个不相交子集(簇),使簇内的记录之间相似度很高,不同簇相似度低。
类别 | 取值范围 | 理论上取值个数 |
---|---|---|
离散型 | 字母或自然数 | 有限;可能无限 |
连续型 | 一个实数区间内 | 不可数,无限 |
3.2 不同任务所需算法简述
- 分类:模型输出为离散型, 朴树贝斯,决策树,逻辑回归算法,KNN
- 回归: 模型输出为连续型
- 聚类: k-mean算法,层次聚类。
- 关联分析: Apriori等
- 序列模型: 类Apriori等
4. 数据
定义:一切可被记录的
用来描述对象的属性。
- id:标识码主键
- 属性名:特征
- 取值:特征的值
数据预处理
- 数据清洗:洗出主要数据
- 数据集成:对多个数据源进行同一
- 数据变换
- 数据归约
- 数据离散化
数据仓库与数据挖掘概述相关推荐
- 《数据仓库与数据挖掘教程》ch01绪论 章节整理
数据仓库概述 从传统数据库到数据仓库 计算机数据处理有两种主要方式 事务型处理 分析型处理 传统数据库与事务处理 传统数据库是长期存储在计算机内的.有组织的.可共享的数据集合 有严格的数学理论支持,并 ...
- 《数据可视化与数据挖掘——基于Tableau和SPSS Modeler图形界面》之可视化数据挖掘概述
第一章 可视化数据挖掘概述 可视化数据挖掘技术对于大多数人来说是一个陌生的事物,让读者在较短的时间内快速熟悉它就是本书第1章的任务.本书会从基础知识讲起,由浅至深,逐步介绍可视化数据挖掘的知识. 研究 ...
- 数据仓库与数据挖掘的一些基本概念
下面内容摘自互联网并作了整理. 名词: BI(Business Intelligence):商业智能, DW(Data Warehouse):数据仓库,详见正文Q1部分. OLTP(On-Line T ...
- 【数据库系统工程师】6.4数据仓库和数据挖掘基础知识
目录 一.思维导图 二.知识点 1.数据仓库 (1)数据仓库与数据库比较 (2)数据仓库的基本特性 (3)数据仓库的数据模式 (4)数据仓库体系结构 2.数据挖掘 (1)数据挖掘分类 (2)数据挖掘常 ...
- 数据仓库与数据挖掘(全英文)期末复习
MOOC地址数据仓库与数据挖掘_北京理工大学_中国大学MOOC(慕课) (icourse163.org)https://www.icourse163.org/course/BIT-1464031178 ...
- 计算机三级数据库数据仓库与数据挖掘(一)、快照方式、元数据、数据仓库中数据特征、机器学习、聚类方法、分类算法、决策支持系统、表数据的粒度级、分布式数据库、
1.在建立数据仓库的数据集成工作中,需要采用适当的策略从数据源获取变化数据.下列数据表中,一般情况下不适宜采用快照方式从业务系统获取数据的是 A.门店表.销售人员表 B.商品清单.商品类别表 C.顾客 ...
- 数据仓库与数据挖掘教程 || 警务数据仓库“犯罪_ETL”,“地址_ETL”和“派出所_ETL”数据流任务配置说明
本文主要是关于清华大学出版社,黄德才老师<数据仓库与数据挖掘教程>第四章中关于警务数据仓库"犯罪_ETL","地址_ETL"和"派出所_E ...
- 计算机三级数据库数据仓库与数据挖掘(二)、数据仓库、面向主题、不可直接修改、批量访问、数据的粒度级设计、决策支持、元数据、封锁粒度、维护策略、实时维护、延时维护、快照维护、
14.在具有数据仓库的企业数据环境中,数据仓库数据一般都具有许多特点,下列都属于其特点的是 A.面向主题.不可直接修改.批量访问 B.面向主题.可直接修改.性能要求较为宽松 C.集成的.可直接修改.批 ...
- 《数据仓库与数据挖掘》期末复习总结
<数据仓库与数据挖掘>期末复习总结 适用教材:<数据挖掘概念与技术(第3版)>,Jiawei Han,Mieheline Kamber,Jian Pei著,机械工业出版社 提示 ...
- 《数据仓库与数据挖掘》期末复习总结(1)
<数据仓库与数据挖掘>期末复习总结(1)-(第一章 引论) 第一章 引论 1.OLAP 2.大数据的5V特征 3.数据挖掘 4.数据挖掘实验基本步骤 5.数据挖掘过程 6.数据的基本形式 ...
最新文章
- Machine Learning | 机器学习简介
- centos7grub配置文件及排错
- 雷观(六):码农值千金
- 分享一个dapper简单封装
- python 之遍历目录树(可匹配输出特定后缀的文件)
- 反卷积(转置卷积)的理解
- shell脚本一键安装二进制Apache
- html高难度拼图,张馨月婚后生活太悠闲,宅家挑战高难度拼图
- 尚硅谷JavaWeb笔记——Filter过滤器(了解过滤器,看着一篇就够了)
- aecmap快捷键_arcmap快捷键
- 德勤oracle offer,会计工作:刚刚拿到德勤 Offer,和大家分享一下
- Windows 10系统用FileZilla Server 1.6.1搭建FTP服务器
- The error occurred while setting parameters,Communications The error may involve defaultParameterMap
- 邢台学院计算机老师待遇2020,老师待遇不好?2020年的三个教师改革,将会让老师迎来事业第二春...
- 程序员,5个步骤改善你的英语阅读技能
- python wifi模块
- 读书笔记-天才和凡人
- 嵌入式硬件协议: SPI串行外设接口 Serial Peripheral Interface
- python pyserial 使用大全
- remoteapp提示找不到远程计算机_知乎高赞:985 计算机视觉毕业后找不到工作怎么办?怒刷 leetcode,还是另寻他路?...