数据仓库与数据挖掘概述

1. 数据仓库与传统数据库

  1. 传统型数据库

    • 定义:面向业务,对事物进行处理
    • 类似关系型数据库,对数据进行增删改查
  2. 数据仓库

    • 定义:面向主题,集成,稳定,随时间变化的数据集,支持管理决策过程

    • 数据仓库的数据来源:

      • DB,数据文件,其他数据运用数据ETL工具进行数据获取

        ETL,用来描述将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程

        讲解

  3. 两者关系

    1. 构建目的

      • 传统—> 处理日常事务
      • 数据仓库—> 为帮助管理者做决策

    传统型数据库是创建数据仓库的一个数据源

2. 数据挖掘与机器学习

  1. 什么是数据挖掘

    • 定义:试图从海量数据中找出有用的知识
    • 相识的知识发现:指发现的规则
  2. 什么是机器学习
    • 定义:利用经验改善计算机系统自身的性能

3. 数据挖掘简要分析

3.1 数据挖掘的主要任务

3.1.1 预测型

也可以说是有监督学习:分类回归,离群点检测等

数据已经给出样本类别,答案等。

  1. 分类分析:用某种分类算法对表中数据进行分析,挖掘分类规则
  2. 规则应用:利用数据分析预测新数据的类别,对其录入规则。
3.1.2 描述型

​ 也为无监督学习: 聚类, 关联分析,序列模式等

不知道类别和答案等

​ 用聚类算法,根据给定的某种相似度标准,将没有类别标记的数据库记录集划分成若干个不相交子集(簇),使簇内的记录之间相似度很高,不同簇相似度低。

类别 取值范围 理论上取值个数
离散型 字母或自然数 有限;可能无限
连续型 一个实数区间内 不可数,无限

3.2 不同任务所需算法简述

  • 分类:模型输出为离散型, 朴树贝斯,决策树,逻辑回归算法,KNN
  • 回归: 模型输出为连续型
  • 聚类: k-mean算法,层次聚类。
  • 关联分析: Apriori等
  • 序列模型: 类Apriori等

4. 数据

定义:一切可被记录的

  • 用来描述对象的属性。

    • id:标识码主键
    • 属性名:特征
    • 取值:特征的值
  • 数据预处理

    • 数据清洗:洗出主要数据
    • 数据集成:对多个数据源进行同一
    • 数据变换
    • 数据归约
    • 数据离散化

数据仓库与数据挖掘概述相关推荐

  1. 《数据仓库与数据挖掘教程》ch01绪论 章节整理

    数据仓库概述 从传统数据库到数据仓库 计算机数据处理有两种主要方式 事务型处理 分析型处理 传统数据库与事务处理 传统数据库是长期存储在计算机内的.有组织的.可共享的数据集合 有严格的数学理论支持,并 ...

  2. 《数据可视化与数据挖掘——基于Tableau和SPSS Modeler图形界面》之可视化数据挖掘概述

    第一章 可视化数据挖掘概述 可视化数据挖掘技术对于大多数人来说是一个陌生的事物,让读者在较短的时间内快速熟悉它就是本书第1章的任务.本书会从基础知识讲起,由浅至深,逐步介绍可视化数据挖掘的知识. 研究 ...

  3. 数据仓库与数据挖掘的一些基本概念

    下面内容摘自互联网并作了整理. 名词: BI(Business Intelligence):商业智能, DW(Data Warehouse):数据仓库,详见正文Q1部分. OLTP(On-Line T ...

  4. 【数据库系统工程师】6.4数据仓库和数据挖掘基础知识

    目录 一.思维导图 二.知识点 1.数据仓库 (1)数据仓库与数据库比较 (2)数据仓库的基本特性 (3)数据仓库的数据模式 (4)数据仓库体系结构 2.数据挖掘 (1)数据挖掘分类 (2)数据挖掘常 ...

  5. 数据仓库与数据挖掘(全英文)期末复习

    MOOC地址数据仓库与数据挖掘_北京理工大学_中国大学MOOC(慕课) (icourse163.org)https://www.icourse163.org/course/BIT-1464031178 ...

  6. 计算机三级数据库数据仓库与数据挖掘(一)、快照方式、元数据、数据仓库中数据特征、机器学习、聚类方法、分类算法、决策支持系统、表数据的粒度级、分布式数据库、

    1.在建立数据仓库的数据集成工作中,需要采用适当的策略从数据源获取变化数据.下列数据表中,一般情况下不适宜采用快照方式从业务系统获取数据的是 A.门店表.销售人员表 B.商品清单.商品类别表 C.顾客 ...

  7. 数据仓库与数据挖掘教程 || 警务数据仓库“犯罪_ETL”,“地址_ETL”和“派出所_ETL”数据流任务配置说明

    本文主要是关于清华大学出版社,黄德才老师<数据仓库与数据挖掘教程>第四章中关于警务数据仓库"犯罪_ETL","地址_ETL"和"派出所_E ...

  8. 计算机三级数据库数据仓库与数据挖掘(二)、数据仓库、面向主题、不可直接修改、批量访问、数据的粒度级设计、决策支持、元数据、封锁粒度、维护策略、实时维护、延时维护、快照维护、

    14.在具有数据仓库的企业数据环境中,数据仓库数据一般都具有许多特点,下列都属于其特点的是 A.面向主题.不可直接修改.批量访问 B.面向主题.可直接修改.性能要求较为宽松 C.集成的.可直接修改.批 ...

  9. 《数据仓库与数据挖掘》期末复习总结

    <数据仓库与数据挖掘>期末复习总结 适用教材:<数据挖掘概念与技术(第3版)>,Jiawei Han,Mieheline Kamber,Jian Pei著,机械工业出版社 提示 ...

  10. 《数据仓库与数据挖掘》期末复习总结(1)

    <数据仓库与数据挖掘>期末复习总结(1)-(第一章 引论) 第一章 引论 1.OLAP 2.大数据的5V特征 3.数据挖掘 4.数据挖掘实验基本步骤 5.数据挖掘过程 6.数据的基本形式 ...

最新文章

  1. Machine Learning | 机器学习简介
  2. centos7grub配置文件及排错
  3. 雷观(六):码农值千金
  4. 分享一个dapper简单封装
  5. python 之遍历目录树(可匹配输出特定后缀的文件)
  6. 反卷积(转置卷积)的理解
  7. shell脚本一键安装二进制Apache
  8. html高难度拼图,张馨月婚后生活太悠闲,宅家挑战高难度拼图
  9. 尚硅谷JavaWeb笔记——Filter过滤器(了解过滤器,看着一篇就够了)
  10. aecmap快捷键_arcmap快捷键
  11. 德勤oracle offer,会计工作:刚刚拿到德勤 Offer,和大家分享一下
  12. Windows 10系统用FileZilla Server 1.6.1搭建FTP服务器
  13. The error occurred while setting parameters,Communications The error may involve defaultParameterMap
  14. 邢台学院计算机老师待遇2020,老师待遇不好?2020年的三个教师改革,将会让老师迎来事业第二春...
  15. 程序员,5个步骤改善你的英语阅读技能
  16. python wifi模块
  17. 读书笔记-天才和凡人
  18. 嵌入式硬件协议: SPI串行外设接口 Serial Peripheral Interface
  19. python pyserial 使用大全
  20. remoteapp提示找不到远程计算机_知乎高赞:985 计算机视觉毕业后找不到工作怎么办?怒刷 leetcode,还是另寻他路?...

热门文章

  1. 【2022年更新】手把手教你去除 WinRAR 的弹窗广告
  2. iweboffice之word——功能简介
  3. 基于SNMP的网络管理软件设计方案和实现
  4. svnserver 修改配置后重启
  5. ISO/IEC 27000 信息安全管理体系认证培训及所有标准资料
  6. kettle下载和使用
  7. python贝叶斯网络预测模型_概率图模型之:贝叶斯网络
  8. 直流双闭环调速系统的计算机仿真,基于MATLAB的双闭环直流调速系统仿真研究
  9. 冷知识,PCB工程师的等级之分
  10. 通讯录 C语言分类,C语言 通讯录