《数据仓库与数据挖掘》期末复习总结(1)-(第一章 引论)

  • 第一章 引论
    • 1、OLAP
    • 2、大数据的5V特征
    • 3、数据挖掘
    • 4、数据挖掘实验基本步骤
    • 5、数据挖掘过程
    • 6、数据的基本形式
    • 7、数据挖掘任务:描述性、预测性
    • 8、模式兴趣度的客观度量
    • 9、数据仓库
    • 10、挖掘什么数据
    • 11、机器学习分类
    • 12、数据挖掘面临的挑战
    • 13、Anaconda包管理
    • 14、Anaconda环境管理

第一章 引论

1、OLAP

联机分析处理(对数据仓库操作:下钻、上卷)

2、大数据的5V特征

大量化、多样化、快速化、价值密度低、真实性高

3、数据挖掘

DM,是从海量的数据中抽取感兴趣的(有价值的、隐含的、以前没有用但是潜在有用信息的)模式和知识的过程。

4、数据挖掘实验基本步骤

(1)准备数据(训练数据、检验数据)

  • 传统数据库、数据仓库、平面文件

(2)选择一种数据挖掘技术或算法,将数据提交给数据挖掘软件
(3)解释和评估结果
(4)模型应用

5、数据挖掘过程

(1)数据清理
(2)数据集成
(3)数据选择
(4)数据变换
(5)模式发现
(6)模式评估
(7)知识表示

6、数据的基本形式

数据库数据(E-R图)、数据仓库数据(数据立方体)、事务数据

7、数据挖掘任务:描述性、预测性

(1)类/概念描述:特征化与区分
(2)挖掘频繁模式(频繁项集、频繁子序列、频繁子结构)、关联(单维关联规则、多维关联规则)、相关性
(3)用于预测分析的分类与回归

  • 分类:分类规则(IF-THEN)、决策树、数学公式、神经网络、朴素贝叶斯分类、支持向量机、k最近邻分类
  • 回归分析:预测缺失的或难以获得的数值数据值
  • 相关分析:识别与分类和回归过程显著相关的属性

(4)聚类分析:无标记类的数据,根据最大化类内相似性、最小化类间相似性进行聚类或分组,形成对象的簇
(5)离群点分析(异常挖掘)
(6)时间和序列
1)序列,趋势和演化分析

  • 序列模式的挖掘
  • 周期分析
  • 基于相似性的分析

2)数据流挖掘

  • 有序的,随时间改变,可能是无穷的数据流

8、模式兴趣度的客观度量

规则的支持度、置信度、分类(IF-THEN)规则的准确率与覆盖率

9、数据仓库

是一种用于长期存储数据的仓库,这些数据来自多个数据源,是经过组织的,以便支持管理决策。这些数据在一种统一的模式下存放,并且通常是汇总的。数据仓库提供一些数据分析能力,称做联机分析处理。

10、挖掘什么数据

11、机器学习分类

  • 监督学习:已知分类或输出结果值
  • 数据实例、训练实例、检验实例
  • 无监督学习:无预先定义好分类的实例
  • 半监督学习
  • 主动学习

12、数据挖掘面临的挑战

  • 挖掘方法
  • 用户交互
  • 效率和可扩展性
  • 数据类型的多样性
  • 数据挖掘和社会

13、Anaconda包管理


conda list|grep python:过滤出与python相关的安装包

14、Anaconda环境管理

《数据仓库与数据挖掘》期末复习总结(1)相关推荐

  1. RFID原理及应用期末复习笔记 | 1.RFID概述【完结✿✿ヽ(°▽°)ノ✿】

    系列索引:RFID原理及应用期末复习笔记 | 快速索引 RFID是博主大三下的一门专业课,因为疫情缩短学期进程提前结课,所以期末考试也来的更早,这里就简单记录一下自己复习时的一些笔记,也给后来的学弟学 ...

  2. !!!RFID原理及应用期末复习总结!!!少走弯路,直接满绩!

    选用教材:RFID原理及应用(清华大学出版社) 第一章 概述 学习目标 什么是RFID RFID的发展史 RFID的构成及各模块功能 RFID的几种分类 RFID的应用领域 射频识别(RFID) RF ...

  3. 数据库原理及应用期末复习汇总(附某高校期末真题试卷)

    文章目录 <数据库原理及应用>试题1 一.选择题 二.填空 三.简答题 四.T-SQL综合题 五.综合应用题 <数据库原理及应用>试题2 一.选择题 二.填空 三.简答题 四. ...

  4. 传感器原理及应用期末复习汇总(附某高校期末真题试卷)

    文章目录 一.选择题 二.填空题 三.简答题 四.计算题 五.期末真题 一.选择题 1.下列哪一项是金属式应变计的主要缺点(A) A.非线性明显 B.灵敏度低 C.准确度低 D.响应时间慢 2.属于传 ...

  5. 电子科大~数据库系统原理与开发期末复习完整版

    第一章 数据库系统概论 在数据库管理系统的层次结构中,下面哪个层次负责对数据文件进行操作访问? A.操作界面层 B.语言翻译处理层 C.数据存取层 D.数据存储层 根据处理对象的不同,数据库管理系统的 ...

  6. 《地理信息系统原理》笔记/期末复习资料(1. 概述)

    目录 1. 概述 1.1. 地理信息系统的基本概念 1.1.1. 信息与数据 1.1.2. 空间数据与地图 1.1.3. 地理信息与地学信息 1.1.4. 信息系统和地理信息系统 1.2. 地理信息系 ...

  7. 林子雨大数据技术原理与运用期末复习

    一.填空题 1.大数据的数据结构类型包括结构化数据.半结构化数据和___非结构化数据____. 2.大数据的4V10是(只填英文)__数据量大__Volume____._数据类型多_Variety__ ...

  8. 云计算 原理与实践期末复习

    本文按照老师ppt,不完全遵从书的章节顺序及内容,仅供参考 第一讲 云计算概述 1.云计算定义 云计算是一种无处不在.便捷且按需对一个共享的可配置计算资源(包括网络.服务器.存储.应用和服务)进行网络 ...

  9. 数据库原理及应用期末复习小结

    数据库(DataBase):相互之间有关系若干的表(Table)的集合 数据库管理系统(DBMS):Database Management System,主要是指MySQL.SQL server等一系 ...

  10. 大数据技术期末复习习题-前两章 大数据概述及Hadoop概述

    链接:大数据技术原理与应用期末复习第三章知识点 链接:HDFS编程实践 习题 1[单选题] 人类社会的数据产生方式大致经历了三个阶段,不包括____C____. A.运营式系统阶段 B.用户原创内容阶 ...

最新文章

  1. 字节跳动Java高级工程师:java队列实现停车场出入
  2. 【Python】保留小数点后两位精度
  3. 2021葫芦岛市第六高级中学高考成绩查询,葫芦岛高考成绩查询
  4. v-model双向绑定
  5. POJ 1654 Area 凸包面积
  6. web.config配置数据库连接
  7. 3d镜头 适配_您是否应该将镜头适配器与无反光镜相机一起使用?
  8. .NET CORE(C#) WPF 抽屉式菜单
  9. excel函数与公式实战技巧精粹_excel函数技巧:两个查询函数的用法比较 下
  10. mysql实际项目中使用多长时间_mysql - 存储过程在实际项目中用的多吗?
  11. php中的 server 2008,window_Windows Server 2008开发指南解析,  Windows Server 2008开发指南中 - phpStudy...
  12. MS SQL入门基础:创建和使用约束
  13. Gensim库的使用——Doc2Vec模型(一)介绍与使用
  14. input框的23种类型
  15. MACBOOK 连接不上wifi的解决办法
  16. 论文进展-关于小样本学习的一些思考和疑问
  17. 【D3.js数据可视化系列教程】(三十六)-- 冰柱图
  18. 微信小程序识别图片并提取文字_这款微信小程序可以批量图片转文字?识别准确率超高!...
  19. 解决移动硬盘可以识别,但不显示盘符的问题
  20. 右中秋夜大观园即景联句三十五韵

热门文章

  1. 二维vector不能用直接访问的方式赋值,要pushback进去
  2. 3 配置ftp文件服务器,服务器_用Linux架设FTP服务器(3), 配置“/etc/ftpaccess”文件  - phpStudy...
  3. Docker、Podman 容器“扫盲“ 学习笔记【与云原生的故事】
  4. 第11届蓝桥杯省赛真题剖析-2020年6月21日Scratch编程初中级组
  5. 嘉为蓝鲸CMP:跳出云管看云管(运维/混合云/一体化)
  6. 未将对象引用设置为对象 UiPath 的实例
  7. XM外汇平台:句句箴言!外汇投资交易市场的九大生存准则
  8. Google Drive共享云端硬盘转存
  9. stm32 B3B4引脚当IO使用
  10. java 读取mp3,java 解析MP3文件