《数据仓库与数据挖掘》期末复习总结(1)
《数据仓库与数据挖掘》期末复习总结(1)-(第一章 引论)
- 第一章 引论
- 1、OLAP
- 2、大数据的5V特征
- 3、数据挖掘
- 4、数据挖掘实验基本步骤
- 5、数据挖掘过程
- 6、数据的基本形式
- 7、数据挖掘任务:描述性、预测性
- 8、模式兴趣度的客观度量
- 9、数据仓库
- 10、挖掘什么数据
- 11、机器学习分类
- 12、数据挖掘面临的挑战
- 13、Anaconda包管理
- 14、Anaconda环境管理
第一章 引论
1、OLAP
联机分析处理(对数据仓库操作:下钻、上卷)
2、大数据的5V特征
大量化、多样化、快速化、价值密度低、真实性高
3、数据挖掘
DM,是从海量的数据中抽取感兴趣的(有价值的、隐含的、以前没有用但是潜在有用信息的)模式和知识的过程。
4、数据挖掘实验基本步骤
(1)准备数据(训练数据、检验数据)
- 传统数据库、数据仓库、平面文件
(2)选择一种数据挖掘技术或算法,将数据提交给数据挖掘软件
(3)解释和评估结果
(4)模型应用
5、数据挖掘过程
(1)数据清理
(2)数据集成
(3)数据选择
(4)数据变换
(5)模式发现
(6)模式评估
(7)知识表示
6、数据的基本形式
数据库数据(E-R图)、数据仓库数据(数据立方体)、事务数据
7、数据挖掘任务:描述性、预测性
(1)类/概念描述:特征化与区分
(2)挖掘频繁模式(频繁项集、频繁子序列、频繁子结构)、关联(单维关联规则、多维关联规则)、相关性
(3)用于预测分析的分类与回归
- 分类:分类规则(IF-THEN)、决策树、数学公式、神经网络、朴素贝叶斯分类、支持向量机、k最近邻分类
- 回归分析:预测缺失的或难以获得的数值数据值
- 相关分析:识别与分类和回归过程显著相关的属性
(4)聚类分析:无标记类的数据,根据最大化类内相似性、最小化类间相似性进行聚类或分组,形成对象的簇
(5)离群点分析(异常挖掘)
(6)时间和序列
1)序列,趋势和演化分析
- 序列模式的挖掘
- 周期分析
- 基于相似性的分析
2)数据流挖掘
- 有序的,随时间改变,可能是无穷的数据流
8、模式兴趣度的客观度量
规则的支持度、置信度、分类(IF-THEN)规则的准确率与覆盖率
9、数据仓库
是一种用于长期存储数据的仓库,这些数据来自多个数据源,是经过组织的,以便支持管理决策。这些数据在一种统一的模式下存放,并且通常是汇总的。数据仓库提供一些数据分析能力,称做联机分析处理。
10、挖掘什么数据
11、机器学习分类
- 监督学习:已知分类或输出结果值
- 数据实例、训练实例、检验实例
- 无监督学习:无预先定义好分类的实例
- 半监督学习
- 主动学习
12、数据挖掘面临的挑战
- 挖掘方法
- 用户交互
- 效率和可扩展性
- 数据类型的多样性
- 数据挖掘和社会
13、Anaconda包管理
conda list|grep python:过滤出与python相关的安装包
14、Anaconda环境管理
《数据仓库与数据挖掘》期末复习总结(1)相关推荐
- RFID原理及应用期末复习笔记 | 1.RFID概述【完结✿✿ヽ(°▽°)ノ✿】
系列索引:RFID原理及应用期末复习笔记 | 快速索引 RFID是博主大三下的一门专业课,因为疫情缩短学期进程提前结课,所以期末考试也来的更早,这里就简单记录一下自己复习时的一些笔记,也给后来的学弟学 ...
- !!!RFID原理及应用期末复习总结!!!少走弯路,直接满绩!
选用教材:RFID原理及应用(清华大学出版社) 第一章 概述 学习目标 什么是RFID RFID的发展史 RFID的构成及各模块功能 RFID的几种分类 RFID的应用领域 射频识别(RFID) RF ...
- 数据库原理及应用期末复习汇总(附某高校期末真题试卷)
文章目录 <数据库原理及应用>试题1 一.选择题 二.填空 三.简答题 四.T-SQL综合题 五.综合应用题 <数据库原理及应用>试题2 一.选择题 二.填空 三.简答题 四. ...
- 传感器原理及应用期末复习汇总(附某高校期末真题试卷)
文章目录 一.选择题 二.填空题 三.简答题 四.计算题 五.期末真题 一.选择题 1.下列哪一项是金属式应变计的主要缺点(A) A.非线性明显 B.灵敏度低 C.准确度低 D.响应时间慢 2.属于传 ...
- 电子科大~数据库系统原理与开发期末复习完整版
第一章 数据库系统概论 在数据库管理系统的层次结构中,下面哪个层次负责对数据文件进行操作访问? A.操作界面层 B.语言翻译处理层 C.数据存取层 D.数据存储层 根据处理对象的不同,数据库管理系统的 ...
- 《地理信息系统原理》笔记/期末复习资料(1. 概述)
目录 1. 概述 1.1. 地理信息系统的基本概念 1.1.1. 信息与数据 1.1.2. 空间数据与地图 1.1.3. 地理信息与地学信息 1.1.4. 信息系统和地理信息系统 1.2. 地理信息系 ...
- 林子雨大数据技术原理与运用期末复习
一.填空题 1.大数据的数据结构类型包括结构化数据.半结构化数据和___非结构化数据____. 2.大数据的4V10是(只填英文)__数据量大__Volume____._数据类型多_Variety__ ...
- 云计算 原理与实践期末复习
本文按照老师ppt,不完全遵从书的章节顺序及内容,仅供参考 第一讲 云计算概述 1.云计算定义 云计算是一种无处不在.便捷且按需对一个共享的可配置计算资源(包括网络.服务器.存储.应用和服务)进行网络 ...
- 数据库原理及应用期末复习小结
数据库(DataBase):相互之间有关系若干的表(Table)的集合 数据库管理系统(DBMS):Database Management System,主要是指MySQL.SQL server等一系 ...
- 大数据技术期末复习习题-前两章 大数据概述及Hadoop概述
链接:大数据技术原理与应用期末复习第三章知识点 链接:HDFS编程实践 习题 1[单选题] 人类社会的数据产生方式大致经历了三个阶段,不包括____C____. A.运营式系统阶段 B.用户原创内容阶 ...
最新文章
- 字节跳动Java高级工程师:java队列实现停车场出入
- 【Python】保留小数点后两位精度
- 2021葫芦岛市第六高级中学高考成绩查询,葫芦岛高考成绩查询
- v-model双向绑定
- POJ 1654 Area 凸包面积
- web.config配置数据库连接
- 3d镜头 适配_您是否应该将镜头适配器与无反光镜相机一起使用?
- .NET CORE(C#) WPF 抽屉式菜单
- excel函数与公式实战技巧精粹_excel函数技巧:两个查询函数的用法比较 下
- mysql实际项目中使用多长时间_mysql - 存储过程在实际项目中用的多吗?
- php中的 server 2008,window_Windows Server 2008开发指南解析, Windows Server 2008开发指南中 - phpStudy...
- MS SQL入门基础:创建和使用约束
- Gensim库的使用——Doc2Vec模型(一)介绍与使用
- input框的23种类型
- MACBOOK 连接不上wifi的解决办法
- 论文进展-关于小样本学习的一些思考和疑问
- 【D3.js数据可视化系列教程】(三十六)-- 冰柱图
- 微信小程序识别图片并提取文字_这款微信小程序可以批量图片转文字?识别准确率超高!...
- 解决移动硬盘可以识别,但不显示盘符的问题
- 右中秋夜大观园即景联句三十五韵
热门文章
- 二维vector不能用直接访问的方式赋值,要pushback进去
- 3 配置ftp文件服务器,服务器_用Linux架设FTP服务器(3), 配置“/etc/ftpaccess”文件 - phpStudy...
- Docker、Podman 容器“扫盲“ 学习笔记【与云原生的故事】
- 第11届蓝桥杯省赛真题剖析-2020年6月21日Scratch编程初中级组
- 嘉为蓝鲸CMP:跳出云管看云管(运维/混合云/一体化)
- 未将对象引用设置为对象 UiPath 的实例
- XM外汇平台:句句箴言!外汇投资交易市场的九大生存准则
- Google Drive共享云端硬盘转存
- stm32 B3B4引脚当IO使用
- java 读取mp3,java 解析MP3文件