本系列文章是本人学习数据分析与数据挖掘的学习笔记,参考了许多教材,如果错误欢迎评论区指出,谢谢!

目录

  • 1.1 数据分析与数据挖掘
    • 1.1.1 数据分析
    • 1.1.2 数据挖掘
    • 1.1.3 数据分析与数据挖掘的区别和联系
    • 1.1.4 数据、信息、知识
    • 1.1.5 KDD的出现
  • 1.2 分析与挖掘的数据类型
  • 1.3 数据分析与数据挖掘的方法
  • 1.4 数据分析与数据挖掘使用的技术
  • 1.5 应用场景及存在的问题
    • 1.5.1 数据分析与数据挖掘的应用
    • 1.5.2 存在的主要问题
  • 1.6 数据挖掘的建模过程
    • 1.6.1 定义挖掘目标
    • 1.6.2 数据取样
    • 1.6.3 数据探索
    • 1.6.4 数据预处理
    • 1.6.5 挖掘建模
    • 1.6.6 模型评价
  • 1.7 习题

1.1 数据分析与数据挖掘

1.1.1 数据分析

数据分析(Data Analysis, DA)是指采用适当的统计分析方法对收集到的数据进行分析、概括和总结,对数据进行恰当的描述,并提取出有用的信息的过程。
数据分析一般具有比较明确的目标,可以根据数据分析得出的结果做出适当的判断,用来为以后的决策提供依据。
数据分析的结果可以通过列表和作图等方法表示。作图法可以明确地表达各数据量之间的变化关系,常见的图有排列图、因果图、散布图、直方图、控制图等。

1.1.2 数据挖掘

数据挖掘(Data Mining, DM)是指从海量的数据中通过相关的算法发现隐藏在数据中的规律和知识的过程。
知识发现的过程如下:

  1. 数据清理:消除数据中的噪声
  2. 数据集成:将不同来源的数据组合在一起
  3. 数据选择:从数据库中选择与任务相关的数据
  4. 数据变换:将数据变换成适合挖掘的形式
  5. 数据挖掘:使用数据挖掘的方法发现知识
  6. 模式评估:识别知识中有用的模式
  7. 知识表示:将挖掘到的知识用可视化的技术表示出来。


图1-2中的“数据预处理”包括“数据清理”和“数据集成”两个步骤。

1.1.3 数据分析与数据挖掘的区别和联系

  1. 数据挖掘处理的是海量的数据,而数据分析处理的数据量不一定很大。
  2. 数据分析往往有比较明确的目标,而数据挖掘所发现的知识往往是未知的,需要通过数据挖掘的方法发现隐藏在数据中的有价值的信息和知识。
  3. 数据分析着重于展现数据之间的关系;而数据挖掘可以通过现有数据并结合数学模型,对未知的情况进行预测和估计。

1.1.4 数据、信息、知识

数据、信息、知识三者的关系如下图所示:

”8,000" 和“10,000"是数据
“8,000米是飞机飞行最大高度”与“10,000米的高山”是信息
“飞机无法飞越这座高山”是知识
“飞机必须飞得比山高”是智慧

1.1.5 KDD的出现

基于数据库的知识发现(KDD) -词首次出现在1989年举行的国际人工智能联合大会IJCAI-89 Workshop。KDD一般指知识发现。 知识发现是从各种信息中,根据不同的需求获得知识的过程。知识发现的目的是向使用者屏蔽原始数据的繁琐细节,从原始数据中提炼出有效的、新颖的、潜在有用的知识,直接向使用者报告。

1.2 分析与挖掘的数据类型

  1. 数据库系统:数据库系统(DataBase System, DBS)是由一组内部相关的数据(称为数据库)和用于管理这些数据的程序组成,通过软件程序对数据进行高效存储和管理并发、共享或分布式访问,当系统发生故障时,数据库系统应当保证数据的完整性和安全性。
  2. 数据仓库数据:数据仓库使用特有的资料存储架构,对数据进行系统的分析整理。数据仓库通过数据清理、数据变换、数据集成、数据装入和定期数据刷新构造。

    数据库的数据组织是面向任务的,而数据仓库中的数据则是按照主题进行组织的。主题是指决策者进行决策时所关心的重点内容。
    通常,数据仓库使用数据立方体的多维数据结构建模,其中每个维度包含模式中的一个或一组属性,而每个单元保存对应的属性值。
    联机分析处理(On-Line Analysis Processing, OLAP)是数据仓库系统的主要应用,用于支持复杂的分析操作,允许在不同的汇总级别对数据进行汇总。
  3. 事务数据:事务数据库的每个记录代表一个事务(事务就是比如一个车次的订票、顾客的一个订单等),通常来说,一个事务由一个唯一的标识号和一组描述事务订的项组成,有时也需要一些附加信息表示事务的其他信息,如对商品的描述等。
  4. 数据矩阵:在一个数据集中,如果数据对象的所有属性都是具有相同性质的数值型数据,那么这个数据集就可以用矩阵来表示,每一列代表数据对象的一种数学,mmm个数据对象和nnn个属性构成一个m×nm\times nm×n的数据矩阵。
  5. 图和网状数据:图和网状数据通常用来表示不同结点之间的联系,如人际关系网中的人与人之间的关系、网站之间的相互链接关系等。
  6. 其他类型的数据:例如,与时间相关的序列数据(不同时刻的气温、股票市场的历史交易数据等)、数据流(监控中的视频数据流等)、多媒体(视频、音频、文本和图像数据等)。

1.3 数据分析与数据挖掘的方法

  1. 频繁模式:顾名思义,频繁模式就是在数据集中频繁出现的模式。通常来讲,多次出现的事物可能具有特殊意义,频繁模式广泛用于信用卡分析、患者就诊分析以及购物车分析等方面。
  2. 分类与回归分类是指根据已经具有类别标签的数据集建立分类模型,并通过该模型预测不具有类别标签的数据属于哪种类别。(监督学习),常见的分类算法有决策树、朴素贝叶斯分类、支持向量机以及神经网络等。分类是通过建立模型预测离散的标签(类别),而回归则是通过建立连续值模型推断新额数据的某个数值型属性。
  3. 聚类分析:聚类就是把一些对象划分为多个组或者聚簇,从而使同组内对象间比较相似,而不同组对象间差异较大。(无监督学习),与分类、回归不同的是,聚类过程是输入对象没有与之关联的目标信息,因此,聚类通常归于无监督学习,由于无监督算法不需要带有标签数据,所以适用于许多难以获取标签数据的应用。
  4. 离群点分析离群点是指全局或局部范围内偏离一般水平的观测对象。一般情况下,离群点会被当成噪声而丢弃。但在某些特殊的应用中,离群点由于有着特殊的意义而引起研究者的注意。

1.4 数据分析与数据挖掘使用的技术

  1. 统计学方法:统计学是通过对数据进行收集、整理、分析和描述,从而达到对研究对象本质的理解和表示,因此,统计学与数据挖掘有着很大的联系。
  2. 机器学习:机器学习是涉及多个领域的交叉学科,主要研究计算机如何像人类学习知识那样自主地分析和处理数据,做出智能呢个的判断,并通过获得的新知识对自身进行发展和完善。在机器学习领域有三种学习方法:
    (1)监督学习:监督学习需要在有标记的数据集上进行。江都学习是一个分类的过程。

(2)无监督学习:无监督学习可以在没有标记的数据集上进行学习,实质上无监督学习是一个聚类的过程。
(3)半监督学习:半监督学习在学习过程中使用标记和未标记的数据。半监督学习主要考虑如何利用少量有标记的数据和大量未标记的数据进行学习,其中,标记的数据用来学习模型,而未标记的数据用来进一步改进类的边界。

  1. 数据库系统与数据仓库
    (1)数据库系统:数据库系统是为了解决数据处理方面的问题而建立起来的数据处理系统,注重于为用户创建、维护和使用数据库。
    (2)数据仓库:数据仓库汇集了来自多个不同数据源的数据,通过数据仓库可以在不同维度合并数据,形成数据立方体,便于从不同角度对数据进行分析和挖掘。

  2. 模式识别:人们在认识事物时,常常要通过将它和其他事物进行对比从而发现其不同之处,并根据对比结果和先前的认知将相似的事物归类。人的这种思维方式就构成了对不同事物“模式”的识别。模式识别的研究内容包括文字识别、语音识别、图像识别、医学诊断以及指纹识别等。模式识别的本质就是抽象出不同事物中的模式,并根据这些模式对事物进行分类或聚类的过程,在很多情况下对数据挖掘有着很重要的借鉴意义。

  3. 高性能计算:高性能计算是指突破单台计算机资源不足的限制,使用多个处理器或多台计算机共同完成同一项任务的计算环境。

1.5 应用场景及存在的问题

1.5.1 数据分析与数据挖掘的应用

  1. 商务智能
  2. 信息识别
  3. 搜索引擎
  4. 辅助医疗

1.5.2 存在的主要问题

  1. 数据类型的多样性
  2. 高维度数据
  3. 噪声数据
  4. 数据分析与挖掘结果的可视化
  5. 隐私数据的保护

1.6 数据挖掘的建模过程

1.6.1 定义挖掘目标

1.6.2 数据取样

衡量取样数据质量的标准如下:

  • 资料完整无缺,各类指标项齐全。
  • 数据准确无误,反映的都是正常(而不是异常)状态下的水平。
    对获取的数据,可再从中进行抽样操作。抽样的方式是多种多样的,常见的方式如下:
  • 随机抽样:在采用随机抽样方式时,数据集中的每–组观测值都有相同的被抽样的概率。如按10%的比例对一个数据集进行随机抽样,则每一组观测值都有10%的机会被取到。
  • 等距抽样:如按5%的比例对一个有100组观测值的数据集进行等距抽样,则有100/5=20,等距抽样方式是取第20、40、60、80和第100这5组观测值。
  • 分层抽样:在这种抽样操作时,首先将样本总体分成若干层次(或者说分成若千个子集)。在每个层次中的观测值都具有相同的被选用的概率,但对不同的层次可设定不同的概率。这样的抽样结果通常具有更好的代表性,进而使模型具有更好的拟合精度。
  • 从起始顺序抽样:这种抽样方式是从输人数据集的起始处开始抽样。抽样的数量可以给定一个百分比,或者直接给定选取观测值的组数。
  • 分类抽样:在前述几种抽样方式中,并不考虑抽取样本的具体取值。分类抽样则依据某种属性的取值来选择数据子集,如按客户名称分类、按地址区域分类等。分类抽样的选取方式就是前面所述的几种方式,只是抽样以类为单位。

1.6.3 数据探索

对所抽取的样本数据进行探索、审核和必要的加工处理,是保证最终的挖掘模型的质量所必需的。可以说,挖掘模型的质量不会超过抽取样本的质量。数据探索和预处理的目的是为了保证样本数据的质量,从而为保证模型质量打下基础。

1.6.4 数据预处理

由于采样数据中常常包含许多含有噪声、不完整,甚至不一致的数据,对数据挖掘所涉及的数据对象必须进行预处理。数据预处理主要包括:数据筛选、数据变量转换、缺失值处理、坏数据处理、数据标准化、主成分分析、属性选择、数据规约等

1.6.5 挖掘建模

样本抽取完成并经预处理后,接下来要考虑的问题是:本次建模属于数据挖掘应用中的哪类问题(分类、聚类、关联规则、时序模式或者智能推荐),选用哪种算法进行模型构建?这一步是数据挖掘工作的核心环节。

1.6.6 模型评价

建模过程中会得出一系列的分析结果,模型评价的目的之一就是从这些模型中自动找出一个最好的模型,另外就是要根据业务对模型进行解释和应用。

1.7 习题

  1. 什么是数据挖掘?讨论以下任务是否属于数据挖掘的范畴。
    (1)计算整个班级学生“数据分析与数据挖掘”这门课的平均分。
    (2)根据历史信息预测某公司的股票价格,
    (3)根据历史销售数据和顾客经常查看的商品,为顾客推荐其可能需要的商品。
    (4)将一个很大的数进行质因数分解。
    【答】数据挖掘是指从海量的数据中通过相关的算法发现隐藏在数据中的规律和知识的过程。题目中,(2)(3)是挖掘隐藏在数据中的规律和知识的过程,所以(2)(3)是数据挖掘,(1)是数据分析过程。

  2. 举例说明数据分析与数据挖掘的区别。
    【答】数据分析与数据挖掘的区别为:
    (1)数据挖掘处理的是海量的数据,而数据分析处理的数据率不一定很大,比如,根据某企业海量的各种产品产量的数据去预测某企业未来需要生产多少产品就是数据挖掘,而计算某企业去年的平均生产总值就是数据分析,生产总值的数据量不一定很大;
    (2)数据分析往往有比较明确的目标,而数据挖掘所发现的知识往往是未知的,比如,数据分析能分析某企业去年的产品生产数量的平均数、中位数等,数据挖掘能通过去年生产产品的数量预测未来需要多少产品,这就是发现了未知的知识。
    (3)数据分析着重于展现数据之间的关系;而数据挖掘可以通过现有数据并结合数学模型,对未知的情况进行预测和估计,比如某企业结合去年的产品产量和其销售情况依据数学模型预测未来需要生产多少产品,这是数据挖掘的过程,而通过去年产品产量和销售情况的平均数可以得出去年企业是否盈利等,这时数据分析的过程。

  3. 数据库和数据仓库是同一个概念吗?为什么?
    【答】数据库系统(DataBase System, DBS)是由一组内部相关的数据(称为数据库)和用于管理这些数据的程序组成,数据库是一种逻辑概念,用来存放数据的仓库,通过数据库软件来实现。
    数据仓库是数据库概念的升级。从逻辑上理解,数据库和数据仓库没有区别,从数据量来说,数据仓库要比数据库更庞大的多。数据仓库主要用于数据挖掘和数据分析。
    数据库 Database (Oracle, Mysql, PostgreSQL)主要用于事务处理,数据仓库 Datawarehouse (Amazon Redshift, Hive)主要用于数据分析。用途上的不同决定了这两种架构的特点不同。

  4. 数据挖掘有哪些常用的方法?
    【答】(1)统计学方法;(2)机器学习;(3)数据库系统与数据仓库;(4)模式识别;(5)高性能计算。

  5. 除本章列举的例子外,还有哪些数据分析与数据挖掘在实际生活中的应用?
    【答】预测企业的未来的销售计划。

  6. 什么是KDD?
    (A)数据挖掘与知识发现
    (B)领域知识发现
    (C)文档知识发现
    (D)动态知识发现
    【答】选(A)

  7. “8,000”和“10,000”表示:
    (A)数据
    (B)信息
    (C)知识
    (D)智慧
    【答】选(A),”8,000" 和“10,000"是数据
    “8,000米是飞机飞行最大高度”与“10,000米的高山”是信息
    “飞机无法飞越这座高山”是知识
    “飞机必须飞得比山高”是智慧

  8. 人从出生到长大的过程中,是如何认识事物的?
    (A)聚类过程
    (B)分类过程
    (C)先分类,后聚类
    (D)先聚类,后分类
    【答】选(D),人最开始不能根据已存在的训练集去分类,只能是无监督学习去聚类,将聚类结果作为训练集再去分类(监督学习)

  9. “8,000米是飞机飞行最大高度”与“10,000米的高山”表示:
    (A)数据
    (B)信息
    (C)知识
    (D)智慧
    【答】选(B),”8,000" 和“10,000"是数据
    “8,000米是飞机飞行最大高度”与“10,000米的高山”是信息
    “飞机无法飞越这座高山”是知识
    “飞机必须飞得比山高”是智慧

  10. “飞机无法飞过高山”表示:
    (A)数据
    (B)信息
    (C)知识
    (D)智慧
    【答】选(C),”8,000" 和“10,000"是数据
    “8,000米是飞机飞行最大高度”与“10,000米的高山”是信息
    “飞机无法飞越这座高山”是知识
    “飞机必须飞得比山高”是智慧

【数据分析与数据挖掘】第一章:概述相关推荐

  1. 萌新向Python数据分析及数据挖掘 第一章 Python基础 第三节 列表简介 第四节 操作列表...

    第一章 Python基础 第三节 列表简介 列表是是处理一组有序项目的数据结构,即可以在一个列表中存储一个序列的项目.列表中的元素包括在方括号([])中,每个元素之间用逗号分割.列表是可变的数据类型, ...

  2. 数字图像处理:第一章 概述

    第一章 概述 数字图象处理是一门关于如何用计算机对图象进行处理的学科,本课程主要讲解基本原理和方法,针对计算机系的学生,强调编程实践和建立图象处理应用系统的方法.推荐的教材与图象编程参考书包括: R. ...

  3. Linux基础第一章 概述

    第一章 概述 1.1 前言 本章讨论系统的概念,从硬件.操作系统角度更加深刻的理解计算机系统,并快速浏览Linux系统提供的服务. 1.2 系统组成 1.3 操作系统和应用程序 操作系统这个词语有二意 ...

  4. 《Abaqus GUI程序开发指南(Python语言)》——第一章 概述1.1 简单插件实例——创建带孔板有限元模型...

    本节书摘来自异步社区<Abaqus GUI程序开发指南(Python语言)>一书中的第1章,第1.1节,作者: 贾利勇 , 富琛阳子 , 贺高 , 周正光 更多章节内容可以访问云栖社区&q ...

  5. 通信系统概论_现代通信系统概论 第一章 概述(1)

    2020年,又开始上一门新课!!! 喜欢挑战! 让同学们开阔知识是本课程的主要目的! 本课程讲解导航.遥控遥测等军用尖端技术和数字电话.广播电视.综合信息网.多媒体宽带网等现代民用技术. 通信在过去分 ...

  6. 计算机网络课程优秀备考PPT之第一章概述(一)

    为了记录自己从2016.9~2017.1的<计算机网络>助教生涯,也为了及时梳理和整写笔记! 以上,是<计算机网络>课程的第一章概述. 本文转自大数据躺过的坑博客园博客,原文链 ...

  7. 计算机网络第一章(概述)

    第一章 概述 1.1因特网概述 1.1.1网络.互联网和因特网 网络(Network),由若干结点(Node) 和连接这些结点的 链路(Link) 组成. 多个网络还可以通过路由器互联起来,这样就构成 ...

  8. 第二篇第一章概述及第二章生产和储存物品的火灾危险性分类 重点在于表格...

    2019/1/4 [录播]2018一消精华班-实务-一级消防工程师-环球网校 http://v.edu24ol.com/?type=lesson&id=178923&gid=16157 ...

  9. 计算机网络第七版(谢希仁) 第一章 概述 1-10,1-17作业答案

    计算机网络第七版 第一章 概述 1-10,1-17答案 1-10: 试在下列条件下比较电路交换和分组交换.要传送的报文x(bit) .从源点到终点共经过k 段链路,每段链路的传播时延为d(s), 数据 ...

  10. 多传感器融合定位 第一章 概述

    多传感器融合定位 第一章 概述 本记录深蓝学院多传感器定位融合第四期学习笔记,官方推荐使用docker进行开发,为了方便之后移植部署,故本次在次在本地环境进行开发. 代码下载 : https://gi ...

最新文章

  1. Python基础——细琐知识点
  2. Eclipse使用添加tomcat后,默认部署目录不是tomcat/webapps,修改方法如下
  3. #if/#else/#endif
  4. 7-1 ATM机类结构设计(一) (100 分)
  5. linux下文件系统创建
  6. 桶排序(bucket sort)
  7. 编译OpenJDK8:configure error /usr/lib64/ccache/gcc is a symbolic link to ccache
  8. iterator接口
  9. 一、达梦数据库的安装
  10. WDK学习笔记_基于区块链溯源系统的后端接口开发
  11. Linux文件及日志内容
  12. siliconc8051f Silicon C8051F编程器使用出错解决办法
  13. 小猫爪:S32K3学习笔记11-S32K3之FCCU
  14. 一年推出四款社交产品,百度社交难在哪?
  15. 高性能web平台【OpenResty入门与实战】
  16. unc0ver5.3.1发布,直装版
  17. 分离扫描文档方法(1) —— Dynamic Web TWAIN:如何使用空白页作为扫描文档的分隔器
  18. Git版本管理工具使用详细介绍
  19. S32K3定时器(STMPIT)使用——基于MCAL
  20. Linux 虚拟内存 交换空间

热门文章

  1. Vue3+Vite 图标封装3种方案
  2. Thinkpad MORFFHL滑鼠接收器配对
  3. 大数据集群软件安装手册1
  4. Android中使用相机和相册获取照片,模仿朋友圈发说说
  5. 中国经济为着陆做准备
  6. Windows: 如何给USB设备安装驱动?
  7. 一体化闸门控制机如何使用
  8. app获取通讯录全新开发
  9. COLMAP简介及通过2D序列图像进行3D重建操作流程
  10. 【每日新闻】对抗微软双屏Surface 苹果将推出可折叠iPad