《大数据挖掘及应用》学习笔记。

第2章 数据认知与预处理

2.1 数据分析的定义和流程
数据分析(data analysis)是指用适当的统计分析方法对收集来的大量数据进行分析和解释,提取出有用的信息形成结论,从而对数据加以详细研究和概括总结的过程。

2.1.1 如何理解和描述数据分析的问题
理解和抽象出一个待分析的数据分析问题模型步骤:

  1. 理解待分析的问题。
  2. 考察待分析问题的当前形势。
  3. 确定待分析问题的数据分析模型。
  4. 制定实施该问题的数据分析步骤。

2.1.2 数据获取与准备
获取数据的主要途径:

  1. 数据库
  2. 数据仓库
  3. 文件

2.1.3 数据质量评估

  1. 准确性
  2. 完整性
  3. 一致性
  4. 时效性

2.2 数据类型
我们获取的数据集都由一个一个数据对象组成,每一个对象都代表一个实例。

2.2.1 属性的定义
属性(attribute)是一个字段,表示数据对象的一个特征。对象与属性是不可分的,没有属性的对象是不存在的,因为对象不用属性来进行描述就不能称之为对象了,而属性如果不用来描述对象,也就没有意义。
属性的取值范围决定了属性的类型:

2.2.2 标称属性(nominal attribute)
指一些不同的符号或事物的名称,每个值提供了足够的信息以区分对象。
例如:描述水果类的数据对象,名称值可能是梨、苹果、桃子等,种类值可能是浆果类、核果类、柑橘类等,而颜色的值可能是红色、青色、黄色等。
如(苹果、核果类、红色)表明了其所描述的对象苹果的属性。
当然也可以用数字来表示标称属性,如定义1表示苹果,2表示梨等,一般情况下,不能求这些值的均值、中位数,但可以求出该属性下最常出现的值,这个值称为众数(mode),是一种中心趋势度量。

2.2.3 二元属性(binary attribute)
只有两个可选值的属性,只有0和1或值True和False两个状态。

2.2.4 序值属性(ordinal attribute)
提供足够的信息确定数据对象之间的序,但是值之间的差是未知的。序值属性可以定义众数、中位数或百分位数,但不能定义均值。

2.2.5 数值属性(numeric attribute)
最常用的一种数据类型,它是可度量的,用整数或实数值表示,它定量地描述对象。

2.3 数据的统计描述方法
在对数据进行分析之前,把握数据的全貌是至关重要的。基本的统计描述方法不仅可以用来识别整个数据集的性质和特点,发现数据集中的噪声或离群点,还能够对缺失的数据值进行补全。

基本统计描述:

…持续修改完善中

第2章 数据认知与预处理相关推荐

  1. 数据导入与预处理-第4章-数据获取python读取pdf文档

    数据导入与预处理-第4章-数据获取Python读取PDF文档 1 PDF简介 1.1 pdf是什么 2 Python操作PDF 2.1 pdfplumber库 2.2 pdfplumber基本操作 2 ...

  2. 数据导入与预处理-第5章-数据清理

    数据导入与预处理-第5章-数据清理 1. 数据清理概述 1.1 数据清理概述 1.2 什么是缺失值 1.3 什么是重复值 1.4 什么是异常值 2. 数据清理案例 2.1 缺失值处理 2.1.1 缺失 ...

  3. 第1章-数据探索(1)-数据预处理

    简介 在我们了解了业务背景,确定了需求和分析目标以后,我们接下来要面对的,就是数据的探索了.不论数据的形式是直接连到数据库.还是导出的csv.txt.json等格式,当我们把数据加载到我们的分析利器( ...

  4. c语言函数与编译预处理教学视频,C语言课程第6章 函数及编译预处理.ppt

    C语言课程第6章 函数及编译预处理 6.1模块化程序设计与函数 在设计较复杂的程序时,我们一般采用的方法是:把问题分成几个部分,每部分又可分成更细的若干小部分,逐步细化,直至分解成很容易求解的小问题. ...

  5. 《编写高质量代码:改善c程序代码的125个建议》——第1章 数据,程序设计之根本建议1:认识ANSI C...

    本节书摘来自华章计算机<编写高质量代码:改善c程序代码的125个建议>一书中的第1章,建议1,作者:马 伟 更多章节内容可以访问云栖社区"华章计算机"公众号查看. 第1 ...

  6. 【转】第5章 数据的描述性分析

    文章来源于:炼数成金:摘自<数据分析:R语言实战> 第5章 数据的描述性分析 通过前面两章的学习,我们知道,数据收集是取得统计数据的过程,数据预处理是将数据中的问题清理干净,那么接下来的步 ...

  7. 可视化导论 - 第四章 数据可视化流程 - 学习笔记

    第4章 数据可视化流程 4.1 数据可视化流程 以数据流向为主线,其主要模块包括数据采集.数据处理和变换.可视化映射和用户感知. 4.2 数据处理和数据变换 4.2.1 数据滤波 数据滤波器在信号处理 ...

  8. 第一章 数据与大数据

    大数据导论 昨天出去玩了回来之后实在是太困太困了,早上看了一些内容,在晚上的时候电脑都准备打开来写写,但是就完全睁不开眼睛了,今天来补一下.这两次看的都还是一些概念性的问题,没有关于技术的,实在是有点 ...

  9. 第39章 数据的并发处理

    第39章 数据的并发处理--锁的机制 当用户对表中的数据操作时,会暂时锁定,等到该用户使用完成后才会解锁 查看是否有锁定冲突 select taddr,sid,serial#,seconds_in_w ...

最新文章

  1. POJ 3348 Cows 凸包面积
  2. 华人“军火专家”——黄仁勋 1
  3. Python中的异常处理详解
  4. 查找数组中任一峰值的下标
  5. Leetcode 16. 最接近的三数之和(3Sum Closest)
  6. JDK的可视化工具系列 (四) JConsole、VisualVM
  7. Python基础(19)_异常处理
  8. firebug console说明
  9. SpringMVC 异常的处理
  10. Fiddler拦截并修改移动端请求
  11. 一文讲透蓝牙、WiFi、ZigBee无线通信模块
  12. 大数据工程师简历_大数据毕业生简历该怎么写?
  13. opencv convertTo函数详解
  14. 超详细易理解的HTTPS(易上手哦)
  15. IPv6-GRE 隧道技术
  16. 网站流量UV是什么意思?什么是流量UV?
  17. Consensus-Driven Propagation in Massive Unlabeled Data for Face Recognition 人脸聚类
  18. Android 简单生成二维码名片
  19. 什么是最牛逼的代码?
  20. 亿图脑图MindMaster(Pro)

热门文章

  1. linq 查询的结果会开辟新的内存吗?
  2. 从零开始开发 VS Code 插件之 Translator Helper
  3. .NETCore3.1中的Json互操作最全解读-收藏级
  4. [ASP.NET Core 3框架揭秘] 异步线程无法使用IServiceProvider?
  5. 认证方案之初步认识JWT
  6. 在 VS Code 中轻松 review GitHub Pull Requests
  7. Git Flow分支策略与Azure DevOps相关功能简介
  8. eShopOnContainers 知多少[7]:Basket microservice
  9. IdentityServer4-前后端分离的授权验证(六)
  10. 在.NetCore中使用Myrmec检测文件真实格式