数据整理(Data Wrangling)

数据整理(Data Wrangling)可归纳为以下三步:

  • 数据收集(Gather)
  • 数据评估(Assess)
  • 数据清理(Clean)

数据收集(Gather)

收集数据的方式有很多,最简单、最常见的是下载现成的数据。比如从kaggle上下载数据集。

但为了可扩展性(Scalability)和重复性(Reproducibility),有时需要以编程的(Programmatically)方式下载。比如需要下载的文件量较大,有成百上千个,甚至位于不同页面。

从网上爬取数据。比如爬知乎,爬豆瓣。

从各种API获得数据。比如电影数据API,股票数据API,Twitter数据API,等等。

数据评估(Assess)

可以从两方面进行:质量(Quality),整洁度(Tidiness)

质量(Quality)

低质量数据常被称为脏数据(dirty data),比如:

  • 数据丢失,缺值。
  • 数据无效。
  • 数据不准确。
  • 数据不一致,比如使用不同的长度单位(英寸和厘米)。

整洁度(Tidiness)

不整洁数据常被称为杂乱数据(messy data),是统计学家、教授和全能数据专家 Hadley Wickham 提出的概念。

A dataset is messy or tidy depending on how rows, columns, and tables are matched up with observations, variables, and types. In tidy data:

  • Each variable forms a column.
  • Each observation forms a row.
  • Each type of observational unit forms a table.

数据清理(Clean)

分为手工清理和程序清理。

程序清理:

  • Define: convert our assessments into defined cleaning tasks. These definitions also serve as an instruction list so others (or yourself in the future) can look at your work and reproduce it.
  • Code: convert those definitions to code and run that code.
  • Test: test your dataset, visually or with code, to make sure your cleaning operations worked.

Always make copies of the original pieces of data before cleaning!

Reassess and Iterate

  • After cleaning, always reassess and iterate on any of the data wrangling steps if necessary.

Store (Optional)

  • Store data, in a file or database for example, if you need to use it in the future.

数据整理(Data Wrangling)相关推荐

  1. R语言数据整理Data Tidying(基于tidyr包)

    很多数据一拿来并不是整齐的,不适合让计算机来作数据分析,因此需要对数据进行各种处理,来让数据变得"tidy". 下面,基于R语言的tidyr包的一些函数来对原始数据进行整理. *( ...

  2. 机器学习项目中的数据预处理与数据整理之比较

    要点 在常见的机器学习/深度学习项目里,数据准备占去整个分析管道的60%到80%. 市场上有各种用于数据清洗和特征工程的编程语言.框架和工具.它们之间的功能有重叠,也各有权衡. 数据整理是数据预处理的 ...

  3. Data Wrangling

    数据整理(Data Wrangling) 数据整理(Data Wrangling)可归纳为以下三步: - 数据收集(Gather) - 数据评估(Assess) - 数据清理(Clean) 数据收集( ...

  4. sql用于字符串的聚合函数_SQL字符串函数用于数据整理(争用)

    sql用于字符串的聚合函数 In this article, you'll learn the tips for getting started using SQL string functions ...

  5. [学习笔记]Python for Data Analysis, 3E-8.数据整理:连接、合并和重塑

    在许多应用程序中,数据可能分布在多个文件或数据库中,或者以不便于分析的形式排列.本章重点介绍有助于合并.联接和重新排列数据的工具. 首先,介绍一下pandas中的分层索引的概念,这个概念在其中一些操作 ...

  6. ​数据整理——大数据治理的关键技术

    数据整理--大数据治理的关键技术 杜小勇1,2, 陈跃国1,2, 范举1,2, 卢卫1,2 1. 中国人民大学信息学院,北京 100872: 2. 数据工程与知识工程教育部重点实验室(中国人民大学), ...

  7. sql isnull怎么没用_SQL语言在数据工程(Data Engineering)中的运用(一)

    我与SQL的纠葛好几年前就开始了,在不断炒冷饭的过程中终于接了几个不错的项目,把冷饭变成了温饭.今天就借此机会,与大家分享一下自己在项目中的心路历程,从中学习到的SQL在数据工程中的运用,代码分享,代 ...

  8. 多波次导弹发射中的规划问题(一) 网络图绘制及数据整理

    前言 2017年研究生数学建模E题目 多波次导弹发射中的规划问题 ,题目围绕着导弹发射的位置选取问题展开.首先讲述了一大堆有关导弹发射的机动策略,以及导弹发射车的运行参数,地图点位分布等等.然后就丢出 ...

  9. 《数据整理实践指南》一第1章 从头说起:什么是噪音数据

    本节书摘来自异步社区<数据整理实践指南>一书中的第1章,第1.1节,作者[美]Q. Ethan McCallum(麦卡伦),更多章节内容可以访问云栖社区"异步社区"公众 ...

  10. 专题导读:大数据整理

    专题导读:大数据整理 在大数据时代,数据呈现多源.异构. 信息不一致.信息不完整等特点,这会造 成数据不完整.数据质量较低的问题.数 据整理(包括数据发现.数据准备.数据 清洗.数据融合等)旨在整合多 ...

最新文章

  1. golang mysql单元测试_golang test测试使用
  2. 生产线称重实时打印条码标签
  3. Python3.6全栈开发实例[006]
  4. 惠普打印机怎么无线连接电脑_惠普SPECTRE X360 13笔记本电脑怎么样,值得买吗
  5. 洛谷P3066 [USACO12DEC]逃跑的BarnRunning Away From…
  6. 一个情怀引发的生产事故(续)
  7. 【汇总推荐】深度学习、自然语言处理干货笔记汇总
  8. Oracle Internal Event:10200 Consistent Read诊断事件
  9. bigdecimal不保留小数_为什么 0.1 + 0.2 = 0.3,原来你不知道
  10. python生成颜色数组
  11. PMBOK(第六版) PMP笔记——《六》第六章(项目进度管理)
  12. SpringBoot中Session超时原理说明
  13. 主流数据持久层框架特性与实践
  14. 用户故事 | 李兆龙:博观而约取,厚积而薄发
  15. outlook2019登录126邮箱(imap)
  16. SyncToy 2.1
  17. python的背景色怎么改_如何更改树的背景色
  18. 大一期末程序课程设计 C/C++实现简单学生学籍管理系统
  19. 迷宫游戏html5代码,css3实现的迷宫游戏
  20. 洛谷 P5108 仰望半月的夜空 解题报告

热门文章

  1. Android开发方向,我们如何选择?
  2. Unity模拟科学计算器
  3. 后盾网php微博系统,后盾网ThinkPHP微博项目开发视频教程 - 轻松自学网
  4. 天线基础知识(三)天线增益
  5. 我们把计算机硬件系统和软件系统称为,中国大学MOOC:\我们把计算机硬件系统和软件系统总称为( )。\;...
  6. latex去心领域符号
  7. 刑事案件鉴定意见常用质证要点
  8. python学习14:字典和集合
  9. PyQt设置右下角弹窗(转)
  10. java自行车s码适合身高_公路自行车尺寸与身高的选择