之前学习了数据分析方法论,也就是确定了研究的目的,搭建好研究的框架,接下来该是对于数据进行处理了。
根据之前的定义:

数据处理是对收集到的数据进行加工整理,形成适合数据分析的样式,它是数据分析前的必不可少的阶段。数据处理的基本目的是从大量的、杂乱无章的数据中抽取并推导出对解决问题有价值、有意义的数据。

第一步,数据清洗。顾名思义,数据清洗就是将多余重复的数据筛选清除,将缺失的数据补充完整,将错误的数据纠正或删除。
第二步,数据加工。要对数据字段进行信息提取、计算、分组、转换等加工,让它变成我们想要的数据。

其它具体方法:
缺失数据处理的四种方法:
1.用一个样本统计量的值代替缺失值,常用的做法是使用该变量的样本平均值代替缺失值。
2.用一个统计模型计算出来的值去代替缺失值。常用的模型有回归模型、判别模型等。
3.将有缺失值的记录删除,不过可能会导致样本量的减少。
4.将有缺失值的记录保留,仅在相应的分析中做必要的排除。

在实际操作中,采用样本平均值代替缺失值,当样本量较大时,我们可以采用定位查找一次,选出样本里的所有空值,再利用“ctrl+Enter”在所有选中单元格中一次性输入样本平均值。

其它数据处理的方法:
数据加工:
1.数据抽取,是指保留原数据表中某些字段的部分信息,组合成一个新的字段。可以是字段分列,也可以是字段合并,字段匹配等。
2.数据计算,简单计算就是字段通过加减乘除等简单算术运算计算出来。还有的是函数计算,比如平均值和总和,日期的加减法。
数据分组
数据转换
数据抽样

数据处理的基本方法--简要介绍相关推荐

  1. python网络爬虫的方法有几种_Python网络爬虫过程中5种网页去重方法简要介绍

    一般的,我们想抓取一个网站所有的URL,首先通过起始URL,之后通过网络爬虫提取出该网页中所有的URL链接,之后再对提取出来的每个URL进行爬取,提取出各个网页中的新一轮URL,以此类推.整体的感觉就 ...

  2. squashfs─sfs镜像文件制作方法简要介绍

    puppy linux里的.sfs文件是一个只读的squashfs文件系统.在puppy linux启动时能够被自动加载. 制作一个.sfs文件之前,先按照puppy linux的文件结构构建好一个目 ...

  3. 简要介绍BASE64、MD5、SHA、HMAC几种方法。

    加密解密,曾经是我一个毕业设计的重要组件.在工作了多年以后回想当时那个加密.解密算法,实在是太单纯了.     言归正传,这里我们主要描述Java已经实现的一些加密解密算法,最后介绍数字证书.     ...

  4. [更新SIP配置方法简要说明] Apple SIP/Rootless安全技术介绍+测试分析及配置方法

    SIP配置方法简要说明 Apple在10.11中全面启用了名为System Integrity Protection (SIP)的系统完整性保护技术.最直接的影响是:许多未经签名的第三方kext以及经 ...

  5. 牟合方盖matlab,牟合方盖的简要介绍 求牟合方盖体积的方法

    在人们的这一生中,要学习很多的知识.数学知识是其中重要的一种,今天小编我就给大家讲一讲什么是牟合方盖,以及牟合方盖和球体之间的运算关系,以及怎么求牟合方盖的体积等这些困难的问题,话不多说了,接下来就请 ...

  6. Matlab软件有哪些版本,matlab软件功能简要介绍及版本描述

    <matlab软件功能简要介绍及版本描述>由会员分享,可在线阅读,更多相关<matlab软件功能简要介绍及版本描述(2页珍藏版)>请在人人文库网上搜索. 1.MATLAB功能简 ...

  7. 数据结构的简要介绍:图形如何工作

    by Michael Olorunnisola 通过Michael Olorunnisola 数据结构的简要介绍:图形如何工作 (A Gentle Introduction to Data Struc ...

  8. Android系统匿名共享内存Ashmem(Anonymous Shared Memory)简要介绍和学习计划

    在Android系统中,提供了独特的匿名共享内存子系统Ashmem(Anonymous Shared Memory),它以驱动程序的形式实现在内核空间中.它有两个特点,一是能够辅助内存管理系统来有效地 ...

  9. Android应用程序组件Content Provider简要介绍和学习计划

    在Android系统中,Content Provider作为应用程序四大组件之一,它起到在应用程序之间共享数据的作用,同时,它还是标准的数据访问接口.前面的一系列文章已经分析过Android应用程序的 ...

最新文章

  1. Survey | 基于生成模型的分子设计
  2. 题目1144:Freckles
  3. vue-manage-system 后台管理系统开发总结
  4. Java连接SQL Server 2012【查看自己电脑上的SQL Server端口号;附:jar包】
  5. 计算机网络技术发源于什么,计算机网络基础试题和答案
  6. shell 数组操作
  7. Android studio2.3.3升级3.1.2坑
  8. java定时任务什么时间e结束_Java定时任务
  9. 腾讯视频安卓版下载_腾讯课堂上传课程视频
  10. java union pay 代码_Java标记了union / sum类型
  11. 985程序员因迟到工资被扣,一怒之下破解钉钉打卡,要不你也试试?
  12. OpenCasCade标注显示类(独立)
  13. PCI/PCIe的学习笔记
  14. android 4.2 dropbox,android 下用脚本备份文档到dropbox的实现
  15. 锁仓怎么解_锁仓和解锁的方法
  16. [005量化交易] python收盘价绘图
  17. AWash: Handwashing Assistance for the Elderly with Dementia via Wearables
  18. git中patch的用法
  19. cglib BeanCopier 使用
  20. 【图像语义分割】Large Kernel Maters--Improved Semantic Segmentation by Global ConvNet

热门文章

  1. elasticsearch xpack license过期
  2. dsp广告和信息流广告区别_信息流广告和dsp的区别在哪?
  3. 服务器内网可以打开外网打不开怎么办?网站搭建后打不开怎么办?
  4. 十大城市加速崛起,数字化创新驱动特点明显
  5. 古人教你怎样识人不走眼
  6. 如何利用安卓手机搭建WEB服务器
  7. P1567 统计天数(C语言)
  8. SSM毕设项目毕业生就业推荐平台s0m59(java+VUE+Mybatis+Maven+Mysql)
  9. Stm32f103的can模块配置和调试
  10. 树莓派外接can模块,can收发功能测试