数据的预处理

  • 数据审核
    • 数据审核—原始数据(raw data)
    • 数据审核—二手数据(second hand data)
  • 数据筛选(data filter)
  • 数据排序 (data rank)
    • 数据排序 (方法)
  • 数据透视表(pivot table)
    • 数据透视表(用Excel创建数据透视表)

数据审核

数据审核—原始数据(raw data)

完整性审核

  • 应调查的单位或个体是否有遗漏
  • 所有的调查项目或变量是否填写齐全

准确性审核

  • 数据是否真实反映实际情况,内容是否符合实际
  • 数据是否有错误,计算是否正确等

数据审核—二手数据(second hand data)

适用性审核

  • 弄清楚数据的来源、数据的口径以及有关的背景材料
  • 确定数据是否符合自己分析研究的需要

时效性审核

  • 尽可能使用最新的数据

确认是否有必要做进一步的加工整理


数据筛选(data filter)

当数据中的错误不能予以纠正,或者有些数据不符合调查的要求而又无法弥补时,需要对数据进行筛选

数据筛选的内容

  • 将某些不符合要求的数据或有明显错误的数据予以剔除
  • 将符合某种特定条件的数据筛选出来,而不符合特定条件的数据予以剔除

数据排序 (data rank)

按一定顺序将数据排列,以发现一些明显的特征或趋势,找到解决问题的线索

排序有助于对数据检查纠错,以及为重新归类或分组等提供依据

在某些场合,排序本身就是分析的目的之一

排序可借助于计算机完成

数据排序 (方法)

分类数据的排序

  • 字母型数据,排序有升序降序之分,但习惯上用升序
  • 汉字型数据,可按汉字的首位拼音字母排列,也可按笔画排序,其中也有笔画多少的升序降序之分

数值型数据的排序

  • 递增排序:设一组数据为x1,x2,…,xn,递增排序后可表示为:x(1)<x(2)<…<x(n)
  • 递减排序:可表示为:x(1)>x(2)>…>x(n)

数据透视表(pivot table)

可以从复杂的数据中提取有用的信息

可以对数据表的重要信息按使用者的习惯或分析要求进行汇总和作图

形成一个符合需要的交叉表(列联表)

在利用数据透视表时,数据源表中的首行必须有列标题

数据透视表(用Excel创建数据透视表)

  • 第1步:选择【插入】→【数据透视表】
  • 第2步:在【表/区域】框内选定数据区域(在操作前将光标放在任意数据单元格内,系统会自动选定数据区域)。选择放置数据透视表的位置。系统默认是新工作表,如果要将透视表放在现有工作表中,选择【现有工作表】,并在【位置】框内点击工作表的任意单元格(不要覆盖数据)。点击【确定】
  • 第3步:用鼠标右键单击数据透视表,选择【数据透视表选项】,在弹出的对话框中点击【显示】,并选中【经典数据透视表布局】,然后【确定】
  • 第4步:将数据透视的一个字段拖至“行”位置,将“另一个字段”拖至“列”的位置(行列可以互换),再将要计数的变量拖至“值字段”位置,即可生成需要的频数分布表

统计学原理 数据的预处理相关推荐

  1. 汉字笔画数据_统计学原理 数据的预处理

    数据审核 数据审核-原始数据(raw data) 完整性审核 应调查的单位或个体是否有遗漏 所有的调查项目或变量是否填写齐全 准确性审核 数据是否真实反映实际情况,内容是否符合实际 数据是否有错误,计 ...

  2. 时间序列数据的预处理

    来源:Deephub Imba 本文约2600字,建议阅读5分钟 在本文中,我们将看到在深入研究数据建模部分之前应执行的常见时间序列预处理步骤和与时间序列数据相关的常见问题. 时间序列数据随处可见,要 ...

  3. 医学影像:静息态fmri数据的预处理

    文章目录 引言 静息态fmri数据的预处理 数据预处理的理论部分 静息态数据预处理的一般步骤(参考) 常用的工具 数据预处理的实践部分 引言 本文主要详细介绍了静息态fmri数据的预处理,什么是静息态 ...

  4. 数据仓库之数据及预处理

    数据仓库之数据及预处理 在写这之前,让我们先了解一下数据仓库以及数据预处理的概念. - 数据仓库的定义: 数据仓库是面向主题的.集成的.相对稳定的.反映历史变化的数据集合,用于支持管理决策.** 数据 ...

  5. 大型医院影像PACS系统三维重建技术(获取数据、预处理、配准、重建和可视化)

    PACS(Picture Archiving and Communication System)系统作为医学图像的存储和传输平台,为医生和患者提供了便捷高效的诊疗服务支持.近年来,三维重建技术在PAC ...

  6. MODIS 数据产品预处理

    MODIS 数据产品预处理 1  MCTK重投影 第一步:安装ENVI的MCTK扩展工具 解压压缩包,将其中的mctk.sav与modis_products.scsv文件复制到如图所示,相应的ENVI ...

  7. 基于SPM12对fMRI数据进行预处理及其批处理

    对fMRI数据进行预处理 博主最近在做fmri数据的预处理,原理并不是很难,但是过程中很多细节容易被忽略导致失败,特此记录一些细节以供参考! 一.数据说明 1.原始数据(格式:.dcm) (1)功能像 ...

  8. 09-使用snappy对Sentinel-1 GRDH数据进行预处理

    09-使用snappy对Sentinel-1数据进行预处理 前言 准备工作 源数据 snappy包重要类和其属性.方法 数据的读和写操作 Product类的属性和方法使用简介 SNAP Engine ...

  9. 3-对链家二手房数据进行预处理,以及利用CNN进行多分类操作

    使用:26-爬取链家二手房成交的房产信息[简单] (https://my.oschina.net/pansy0425/blog/3031621),对爬取到的数据进行简单的清洗,去噪,进行数据预处理,以 ...

最新文章

  1. FastJson 转换 javaBean 时 null 值被忽略都问题
  2. IT行业观察:阿里巴巴有望成为下一只中国IPO
  3. Python进阶3——列表解析式和生成器表达式
  4. 谈谈StorageEvent
  5. 如何用web3.js在以太坊区块链上保存数据?
  6. 同一个页面同时拥有collectionView和navigationBar和tabBar时可能遇到的问题
  7. ***某知名网络安全公司
  8. php正则表达式应用,PHP 正则表达式应用
  9. 【OpenCV 例程200篇】72. 一维离散傅里叶变换
  10. 编写Dockerfile的最佳实践
  11. 罗永浩“卖艺”还债能成?邀约不断,币圈抢着送钱
  12. Oracle总结第一篇【基本SQL操作】
  13. 彻底理解js中的和||
  14. php的socket,PHP Socket范例
  15. Window系统下 MongoDB 下载 和 安装
  16. linux编程基础系统,Linux编程基础
  17. 解读2021年智源 AI 前沿报告:医疗领域最新进展
  18. matlab互相关函数并画图,自相关函数和互相关函数的matlab计算和作图
  19. Photoshop CC2019安装教程
  20. Java学习篇之I/O篇

热门文章

  1. Vulhub靶场之struts2漏洞复现
  2. 关于PublicCMS二次开发的源码学习 表单
  3. 打印二维数组的三种方法
  4. makefile第2篇 makefile讲解
  5. NFT将成为美妆品牌迈入元宇宙的“发力点”
  6. 王牌战争文明重启服务器维护费,王牌战争文明重启9月1日维护更新公告
  7. 欧陆战争5设备系统时间与服务器时间不一致,欧陆战争5怎么调整时间bug
  8. python制作表白神器_关于python:用-Python-写个七夕表白神器
  9. 卸载一些软件时候弹出:你需要来自administrators的权限才能对此文件夹进行更改
  10. 苹果cmsv8仿米咔优质影视响应式免费模板