数据预处理

1、数据审核:检查数据中是否有错误

原始数据->完整性:所调查的对象是否有遗漏。

准确性:数据是否有错误、存在异常值

->异常值 :记录错误,予以纠正;正确地值,予以保留。

二手数据->适用性:明确数据的来源、口径、背景材料,以便确定数据是否符合分析研究的需要。

时效性:对于时效性较强的问题,如果数据是滞后的对于研究就没有多大的意义。

2、数据筛选

工具:excel、spss,网上资料很多,这里不再赘述。

3、数据排序

1)按一定顺序排序,以便发现明显的特征或趋势;

2)利于数据的纠错、重新归类、分组。

品质数据的整理与展示

预处理后的数据,需进一步做分类、分组。

品质数据:分类数据、顺序数据

1、分类数据的整理与图示

分类数据:对事物的一种分类

整理:列出所分的类别,计算出每一类别的频数、频率或比例、比率,制作频数分布表。

目的:对数据及其特征进行初步地了解

工具:excel、spss前期的数据分析,这些工具已经很智能了!

图示:条形图、帕累托图、饼图、环形图

2、顺序数据的整理与图示

顺序数据:【转至百度百科】

https://baike.baidu.com/item/%E9%A1%BA%E5%BA%8F%E6%95%B0%E6%8D%AE/9210375?fr=aladdin

整理:列出所分的类别,计算出每一类别的频数、频率或比例、比率,制作频数分布表;还可计算累计频率(或频数)

目的:对数据及其特征进行初步地了解

工具:excel、spss前期的数据分析,这些工具已经很智能了!

图示:条形图、帕累托图、饼图、环形图、累计频数分布图或频率图。

数值数据的整理与展示

数值型的数据除了可以用品质数据的整理和图示方法外,还有一些特殊的方法。

1、数据的分组:观察数据的分布特征

单变量值分组:适用于离散变量,其变量值较少。

组距分组:适用于连续性型变量,其变量值较多。

ex:分组方法及其制表过程

step1:确定组数。组数的确定主要是用于数据特征的观测,因此具体需视其数据特征而定。

step2:确定各组的组距。组距=组的上限-组的下限。组距的确定:(全部数据的上限-全部数据的下限)/组数

step3:根据分组整理成频数分布表。

2、数值型数据的图示

分组数据:直方图

未分组数据:茎叶图、箱线图

茎叶图:反映原始数据分布形状、离散状况(是否对称、集中、存在离群点)

工具:excel、spss都很方便

箱线图:由一组数据的的最大值、最小值、中位数、两个四分位数

时间序列数据——线图:反映随时间变化的特征

多变量数据的图示:散点图、气泡图、雷达图

散点图:2个变量之间的关系的刻画

气泡图:3个变量之间的关系的刻画

雷达图:多个变量之间的关系的刻画

工具:excel、spss都很方便

转载于:https://www.cnblogs.com/Erma/p/9736479.html

数据挖掘——统计学分析(一:数据的整理与图示表示)相关推荐

  1. 2020互联网数据分析师教程视频 统计学分析与数据实战 r语言数据分析实战 python数据分析实战 excel自动化报表分析实战 excel数据分析处理实战

    2020互联网数据分析师教程视频 统计学分析与数据实战 r语言数据分析实战 python数据分析实战 excel自动化报表分析实战 excel数据分析处理实战

  2. 数据挖掘2.2——认识数据 知识点整理

    数据挖掘2.2--认识数据 1.数据类型 1.1数据对象 1.2属性 2.数据统计汇总 2.1中心化趋势度量: 均值. 中位数和众数 2.2 离散度度量 2.3数据可视化 3.数据相似性和相异性度量 ...

  3. 统计学原理 品质数据的整理与展示

    数据的整理与显示(基本问题) 要弄清所面对的数据类型 不同类型的数据,采取不同的处理方式和方法 对分类数据和顺序数据主要是作分类整理 对数值型数据则主要是作分组整理 适合于低层次数据的整理和显示方法也 ...

  4. 【数据分析/商业分析】面试题整理——统计学/机器学习/业务专题

    SQL编程专题:[数据分析/商业分析]面试题整理--SQL专题 文章目录 统计学 机器学习 SQL 大数据 业务知识 python 统计学 怎么做假设检验 偏态分布怎么处理 假设检验的基本原理,为什么 ...

  5. 《统计学:从数据到结论》学习笔记(part1)--统计学是收集、分析、展示和解释数据的科学

    学习笔记 学习书籍:<统计学:从数据到结论>-吴喜之: 参考书目:<统计学>-贾俊平 一些统计学的基本概念 啥是统计学? 按照不列颠百科全书关于统计学的定义,统计学是" ...

  6. python数据挖掘课程设计——基于数据挖掘的森林火灾预测分析(数据代码+数据分析+数据可视化展示)

    基于数据挖掘的森林火灾预测分析 [摘要]随着全球范围性的温室效应,全球气温正逐步升高,为对抗温室效应,森林已经成为我们急需保护的资源,但是火灾时刻威胁着森林资源.为了帮助对抗温室效应.保护森林,本研究 ...

  7. 分析,大数据,数据挖掘,数据科学,机器学习100个活跃的博客

    分析,大数据,数据挖掘,数据科学,机器学习100个活跃的博客 留在数据科学技能的巅峰!下面是对大数据,数据科学,数据挖掘,机器学习和人工智能约100最活跃,最有趣的博客的列表. Devendra De ...

  8. python大数据分析实例-如何用Python分析大数据(以Twitter数据挖掘为例)

    原标题:如何用Python分析大数据(以Twitter数据挖掘为例) 来源:艾翻译(http://www.itran.cc/) 原文标题:Twitter Data Mining: A Guide to ...

  9. python数据挖掘学习笔记】十六.逻辑回归LogisticRegression分析鸢尾花数据

    但是很多时候数据是非线性的,所以这篇文章主要讲述逻辑回归及Sklearn机器学习包中的LogisticRegression算法 #2018-03-28 16:57:56 March Wednesday ...

  10. Python数据挖掘学习笔记】九.回归模型LinearRegression简单分析氧化物数据

    #2018-03-23 16:26:20 March Friday the 12 week, the 082 day SZ SSMR [Python数据挖掘学习笔记]九.回归模型LinearRegre ...

最新文章

  1. deepin中mysql数据库的连接_Python爬虫进阶教程(八):MySQL 数据库连接
  2. 股票有风险!切莫因为赚了几百亏了几万
  3. c#重命名文件 - 抛弃MoveTo,而引用vc 中rename生成rename.dll
  4. Android之基于xmpp openfire smack开发之Android消息推送技术原理分析和实践[4]
  5. 面试中如何剔除“鱼目混珠”程序员?
  6. 问题记录 | SpringMVC整合jackson版本问题
  7. class加载原理和Dex加载的原理-----android插件化技术
  8. C语言如何依次读取字符,C中的字符串,如何获取subString
  9. 2G GSM基站的工作原理
  10. PDF文件太大,教你一个方法让PDF文件变小
  11. Sigma-Delta 调制
  12. 增加linux vg 空间大小_Desperate struggle
  13. 优秀自律的人手机上都装了些什么app?看完你就懂了!
  14. AWS入门 – 开通海外账户及巧用免费套餐
  15. U盘安装WIN10时显示 windows无法安装到这个磁盘 选中的磁盘采用GPT分区形式
  16. 灰zhu姑xiao娘mei
  17. ADAS中国术语标准
  18. 不明恶意攻击致搜狗搜索搜索结果跳转百度搜索技术原理分析
  19. 2的31次方与2的负31次方
  20. 每日一记 - 3.10

热门文章

  1. 【性能测试】:操作NMON的shell脚本
  2. liunx服务程序的安装及配置
  3. .net中的各种委托(Delegate、Action、Func)
  4. Asp.net core 通过Models 生成数据库的方法
  5. 关于Hbase的cache配置
  6. 使用javascript操作cookies的实例
  7. [入门阅读]怎样在android中解析JSON
  8. DB2 9 根本(730 磨练)认证指南,第 3 部门: 谋面 DB2 数据(4)
  9. 雅虎网站页面性能优化的34条黄金守则
  10. 优化CUDA数据传输