数据挖掘——统计学分析(一:数据的整理与图示表示)
数据预处理
1、数据审核:检查数据中是否有错误
原始数据->完整性:所调查的对象是否有遗漏。
准确性:数据是否有错误、存在异常值
->异常值 :记录错误,予以纠正;正确地值,予以保留。
二手数据->适用性:明确数据的来源、口径、背景材料,以便确定数据是否符合分析研究的需要。
时效性:对于时效性较强的问题,如果数据是滞后的对于研究就没有多大的意义。
2、数据筛选
工具:excel、spss,网上资料很多,这里不再赘述。
3、数据排序
1)按一定顺序排序,以便发现明显的特征或趋势;
2)利于数据的纠错、重新归类、分组。
品质数据的整理与展示
预处理后的数据,需进一步做分类、分组。
品质数据:分类数据、顺序数据
1、分类数据的整理与图示
分类数据:对事物的一种分类
整理:列出所分的类别,计算出每一类别的频数、频率或比例、比率,制作频数分布表。
目的:对数据及其特征进行初步地了解
工具:excel、spss前期的数据分析,这些工具已经很智能了!
图示:条形图、帕累托图、饼图、环形图
2、顺序数据的整理与图示
顺序数据:【转至百度百科】
整理:列出所分的类别,计算出每一类别的频数、频率或比例、比率,制作频数分布表;还可计算累计频率(或频数)
目的:对数据及其特征进行初步地了解
工具:excel、spss前期的数据分析,这些工具已经很智能了!
图示:条形图、帕累托图、饼图、环形图、累计频数分布图或频率图。
数值数据的整理与展示
数值型的数据除了可以用品质数据的整理和图示方法外,还有一些特殊的方法。
1、数据的分组:观察数据的分布特征
单变量值分组:适用于离散变量,其变量值较少。
组距分组:适用于连续性型变量,其变量值较多。
ex:分组方法及其制表过程
step1:确定组数。组数的确定主要是用于数据特征的观测,因此具体需视其数据特征而定。
step2:确定各组的组距。组距=组的上限-组的下限。组距的确定:(全部数据的上限-全部数据的下限)/组数
step3:根据分组整理成频数分布表。
2、数值型数据的图示
分组数据:直方图
未分组数据:茎叶图、箱线图
茎叶图:反映原始数据分布形状、离散状况(是否对称、集中、存在离群点)
工具:excel、spss都很方便
箱线图:由一组数据的的最大值、最小值、中位数、两个四分位数
时间序列数据——线图:反映随时间变化的特征
多变量数据的图示:散点图、气泡图、雷达图
散点图:2个变量之间的关系的刻画
气泡图:3个变量之间的关系的刻画
雷达图:多个变量之间的关系的刻画
转载于:https://www.cnblogs.com/Erma/p/9736479.html
数据挖掘——统计学分析(一:数据的整理与图示表示)相关推荐
- 2020互联网数据分析师教程视频 统计学分析与数据实战 r语言数据分析实战 python数据分析实战 excel自动化报表分析实战 excel数据分析处理实战
2020互联网数据分析师教程视频 统计学分析与数据实战 r语言数据分析实战 python数据分析实战 excel自动化报表分析实战 excel数据分析处理实战
- 数据挖掘2.2——认识数据 知识点整理
数据挖掘2.2--认识数据 1.数据类型 1.1数据对象 1.2属性 2.数据统计汇总 2.1中心化趋势度量: 均值. 中位数和众数 2.2 离散度度量 2.3数据可视化 3.数据相似性和相异性度量 ...
- 统计学原理 品质数据的整理与展示
数据的整理与显示(基本问题) 要弄清所面对的数据类型 不同类型的数据,采取不同的处理方式和方法 对分类数据和顺序数据主要是作分类整理 对数值型数据则主要是作分组整理 适合于低层次数据的整理和显示方法也 ...
- 【数据分析/商业分析】面试题整理——统计学/机器学习/业务专题
SQL编程专题:[数据分析/商业分析]面试题整理--SQL专题 文章目录 统计学 机器学习 SQL 大数据 业务知识 python 统计学 怎么做假设检验 偏态分布怎么处理 假设检验的基本原理,为什么 ...
- 《统计学:从数据到结论》学习笔记(part1)--统计学是收集、分析、展示和解释数据的科学
学习笔记 学习书籍:<统计学:从数据到结论>-吴喜之: 参考书目:<统计学>-贾俊平 一些统计学的基本概念 啥是统计学? 按照不列颠百科全书关于统计学的定义,统计学是" ...
- python数据挖掘课程设计——基于数据挖掘的森林火灾预测分析(数据代码+数据分析+数据可视化展示)
基于数据挖掘的森林火灾预测分析 [摘要]随着全球范围性的温室效应,全球气温正逐步升高,为对抗温室效应,森林已经成为我们急需保护的资源,但是火灾时刻威胁着森林资源.为了帮助对抗温室效应.保护森林,本研究 ...
- 分析,大数据,数据挖掘,数据科学,机器学习100个活跃的博客
分析,大数据,数据挖掘,数据科学,机器学习100个活跃的博客 留在数据科学技能的巅峰!下面是对大数据,数据科学,数据挖掘,机器学习和人工智能约100最活跃,最有趣的博客的列表. Devendra De ...
- python大数据分析实例-如何用Python分析大数据(以Twitter数据挖掘为例)
原标题:如何用Python分析大数据(以Twitter数据挖掘为例) 来源:艾翻译(http://www.itran.cc/) 原文标题:Twitter Data Mining: A Guide to ...
- python数据挖掘学习笔记】十六.逻辑回归LogisticRegression分析鸢尾花数据
但是很多时候数据是非线性的,所以这篇文章主要讲述逻辑回归及Sklearn机器学习包中的LogisticRegression算法 #2018-03-28 16:57:56 March Wednesday ...
- Python数据挖掘学习笔记】九.回归模型LinearRegression简单分析氧化物数据
#2018-03-23 16:26:20 March Friday the 12 week, the 082 day SZ SSMR [Python数据挖掘学习笔记]九.回归模型LinearRegre ...
最新文章
- deepin中mysql数据库的连接_Python爬虫进阶教程(八):MySQL 数据库连接
- 股票有风险!切莫因为赚了几百亏了几万
- c#重命名文件 - 抛弃MoveTo,而引用vc 中rename生成rename.dll
- Android之基于xmpp openfire smack开发之Android消息推送技术原理分析和实践[4]
- 面试中如何剔除“鱼目混珠”程序员?
- 问题记录 | SpringMVC整合jackson版本问题
- class加载原理和Dex加载的原理-----android插件化技术
- C语言如何依次读取字符,C中的字符串,如何获取subString
- 2G GSM基站的工作原理
- PDF文件太大,教你一个方法让PDF文件变小
- Sigma-Delta 调制
- 增加linux vg 空间大小_Desperate struggle
- 优秀自律的人手机上都装了些什么app?看完你就懂了!
- AWS入门 – 开通海外账户及巧用免费套餐
- U盘安装WIN10时显示 windows无法安装到这个磁盘 选中的磁盘采用GPT分区形式
- 灰zhu姑xiao娘mei
- ADAS中国术语标准
- 不明恶意攻击致搜狗搜索搜索结果跳转百度搜索技术原理分析
- 2的31次方与2的负31次方
- 每日一记 - 3.10