数据学习-统计学(1)
数据整理与展示
1.数据预处理
2.分类和顺序数据的整理与展示
3.数值型数据的整理与展示
4.统计表
1 数据预处理
数据预处理分为数据审查、数据筛选、数据排序
1.1 数据审查
数据审核要从数据的完整性和准确性两方面入手。
完整性主要是检查是否有遗漏
准确性主要是数据是否有错误
二手数据着重数据的适用性和时效性
1.2 数据筛选
数据筛选包括两方面内容:
一是将某些不符合要求的数据或有明显错误的数据予以剔除‘;
二是将符合某些特定条件的数据筛选出来,而不符合的将其剔除
1.3 数据排序
排序是按一定顺序进行排列,以便于研究者通过数据观察一系列的明显特征或趋势,找到解决问题的办法。
排序分为升序和降序。一般情况下,我们默认排序按照升序排列
2 分类和顺序数据的整理与展示
2.1 分类数据的整理与展示
2.1.1 分类数据的整理
分类数据本身就是对事物的一种分类,因此,在整理是除了列出来所分的类别外,还要计算出每一类别的频数、频率或比率
2.1.2 分类数据的图示
分类数据的图示:图示方法包括条形图、饼状图。
条形图一般来说根据用图的高度来表示各类别数据的大小。
饼状图一般来说是根据扇形图的面积来表示各类别数据的大小,并且表示该类别在整个数据所占的比例
2.2 顺序数据的整理与图示
2.2.1 顺序数据的整理
顺序数据的整理:顺序的整理与上面介绍的,如频数、比例、百分比、比率、条形图和饼图等,都适用于对顺序数据的整理与显示。但有些适用于顺序数据的整理与显示,而不适用于分类数据,比如可以累积频数和累积频率。
累积频数是将各有序类别或组的频数逐级累加起来得到的频数。
累积频率是将各有序类别或组的百分比频率逐级累加起来得到的频数。
2.2.2 顺序数据的图示
顺序数据的图示:包括累积频数分布图、环形图。累计图可以显示累积频数的变化趋势;环形图与饼状图类似,但又有所区别,饼状图只能表示一个总体样本的数据分布,而环形图可以表示多个总体样本的数据分布。
3 数值型数据的整理与显示
3.1 数据分组
数据分组方法包括:单变量分组、组距分组(根据组距分别等距分组合非等距分组)。
数据分组步骤:
1.确定组数(可根据经验公式确定所分组数)
公式为:K=1+lgn/lg2
当然这里是经验公式,当数据足够大时,可根据数据的特点和分类需求,灵活确定公式。
2.确定各组的组距
组距一般是上限和下限的差值,然后除以组数。
3.根据分组整理成频数分布表
3.2 数值型数据的图示
数值型数据的图示
上面介绍的条形图、饼图、环形图及累积分布图都适用于现实数值形数据,但也有一些对数值型的图方法示并不适用于顺序数据和分类数据
1.分组数据:直方图
表示频数分布的图形,是一个矩形的图形
2.未分组数据:茎叶图和箱线图
直方图主要是对分组数据的分布图示,而未分组二点数据用茎叶图和箱线图
(1)茎叶图由茎和叶组成,反应原始数据分布,茎一般来说是由高位数组成,而叶一般是保留最后一个数。
由经验表明茎叶图的行数一般为:
假设数据个数为n(20<=n<=200)
L=[10lgn]
(2)箱线图由最大值、最小值、中位数、两个四分位数(25%、75%)五个特征绘制组成。
箱线图由一个箱子和两条线段组成,一般反应数据特征的分布情况。
3.时间序列:线图
一般来说线图用来表示时间序列的数据,反应时间变化,对数据带来的变化趋势。
4.多变量数据:雷达图
一般雷达图是表示各个变量数据的分布情况。
3.4 统计表
统计表和统计图是统计数据的两种方式。
统计表主要由行标题、列表提、表头、数值组成,表外附加通常放在统计表的下方。
统计表的设计要和安排表的长度和宽度,并且安排位置要合理。
小知识点
直方图与条形图有何区别?
直方图与条形图的区别:直方图更注重连续值图示时的大小变化,而条形图更注重类别数据的展示,不看重变化趋势。
绘制线型图是需要注意什么?
绘制线图时要注意该数据是否是时间序列数据,注重随着时间的推移,探索事物的发展趋势。
想了解和加入数据科学小组,欢迎关注公众号:数据科学家联盟。
数据学习-统计学(1)相关推荐
- 学习数据科学需要了解一些什么,什么是学习统计学最好的方法呢?
对于未处在定量领域中的有志数据科学家们,学习统计学可是条令人胆寒的不归路.不论你是个计算机工程专业的大学生,寻找事业新出路的开发人员还是个MBA研究生,似乎在数据科学中最让大家觉得害怕的部分总是统计学 ...
- 大数据学习路线copy自淘宝
一.hadoop视频学习(入门到精通) 二.数据挖掘(入门到精通) 三.Hadoop学习路线 1.开发前期准备 首先,如果你没有Java和Linux基础,建议你先简单学一下这两门课程,此宝贝里面都为你 ...
- 大数据学习完可以做什么
如果要推荐一种人人都能掌握的编程语言,应该没有比Python更合适的了.如果想学习大数据,可以选择从python语言入手~ Python 简单易学,用途广泛,不仅可以在日常办公中提高大家的职场效率,还 ...
- 2019年最全的大数据学习大纲总结,持续更新.....
一,题记 要说当下IT行业什么最火?ABC无出其右.所谓ABC者,AI + Big Data + Cloud也,即人工智能.大数据和云计算(云平台).每个领域目前都有行业领袖在引领前行,今天我们来讨论 ...
- 大数据时代统计学面临的机遇与挑战
(2016-10-15 银河统计) 大数据时代的到来, 使我回想起上个世纪80年代大学时期非常流行的一本书: <第三次浪潮>(The Third Wave) 美国著名未来学家阿尔温.托夫勒 ...
- My Plan——大数据学习之路
大数据学习之路 本文简介 相关书籍 计算机基础 数据结构与算法 计算机组成原理 操作系统 计算机网络 数据库 JAVA Python Linux 大数据 其他 本科专业课程安排 学习计划 计划 总结 ...
- 27.大数据学习之旅——SparkStreamingspark mllib数据挖掘与机器学习
SparkStreaming介绍 概述 Spark Streaming是一种构建在Spark上的实时计算框架,它扩展了Spark处理大规模流式数 据的能力,以吞吐量高和容错能力强著称. SparkSt ...
- Thinking in BigData(五)大数据之统计学与数据挖掘
今天回来,在原来的文章中,添加了一些数据挖掘方面的概念. 上篇博客,我们从"大","价值"两点来揭示大数据主要源于哪些企业和在哪些企业应用更广泛.在最后,我么指 ...
- (清华毕业生)大佬总结的“大数据”学习路线+教程
一,题记 要说当下IT行业什么最火?ABC无出其右.所谓ABC者,AI + Big Data + Cloud也,即人工智能.大数据和云计算(云平台).每个领域目前都有行业领袖在引领前行,今天我们来讨论 ...
最新文章
- Java中集合类型线程安全性
- mac上安装ta-lib
- 排序算法四:归并排序
- linux yum源安装
- NYOJ 228 士兵杀敌(五)
- Linux中的文件特殊权限
- mstsc /console 远程命令
- java 采集 cms_开源 java CMS - FreeCMS2.3 Web页面信息采集
- Win10修改注册表,提示无法创建密钥
- Android权限管理 1
- 来,创建一个高效的IMEI编码生成器
- ecplise插入图片太大_PPT文件太大?100M的PPT一秒变18M,这个压缩方法实在绝了
- 单片机c语言sfr数据读,单片机c语言的sbit和sfr.docx
- 第几天(c语言实现,两种做法)
- ping命令的多种玩法,以前竟然只用它来测试网速!
- C语言的主要用途以及未来发展
- Transformer讲解(三)- CV变形金刚-ViT知识介绍
- 关于IDEA编辑HTML文本严重卡顿,例如使用快捷键var ,function等等, 扩大缩小IDEA窗口。
- 阿里云服务器Mongodb被黑,数据丢失
- 162_附加145路由器项目中所用到的单链表操作_尾插、头插、遍历打印、查找ip、删除节点数据、释放全部、保存终端输入IP到文件、文件中的过滤IP插入到链表