第二章-数据描述(初级统计)
一、图表展示定性数据
定性数据包括分类数据和顺序数据(通常用频数分布表和图形描述)。
饼图、直方图、环形图来描述的是单变量的数据。
(一)频数分布表
频数分布表中落在某一特定类别的数据个数称为次数或频数,各组频数与各组次数总和之比称为频率。
(二)定性数据图形展示
饼图、条形图、环形图、帕累托图
描述人口性别比例适宜的图形饼图、条形图。
1.饼图:又称圆饼图、圆形图,利用圆形及圆内扇形面积表示数值的大小的图形。饼图用于总体中各组成部分所占比重的研究。
2.条形图:用宽度相同的条形高度或长度表示数据多少的图形。
3.环形图:比较不同变量之间的结构差异。(多个样本)
题型:1.比较两个企业员工队伍的学历结构,用环形图表示比较适宜。
4.帕累托图:又称排列图或主次图。按照各类别数据的频数多少排序(即根据频率降序排列)绘制,并在同一张图中画出累积百分比。
二、图表展示定量数据
(一)频数分布表
生成定量数据的频数分布表时,首先数据进行1.分组,然后再统计出各组别的数据频数。
统计分组的关键两个,一是分组,二是划定各组界限。
一般分组个数在5-15之间,确定组距,组距等于全距(全部数据中最大值与最小值之差)除以组数。
组距=全距/组数 全距=组距*组数
题型:1.在编制等距数列时,如果全距等于56,组数为6,为统计运算方便时,组距取9。是否正确?
全距=组距*组数 全距=6*9=54<56,则此种分组不能包含所有数据,所以组距为9不恰当,可以取组距为10。
2. 在编制等距数列时,如果全距等于54,组数为6,为统计运算方便时,组距取9。是否正确?
全距=组距*组数 全距=6*9=54=54,则此种分组能包含所有数据,所以组距为9恰当。
2.确定组距时,一般遵循的原则:一是考虑各组的划分是否能区分总体内部各个组成部分的性质差别。(学生成绩必须有60分的组限)
二是能准确、清晰反映总体单位的分布特征。
3.统计出各组的频数得出频数分布表,若相邻两组的上下限重叠,采取上限不在内的原则,即将该频数计算在与下限相同的组内。
题型:1.在反映学生身高分布时,将其分组为120厘米、120~130厘米、130~140厘米、140厘米以上。
120厘米在第二组,130厘米在第三组。
2.对全班同学成绩采用如下分组:40分以下,40分~60分,60分~80分,80分以上。
(二)定量数据图形展示
直方图、散点图、折线图
1.直方图:横坐标代表变量各组的界限,也代表数值大小。纵坐标代表个变量值出现的频数或频率。
题型:1.抽样调查1000家小微企业的经营情况,最适用来描述小微企业利润数据特征的图形为直方图。
2.反映变量分布的统计图为直方图。
2.折线图:利用线段的升降起伏来表现描述的变量在一段时期内的变动情况。主要用于显示时间序列的数据,以反映食物发展变化的规律和趋势。
题型:1.反映企业历年来产量的变化情况最适用的图形为折线图。
2.反应GDP动态变化情况适宜图形为折线图
3.散点图:观察两个变量之间的相关程度和类型最直观的方法。
题型:1.频数分布表既适用于定性数据也适用于定量数据。
2.描述产品产量和单位成本关系合适的图形为散点图。
3.既适用于定性数据也适用于定量数据的图形有饼图、条形图、环形图。
三、用统计表来表示数据
一个完整的统计表从结构来看一般包括:表头、行标题、列标题、数据资料、对表中指标或数据的补充说明一般作为附加部分放在统计表的下方。
四、用数字来概括数据
数据的分布特征,从三个方面考察:1.该组数据的集中趋势,即该组数据的数值向其中心值的靠拢程度;2.是离散程度,该组数据的各个数值远离其中心值的趋势和程度;3.分布的形状,即分布函数的“高矮胖瘦”。
(一)集中趋势的度量
常用的数据集中趋势测度值有众数、中位数、分位数、平均数。
1.定性数据主要是计数,比较简单。
顺序数据集中趋势重用的方法是计算百分比、中位数、众数。
分类数据集中趋势常用的计算方法:众数
2.定量数据的数值有实际含义,可以进行加减乘除计算,反映定量数据的集中趋势的测度值有平均数、中位数、众数和分位数。
(1)众数:一组数据中出现次数或频率最多的数值。是一种位置平均数,不受极端变量值的影响。
分类数据集中趋势常用的计算方法:众数。也可以用来测度顺序数据和数值型数据的集中趋势。
(2)中位数:按照大小排列处在数据中点位置,是典型的位置平均数,不受极端变量值的影响。
中位数主要用于顺序数据、数值型数据,但不能用于分类数据。
题型:1.采用众数、中位数来反映学生上网时间的平均水平。
2.5名股票经纪人的年收入分别为19万元、28万元、46万元、39.5万元、150万元,以下指标中更适宜反映经纪人收入水平的是中位数。
数据中存在150万元属于极端值,对平均数的代表有较大的影响。该组数据每一个数值均只出现一次,不存在众数。
(3)平均数:表述某一事物的平均水平。缺点易受少数极端数值的影响。
1.算术平均数
未分组简单平均数
分组加权平均数
2.几何平均数
题型:1.如果一批数据中有少数极端值,则描述其集中趋势不宜采用简单平均数。
平均数缺点易受少数极端值影响,对于严重偏态分布的数据,平均数的代表性较差。而加权平均数是针对分组数据的,中位数和众数不受极端值影响,具有统计稳健性。
中位数和众数不受极端值的影响,具有统计上的稳健性。
(二)离中趋势的度量
反映数据离散程度的测度指标:异众比率、极差、四分位距、平均差、标准差、方差和离散系数。
(1)异众比率
非众数组的频数占总频数的比率。
主要用于衡量众数对一组数据的代表程度。异众比率越大,说明非众数组的频数占总频数的比重越大,众数的代表性越差。
题型:1.在一项对4G用户的调查中调查了1000人,其中有663人使用移动运营商的网络,则异众比率是33.7%。
总频数1000人,非众数:1000-663=337人 异众比率=337/1000=33.7%
(2)极差
极差又称全距,一组数中的最大值与最小值之差。非常容易受极端值的影响,因此不能准确描述数据的离散程度。
(3)四分位距
(4)平均差
平均差是一组数据与其均值之差的绝对值的平均数,也称为平均绝对差,利用了全部数据计算,因此易受到极端值的影响。
(5)标准差和方差
标准差是方差的平方根。
题型:1.标准差的大小会受到数据本身数值大小或者计量单位不同的影响,如数列1、2、3、4、5的均值=3,标准差=1.58,而数列1001、1002、1003、1004、1005的均值=1003,标准差=1.58。虽然这两个数列的标准差相同,但是两数列的差异程度却不相同。所以并非所有性质相同的两列数列可以采用标准差来比较其平均数的代表性。
2.在一个统计样本中,标准差越大,说明它的各个观测值分布的越分散,它的趋中程度越差。
(6)离散系数
离散系数=标准差/均值
题型:一组数据的离散系数为0.5,平均数为20,则标准差为
标准差=0.5*20=10
(7)标准分数
标准分数=(变量值-平均值)/标准差
题型:1.标准分数最大的用途就是可以把两组数据中的两个不同均值、不同标准差的数据进行对比,以判定它们在各组中的相对位置。
2.某男生的身高176cm,某女生身高170cm,通过资料了解,男生身高均值172cm,标准差2.8cm,女生身高均值164cm,标准差2.5cm。
某男生身高标准分数=(176-172)/2.8=1.43
某女生身高标准分数=(170-164)/2.5=3.2
(三)偏态与峰度的度量
(1)偏态系数 SK
当 SK>0,表示正偏离差数值越大,可判断为正偏或右偏;SK<0,可判断为负偏或左偏。
(2)峰度系数
K=0,数据服从标准正态
K>0,尖峰 K<0,扁平
题型:1. SK=-0.85,K=-1.92判断?
SK=-0.85<0 左偏,K=-1.92扁平
第二章-数据描述(初级统计)相关推荐
- 信息学奥赛一本通(C++版)第二部分 基础算法 第二章 数据排序
第二章 数据排序 T1310 : 车厢重组 时间限制: 1000 ms 内存限制: 65536 KB [题目描述] 在一个旧式的火车站旁边有一座桥,其桥面可以绕河中心的桥墩水平旋转.一个车站的职工 ...
- AMBA5 AHB协议规范(AHB5,AHB-Lite)中文版-第二章 信号描述
第二章 信号描述 这一章描述了协议信号.它包含以下部分: -Global signals on page 2-20. -Master signals on page 2-21. -Slave sign ...
- ASP.NET3.5 企业级项目开发 -- 第二章 数据访问层(DAL)的开发
为什么80%的码农都做不了架构师?>>> ASP.NET3.5 企业级项目开发 -- 第二章 数据访问层(DAL)的开发 前言:本篇主要讲述数据访问层的开发, ...
- 第二章 数据的表示和运算 2.1.6 循环冗余校验码/CRC码 [计算机组成原理笔记]
第二章 数据的表示和运算 2.1.6 循环冗余校验码/CRC码 本笔记参考书目: 计算机组成原理(第六版.立体化教材)白中英.戴志涛 2021王道计算机组成原理视频公开课 本节重点: 循环冗余校验码/ ...
- 第二章 数据的表示和运算 2.1.5 汉明(海明)校验码 [计算机组成原理笔记]
第二章 数据的表示和运算 2.1.5 汉明(海明)校验码 本笔记参考书目: 计算机组成原理(第六版.立体化教材)白中英.戴志涛 2021王道计算机组成原理视频公开课 本节重点: 海明(Hamming) ...
- 第二章 数据的表示和运算 2.1.4 奇偶校验 [计算机组成原理笔记]
第二章 数据的表示和运算 2.1.4 奇偶校验 本笔记参考书目: 计算机组成原理(第六版.立体化教材)白中英.戴志涛 2021王道计算机组成原理视频公开课 本节重点: 奇偶校验的方法/原理 码距和检/ ...
- 第二章 数据的表示和运算 2.1.3 字符与字符串 [计算机组成原理笔记]
第二章 数据的表示和运算 2.1.3 字符与字符串 本笔记参考书目: 计算机组成原理(第六版.立体化教材)白中英.戴志涛 2021王道计算机组成原理视频公开课 本节重点: ASCII码/汉字编码 字符 ...
- 第二章 数据的表示和运算 2.1.2 BCD码 [计算机组成原理笔记]
第二章 数据的表示和运算 2.1.2 BCD码 本笔记参考书目: 计算机组成原理(第六版.立体化教材)白中英.戴志涛 2021王道计算机组成原理视频公开课 本节重点: 8421/2421/余3码 转载 ...
- 第二章 数据的表示和运算 2.1.1 进位计数制 [计算机组成原理笔记]
第二章 数据的表示和运算 2.1.1 进位计数制 本笔记参考书目: 计算机组成原理(第六版.立体化教材)白中英.戴志涛 2021王道计算机组成原理视频公开课 本节重点: 二进制 <-> 八 ...
最新文章
- foxmail 怎么修改存储路径_FoxMail 7.2的邮件存储目录修改
- 固定资产的完全报废接口
- 按类别组织的Python主要内置对象类型
- 聚合(根)、实体、值对象精炼思考总结
- centos 多个mysql,Centos中安装多个MySQL数据的配置实例
- 玩转数据结构——均摊复杂度和防止复杂度的震荡(笔记)
- java 密码生成器_Java课程设计-随机密码生成器
- 【Java】利用循环嵌套实现输出一天的小时和分钟
- echarts的dataZoom属性在移动端 h5+环境中无法左右滑动问题
- error loading python dll_Error loading Python DLL python36.dll 的解决办法 及其他pyinstaller问题...
- 案例1_公司简介(修改)
- mysql配置my.cnf文件,以及参数优化提升性能
- C++中两个栈实现一个队列
- 西门子阀门定位器6DR5011-0NG11-0AA0
- 深度学习之美 第五章 学习笔记
- ajax hapi上传文件,在hapi框架里使用ajax提交表单数据,但是服务端接收到的数据是空对象。怎么办啊?...
- Unity3d 音效 音乐 大小控制
- 外贸供应链ERP怎么选?全流程综合管理解析
- 标题隐藏_经典街机游戏《三国志》,二十多年后你告诉我还有隐藏必杀
- Java获取12306余票信息(二)
热门文章
- kubernetes-准入控制器-13
- 西门子逻辑运算指令_西门子plc 算术、逻辑运算指令
- linux pannel 误删除后的恢复方法
- 自定义模块上传 npmjs.com 过程
- 【TensorFlow】计算图graph的使用学习笔记(二)
- 会说话的代码 Python pyttsx3,及AttributeError:partially initialized module......(......)报错,解决方法
- python爬虫selenium和bs4_python爬虫――selenium+bs4爬取选股宝‘利好‘or’利空'股票信息...
- ads1278_24位高性能模数转换器ADS1274/ADS1278及其应用
- 超强干货:企业数据防泄密的26种实用方法
- 微信图片怎么添加竖排文字_怎样在手机上给微信图片上添加文字?