第一个问题,连续变量是什么?

一个人的年级,统计出来有1、2、3……
一个人的年纪,统计出来有18、19、20……

但是,虽然都是数字,只有年纪是连续变量。

为什么?顾名思义,年纪是连续的,18 - 19之间可以无限划分,而年级不行,你只能位于这几个数之间的一个,而不能在他们中间。

所以我们定义连续变量为:在一定区间内可以任意取值的变量。

下面进入正题,连续变量的描述统计。

概述

对于统计学和SPSS来说,描述统计很直观,非常适合入门,它的作用就是进行描述

描述一组数据,最普及的当然是平均数了,它属于集中趋势的量数,那么在数据工作中,我们可以从以下几个方面对数据进行描述:

  • 集中趋势 central tendency
  • 离散趋势 dispersion tendency
  • 分布特征 distribution tendency

下面一个个介绍

集中量数

它用来体现一组数据的一般水平,集中意为数据们向某一点集中,众数据奔它而来。
这一点并不固定,我们会根据数据的不同分布状况进行选择,比如:

  • 算术平均数:观察值总和与总频数之商;这是最常用的指标,但不适合对严重偏态分布的变量进行描述。譬如一个很常用的比分:一名CEO 的薪资为50w,10名员工薪资为3000,他们的算数平均数能代表该公司的平均薪资水平吗?显然不能。
  • 中位数:将全体数据从大到小排列,在数列中处于中间位置的数。
  • 众数:出现次数最多的数。
  • 还有截尾均数、几何均数、调和均数,其中截尾均数用得相对较多,截尾截尾,截去头尾,再求算术平均数;它能够有效防止极端值影响,一个很广泛的场景是:比赛计算得分时,去掉最高分和最低分,再求算术平均数。

差异量数

差异量数用来描述数据分布的变异性,能够量化描述数据的延伸、聚集状态,也就是我们常说的分散还是集中。
集中量数和差异量数密不可分,在推断统计中,我们会同时用这两组数据来进行分析。
常用的差异量数有以下几种:

  • 全距 range:最大值与最小值之差,很简单,不过也没什么用hhh
  • 百分位数、四分位数、四分位距一起说
    • 百分位数用来表示位置,如P99,就是将观察值分为两部分,理论上有99%的观察值比它小,1%比它大,是非常靠前的位置了。
    • 四分位数就是3个特定的百分位数,P25/P50/P75,可以发现,在同一组数据中,这三个四分位数是按上面的顺序升序排列的。(也可这样表示:Q1=P25;Q2=P50;Q3=P75)
    • 四分位距就是中间50%的数据的全距,也就是P75-P25。
  • 标准差和方差:这是一种算起来麻烦但是应用非常广泛的量数,大概仅次于算数平均数。标准差描述的是分布中每一个个体与均值之间的距离,也就是说,这组数据离中心偏离了多远。
  • 变异系数:当你要比较两组数据离散程度大小的时候,很多时候不能直接比较,主要为以下两种情况:

    • 测量尺度相差太大;比如蚂蚁的体重和大象的体重,显然不是一个量级,大象一点点的变化,在蚂蚁身上都会显得非常大,直接用标准差是不合适的;
    • 数据量纲不同;比如想要比较人的身高和体重离散程度大小,cm和kg如何比较呢?
    • 所以我们推出了变异系数CV(Coefficient of Variation),它的公式很简单,就是**(标准差/平均值)**,用除法消除了量纲,又按照均数大小进行了标准化。

分布特征

最常见的分布就是正态分布了,我们知道正态分布的形态,那么偏离的那些如何描述呢?于是偏度系数、峰度系数也被推出来,描述当前数据偏离正态分布的程度。
这些用得比较少,我们只介绍一下其含义:

  • 偏度:分布不对称的方向和程度,记为g1;他是与正态分布比较而言的。

    • g1>0时,呈正偏态分布,长尾在右边
    • g1=0时,对称
    • g1<0时,呈负偏态分布,长尾在左边
  • 峰度:分布的尖峭程度或峰凸程度,记为g2;仍然是与正态分布相比较而言的统计量。
    • g2>0,峰的形状比较尖
    • g2=0,正态峰
    • g2<0,峰的形状比正态分布要平坦

SPSS实现

在SPSS中呢,想要知道这些数据都是非常非常方便的!

  • 他们在哪里?

  • 在“描述统计”子菜单中

  • 频率:这里能够产生原始数据的频数表以及百分位数等各种统计数据;

  • 最简单的,把你需要统计的变量移到右边的“变量”框内再按“确定”就可以了;

  • 右边的“统计”提供了百分位值、集中量数、差异量数、分布等的选项,勾选了就可以在输出中显示啦;“图表”可以勾选你需要显示的条形图、饼图等噢;默认是全部不勾选的,欢迎diy~

  • 描述:它用于一般性的统计描述,不能作图,可选项也没有那么多,但是简单高效,使用频率非常高,一般用于正态分布。

  • 探索:都是描述统计,为什么explore听起来高级一点?因为他是用于连续性资料分布状况不清时进行探索式分析。除了常用统计量,还可以做截尾均数、极端值列表等,当然也可以画图,功能非常强大。

其实SPSS对新手真的非常友好,基本就是“所见即所得”,新手可以直接点开一个数据集,尝试各种功能,相信能够进步非常快~

连续变量的描述统计与SPSS实现相关推荐

  1. SPSS李克特量表的变量属于顺序变量,为什么可以当作连续变量使用?【SPSS 060期】

    一.教学内容 二.备注 相关资料已上传我的资源,下载链接https://blog.csdn.net/TIQCmatlab?spm=1011.2124.3001.5343

  2. SPSS分析技术(导航页)

    版本号:20171027 直接点击蓝色文章名称即可阅读! 持续更新,获取最新版本请前往[分析软件]-[SPSS]! 平台学习指南 1 如何通过"SPSS生活统计学"微信公众号学习数 ...

  3. python数据科学实战_Python数据科学实战第三讲作业HW4

    先完成作业,再看老师解答,若有不同的地方或出错之处再来修改. 作业要求: 使用auto_ins作如下分析 1.首先对loss重新编码为1/0,有数值为1,命名为loss_flag 2.对loss_fl ...

  4. 基于用户画像的精准营销

    1. 问题背景 所要解决的问题是找到目标人群,精准投放营销广告. 用户画像,即用户信息标签化,就是企业通过收集与分析消费者社会属性.生活习惯.消费行为等主要信息的数据之后,完美地抽象出一个用户的商业全 ...

  5. 数学建模学习笔记(7):相关系数

    文章目录 相关系数概述 皮尔逊相关系数的相关概念 假设检验的一般步骤 皮尔逊相关系数的假设检验方法 皮尔逊相关系数假设检验条件 正态分布常用的三种检验方法 斯皮尔曼相关系数 相关系数的选择方式 使用相 ...

  6. SPSS数据分析之连续变量频率分析

    我们以"Q3. 周岁年龄"这个变量进行连续变量的频率分析: 步骤:[分析]-[描述统计]-[频率]-[Q3.周岁年龄] 在[频率:统计]中,SPSS提供了丰富的描述性计量,包括百分 ...

  7. 两个自变量和一个因变量spss_多个自变量(包括离散变量和连续变量)对一个因变量的影响(SPSS:协方差分析)...

    协方差分析解决的问题:多个自变量(包括离散变量和连续变量)对一个因变量(连续数据)的影响.自变量中的连续变量被作为协变量加以"控制"(控制变量). 协方差分析可以在一定程度上排除非 ...

  8. SPSS如何做离散和连续变量的统计描述

    SPSS如何做离散和连续变量的统计描述 离散变量的统计描述 原始数据 §频数列表 §百分比 §累计频数 §累计百分比 集中趋势 §众数 连续变量的统计描述 频数表 操作步骤:确定组数:确定组距:确定各 ...

  9. 因变量是连续变量spss里面用什么模型做回归

    如果因变量是连续变量,在 SPSS 中可以使用线性回归模型来做回归分析.

  10. spss聚类分析_SPSS聚类分析 I K均值聚类法案例实操

    - 点击上方"中国统计网"订阅我吧!- 文末领取医疗行业报告 今天想写一下聚类分析方法之一:K-Mean聚类法 01聚类分析模型简介 (1)聚类分析没有过多的统计理论支持,也没有统 ...

最新文章

  1. sql怎么实现取当前数据以及累计7天数据_年薪60万+大佬吐血整理字节跳动大数据面试真题...
  2. python中的静态方法如何调用_关于Python中如何使用静态、类、抽象方法的权威指南(译)...
  3. bzoj3993: [SDOI2015]星际战争(二分+最大流)
  4. 全面解析python类的绑定方法与非绑定方法(转载+自己的消化与理解)
  5. python组合数据分类_Python 数据可视化:分类特征统计图
  6. 这么奇葩搞笑的代码注释你见过吗
  7. 机器学习算法优缺点对比及选择
  8. python---(7) Python 关键词
  9. layui 下拉框多选数据_智慧职教mooc2020大数据基础课后答案
  10. 地学计算方法/地统计学(5第五章 空间插值与克里格法)
  11. 计算机二级c语言题型及考点,全国计算机二级C语言考试题型及考试重点.doc
  12. android文件恢复功能,终于找到了安卓手机删除的文件的恢复方法值得一看
  13. react router 路由守卫_react实现路由守卫
  14. 终端设置指南,让Mac/Linux/Windows终端更上一层楼
  15. CKA考试指南和攻略
  16. 如何申请:悟空问答,达人,金V认证!
  17. Ubuntu下安装Datax-web数据交换平台
  18. 【深度学习小常识】什么是mAP?
  19. Python数据攻略-Pandas进行Excel文件读写
  20. 离散数学大作业——C++实现集合的基本运算

热门文章

  1. YOLO v2详细解读
  2. 教你如何下载并破解IAR
  3. Android编程随机抽奖,js抽奖实现随机抽奖代码效果
  4. 通信接口:UART、I2C、SPI、TTL、RS232、RS422、RS485、CAN、USB
  5. java 对象转换成map_Java中对象(Object)转换成Map
  6. 电力系统的常用仿真模块MATLAB/SIMULINK(1)
  7. 腾达u12如何安装linux驱动,解决Centos7 安装腾达U12无线网卡驱动问题
  8. Fences -让你的桌面图标分组显示,成块状化
  9. STM32 HAL库 结构
  10. 初入steam避坑请进