数据分析的入门思维,首先要认识数据,然后对数据进行简单的分析,比如描述性统计分析和相关性分析等。

一,认识变量和数据

变量和数据是数据分析中常用的概念,用变量来描述事物的特征,而数据是变量的具体值,把变量的值也叫做观测值。

1,变量

变量是用来描述总体中成员的某一个特性,例如,性别、年龄、身高、收入等。

变量可以分为:

  • 定性变量:用于分类,一般是文本,例如,性别、颜色
  • 定序变量:用于表示等级或次序的变量,例如,学历,职位,排名等,变量的值可以把事务排列为高低或大小,但是各个变量值之间没有确切的间隔距离,无法确定两个定序变量之间相差多少。
  • 定量变量:是数量变量,能够比较大小。分为两类:离散变量和连续变量。

2,数据

数据是变量的具体值,按照变量的类型,可以把数据分为:分类数据、顺序数据和数值型数据。

按照数据分析的目的,可以把数据分为实验组(Treatment)和参照组(Control)。

按照数据的类型,可以把数据分为:文本数据、数值型数据和日期时间数据。

3,缺失值

不是所有的数据都是完整的,有些观测值可能会缺失,对于缺失值,通常的处理方式是:删除缺失值所在的数据行,填充缺失值、插补缺失值。

4,观测值的重编码

数据分析中,通常需要把连续型变量转换为定序变量,例如,把学生的成绩划分为优秀、良好、合格和差4个等级,这种操作也称作离散化。

当观测数据所用的单位可能影响数据分析时,还需要对数据进行规范化,常用的规范化方法是:最小-最大规范化,标准化变换等。

观测值的重编码,后续会有详细的介绍。

二,描述性统计分析

描述性统计量分为:集中趋势、离散程度(离中趋势)和分布形态。

1,集中趋势的描述性统计量

  • 均值:是指一组数据的算术平均数,描述一组数据的平均水平,是集中趋势中波动最小、最可靠的指标,但是均值容易受到极端值(极小值或极大值)的影响。
  • 中位数:是指当一组数据按照顺序排列后,位于中间位置的数,不受极端值的影响,对于定序型变量,中位数是最适合的表征集中趋势的指标。
  • 众数:是指一组数据中出现次数最多的观测值,不受极端值的影响,常用于描述定性数据的集中趋势。

2,离散程度的描述性统计量

  • 最大值和最小值:是一组数据中的最大观测值和最小观测值
  • 极差:又称全距,是一组数据中的最大观测值和最小观测值之差,记作R,一般情况下,极差越大,离散程度越大,其值容易受到极端值的影响。
  • 方差和标准差:是描述一组数据离散程度的最常用、最适用的指标,值越大,表明数据的离散程度越大。

3,分布形态的描述性统计量

偏度:用来评估一组数据的分布呈先的对称程度,当偏度=0时,分布是对称的;当偏度>0时,分布呈正偏态;当偏度<0时,分布呈负偏态。

峰度:用来评估一组数据的分布形状的高低程度的指标,当峰度=0时,分布和正态分布基本一直;当峰度>0时,分布形态高狭;当峰度<0时,分布形态低阔。

4,频率分析

频数分布分析(又称频率分析)主要通过频数分布表、条形图和直方图、百分位值等来描述数据的分布特征。

在做频数分布分析时,通常按照定性数据(即分类的类别),统计各个分类的频数,计算各个分类所占的百分比,进而得到频率分布表,最后根据频率分布表来绘制频率分布图。

5,按照时间递增的趋势分析

特殊情况下,当X轴是日期数据,Y轴是统计量(比如均值、总数量)时,可以绘制出统计量按照时间递增的趋势图,从图中可以看到统计量按照时间增加的趋势(无变化、递增或递减)和周期性。

例如,下图的X轴是日期,Y轴的统计量是总数量,两条折线分别是湖北确诊病例人数和湖北新增确诊病例人数:

三,相关性分析

相关性分析是研究事务之间是否存在某种依存关系,并对具有依存关系的现象进行相关方向和相关程度的分析。

相关程度用相关系数r表示,|r|<=1,r=0表示不相关,通常情况下,0 < | r | <1表示变量之间存在不同程度的线性相关,根据约定的规则:

  • | r | <=0.3 :为弱线性相关或不存在线性相关;
  • 0.3 < | r | <=0.5 :低度线性相关,认为存在线性相关,但是相关性不明显
  • 0.5 < | r | <=0.8 :显著线性相关,认为存在强线性相关,存在明显的相关性
  • | r | >0.8 :高度相关,认为存在极强的线性相关

参考文档:

分析思维 第四篇:数据分析入门阶段——描述性统计分析和相关分析相关推荐

  1. 数据分析入门阶段——描述性统计分析和相关分析

    数据分析的入门思维,首先要认识数据,然后对数据进行简单的分析,比如描述性统计分析和相关性分析等. 一,认识变量和数据 变量和数据是数据分析中常用的概念,用变量来描述事物的特征,而数据是变量的具体值,把 ...

  2. 【投屏】Scrcpy源码分析三(Client篇-投屏阶段)

    Scrcpy源码分析系列 [投屏]Scrcpy源码分析一(编译篇) [投屏]Scrcpy源码分析二(Client篇-连接阶段) [投屏]Scrcpy源码分析三(Client篇-投屏阶段) [投屏]Sc ...

  3. 计算机基础知识教材分析,计算机教学计划四篇

    计算机教学计划四篇 时间过得太快,让人猝不及防,我们的工作又将在忙碌中充实着,在喜悦中收获着,是时候抽出时间写写计划了.相信大家又在为写计划犯愁了?以下是小编整理的计算机教学计划4篇,仅供参考,大家一 ...

  4. 第十四篇 数据分析案例

    经过前面的学习,下面来看⼀些真实世界的数据集.对于每个数据集,我们会⽤之前介绍的⽅法,从原始数据中提取有意义的内容.展示的⽅法适⽤于其它数据集,也包括你的.本篇包含了⼀些各种各样的案例数据集,可以⽤来 ...

  5. stata统计分析及行业应用案例分析_数据分析之路——描述性统计分析和应用案例...

    1.描述统计分析 将一系列复杂的数据减少为几个能够起到描述作用的数字,用这些代表性的数字来代表数据集,进而知道数据的整体情况. 常用的4个指标:①平均值:②四分位数:③标准差:④标准分 平均值 表示一 ...

  6. dataframe 众数的方法_学习数据分析数据方法论 [描述性统计分析]

    数理统计: 数理统计是以概率论为基础,研究社会和自然界中大量随机现象数量变化基本规律的一种方法.分为: 描述统计 (描述统计的任务是搜集资料,进行整理.分组,编制次数分配表,绘制次数分配曲线,计算各种 ...

  7. 【原创】描述性分析思维的一些基本思路与见解

    数据说·思维季 无论明日,有多落魄,至少今天,没有蹉跎.--卡耐基<人性的优点> 前言 之前梳理了"数据思维"概念.培养锻炼以及应用的一些相关的内容,现在我们将开始梳理 ...

  8. 【投屏】Scrcpy源码分析二(Client篇-连接阶段)

    Scrcpy源码分析系列 [投屏]Scrcpy源码分析一(编译篇) [投屏]Scrcpy源码分析二(Client篇-连接阶段) [投屏]Scrcpy源码分析三(Client篇-投屏阶段) [投屏]Sc ...

  9. 数据分析入门之三种核心思维

    数据分析入门 如何简单数据 有哪种核心思维来分析数据 作为一名程序员如何分析数据 来一一解答 数据分析入门 学习数据分析第一需要理解数据分析思维 为什么思维重要? 不知道问题有没有发生 不知道问题在哪 ...

最新文章

  1. python的openpyxl库如何读取特定列_Excelize 2.3.2 发布,Go 语言 Excel 文档基础库,2021 年首个更新...
  2. 敏捷开发的根本矛盾是什么?从业十余年的工程师在思考
  3. 修改Sublime Text3 的侧边栏字体大小
  4. 按应用领域来划分,电话光端机主要分为哪几类
  5. 购买域名,购买公网IP,实现同一个IP绑定多个域名
  6. C# DataGridView属性设置
  7. Oracle出现 The Network Adapter could not establish the connection
  8. excel删除行 uipath_高级会计师都在用的Excel批处理技巧,祝你早日告别加班
  9. asp.net web.config连接mysql数据库_ASP.NET中使用web.config配置数据库连接
  10. mysql引擎互转问题
  11. Pyhont 高阶函数
  12. javascript闭包(Module模式)的用途和高级使用方式
  13. linux抓包及分析
  14. 虚拟机上安装linux版QQ并卸载
  15. 达观数据助力浙江大华构建企业级知识搜索共享平台,盘活沉淀数据
  16. Git和Gitlab协同工作
  17. 【linux】rpm和src.rpm、rpm和noarch.rpm的区别
  18. mysql 多维度统计_SQL统计——按照各种维度
  19. 基于Python的海贼王知识图谱构建设计
  20. GAN之野狼DiscoGAN

热门文章

  1. Pretty girl愿你的美貌,有不惧时光的质感
  2. YGG 和 BlockchainSpace 举办全国最大的 Web3 活动:Philippine Web3 Festival
  3. 山东省2021年模拟高考成绩从哪里查询,2020年夏季山东日照模拟高考成绩查询入口(已开通)...
  4. CTFer成长之路之任意文件读取漏洞
  5. 《计算机网络—自顶向下方法》 Wireshark实验(二):HTTP协议分析
  6. 【蓝桥杯选拔赛真题38】python目标值判断 青少年组蓝桥杯python 选拔赛STEMA比赛真题解析
  7. python uiautomator2 环境搭建和基本使用
  8. java数组及数组函数
  9. 【ubuntu新建文件和文件夹】
  10. golang语法系列3-Go语言初始化结构体的成员变量