为了我在读硕士的媳妇入门数据分析,我决定开一门从零开始数据分析的博文。即具有实用性又没那么复杂的数学公式,拿来主义的博文。要学会数据分析,特别是需要掌握数据的特征,我们首先需要了解一些基本的概念。

第一:数据分析要解决什么问题?

根据数据的特征,来预测数据的走向?分析数据的趋势或者离散程度?或者仅仅是对比几组数据在某个指标上的好坏?或者是对用户进行画像?

在我媳妇儿的生物化学领域,一般来说就是对比两个方法在测出来的数据的好坏,或者哪个方法测出来的数据更好。

要学会分析数据,首先要明白有哪些指标可以来度量数据的好坏。

概念:

均值:算数平均数

均值数据对数值型数据计算的,而且利用了全部数据信息,提取的信息最充分,当数据呈对称分布或近似对称分布时,三个代表值相等或相近,此时应选择平均数。但受极端数据的影响,对于偏态分布的数据,平均数的代表性较差,此时应考虑中位数或众数。

中位数:将数据按大小排列后位于正中间的数描述,描述中等水平

      中位数是一组数据中间位置上的代表值,直观,不受极端数据的影响,但数据信息利用不够充分,当数据的分布偏斜较大时,使 用中位数也许不错。主要适合作为顺序数据的集中趋势测度值。

众数:数据中出现最多的数

众数一组数据分布的峰值,容易计算,但不是总是存在,众数只有在数据量较多时才有意义,数据量较少时不宜使用。主要适合作为分类数据的集中趋势测度值,应用场合较少;

众数、中位数和均值是分布集中趋势的三个主要测度,众数和中位数是从数据分布形状及位置角度来考虑的,而均值是对所有数据计算后得到的。

方差

在概率论和统计方差衡量随机变量或一组数据时离散程度的度量。概率论中方差用来度量随机变量和其数学期望(即均值)之间的偏离程度。统计中的方差(样本方差)是各个数据分别与其平均数之差的平方的和的平均数

标准差:

那么问题来了,既然有了方差来描述变量与均值的偏离程度,那又搞出来个标准差干什么呢?

标准差是方差的算术平方根。因为方差与我们要处理的数据的量纲是不一致的(因为做了平方),虽然能很好的描述数据与均值的偏离程度,但是处理结果是不符合我们的直观思维的。

协方差:

在概率论和统计学中,协方差用于衡量两个变量的总体误差。而方差是协方差的一种特殊情况,即当两个变量是相同的情况。

在概率论和统计学中,协方差用于衡量两个变量的总体误差。而方差是协方差的一种特殊情况,即当两个变量是相同的情况。

简单地来说,协方差就是反映两个变量 X 和 Y 的相互关系。这种相互关系大致分为三种:正相关、负相关、不相关。

什么是正相关呢?例如房屋面积(X)越大,房屋总价(Y)越高,则房屋面积与房屋总价是正相关的;

什么是负相关呢?例如一个学生打游戏的时间(X)越多,学习成绩(Y)越差,则打游戏时间与学习成绩是负相关的;

什么是不相关呢?例如一个人皮肤的黑白程度(X)与他的身体健康程度(Y)并无明显关系,所以是不相关的

标准差和方差一般是用来描述一维数据的,但现实生活我们常常遇到含有多维数据的数据集,最简单的大家上学时免不了要统计多个学科的考试成绩。面对这样的数据集,我们当然可以按照每一维独立的计算其方差,但是通常我们还想了解更多,比如,一个男孩子的帅气程度跟他受女孩子欢迎程度是否存在一些联系啊,嘿嘿~协方差就是这样一种用来度量两个随机变量关系的统计量,我们可以仿照方差的定义:

来度量各个维度偏离其均值的程度,协方差可以这么来定义:

举例:协方差的结果有什么意义呢?如果结果为正值,则说明两者是正相关的(从协方差可以引出“相关系数”的定义),也就是说一个人越帅气就越受女孩子欢迎,嘿嘿,那必须的~结果为负值就说明负相关的,越帅气女孩子越讨厌,可能吗?如果为0,也是就是统计上说的“相互独立”。

男生的帅气程度Xi :1.1 ,1.9 ,3

受女生的欢迎程度:Yi :5.0 ,10.4 ,14.6

E(X) = (1.1+1.9+3)/3=2

E(Y) = (5.0+10.4+14.6)/3=10

E(XY)=(1.1×5.0+1.9×10.4+3×14.6)/3=23.02

Cov(X,Y)=E(XY)-E(X)E(Y)=23.02-2×10=3.02

当 Cov(X,Y) > 0 时,X 与 Y 正相关;

当 Cov(X,Y) < 0 时,X 与 Y 负相关;

当 Cov(X,Y) = 0 时,X 与 Y 不相关;

3.02>0说明他们是正相关的。

协方差数值大小是否代表了相关程度呢?

也就是说如果协方差为 100 是否一定比协方差为 10 的正相关性强呢?并不是协方差越大,正相关程度越高

出现这种情况的原因是两种情况数值变化的幅值不同(或者量纲不同)。计算协方差的时候我们并没有把不同变量幅值差异性考虑进来,在比较协方差的时候也就没有一个统一的量纲标准。所以,为了消除这一影响,为了准确得到变量之间的相似程度,我们需要把协方差除以各自变量的标准差。这样就得到了相关系数的表达式:

分别计算上面例子X、Y的标准差:

D(X)=E(X^2)-E^2(X)=(1.1^2+1.9^2+3^2)/3 - 4=4.60-4=0.6 σx=0.77

D(Y)=E(Y^2)-E^2(Y)=(5^2+10.4^2+14.6^2)/3-100=15.44 σy=3.93

则X,Y的相关系数:

r(X,Y)=Cov(X,Y)/(σxσy)=3.02/(0.77×3.93) = 0.9979

表明这组数据X,Y之间相关性很好!

为什么除以各自变量的标准差就能消除幅值影响呢?

这是因为标准差本身反映了变量的幅值变化程度,除以标准差正好能起到抵消的作用,让协方差标准化。这样,相关系数的范围就被归一化到 [-1,1] 之间了。

协方差矩阵

衡量更多变量之间相关性,每个变量和其它每一个变量求协方差组成一个矩阵就是协方差矩阵。


 

  

数据分析入门(第一课)相关推荐

  1. 大数据入门第一课 Hadoop基础知识与电商网站日志数据分析

    大数据入门第一课 Hadoop基础知识与电商网站日志数据分析 本课程从Hadoop核心技术入手,以电商项目为依托,带领你从0基础开始上手,逐步掌握大数据核心技术(如:HDFS.YARN.MapRedu ...

  2. Opencv入门第一课打开窗口

    Opencv入门第一课打开窗口 一.如何打开图片(代码解释如下) Mat src = imread("D:/images/lena.jpg"); 解释:imageread图片读取 ...

  3. 人工智能入门第一课:手写字体识别及可视化项目(手写画板)(mnist)

    人工智能入门第一课:手写字体识别及可视化项目(手写画板)(mnist),使用技术(Django+js+tensorflow+html+bootstrap+inspinia框架) 直接上图,项目效果 1 ...

  4. 【C++】入门第一课

    文章目录 C++入门第一课 1. C++发展简史 2.C++关键字 3.C++运行环境 4.C++头文件以及输入输出 4.1 头文件 4.2输入输出 5.命名空间(namespace) 5.1命名空间 ...

  5. janusgraph 引入 java_JanusGraph入门第一课和官方文档踩坑

    入门第一课是在IDEA里创建一个项目,有些小曲折.这里运行的Demo是读取janusgraph示例的"神之图"(Graph of the Gods)数据并打印,采用Hbase+ES ...

  6. 摩托入门第一课[老猫]

    摩托入门第一课 老猫 2001-02-24 早就想给新入门的摩托朋友写一点东西了,因为自己当初也是那么的一脸茫然.想不出什么好的题目,就用了"第一课"的字眼,希望读者老兄不要介意. ...

  7. C#编程入门第一课 Visual studio 2019使用,cs文件构成,打开项目文件,两句最简单语句,运行前,运行程序,显示行号,设置字体

    C#编程入门第一课 文章目录 C#编程入门第一课 1 2 3 Visual Studio 2019 4. cs文件构成 5. 打开项目文件 6. 两句最简单语句 7. 运行前 8.运行程序 9.显示行 ...

  8. Linux运维工程师入门第一课-赵永刚-专题视频课程

    Linux运维工程师入门第一课-75人已学习 课程介绍         本课程包含许多工作中会遇到的问题及解决方案,解决大家工作当中遇到的问题.非常适合刚刚入门的同学来学习linux基础入门. 本课程 ...

  9. python编程入门第一课_python入门前的第一课 python怎样入门

    人工智能时代的到来,很多文章说这么一句:"不会python,就不要说自己是程序员",这说的有点夸张了,但确实觉得目前python这个语言值得学习,而且会python是高薪程序员的必 ...

  10. NXP KW38蓝牙开发(一)入门第一课:官网蓝牙广播和连接例程,NMI禁止

    首先要下载开发使用的IDE:MCUXpresso IDE 下载链接: 进入nxp的官网,搜索KW38 向下翻看,找到Xpresso,点击进入 习惯使用IAR开发的同学也可以下IAR版本,这里以Xpre ...

最新文章

  1. python之接口开发
  2. OpenSSL(openssl-1.0.1h)编译与安装(Win7)
  3. MyEclipse 皮肤、主题、背景色
  4. 343. 整数拆分(JavaScript)
  5. java 停止定时器_实例助解java定时器设置及停止的方法
  6. i9-10900K比9900K性能提升了多少?i9-10900K和i9-9900K区别对比评测
  7. Gram矩阵计算实例
  8. 关于sip软电话嵌入到网页web端的学习----第一天(1)(高手指点)
  9. 计算机上英语CE,计算器英语
  10. 陕西电大计算机上机考试题,XX年电大计算机上机操作题(带答案)
  11. 基于SSM实现的艺术品鉴定管理系统+App
  12. 贪心算法经典例题3:导弹发射问题
  13. 大华摄像机找不到服务器,大华无法找到网络主机解决方法
  14. Linux统计文件夹下个数指令
  15. SystemInfo.deviceUniqueIdentifier
  16. java中的轮子是什么意思_后端的轮子(一)
  17. 连涨了三天的股票,该买还是该卖?
  18. WINCC 7.5 sp1 sp2安装包,硬件狗等,Sim_EKB_Install_2018下载
  19. 热带雨林的昆虫繁殖题解
  20. 游戏自评——英雄无敌手游

热门文章

  1. MSSQL系统常用视图命令及其作用
  2. java实现Hbase中的查询(一)Filter方式
  3. python调用hive与java调用区别_Python操作Hive的两种方法总结
  4. HBuilder X格式化美化代码快捷键
  5. idea中如何创建servlet文件
  6. java生产问题快速定位_生产环境如何快速跟踪、分析、定位问题-Java
  7. html焦点图自动播放纯代码,jquery焦点图片切换(数字标注/手动/自动播放/横向滚动)...
  8. c语言数组将素数放在前部,m个人的成绩存放在score数组中,请编写函数fun(),它的功能是将高于平均分的人数作为函数值返回,将_开卷宝...
  9. php 单元测试 麻烦,php – 正确的单元测试
  10. java 头尾 队列_探索JAVA并发 - 并发容器全家福