数据分析入门(第一课)
为了我在读硕士的媳妇入门数据分析,我决定开一门从零开始数据分析的博文。即具有实用性又没那么复杂的数学公式,拿来主义的博文。要学会数据分析,特别是需要掌握数据的特征,我们首先需要了解一些基本的概念。
第一:数据分析要解决什么问题?
根据数据的特征,来预测数据的走向?分析数据的趋势或者离散程度?或者仅仅是对比几组数据在某个指标上的好坏?或者是对用户进行画像?
在我媳妇儿的生物化学领域,一般来说就是对比两个方法在测出来的数据的好坏,或者哪个方法测出来的数据更好。
要学会分析数据,首先要明白有哪些指标可以来度量数据的好坏。
概念:
均值:算数平均数
均值数据对数值型数据计算的,而且利用了全部数据信息,提取的信息最充分,当数据呈对称分布或近似对称分布时,三个代表值相等或相近,此时应选择平均数。但受极端数据的影响,对于偏态分布的数据,平均数的代表性较差,此时应考虑中位数或众数。
中位数:将数据按大小排列后位于正中间的数描述,描述中等水平
中位数是一组数据中间位置上的代表值,直观,不受极端数据的影响,但数据信息利用不够充分,当数据的分布偏斜较大时,使 用中位数也许不错。主要适合作为顺序数据的集中趋势测度值。
众数:数据中出现最多的数
众数一组数据分布的峰值,容易计算,但不是总是存在,众数只有在数据量较多时才有意义,数据量较少时不宜使用。主要适合作为分类数据的集中趋势测度值,应用场合较少;
众数、中位数和均值是分布集中趋势的三个主要测度,众数和中位数是从数据分布形状及位置角度来考虑的,而均值是对所有数据计算后得到的。
方差:
在概率论和统计方差衡量随机变量或一组数据时离散程度的度量。概率论中方差用来度量随机变量和其数学期望(即均值)之间的偏离程度。统计中的方差(样本方差)是各个数据分别与其平均数之差的平方的和的平均数
标准差:
那么问题来了,既然有了方差来描述变量与均值的偏离程度,那又搞出来个标准差干什么呢?
标准差是方差的算术平方根。因为方差与我们要处理的数据的量纲是不一致的(因为做了平方),虽然能很好的描述数据与均值的偏离程度,但是处理结果是不符合我们的直观思维的。
协方差:
在概率论和统计学中,协方差用于衡量两个变量的总体误差。而方差是协方差的一种特殊情况,即当两个变量是相同的情况。
在概率论和统计学中,协方差用于衡量两个变量的总体误差。而方差是协方差的一种特殊情况,即当两个变量是相同的情况。
简单地来说,协方差就是反映两个变量 X 和 Y 的相互关系。这种相互关系大致分为三种:正相关、负相关、不相关。
什么是正相关呢?例如房屋面积(X)越大,房屋总价(Y)越高,则房屋面积与房屋总价是正相关的;
什么是负相关呢?例如一个学生打游戏的时间(X)越多,学习成绩(Y)越差,则打游戏时间与学习成绩是负相关的;
什么是不相关呢?例如一个人皮肤的黑白程度(X)与他的身体健康程度(Y)并无明显关系,所以是不相关的
标准差和方差一般是用来描述一维数据的,但现实生活我们常常遇到含有多维数据的数据集,最简单的大家上学时免不了要统计多个学科的考试成绩。面对这样的数据集,我们当然可以按照每一维独立的计算其方差,但是通常我们还想了解更多,比如,一个男孩子的帅气程度跟他受女孩子欢迎程度是否存在一些联系啊,嘿嘿~协方差就是这样一种用来度量两个随机变量关系的统计量,我们可以仿照方差的定义:
来度量各个维度偏离其均值的程度,协方差可以这么来定义:
举例:协方差的结果有什么意义呢?如果结果为正值,则说明两者是正相关的(从协方差可以引出“相关系数”的定义),也就是说一个人越帅气就越受女孩子欢迎,嘿嘿,那必须的~结果为负值就说明负相关的,越帅气女孩子越讨厌,可能吗?如果为0,也是就是统计上说的“相互独立”。
男生的帅气程度Xi :1.1 ,1.9 ,3
受女生的欢迎程度:Yi :5.0 ,10.4 ,14.6
E(X) = (1.1+1.9+3)/3=2
E(Y) = (5.0+10.4+14.6)/3=10
E(XY)=(1.1×5.0+1.9×10.4+3×14.6)/3=23.02
Cov(X,Y)=E(XY)-E(X)E(Y)=23.02-2×10=3.02
当 Cov(X,Y) > 0 时,X 与 Y 正相关;
当 Cov(X,Y) < 0 时,X 与 Y 负相关;
当 Cov(X,Y) = 0 时,X 与 Y 不相关;
3.02>0说明他们是正相关的。
协方差数值大小是否代表了相关程度呢?
也就是说如果协方差为 100 是否一定比协方差为 10 的正相关性强呢?并不是协方差越大,正相关程度越高
出现这种情况的原因是两种情况数值变化的幅值不同(或者量纲不同)。计算协方差的时候我们并没有把不同变量幅值差异性考虑进来,在比较协方差的时候也就没有一个统一的量纲标准。所以,为了消除这一影响,为了准确得到变量之间的相似程度,我们需要把协方差除以各自变量的标准差。这样就得到了相关系数的表达式:
分别计算上面例子X、Y的标准差:
D(X)=E(X^2)-E^2(X)=(1.1^2+1.9^2+3^2)/3 - 4=4.60-4=0.6 σx=0.77
D(Y)=E(Y^2)-E^2(Y)=(5^2+10.4^2+14.6^2)/3-100=15.44 σy=3.93
则X,Y的相关系数:
r(X,Y)=Cov(X,Y)/(σxσy)=3.02/(0.77×3.93) = 0.9979
表明这组数据X,Y之间相关性很好!
为什么除以各自变量的标准差就能消除幅值影响呢?
这是因为标准差本身反映了变量的幅值变化程度,除以标准差正好能起到抵消的作用,让协方差标准化。这样,相关系数的范围就被归一化到 [-1,1] 之间了。
协方差矩阵
衡量更多变量之间相关性,每个变量和其它每一个变量求协方差组成一个矩阵就是协方差矩阵。
数据分析入门(第一课)相关推荐
- 大数据入门第一课 Hadoop基础知识与电商网站日志数据分析
大数据入门第一课 Hadoop基础知识与电商网站日志数据分析 本课程从Hadoop核心技术入手,以电商项目为依托,带领你从0基础开始上手,逐步掌握大数据核心技术(如:HDFS.YARN.MapRedu ...
- Opencv入门第一课打开窗口
Opencv入门第一课打开窗口 一.如何打开图片(代码解释如下) Mat src = imread("D:/images/lena.jpg"); 解释:imageread图片读取 ...
- 人工智能入门第一课:手写字体识别及可视化项目(手写画板)(mnist)
人工智能入门第一课:手写字体识别及可视化项目(手写画板)(mnist),使用技术(Django+js+tensorflow+html+bootstrap+inspinia框架) 直接上图,项目效果 1 ...
- 【C++】入门第一课
文章目录 C++入门第一课 1. C++发展简史 2.C++关键字 3.C++运行环境 4.C++头文件以及输入输出 4.1 头文件 4.2输入输出 5.命名空间(namespace) 5.1命名空间 ...
- janusgraph 引入 java_JanusGraph入门第一课和官方文档踩坑
入门第一课是在IDEA里创建一个项目,有些小曲折.这里运行的Demo是读取janusgraph示例的"神之图"(Graph of the Gods)数据并打印,采用Hbase+ES ...
- 摩托入门第一课[老猫]
摩托入门第一课 老猫 2001-02-24 早就想给新入门的摩托朋友写一点东西了,因为自己当初也是那么的一脸茫然.想不出什么好的题目,就用了"第一课"的字眼,希望读者老兄不要介意. ...
- C#编程入门第一课 Visual studio 2019使用,cs文件构成,打开项目文件,两句最简单语句,运行前,运行程序,显示行号,设置字体
C#编程入门第一课 文章目录 C#编程入门第一课 1 2 3 Visual Studio 2019 4. cs文件构成 5. 打开项目文件 6. 两句最简单语句 7. 运行前 8.运行程序 9.显示行 ...
- Linux运维工程师入门第一课-赵永刚-专题视频课程
Linux运维工程师入门第一课-75人已学习 课程介绍 本课程包含许多工作中会遇到的问题及解决方案,解决大家工作当中遇到的问题.非常适合刚刚入门的同学来学习linux基础入门. 本课程 ...
- python编程入门第一课_python入门前的第一课 python怎样入门
人工智能时代的到来,很多文章说这么一句:"不会python,就不要说自己是程序员",这说的有点夸张了,但确实觉得目前python这个语言值得学习,而且会python是高薪程序员的必 ...
- NXP KW38蓝牙开发(一)入门第一课:官网蓝牙广播和连接例程,NMI禁止
首先要下载开发使用的IDE:MCUXpresso IDE 下载链接: 进入nxp的官网,搜索KW38 向下翻看,找到Xpresso,点击进入 习惯使用IAR开发的同学也可以下IAR版本,这里以Xpre ...
最新文章
- python之接口开发
- OpenSSL(openssl-1.0.1h)编译与安装(Win7)
- MyEclipse 皮肤、主题、背景色
- 343. 整数拆分(JavaScript)
- java 停止定时器_实例助解java定时器设置及停止的方法
- i9-10900K比9900K性能提升了多少?i9-10900K和i9-9900K区别对比评测
- Gram矩阵计算实例
- 关于sip软电话嵌入到网页web端的学习----第一天(1)(高手指点)
- 计算机上英语CE,计算器英语
- 陕西电大计算机上机考试题,XX年电大计算机上机操作题(带答案)
- 基于SSM实现的艺术品鉴定管理系统+App
- 贪心算法经典例题3:导弹发射问题
- 大华摄像机找不到服务器,大华无法找到网络主机解决方法
- Linux统计文件夹下个数指令
- SystemInfo.deviceUniqueIdentifier
- java中的轮子是什么意思_后端的轮子(一)
- 连涨了三天的股票,该买还是该卖?
- WINCC 7.5 sp1 sp2安装包,硬件狗等,Sim_EKB_Install_2018下载
- 热带雨林的昆虫繁殖题解
- 游戏自评——英雄无敌手游
热门文章
- MSSQL系统常用视图命令及其作用
- java实现Hbase中的查询(一)Filter方式
- python调用hive与java调用区别_Python操作Hive的两种方法总结
- HBuilder X格式化美化代码快捷键
- idea中如何创建servlet文件
- java生产问题快速定位_生产环境如何快速跟踪、分析、定位问题-Java
- html焦点图自动播放纯代码,jquery焦点图片切换(数字标注/手动/自动播放/横向滚动)...
- c语言数组将素数放在前部,m个人的成绩存放在score数组中,请编写函数fun(),它的功能是将高于平均分的人数作为函数值返回,将_开卷宝...
- php 单元测试 麻烦,php – 正确的单元测试
- java 头尾 队列_探索JAVA并发 - 并发容器全家福