最近很多人都问我,为什么感觉数据分析越学越乱,经常是学了一大堆名词,真正遇到问题的时候却更多是直接套用模型,很难将这些理论联系起来。

这其实就回归到了一个至关重要的问题:数据分析的本质是什么?

事物都是万变不离其宗的,一切外在的方法都是为了事物本质而服务的,数据分析自然也不例外,今天我们就来探讨一下数据分析的本质。

数据分析的本质

其实绝大多数的数据分析问题,都可以归纳为一个问题:相关性问题。

相关性分析是数据统计学中的基础思想,主要就是为了探究数据之间是否具有关联性,简单说就是X与Y或者X与Y、Z等之间的变化是否有关联。

比如,常年吸烟者的数量是否与肺癌患者的数量成正相关、健身者与感冒患者之间是否成负相关等等,这些例子都是简单的相关性判断

在数据分析中,更常见的则是更为复杂的相关性分析,也就是为了找到变量之间的相关系数,简单说就是为了找到Y=A+B*X之中的B。

比如,用户点击率与网站访问量之间是否有关系、广告曝光量与投入成本的关系等等,这个方程的求取过程也就是所谓的“回归分析”。

回归分析在统计学中包含了很多类别,比如一元回归、多远回归、方差回归、线性回归、非线性回归等,但我们不必涉及这么深,只需要了解其本质即可。

我们就拿广告曝光量与投入成本这个例子来解剖一下数据分析中的回归:

回归分析

首先我们假设一个数据分析中常见的场景:

小李是公司里负责市场广告的,某一次公司要举办大型活动,要求小李在线上广告上达到50w次的曝光量,于是小李写了一份方案提出要加大投入费用。而老板则觉得广告的投入费用太大,没有必要拿那么多钱,而小李则觉得多投入才有效果。

那么,对于究竟应该投入多少广告成本呢?

1、分析目的

于是我们就找到了本次数据分析的目的,就是要找到广告曝光量与费用成本之间的因果关系,也就是投入多少钱,广告曝光就能对应提高多少吗?

但是普通的统计方法是没办法得到严格的因果关系的,因此我们只能退而求其次地用回归分析来研究其相关关系和影响因子,用相关性代替因果关系。

2、确定变量

然后,我们要确定X、Y各是什么。

在这里Y自然就是广告曝光,也就是因变量,在数据分析中是指业务指标或者核心需求,比如销售额这种我们关心的能够随着其他因素的变化而变化的指标。

X自然就是投入成本,也就是自变量,在数据分析中是指用来解释业务指标的因子。

回归分析的任务就是,通过研究X和Y的相关关系,尝试去解释Y的形成机制,进而达到通过X去预测Y的目的。那么,X到底会长成什么样呢?

通常情况下X不是一个变量,而是多个变量,比如影响广告曝光的不止是投入成本,还可能是网站SEO等,在实际情况中我们需要将X一个个都找出来,最终的回归方程就变成了:

这里我们再添加一些其他的影响因素,比如费用投入X2、人力投入X3、投放时间X4、广告点击率X5、对象人群量X6、定价X7、投入广告位数量X8和定向设置量X9。

3、建立回归模型

为了找到X与Y之间的变量关系,我们可以通过建立回归模式来实现,这里就用Excel的回归功能简单实操一下。

将数据直接导入excel中,在“选项”菜单中选择“加载项”,在“加载项”多行文本框中使用滚动条找到并选中“分析工具库”,然后点击最下方的“转到”:

打开“加载宏”的选项中选择“数据分析库”,然后点击“确定”,就可以将数据分析库加载到Excel中。

然后点击“数据”菜单栏中的“数据分析”,在跳出的对话框中点击“回归”,然后下拉选取对应的X、Y区域,选择“正态分布”,点击“确定”即可。

这样就可以得到最终的结果

4、回归方程检验

有了回归方程,我们还需要检验一下拟合情况如何。我们主要看的指标有4个:最上面的回归统计表中的Multiple R以及R Square,中间表格中的Significance F,以及下方格中的P-value。

  • Multiple R:也就是R值,大于等于0.8即代表正相关,这里我们的R值是0.91,表明广告曝光与投入是正相关。
  • R Square:R的平方值是指拟合系数,这个数值越大则代表回归拟合的越好,这里为0.83,说明拟合效果很好。
  • Significance F:是指显著性检验度,这个值越小就代表因变量和自变量之间的关联性越显著,这里数值等于0.006,说明成本投入是影响广告曝光最显著的因素。
  • P-value:是指系数的显著性检验度,一般大于0.05就不具有统计学意义了,小于0.05说明具有统计学意义。这里只有X1和X7的数值小于0.05,说明这两个结果具统计学意义。

5、回归方程

最终按照图中得到值就可以得到回归方程,这样小李再向老板申请广告投入费用的时候,就不怕被老板说了。

最后简单总结一下。什么是回归分析?回归分析一句话:就是研究X与Y之间相关性的分析。

注:图片来自于网络,如有侵权,可联系我删除;

end.


最近,不少读者向我建议能否上开一些关于数据分析入门的课程,而我这些年也积累不了东西,希望能给大家的数分之路带来一些帮助,所以想提前了解一下大家想要学习的内容,留言在评论区!

excel两个指标相关性分析_我用Excel发现了数据分析的本质:回归分析相关推荐

  1. excel两个指标相关性分析_如何用excel分析两组数据的相关性

    在Excel进行数据分析的时候,经常要分析两组数据的相关性.求出的值越接近1,那就说明相关性越大:越接近0,说明相关性越小.下面就说说具体步骤. 具体步骤如下所示: 1. 数据分析,以比较男女两组身高 ...

  2. excel两个指标相关性分析_用Excel做相关性分析

    一.概念理解 相关关系:变量之间存在着的非严格的不确定的关系,对它们进行深层次的分析,观察它们的密切程度. 相关性分析:对变量之间相关关系的分析,即相关性分析.其中比较常用的是线性相关分析,用来衡量它 ...

  3. excel两个指标相关性分析_用EXCEL函数进行相关性分析

    相关系数的定义: 相关系数最早源自教育研究中, 常涉及到两个事物 (变量) 的相互关系问题, 例 如, 学习成绩与非智力因素的关系, 数学成绩与物理成绩的关系, 男女生学习成 绩的关系,等等. 其关系 ...

  4. excel两个指标相关性分析_用Excel做相关性分析方法

    2006-11-15 05:24 分享到: 我要吐槽 化学合成实验中经常需要考察压力随温度的变化情况. 某次实验在两个不同的反应器中 进行同一条件下实验得到两组温度与压力相关数据, 试分析它们与温度的 ...

  5. excel两个指标相关性分析_Excel实操分析函数,投资决策指标的假设分析,就是那么简单...

    投资决策中经常需要对多个指标的变化同时进行考量.例如假定某项投资期初投入500万元,同时假定年折现率(贴现率)为 3%,计划第一年年末收回投资 50 万,第二年年末收回 100 万,第三年年末收回15 ...

  6. excel两个指标相关性分析_Excel-散点图(相关性及数据分布)分析

    本文摘自作者<网站数据分析:数据驱动的网站管理.优化和运营 >:http://item.jd.com/11295690.html 散点图是用来判断两个变量之间的相互关系的工具,一般情况下, ...

  7. excel两个表格数据对比_快速对比excel表格两个sheet中不同的数据,极大的降低重复工作量...

    两个Excel表格应该比较,公式不会被设置,而vba是一本天书.有简单的方法吗? 有!有!有!!! Excel有一个不是所有人都常用的功能:合并计算.使用它,我们可以快速比较两个表之间的差异. 示例: ...

  8. 用spss做多组两两相关性分析_两独立样本T检验及如何利用SPSS实现其操作

    上一篇文章我们讲解了有关单样本T检验的相关内容(如何使用SPSS进行单样本检验),其实论文中除了常用到的单样本T检验以外,还有另外一种T检验的方法也是经常用到的统计方法,也就是两独立样本T检验 说到T ...

  9. 用spss做多组两两相关性分析_卡方检验的事后两两比较

    卡方检验检出组间差异后,得到的结果只能显示行变量与列变量间是否相互独立,但各变量的不同组别间具体存在何种差异呢?这需要后续通过两两比较来得到更为精确的结论.下面,我将用一个简单的案例向大家演示:在SP ...

最新文章

  1. loadrunner,socket脚本总结
  2. BZOJ 1221: [HNOI2001] 软件开发(最小费用最大流)
  3. 演示FileInputStream案例演示
  4. vray阴天室内_阴天有话:第1部分
  5. 可信云十年,重磅研究成果与2021云计算十大关键词悉数发布
  6. linux-权限操作,数字法
  7. 基于Smadja算法的搭配词自动提取实践
  8. 项目中记录影响性能的缓慢数据库查询
  9. tomcat + apache组合配置
  10. vc 热键、组合键的用法 MFC c++ hotkey WM_HOTKEY
  11. Supermap iClient 展示与空间数据绑定的图片
  12. 智慧屏与普通屏幕有何区别?
  13. 伦茨课堂-关于BQB认证
  14. python如何将数据写入excel_使用python将数据写入excel
  15. USB VID和PID
  16. 华为语音解锁设置_华为手机免费语音转文字功能如何开启?手把手教你如何设置,超赞...
  17. .Net中DLL冲突解决(真假美猴王)
  18. 物联网发展面临哪些问题
  19. 释疑の生产订单作业价格重估-CON2
  20. 省市县三级联动 javascript 原生实现实例

热门文章

  1. leetcode 1209 python
  2. 数据结构—链表-建立单链表
  3. 基础知识—数据类型-数据类型
  4. 数据3分钟丨华为正式捐赠欧拉操作系统;腾讯云数据库TDSQL将发布免费版;MatrixDB 4.3发布...
  5. 数据 3 分钟 | 阿里云国内市场份额高达40.3%;openGauss、GoldenDB、星环发布数据库最新版本...
  6. 直播丨2020数据技术嘉年华·金融峰会暨数据库大咖讲坛(第4期)
  7. 打造运维大脑:翼支付高速发展背后,甜橙金融的云化智能演进
  8. 从源码角度解析线程池中顶层接口和抽象类
  9. 如何快速准备高质量的AI数据?
  10. 一文带你掌握Redis操作指南