探索性数据分析-如何描述业务量数据

描述业务量的特征:均值、标准差、相关系数

均值代表的是集中趋势(整体的趋势、整体发展方向、整体水平);

标准差代表的是离中趋势(描述事物的波动程度,在一定程度上也代表着风险);

相关系数代表的是相关分析(代表的是两种事物之间同向变动或者反向变动的关系);

集中趋势

中位数 均值 众数
优点 对极端值不敏感 信息量大(数据参与的多) 简单直观
缺点 对极端值不敏感 对极端值敏感 信息量小(数据参与的较少)

左偏分布

众数 > 中位数 > 均值

正态分布

均值 = 中位数 = 众数

右偏分布

均值 > 中位数 > 众数

结论:均值总在偏的一侧。中位数总数在中间。

当发生左偏分布或者右偏分布的时候,我们采取中位数会更具有代表性。

离散程度(离中趋势)

极差:最大值 – 最小值

标准差:每个数据减去均值的平方和/数据的个数,最后开根号。可以用来展示值与均值间的差距。实际上是计算距离的公式。每个点到均值的距离之和。
方差:标准差的平方。
变异系数:(标准差/平均值)* 100%。当我们比较两组数据的离散程度的时候,如果两组数据的测量尺度相差太大,或者数据的量纲不同,我们可以考虑使用变异系数来消除测量尺度和量纲的影响。(主要是用来对数据的波动进行一些比较。两组数据的量级不一样的时候)

相关系数

相关系数是用来 描述两种数据的同向变动关系。我们最常见的是皮尔森相关系数、斯皮尔曼等级相关系数。

皮尔森相关系数的值为-1到1。
1)如果值为-1的话,说明两组数据之间的关系为完全相反的关系。(a向东,b就向西。变化是完全相反的)
2)如果皮尔森相关系数的值为1的话,说明两组数据的变化是完全协同变动的(a向东走10步,b就向东走10步)。
3)如果皮尔森相关系数为0的话,就意味着两组数据完全没有关系。

我们如何看待两组数据相关性的强弱呢?
1、如果r的绝对值>0.8,就说明高度相关
2、如果r的绝对值<0.3,就说明相关性极弱
3、如果r的绝对值0.3<r<0.5,就说明中度相关

我们在解决线性的问题的时候,使用的是皮尔森相关系数。当我们遇到非线性的问题时,(例如售货员售卖货物进行提成,卖前十件的提成、卖11-20的提成,卖21-30的提成,都是不一样的,这就是非线性相关的问题)我们就可以考虑使用皮斯尔曼等级相关系数进行处理。

相关不等于因果。只是一种相关的关系。

探索性数据分析-如何描述业务量数据相关推荐

  1. Python探索性数据分析——异常数据的检测与处理、数据的描述(集中、分散、分布、相关关系、波动)、数据的推断(正态性检验、卡方检验、t检验)

    目录 一.异常数据的检测与处理 1.异常数据检测与处理-基于箱线图 2.异常数据检测与处理-基于正态分布特征 二.数据的描述 1.数据的集中趋势 1.1.数据的集中趋势-平均值 1.1.1.算数平均值 ...

  2. 数学建模与数据分析 || 3. 面向数据的特征提取方法: 探索性数据分析

    面向数据的特征提取方法: 探索性数据分析 文章目录 面向数据的特征提取方法: 探索性数据分析 1. 原始数据的准备 1.1 导入 python 模块 1.2 导入数据集并进行宏观认识 1.3 数据集描 ...

  3. 拉勾网招聘数据的探索性数据分析③

    Github 文件地址:https://github.com/why19970628/Python_Crawler/tree/master/LaGou 探索性数据分析(Explore data ana ...

  4. 数据载入、Pandas基础和探索性数据分析

    1. 载入数据及初步观察 1.1 载入数据 数据集下载 https://www.kaggle.com/c/titanic/overview 1.1.1 导入numpy和pandas import nu ...

  5. 统计思维:程序员数学之概率统计(第2版):第1章 探索性数据分析

    第1章 探索性数据分析 如果能将数据与实际方法相结合,就可以在存在不确定性时解答问题并指导决策,这就是本书的主题. 举个例子.我的妻子在怀第一胎时,我听到了一个问题:第一胎是不是经常晚于预产期出生?下 ...

  6. python处理csv文件将id相同的行合并到同一行并用符号将其隔开_Python探索性数据分析,这样才容易掌握...

    作者 | Riti Dass译者 | LJY整理 | Lemonbit译文来源 | Python数据之道(ID:PythonDataLab) 导语:理解你的数据的最佳方法是花时间去研究它. Pytho ...

  7. 统计学:探索性数据分析

    探索性数据分析 1. 结构化数据的组成 2. 矩形数据 3. 位置估计 3.1 均值 3.2 中位数和稳健估计量 4. 变异性估计 4.1 标准偏差及相关估计值 4.2 基于百分位数的估计量 5. 探 ...

  8. 数据科学的原理与技巧 五、探索性数据分析

    五.探索性数据分析 原文:DS-100/textbook/notebooks/ch05 译者:飞龙 协议:CC BY-NC-SA 4.0 自豪地采用谷歌翻译 探索性数据分析是一种态度,一种灵活的状态, ...

  9. 基于Spark的银行直销电话数据探索性数据分析

    基于Spark的银行直销电话数据探索性数据分析 一.业务场景 二.数据集说明 三.操作步骤 阶段一.启动HDFS.Spark集群服务和zeppelin服务器 阶段二.准备案例中用到的数据集 阶段三.对 ...

最新文章

  1. linux查看网卡物理编号_Linux下多网卡时,如何快速辨别网卡ID与物理网卡的对应关系(即ethtool命令)...
  2. LeetCode - Reorder List
  3. HTML--三种样式插入方法--链接---表格---列表
  4. python随机抽取人名_python实现艾宾浩斯背单词功能,实现自动提取单词、邮件发送,再也不用担心背单词啦...
  5. js 获取json数组里面数组的长度
  6. aix系统升级失败提示java_AIX系统补丁升级失败处理
  7. 手机360浏览器怎么清空历史记录 手机360浏览器历史记录清空方法分享
  8. 英语发音规则---M字母
  9. java版欧朋浏览器_Opera欧朋浏览器_Opera欧朋浏览器下载[2020官方最新版]Opera欧朋浏览器安全下载_ 极速下载...
  10. Android and Apple 投屏至linux电脑
  11. python学习网站-python学习网站整理
  12. Atitit 搜索的艺术 目录 1. 索引基础 2 1.1. 单词-文档矩阵 2 1.2. 倒排索引基本概念 3 2. 建立索引 4 2.1. 两遍文档遍历法(2-Pass In-Memory In
  13. 华三模拟器实现不同vlan之间的隔离,端口如何配置trunk模式
  14. html播放韰 寸 频,asp.net 汉字转换拼音及首字母实现代码
  15. 电脑扬声器耳机已拔出
  16. java dateformat 格式_使用Java SimpleDateFormat类格式化月份。月份可以采用M、MM、MMM和MMMM格式。...
  17. 什么是pisa测试_PISA测试很专业,但对理解什么是教育很重要
  18. 大学生家乡网页设计作业模板下载 南京城市网页设计作业成品 静态HTML旅游景点网页制作下载_网页设计代码
  19. html指定区域的背景颜色,JS实现点击颜色块切换指定区域背景颜色的方法
  20. Mac中Android Studio使用内存调整方法

热门文章

  1. 从零到一:如何用你的电脑成功登录QQ
  2. 单片机c语言的define,单片机C语言中define的妙用
  3. 专访|单月 GMV 破千万,5800 万用户,樊登读书视频生态解读
  4. 葛洲坝地产的“5G科技”演化:三大维度推进,不唯技术控
  5. Ty-Mysql函数笔记
  6. 苹果更新提示:已接入无线局域网却提示需要接入
  7. 弘辽科技:淘宝开店可以卖二手吗?卖二手产品有哪些要求?
  8. 今天,国外AI大厂破产,中国AI企业获18亿元融资!评论区炸了
  9. 21天好习惯第一期-3
  10. 【element-ui】