数据分析思维系列

文章目录

  • 1.平均值
  • 2.大数定律与小数陷阱:生活是随机还是有定数的?
  • 3.数据的期望值:为什么你坐的飞机总是晚点?
  • 4.随机对照试验:章鱼保罗真的是“预言帝”么?
  • 5.直方图与幂分布
  • 6.数据分布:房子应该是买贵的还是买便宜的?
  • 07 | 散点图和相关性:怎样快速从数据当中找到规律?
  • 08 | 标准差:这人是不是“靠谱”其实看标准差?
  • 09 | 数据抽样:大数据来了还需要抽样么?
  • 10 | 指数和KPI:智商是怎么计算出来的?

世界上缺的不是算法和技术,而是能用算法、技术能解决实际问题的人

1.平均值

平均值概念需扩展,暂时不做赘述

平均值容易受到极端值的影响,也就是说整体平均值是在数据呈现均匀分布或者正态分布的情况下才会有意义,如果忽略整个数据的分布情况,只提平均值其实是没有意义的
分组结论和整体平均值不是一回事,整体平均值不能代表各分组情 况,分组结论和整体平均值结论可能会大相径庭。
例子:

两分球和三分球投中率都比较高的这个球员 B,整体的命中率反而下降了

辛普森悖论:简单来讲就是在分组比较中都占优势的一方,有的时候在总评中反而是失势的一方。

所以,我再来总结下,看到一个平均值的时候,你一定要留个心眼,看看它的数据构成情 况,而不是简单地用平均值去代表所有的整体。生活是具体的,如果你想看到更为准确的 数据,你应该分组拆开来看。因为辛普森悖论告诉我们,有的时候,在分组比较中占优势 的一方,在总评中反而可能是失势的一方。但你要注意,只是“有的时候”。
除此之外,辛普森悖论也给我们一个启示,就是:每次小范围内的输赢,其实和你在整体 上的输赢没有太大直接的关系

2.大数定律与小数陷阱:生活是随机还是有定数的?

什么是大数定律?它的核心逻辑是说当随机事件发生的次数足够多时,发生的频率才会趋 近于预期的概率。
再回到我们刚刚提到的抛硬币的例子,随机抛硬币理论上正面和反面出现的次数应该是一 样多(正反面的预期概率均为 50%),也就是一半正面一半反面。所以上抛十次应该是五 次正面、五次反面。

什么是小数陷阱?
前面你了解大数定律后,你大概率会认为,既然随着数据的增多,整体趋势会趋向 50%-50%,那么我们在赌场里玩轮盘赌大小时,如果前面开的都是“大”,那我们接下来 应该向“小”去加倍下注。因为理论上长期来看出现“大”和“小”的概率应该是趋于一 致的,所以未来出现“小”的概率应该增大。
这就是一个典型的对大数定律的误读,它叫赌徒谬误,我把它叫做“小数陷
阱”。

3.数据的期望值:为什么你坐的飞机总是晚点?

什么是期望值?期望值就是对可能出现的结果以概率为权做加权平均。
回报 期望值,衡量了你在足够多的次数下,平均每一次事件的获得的数值。举一个简单的例 子,你买了一张彩票,有 10% 的概率中 100 元,40% 的概率中 50 元,50% 的概率不 中。10%*100+40%*50+50%*0=30 元。

当 样本量 N 趋近无穷大的时候,样本的平均值无限接近数学期望
简单来讲,期望就是反映在大数定律下多次执行某件事情之后,得到的一个最可能的收益 结果。

4.随机对照试验:章鱼保罗真的是“预言帝”么?

幸存者偏差就是当取得资讯的渠道仅来自幸存者时,我们得出的结论可能会与实际情况存 在偏差。因为这样做看上去结果的确是由随机对照试验产生,但在逻辑上是错误的,这其 实是在用结果来倒推整个前期数据的产生过程。

随机对照试验现在无论是医 疗行业的临床医学、生物科学的基因遗传学,还是互联网黑客增长理论当中的 A/B 测试, 都运用到了这个理论。它帮我们解决了一个问题,就是当我们不知道客观世界里一个问题 的真正答案的时候,可以通过少量的数据来验证非常大的数据规律。

5.直方图与幂分布

直方图与柱状图
直方图是展示数据的分布,而柱状图是比较数据的大小。直方图的 X 轴是定量的数据或者区域数据(用于看分布),而柱状图 X 轴 是分类的数据

幂律分布与帕累托法则(二八法则)
幂率分布也叫做指数分布,你会发现在这种分布里,X 轴的开始的地方数值很高(或很 低),然后以指数级的下降(或上升)到 X 轴的末尾段,按照统计学定义叫做:“分布密 度函数是幂函数的分布”。

二八法则简单来说,就是 20% 的人占了 80% 的资源,剩下 80% 的人分最后 20% 的资 源。

6.数据分布:房子应该是买贵的还是买便宜的?

正态分布:两头低、中间高然后左右 轴对称的钟形曲线。最早用正态曲线描述数据的人,就是那位你我都熟知的德国著名数学 家高斯,为了纪念他,有时候我们也把正态分布称为高斯分布。
如果一个量是由许多微小的独立随机因素影响的结 果,那么就可以认为这个量具有正态分布”.
在中心极限定理下,随着样本数量趋于无穷大, 独立随机样本和独立随机样本和的分布会越来越像正态分布。

拉普拉斯分布

拉普拉斯分布就和上图一样,是一个“凸”字形的塔尖儿曲线,从左到右,斜率先缓慢增 大再快速增大,到达最高点后变为负值继续先快速减小,最后再缓慢地减小,所以有点 像“往里边凹陷的金字塔”。
而全国的城市房价分布、一个城市当中的小区房价分布现在也是符合拉普拉斯分布的。因 为在信息透明和市场竞争的情况下,工资、房价、股票都会符合一个特点:越塔尖的个体 越具有资源吸附能力。那么在整体资源恒定的情况下,这已经不是一个简单的符合随机分 布的市场了,简单来讲,“大势”变了。

07 | 散点图和相关性:怎样快速从数据当中找到规律?

做散点图有三个最基本的规则。
第一,散点图反映的是两个变量之间的关系。因此你要把两个变量分别放在 X 轴和 Y 轴上 面,不要有第三个变量放进来进行混淆。当然,散点图的变种——气泡图有更多维度,但 是从趋势角度来看,还是要把最重要的两个变量分别放在 X 轴和 Y 轴。
第二,为了能够明确展示数据之间的趋势,我们的 Y 轴必须要从零开始。这点就和很多的 柱状图不同了。很多柱状图的坐标轴为了表示数据的清晰,Y 轴可以从一半(比如说 500)开始。另外,散点图坐标轴颗粒度要合适,最终聚成一团或者散列太大,都会让我们 无法快速找到趋势。
第三,为了表示趋势的清晰,我们一般都会添加一条趋势线来表明背后的规律。说明一个 趋势的趋势线只能有一条,不能有多条特别是出现趋势相交的情况。可别小看这个趋势 线,这就是画龙点睛的一笔,背后其实是你对业务、数据、算法深刻的理解和认知。画得 好,你就是哈勃和罗素,画不好你就成了我接下来会讲到的得克萨斯的伪神枪手。

通过散点图寻找规律
正相关,此增彼涨,两个变量都一起增加.负相 关是一个此增彼减斜着向下的趋势
指数增长

正 U 型趋势和反 U 型趋势
它的样子其实就像字母的 U, 或者是倒过来的 U(从零开始从零结束)。一个比较著名的反 U 型趋势就是经济学里面 的“拉弗曲线”( Laffer curve),这条曲线最典型地反映了政府税收收入和税率之间的 关系。

U 型曲线在很多场合也适用,例如员工工作时长和公司收入的关系(适度 996,不要 007),客户满意度与公司利润的关系(没有口碑的公司破产了,不加控制让客户全部高度 满意的公司也都破产了)。
数据分析的艺术就在于通过数据分析和管理经验找到反 U 型最高点

08 | 标准差:这人是不是“靠谱”其实看标准差?

标准差除以平 均值(离散系数 = 标准差 / 平均值)
标准差来衡量一组数据稳定性。个体之间的离散程度,也可以说标准差是针对具体实例的描 述性统计。

标准误差代表一种推论的估计,它反映的是多次抽样当中样本均值之间的离散程度,也 就是反映这次抽样样本均值对于总体期望均值的代表性,它主要是用于推断整体情况预测 和推算使用.
标准差(Standard deviation)= 一次统计中个体分数间的离散程度,反映了个体对样本 整体均值的代表性,用于描述统计。
标准误差(Standard error)= 多次抽样中样本均值间的离散程度,反映了样本均值对总 体均值的代表性,用于推论统计。

标准误差经常会被用于拿出一部分样品去判断整体产品线的产品质量,或者判断一个事情
是不是属于常见范围。

09 | 数据抽样:大数据来了还需要抽样么?

数据抽样分成小数据抽样和大数据抽样
小数据抽样简单随机抽样、系统抽样、分层抽样和整群 抽样.
简单随机抽样就是从总体 N 个单位中随机地抽取 m 个单位作为样本,使得每 一个样本被抽中的概率相同。
系统抽样:为了避免调查人员全都扎堆到某几个地区去做抽样,我们可以立下一个规则, 让每一个街区只能有 10 个人进行调查,并且街区和街区之间不得少于 10 公里。这样的 话,在执行上就会更加容易,也能够更好地确保数据的随机性。
把上面的这个方法再抽象一下,系统抽样方法就是依据一定的抽样距离,从整体中抽取样 本。这样做的好处是比较简单而且不容易出错,组装工厂里对手机质量进行抽样检测用的 就是这个方法。
分层抽样:我们在系统抽样的结果之上可以再加一个人口分层,根据年龄、性别、地区这 样的规划分成不同的层。随后我们在每一个细分的层里面,再去随机地抽取样本进行测 试。这样的结果会更接近最终的事实,但是它的执行的复杂性也更高了。
分层抽样就是将抽样单位按某种特征或某种规则划分为不 同的层,然后从不同的层中独立、随机地抽取样本,从而保证样本的结构接近于总体的结 构,提高估计的精度。
整群抽样:针对在印度没法细分这么多层的情况,我们得把刚才的这些层合并起来形成一 些大组,然后针对这些大组进行抽样。这种方法叫做整群抽样,在企业单位进行人力调查 反馈的时候经常会用到。
抽象一下,整群抽样就是将总体中若干个单位合并为组(这样的组被称为群),抽样时直 接抽取群,然后对所选群中的所有单位实施调查。

如果你要抽样的样本总量比较小,你对人群比较了解,人群构成也比较单一,你就可以
直接使用简单抽样方法进行统计;
如果针对某一些场景下且这些人群你接触概率基本相同,你就可以用系统抽样来做统
计。例如,现在北京大街上看到做问卷的人,基本上都是针对逛街一族或者上班一族的
系统抽样统计;
如果你想要比较精确地统计,同时你的抽样动用的资源比较多时,你可以使用分层抽
样,这样得到的结果会比较科学,但是动用的资源比较多;
如果你的资源不够,可以通过各种方式把一些分层或者一些组织机构合并成群,针对群
来抽样,当然代价就是降低了整体的准确度。

大数据中的抽样算法
蓄水池算法
我们需要把抽中做统计的 印度人都放到一个游泳池(蓄水池)里。假设我目标是只抽 n 个人,这就有一个有 n 个人 容量的游泳池,抽中的人都站在这个游泳池里面。当游泳池站满了以后,再往里加人的话 有一定的概率会把游泳池里面的人给挤出来,也有一定的概率是新加的人根本挤不进去游 泳池(想象一下上班时间的北京地铁)。
这样无论一共有多少人进来,他都有一定概率挤进游泳池里或者被挤出去,游泳池里面最 后留下来的人,就是我们要的随机的 n 个人,这些就是我们的抽样结果。我们最后统计这 些人的新冠阳性情况时,就可以说我们是随机抽样的,而不用管印度一共有多少人口了。

过采样和欠采样
采用“过采样”的方式,将美女的数据复制为多个以供人工智能 去学习;而对于普通女生,我们就可以采用“欠采样”的方式,保持两者数据量的平衡。 这样在人工智能这个小孩看来,世界都是 1:1 的,他更容易去区分美和丑,就像下面这个 图的样子。

大数据其实不是数据抽样 的终结者,无论是大数据还是小数据,它都无法逃离统计学、数学、集合论、数据结构等 这些基础理论的约束。
合适的数据抽样算 法能够由点及面地看到事物的全貌。

10 | 指数和KPI:智商是怎么计算出来的?

希望用一个数字去衡量一个特别复杂的事物,这样即使是外行也能一下就了解某件事情的程度和分布。
指数,凡是用指数描述的东西,都是一个长期存在或者需要大范围衡量的事情。

较复杂的指数:用户忠诚度指数
用户忠诚度指数顾名思义,它用来衡量用户做某种行为的忠诚度。这个指数和上证指数就 不太一样了,它和大多数日常使用的指标一样,复杂度在于你对于业务的定义。

数据分析思维(极客时间)相关推荐

  1. 极客时间 自我提升第二天 数据结构与算法之美 应该掌握 / 趣谈网络原理 / 深入浅出计算机组成原理 思维导图

    菜鸟今天又来完成所说的诺言,也希望大家督促,在今天的学习中,菜鸟有了新的认知,我会将上一篇中理解不完善的一些地方进行补充,学习本就是不断打破自己的认知,如果思考都不做,何来的知识的积累 文章目录 数据 ...

  2. 极客时间App安卓版上线,让知识获取更加简单

    在12月8日于京举办的 ArchSummit 全球架构师峰会上,极客邦科技正式宣布旗下 IT 知识服务产品-极客时间 App 继 iOS 版本发布后,蓄势一个月,安卓强势上线,已全面登陆各大应用市场. ...

  3. 硅谷python_来自硅谷的Python最佳实践指南 | 极客时间

    这几年,学 Python 的程序员的确越来越多了,甚至不少人把 Python 当作第一语言来学习.也难怪,Python 的优点太多了,它语言简洁.开发效率高.可移植性强,并且可以和其他编程语言(比如 ...

  4. 极客时间限时免费开放全部课程!别纠结了选这几门!

    " 阅读本文大概需要 3 分钟. " 很多技术人对极客时间都比较熟悉了,但也许你还不知道专门服务企业的「极客时间企业版」,他们最近推出了一个活动,面向企业免费开放全部课程. 企业里 ...

  5. 极客时间专栏内容的个人分析

    极客时间专栏内容的个人分析 前言 分类 学习路线 新人 有一定经验的开发人员 高级技术人员 总结 前言 经过长时间的努力和等待,期待已久的极客时间年卡终于采购成功,这次也是作者团队第一次成功将线下培训 ...

  6. 【极客时间-网络编程实战】

    极客时间-网络编程 盛延敏 文件 实战思维导图 开篇词│学好网络编程,需要掌握哪些核心问题? 学习高性能网络编程,掌握两个核心要点就可以了:第一就是理解网络协议,并在这个基础上和操作系统内核配合,感知 ...

  7. 本人亲自整理的极客时间设计模式之美的硬核笔记

    由于笔记内容过多,我把它放到语雀上了. 点击我 以下内容是为了让搜索引擎,检测到这篇文章.要阅读体验,请点击上面的连接"点击我",去我的语雀看.对了,我看到语雀那里有投诉的功能,请 ...

  8. 极客时间《软件工程之美》学完感

    最近花了将进两个多月的时间,把极客时间上的专栏<软件工程之美>专栏学完了,同时也把相应的配套书本 ,邹欣的<构建之法>,读完了.学完这个专栏,让我获益良多. 专栏<软件工 ...

  9. 打包带走极客时间大数据课程的正确姿势

    "如何持续学习大数据 ,实现高效进阶?" 经常有读者让我推荐学习资源,非常开心大家能一直保持学习的习惯.其实不仅仅是大数据工程师需要学习大数据,每个软件工程师都应该学习一些大数据知 ...

  10. 我和极客时间合作了一门产品创新课

    算起来,正好是三个月前,在台北,参加了一个极客邦组织的全球技术领导力峰会GTLC. 详情如文:刚去台湾参了个会,就听说自由行受限了 会上碰到了主办方的老板霍泰稳,聊了一会儿以后,他就邀请我做一门和产品 ...

最新文章

  1. sudo提权实战讲解 对用户对组的权限配置分析
  2. 作为公司新上任的管理者,如何更好的规划工作方案
  3. 时光机穿梭---撤销修改
  4. Preload custom controller defined in runtime framework
  5. 强化学习《基于策略价值 - Actor-Critic》
  6. Spring整合RabbitMQ
  7. hive-04-Hive函数大全
  8. 属于自己的MES(二)必备的主数据
  9. 【Css】Css实现DIV半透明效果(示例)
  10. vi中 wq 、wq!、x、q、q!区别
  11. 关于高德地图标注的那些坑
  12. IOS 蓝牙相关-BabyBluetooth蓝牙库介绍(4)
  13. IDES翻译—利用采购订单进行跨公司库存转储
  14. 少儿python培训课
  15. pytest报错 E ModuleNotFoundError解决办法
  16. DeepCham: Collaborative Edge-Mediated Adaptive Deep Learning for Mobile Object Recognition
  17. Excel教程:规范Excel表格设计,让工作效率提升百倍不止
  18. 高光谱遥感数值建模技术及在植被、水体、土壤信息提取领域应用技术
  19. 安卓机器人做图软件_绘画机器人andy app下载-美图秀秀绘画机器人v7.0安卓版_5577安卓网...
  20. 阿里云服务器ECS 第三篇:Oracle 数据库环境搭建

热门文章

  1. blp和biba属于哪种访问控制_技术分享 | 访问控制在工控安全中的应用
  2. 激光雷达+imu_激光雷达——定位
  3. Unity3D 颜色选择器
  4. 02web前端笔试题
  5. cad2019菜单栏怎么调出来_AutoCAD2019怎么把工具栏放左右两边两侧工具栏调出来
  6. 利用sql循环语句实现基本的数据累加和阶乘
  7. FDDB评估工具使用
  8. 小爱同学app安卓版_小爱同学app2.0.1 安卓版 下载 - 51下载网
  9. C#收集中控ZKTeco考勤数据
  10. 三菱plc指令dediv_三菱plc指令tcmp的用法