【第六周:统计学】7周成为数据分析师
本课程共七个章节,课程地址:7周成为数据分析师(完结)_哔哩哔哩_bilibili
- 数据分析思维
- 业务知识
- Excel
- 数据可视化
- SQL
- 统计学
- Python
第六周:统计学(P77-P85)
- 描述统计学
- 概率(推断统计学)
目录
第六周:统计学(P77-P85)
一、描述统计学
(一)分类数据描述统计
- 频数统计
- 频数百分比
(二)数值数据描述统计
- 统计度量:平均数(AVERAGE()函数)、中位数(MEDIAN()函数)、众数(MODE()函数)、分位数(QUARTILE()函数)、方差(VAR.P()函数)、标准差(STDEV.P()函数)、数据标准化(Z-Score)、权重预估、切比雪夫定理
- 图形(可视化):箱线图、直方图、偏度、直方图中的标准型分布/正态分布、切比雪夫定理V2.0
二、概率(推断统计学)
(一)概率
(二)贝叶斯定理
一、描述统计学
- 针对业务分析和商业分析
- 描述和推断
一般把数据分为两类,两者是可以相互换算的:
- 数值数据:直接进行加减乘除运算的数据(int / float)
- 分类数据:类别、文本数据,不能进行数值运算
(一)分类数据描述统计
(二)数值数据描述统计
1. 统计度量
- 平均数(AVERAGE()函数):数据分布不均匀时使用平均数是非常不靠谱的
- 中位数(MEDIAN()函数):把一个数字从大到小进行排列,排在中间的数,或排在中间的两个数的平均数
当平均数>中位数时,说明数字不太均衡,且往较大值偏移;两者差的越多,说明数字越不均衡
- 众数(MODE()函数):出现频率最高的那个数字
- 分位数(以四分位数为例,QUARTILE()函数):将一组数据从小到大排列好,均匀地四等分
二八法则:可以跟分位数结合使用。对于20%的分位数来说,占了80%的贡献
例:对用户消费按照四分位法来进行分析
由于数据量太大,只取20%
SELECT price FROM data.orderinfo
where right(useId,1) in (0,1) # 从右截取useId一位,即取useId最右边数字为0或1的记录
导出为 test.csv
- 方差(VAR.P()函数):描述数据的离散程度/波动性/稳定性。方差越大,波动性越强,数据也就越离散
方差会抹消掉数据的单位,失去了业务的含义。故引入标准差,异常的单位也变得正常,跟业务更贴合,故更常用
- 标准差(STDEV.P()函数):对方差加个根号(SQRT()函数)
上下限:(平均值-标准差,平均值+标准差)
注:大部分数据在该范围内波动,但不是囊括所有数据
- 数据标准化(Z-Score):数据的量纲/单位不一致时。将两组不能直接对比的数据标准化后,数据能直接进行对比,趋势更加清晰明了
例:求出所有订单量,按日统计
SELECT date(paidTime), count(orderId) FROM data.orderinfo
where paidTime > '0000-00-00'
group by date(paidTime)
把结果导出为 test1.csv,如下:
如下:
对其插入数据透视表:
- 行:week
- 列:dayofweek
- 值:求和项:count(orderId)
对上表进行标准化(标准化之后数据的可视化更加清晰明了):
注:要使某个单元格的值在拖动的时候固定不变,要在该单元格前加$符号
如,单元格L3 ——> $L$3
- 权重预估
可以用16-18周的数据(可以直接均值,或每周分配不同权重后再求平均)来预估19周的数据(比平均值高出多少个标准差)
外卖订单销量 VS 温度:将两者都标准化后再对比分析(散点图等),比较容易较快看出规律
- 切比雪夫定理:确定数据范围、异常值检测
例:渠道推广
故该值(12.8%)不算极端异常值
2. 图形(可视化)
- 箱线图:与分位数息息相关,描述一组数据的分布
上下边缘可以用来估计异常值
在Excel中画箱线图:插入 - 推荐的图表 - 所有图表 - 箱形图
对avg列画箱线图:
对avg列和city列画箱线图:
对avg列和education列画箱线图:
- 直方图:特殊的柱形图,描述类别数据
在Excel中画直方图:插入 - 直方图
对avg列画直方图:
右键 - 设置坐标轴格式 - 箱宽度(设置为7.5) & 箱数(均匀地把数据进行几等分,设置为10)
- 陡壁型:容易出现在消费领域
- 锯齿型:薪资数据,说明数据不够稳定,数据采集时有来源的偏差
- 孤岛型: 一批异常值
- 偏峰型:会有一边是长尾
- 双峰型:两个数据源混合
- 偏度:数据是往左偏(负值,长尾在左)还是往右偏(正值,长尾在右)
- 直方图中的标准型分布(正态分布)/ 切比雪夫定理V2.0
例:综合练习
数据 - 数据分析 - 描述统计
二、概率(推断统计学)
(一)概率
- 75%
- 25%
- 25%
- 75%
- 事件A的补集:所有不属于事件A的样本组成的事件,A的补集 = 1 - A
- 交集(SQL里的inner join):既属于A,又属于B
- 并集(或者)
- 条件概率:在某个已知条件发生的情况下, 考虑一个事件发生的可能性
- 独立事件
(二)贝叶斯定理
- 真的得病:99
- 试纸说一个患者得病:4995+99 = 5094
- 概率:99/5094 = 0.019 = 1.9%
贝叶斯定理通用公式(知道结果A已经发生了,想要反过来推导结果发生的原因造成的可能性有多大):
例1:
- 不能说明,女性只有30%是一个结果
- 一开始推广的目标人群中女性的比例有多少?(先验条件)
- 不能通过结果判定结果,而是要通过结果反推原因发生的可能性
例2:
0.8*0.15 / (0.8*0.15 + 0.2*0.85) = 41.38%
贝叶斯公式和全概率公式的关系 - 知乎
例3:
- 1000条正常短信中,包含澳门赌场的短信有2条:2/1000 = 0.2%
- 1000条垃圾短信中,包含澳门赌场的短信有400条:400/1000 = 40%
- P(垃圾短信 | 包含澳门赌场) = P(既是垃圾短信又包含澳门赌场) / P(包含澳门赌场) = 50%*40% / (50%*40% + 50%*0.2%) = 99.5%
数据分析--统计分析和概率相关 - 知乎
06概率的世界 - 知乎
模型:朴素贝叶斯
【第六周:统计学】7周成为数据分析师相关推荐
- 如何两周快速通过 阿里云大数据分析师acp认证(及免费获取ACA认证资格)
目录 话不多说,学习资料(视频+模拟题300道): 阿里云大数据分析师 ACP 认证介绍: 阿里云大数据分析师专业认证的报名方式: 阿里云大数据分析师认证所需具备的前置知识: 阿里云大数据分析师认证相 ...
- 3个月转行数据分析师,你需要掌握这些内容
数据分析师是什么?数据分析师是专门从事行业数据搜集.整理.分析,并依据数据做出行业研究.评估和预测的专业人员.再直白一点解释,就是需要能够灵活运用数据分析工具的能力以及丰富的项目经验.我个人认为最基本 ...
- 想成为一名优秀的数据分析师,应该做些什么?
优秀的数据分析师都是怎么被定义的?其实证书并不是很重要,老板看重的不是有多少证书奖状,而是工作的能力,而一个优秀的数据分析师所需具备的无非就是运用数据分析工具的能力和丰富的项目实战经验. 先说说数据分 ...
- 转:《七周成为数据分析师》总结
本文转自: https://blog.csdn.net/weixin_39722361/article/details/79522111 个人公众号:数据路 知乎:无小意. 百日计划第一周总结 1. ...
- 天善磨剑之作,七周成为数据分析师秦路主讲
章节1: 如何七周成为数据分析师 课时1:为什么需要七周 课时2:七周应该怎么学 章节2: 第一周:数据分析思维 课时3:为什么思维重要 课时4:数据分析的三种核心思维(结构化) ...
- 《七周数据分析师》总结
<七周数据分析师>总结 第一周:数据分析思维 1.核心数据分析思维 结构化 公式化 业务化 2.数据分析思维七大技巧 象限法 多维法 假设法 指数法 80/20法则(帕累托法则) 对比法 ...
- 《七周数据分析师》-万字总结
<七周数据分析师>总结 本文是通过对秦路的课程七周成为数据分析师进行整体总结与补充. 可以通过本文,对数据分析师这个职业有个基本的了解 课程详细资料请自行查询. 第一周:数据分析思维 1. ...
- 【第三周:Excel】7周成为数据分析师
本课程共七个章节,课程地址:7周成为数据分析师(完结)_哔哩哔哩_bilibili 数据分析思维 业务知识 Excel 数据可视化 SQL 统计学 Python 第三周:Excel(P31-P42) ...
- 【第四周:数据可视化】7周成为数据分析师
本课程共七个章节,课程地址:7周成为数据分析师(完结)_哔哩哔哩_bilibili 数据分析思维 业务知识 Excel 数据可视化 SQL 统计学 Python 第四周:数据可视化(P43-P60) ...
最新文章
- php的遍历方法,PHP数组遍历方法总结
- 【组队学习】【32期】统计学习方法习题实战
- 【干货】Linux 网卡绑定的相关知识和技巧
- 4.4.1 数据赋值
- try-catch-finally机制
- asp.net repeater控件
- 数据集.npy格式与png格式互换
- 如何建立自己的轻量级 UI 测试工具
- [php]laravel框架容器管理的一些要点
- vue安装axios以及如何使用axios
- 通篇详解-CMMM智能制造能力成熟度
- MATLAB平台学习(9)信道模型
- SQL数据库语句大全
- Windows部署WSUS补丁服务器
- 在Unity中模拟汽车的移动
- 鞍点【C语言】完整可用
- 陶 朱 商 经
- 背景差分法《python图像处理篇》
- HDU 5547 数独(DFS变形+4*4数独)
- Linux网易云问题(高分屏)