python 逻辑回归 复杂抽样_【课程笔记】《Udacity数据分析(入门)》「纳米学位」——第 4 部分:统计学 ——By Tensor麻麻麻...
第4部分:统计学
仅作为学习记录作为参考
统计学 - 总共分为16部分:
1、描述统计学 - 第一部分(选修)
2、描述统计学 - 第二部分(选修)
3、录取案例分析
4、概率
5、二项分布
6、条件概率
7、贝叶斯规则
8、Python概率练习
9、正态分布理论
10、抽样分布与中心及限定理
11、置信区间
12、假设检验
13、案例研究:A/B测试
14、回归
15、多元线性回归
16、逻辑回归
项目:A/B测试项目
一、描述统计学 - 第一部分(选修)
1、数据类型
数据类型
数值
连续
离散
身高、年龄、收入
书中的页数、院子里的树、咖啡店里的狗
分类
定序
定类
字母成绩等级、调查评级
性别、婚姻状况、早餐食品
2、分析数值:数据
在分析离散数值数据和连续数值数据的时候,分析数值数据有四个主要方面:
center(集中趋势)
spread(离散程度)
shape(形状)
outliers(异常值)
集中趋势测量的方式有三种:
三大测量方法:mean(均值)、median(中位数) 、mode(众数)
3、符号表达式介绍
表达式,学术和工业界专业人士用来传达数学思想的通用语言。符号表达式让难以用语言表达的想法变得更容易传达。
随机变量
随机变量是某些进程的可能值的占位符。我们看到随机变量用大写字母表示(X、Y 或 Z 是表示随机变量的常用方法)。它可以是从 0 到无限的任意值。
大写字母与小写字母
随机变量用大写字母表示。每当我们观察到这些随机变量的一个结果,就用相同字母的小写表示。
4、更多聚合的知识
Σ 符号用于使用求和进行聚合,但是我们可以选择通过其他方式进行聚合。求和是最常见的聚合方式之一。但是,我们可能需要以其他方式进行聚合。如果我们想将所有的值相乘,我们可以使用求积符∏ ,希腊字母 π 的大写。我们聚合连续值的方式称为积分(微积分中的一种常用技术),它使用以下符号 ∫ ,就像一个拉长的 s。(π(option+P),∫(option+B))
求和sigma ∑
(如何在键盘上打出∑这个符号?同时按住option和W键即可)
求和并计算均值⬇️
![求和并计算均值](https://upload-images.
.io/upload_images/5016667-ea76c4633a173f82.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)
总结
二、描述统计学 - 第二部分(选修)
本部分主要讲分析值变量的第二方面:离散程度
离散程度测量用于告诉我们数据之间的分散程度。常见的离散程度测量包括:
极差(Range)
极差又称全距,是最大值(MAXMUM)和最小值(MINMUM)之间的差值。
四分位差 (IQR)(inter-quartile range)
四分位差为Q 3 和 Q 1 之间的差值。
标准差(Standard Deviation)
每个观察值与均值之间的平均差异。
方差(Variance)
直方图对于了解数值数据的不同方面是非常有用的。理解前面提到的关于数值变量的四个方面:
集中趋势
离散程度
形状
异常值
很神奇,一个数据的众数、中位数、平均数都一样,离散程度差很多。
离散程度差异通过直方图表现出来
1、五数概括法
五数概括法包括 5 个值:
最小值(MINMUN): 数据集中的最小值。
Q 1(第一四分位数):排序后数据第 25% 处的值。
Q 2(中位数):排序后数据第 50% 处的值。
Q 3(第三四分位数):排序后数据第 75% 处的值。
最大值(MAXMUM): 数据集中的最大值。
需要注意的是,Q2不用在计算Q1和Q3 的数据集中。
奇数个数值计算Q1 Q2 Q3
对于偶数个数值。
偶数个数值计算Q1 Q2 Q3
2、标准差和方差
标准差和方差计算两个数据哪个更分散,数据越大越分散
标准差(Standard Deviation)
每个观察值与均值之间的平均差异。
方差(variance)是在概率论和统计方差衡量随机变量或一组数据时离散程度的度量。
求方差
如何求标准差
方差和标注差部分——总结
方差和标准差都能用于比较两组不同数据的离散程度。方差/标准差较高的一组数据相比较低的一组数据,其分布更为广泛。但是注意,有可能只有一个(或多个)异常值提高了方差或者标准差,而大多数数据实际上比较集中。
在比较两个数据集之间的离散程度时,每个数据集的单位必须相同。
当数据与货币或经济有关时,方差(或标准差)更高则表示风险越高。
在实践中,标准差比方差更常用,因为它使用原始数据集的单位,标准差的单位是原始数据单位的平方,这没什么实际意义。
3、形状和异常值
形状
数据的分布通常为以下三种形状之一:
右偏态(类似幂律分布)
左偏态
对称分布(通常是正态分布)
右偏态
关于形状小结
异常值
异常值是明显偏离其余数据点的点。这会极大地影响均值和标准差等度量,而对五数概括法中的第1四分位数、中位数、第2四分位数的影响较小。
当出现 异常值 时,我们应该考虑以下几点。
注意到它们的存在以及对概括性度量的影响。
如果有拼写错误 —— 删除或改正。
了解它们为什么会存在,以及对我们要回答的关于异常值的问题的影响。
当有异常值时,报告五数概括法的值通常能比均值和标准差等度量更好地体现异常值的存在。
报告时要小心。知道如何提出正确的问题。
异常值处理建议
在数据集中使用列(随机变量)的准则。
绘制你的数据以确定是否有异常值。
通过上述方法处理异常值。
如果无异常值,且你的数据遵循正态分布,使用均值和标准差来描述你的数据集,并报告数据为正态分布。
如果你有偏态数据或异常值,则使用五数概括法来概括你的数据并报告异常值。
4、描述统计与推论统计
描述统计
描述统计 是用我们在本课中谈到的度量描述收集的数据:集中趋势度量、离散程度度量、分布形状和异常值。我们也可以通过绘制数据图获得更好的理解。
总体 —— 我们想要研究的整个群体。
参数 —— 描述总体的数值摘要
样本 —— 总体的子集
统计量 —— 描述样本的数值摘要
三、录取案例分析
1、 录取案例练习:辛普森悖论
案例总结:查看数据的方式的不同会引起完全不同的结果。
四、概率
1、概率和统计的区别
统计和概率是不同但又紧密相关的数学领域。
在概率中,我们根据假定的模型或原因,对未来事件做出预测;而在统计中,我们对过去发生的事件中的数据进行分析,从而推断出这些模型或原因是什么。一个是预测数据,另一个是根据数据进行预测。
举个
python 逻辑回归 复杂抽样_【课程笔记】《Udacity数据分析(入门)》「纳米学位」——第 4 部分:统计学 ——By Tensor麻麻麻...相关推荐
- python 逻辑回归 复杂抽样_逻辑回归(Logistic Regression) ----转载
概要: 1. 介绍Logistic Regression的数学模型,推导并详细解释求解最优回归系数的过程: 2. Python实现Logistic Regression的基本版: 3. 介绍sklea ...
- python逻辑回归训练预测_[Python] 机器学习笔记 基于逻辑回归的分类预测
导学问题 什么是逻辑回归(一),逻辑回归的推导(二 3),损失函数的推导(二 4) 逻辑回归与SVM的异同 逻辑回归和SVM都用来做分类,都是基于回归的概念 SVM的处理方法是只考虑 support ...
- python逻辑回归优化参数_逻辑回归模型怎么调整超参?
题主标签有sklearn,就先默认你用得sklearn做逻辑回归. 调参 主要是防止过拟合,所以假定题主的目的防止过拟合为前提: 这里我简单提两个参数,penalty 惩罚项 sklearn 默认'l ...
- python人工智能入门纳米学位_学习笔记(一) - 机器学习纳米学位
不久前我在Udacity报名了数据分析和机器学习两门纳米课程.之所以对这个感兴趣是因为关注人工智能方面的资讯有一段时间了,觉得这是未来的趋势,希望今后能够在这方面有所成绩.选择纳米课程是因为我觉得它与 ...
- 逻辑回归原理梳理_以python为工具 【Python机器学习系列(九)】
逻辑回归原理梳理_以python为工具 [Python机器学习系列(九)] 文章目录 1.传统线性回归 2.引入sigmoid函数并复合 3. 代价函数 4.似然函数也可以 5. python梯度下降 ...
- python逻辑回归
逻辑回归的概念 逻辑回归是大数据技术的机器学习一种方法,它借助对某个事件的历史数据结果进行分析,从而预测某个事件未来发生的概率,是一种概率型非线性回归.其中概率取值只有"是"和&q ...
- sklearn逻辑回归参数设置_【机器学习笔记】:逻辑回归实战练习(二)
作者:xiaoyu 微信公众号:Python数据科学 知乎:python数据分析师 前言 前几篇介绍了逻辑回归在机器学习中的重要性:5个原因告诉你:为什么在成为数据科学家之前,"逻辑回归&q ...
- python实现逻辑回归的流程_逻辑回归原理及其python实现
September 28, 2018 7 min to read 逻辑回归原理及其python实现 原理 逻辑回归模型: $h_{\theta}(x)=\frac{1}{1+e^{-{\theta}^ ...
- python逻辑回归_逻辑回归:使用Python的简化方法
逻辑回归的目标是什么? 在逻辑回归中,我们希望根据一个或多个自变量(X)对因变量(Y)进行建模.这是一种分类方法.此算法用于分类的因变量.Y使用一个函数建模,该函数为X的所有值提供0到1之间的输出.在 ...
最新文章
- 关于StartCoroutine的简单线程使用
- 从CVPR 2014看计算机视觉领域的最新热点
- 理解ABR及其工作原理
- 黑白照片修复亦可「如假包换」,华人学者提出实例感知着色新方法
- 【产品评测】华为开源镜像站体验:美好终将不期而遇
- JMeter集合点功能的使用
- nodejs,python,sublime和Eclipse的包管理器 1
- 节点类型与功能_WKD3874多功能振动测试系统
- django字段类型(Field types)介绍
- 基于android的轻餐饮点餐APP(ssm+uinapp+Mysql)
- 20200524西瓜视频的视频下载打开的步骤(未完成)
- 华为服务器文件升级失败,升级连接服务器失败
- awk】1-awk基础篇(又名UNIX.Shell.awk)
- Linux环境Hadoop的下载安装
- OsgEarth加载DEM(数字高程模型)
- MySQL主从复制原理学习
- 【观察】戴尔Lati:以“叠加态”价值新主张,引领智慧办公新时代
- NeuralProphet之六:多元时间序列预测
- CF #80 Cthulhu
- 使用unity开发答题系统