数据分析概率及统计学基础
一.数据分析概述
1. 数据分析的概念
2. 数据挖掘的概念
3. 商业数据分析预测的本质
数据分析和业务是紧密联合在一起的,其目的就是满足商业决策的需求。预测未来发展情况,及早发现问题,对业务进行优化,制定最优的决策方案。
4. 数据分析的8个层次
5. 大数据对传统小数据的拓展
(2).还有一个重要的区别是在用途上,过去的数据很大程度上停留在说明过去的状态,拿数据说话,实际上是用过去的数据说明过去,而大数据的核心就是预测。大数据将为人类的生活创造前所未有的可量化的维度。使数据从原来停留在说明过去变为驱动现在,我以为预测对企业的作用从两个方向:
A.宏观是对趋势的预测,给企业做大势分析,
B.微观是对个体的精准分析,给企业做个性化精准营销
(3).从结构上,大数据更多的体现在海量非结构化数据本身与处理方法的整合
大数据与小数据判断原则:
A.数据的量
B.数据的种类、格式
C.数据的处理速度
D.数据复杂度
(4).分析基础不同,大数据是只有在大规模数据的基础上才可以做的事情,而这需要有从量变到质变的过程,也正因为科技的创新在方法上打下基础,而利用互联网展开的新的生活与工作方式,让信息积累到可以引发变革的程度,而很多事情在小规模数据的基础上是无法完成的
6. 明确数据分析目标的意义
7. 数据分析的过程
8. 统计分析和数据挖掘的区别和联系
9. CRISP-DM
10. SEMMA
Explore ─数据特征探索、分析和予处理
Modify ─问题明确化、数据调整和技术选择
Model ─模型的研发、知识的发现
Assess ─模型和知识的综合解释和评价
11. 数据分析中不同人员的角色与职责
二、 描述性统计分析
1. 数据的计量尺度
2. 数据的集中趋势
3. 数据的离中趋势
离中趋势在统计学中是指一组数据向某一中心值分散的程度,它反映了各个数据远离中心点的程度。从侧面说明了集中趋势测度的代表程度。
4. 数据分布形态
一组或一系列数字,落在坐标图里的形态特征。比如:正态分布。
数据分布形态的测度主要以正态分布为标准进行衡量。
指标: 偏态、峰度
(1)偏态(数据分布的不对称性)
5. 统计图
6.分类变量和连续型变量的描述统计量
三、 抽样估计
1. 随机试验、随机事件、随机变量的概念
2. 总体与样本的概念
样本:一般地,从研究的总体中按照一定规则抽取n个个体进行观察或试验,这n个个体称为总体的一个样本
3. 抽样估计的理论基础
4. 正态分布及三大分布
d. 3σ原则:P(μ-σ<X≤μ+σ)=68.3%P(μ-2σ<X≤μ+2σ)=95.4%P(μ-3σ<X≤μ+3σ)=99.7%
5. 抽样的组织形式
6. 确定必要样本容量的原因
7. 必要样本容量的影响因素
8. 抽样平均误差
抽样平均误差是抽样平均数的标准差。反映了抽样平均数与总体平均数的平均误差程度。总体中多个样本的平均数的标准差。
9. 点估计与区间估计的特点及优缺点
10. 总体平均数和成数的区间估计方法
11. 中心极限定理的意义和应用
12. 样本可能数目
四、假设检验
1.假设检验的基本概念和基本思想
2. 假设检验在数据分析中的作用
3. 假设检验的基本步骤
4. 假设检验与区间估计的联系
5. 假设检验中的两类错误
6. 利用P值进行假设检验
左侧检验的P 值为检验统计量X 小于样本统计值C 的概率,即:P = P{ X < C}
右侧检验的P 值为检验统计量X 大于样本统计值C 的概率:P = P{ X > C}
双侧检验的P 值为检验统计量X 落在样本统计值C 为端点的尾部区域内的概率的2 倍: P = 2P{ X > C} (当C位于分布曲线的右端时) 或P = 2P{ X< C} (当C 位于分布曲线的左端时) 。若X 服从正态分布和t分布,其分布曲线是关于纵轴对称的,故其P 值可表示为P = P{| X| > C} 。
计算出P 值后,将给定的显著性水平α与P 值比较,就可作出检验的结论:
如果α > P 值,则在显著性水平α下拒绝原假设。
如果α ≤ P 值,则在显著性水平α下接受原假设。
在实践中,当α = P 值时,也即统计量的值C 刚好等于临界值,为慎重起见,可增加样本容量,重新进行抽样检验。
7. Z检验统计量
(2) 可得到样本均数及该样本标准误;
(3) 样本来自正态或近似正态总体。
9. 卡方检验统计量
10. F检验
11. 三种t检验
五、 方差分析
1. 方差分析的概念
2. 单因素分析的计算公式
3. 单因素方差分析的基本步骤
4. 方差分析的应用
五、 简单线性回归分析
1. 相关关系的概念和特点
2.相关关系与函数关系的联系区别
3. 相关关系的种类
(1)按照相关的方向不同分为:正相关和负相关。
(2) 按照相关形式不同分为:线性相关和非线性相关。
(3)按相关程度分为:完全相关、不完全相关和不相关。
(4)按研究的变量(或因素)的多少分为:单相关、复相关和偏相关。
4. 相关系数的意义及性质
5. 相关系数的简洁计算公式r
6.回归分析的概念
7.相关分析和回归分析的关系
在研究因变量时,一方面需要研究哪些变量与因变量相关以及关联程度的强弱,这种研究可以称为相关分析。另一方面需要研究因变量与自变量之间是否具有某种数量关系,确定因变量与自变量之间的数学模型,这种研究称为回归分析。
相关分析与回归分析有着密切的联系,它们不仅具有共同的研究对象,而且基础理论也具有一致性。在对变量研究时经常需要它们相互补充。相关分析要为变量之间建立回归模型提供依据;回归分析揭示出变量相关的具体形式。只有当变量之间存在着高度相关时,进行回归分析才可能是正确的。同理,只有通过回归模型掌握了变量之间关联的具体形式,相关分析才有意义。
虽然相关分析与回归分析经常同时使用,但是,它们在研究目的和方法上还是有着明显区别的。首先,在研究目的上不同。进行相关分析是为了得到变量间的关联程度;二回归分析是为了得到因变量与自变量的关系模型。其次,在进行相关分析时,一般不需要区别因变量和自变量,且两种变量都属于随机变量;而建立回归模型却必须去边因变量和自变量,并且因变量是随机变量,自变量被看作是确定性变量。
8. 应用相关分析要注意的问题
分析的变量之间必须是有关联的,有联系的,否则就算数据上有一致性,也毫无意义。
有相关关系不一定有因果关系。
9. 回归分析的内容和特点
(1)提供建立有相关关系的变量之间的数学关系式(通常称为经验公式)的一般方法;
(2)判别所建立的经验公式是否有效,并从影响随机变量的诸变量中判别哪些变量的影响是显著的,哪些是不显著的;
(3)利用所得的经验公式进行预测和控制。
回归分析的特点:
(1)两个变量是不对等的
(2)必须区分自变量和因变量
(3) 因变量是随机的
(4)自变量是可以控制的量
10. 应用回归分析要注意的问题
第一,在定性分析的基础上进行定量分析,是保证正确运用回归分析的必要条件。也就是说、在确定哪个变量作自变量,哪个变量作因变量之前,必须对所研究的问题有充分正确的认识。
第二,在回归方程中,回归系数的绝对值只能表示自变量与因变量之间的联系程度,以及两变量间的变动比例。因为其值大小直接取决于变量所用计算单位的大小。
第三,在进行回归分析时,为了使推算和预测更准确,应将相关系数、回归方程和估计标准误差结合使用。
第四,要具体问题具体分析。回归方程是根据资料计算出来的,是一种经验数据,如条件发生变化,则推算或预测会不准确。因此,不能机械照搬,以免造成失误。
11. 建立一元线性回归模型的假设
理论模型 y=a+bx+ε
X是解释变量,又称为自变量,它是确定性变量,是可以控制的。是已知的。
Y是被解释变量,又称因变量,它是一个随机性变量。是已知的。
a,b是待定的参数。是未知的。
ε 是误差项。
12. 一元线性回归模型
如果我们要研究X与Y的关系,可以作线性拟合
(2-1-1)
我们称(2-1-1)式为回归方程,a与b是待定常数,称为回归系数。从理论上讲,(2-1-1)式有无穷多组解,回归分析的任务是求出其最佳的线性拟合。
其中 式中, Lxy称为 xy的协方差之和, Lxx称为 x的平方差之和
13.回归直线的拟合优度
拟合优度(Goodness of Fit)是指回归直线对观测值的拟合程度。显然若观测点离回归直线近,则拟合程度好;反之则拟合程度差。度量拟合优度的统计量是可决系数(亦称确定系数)R ^2。
1.R^2是由自变量x1,x2,...,xk的线性回归等式解释的因变量y的观测值的变化占总变化的比例。数值总是位于0到1之间的数。R^2越高,回归模型拟合的越好。(此规律也有例外。)
2.R^2的数值经常被用于测量回归模型拟合数据的程度。然而,当能够验证一个回归模型能够有效地用一个变量来预测另一个变量的数值时,模型本身并不能证明两个变量之间存在因果关系。例如,考虑这样一个例子。在冬季的几个月里,人们经常通过燃油取暖,因为取暖用的燃油在冬季的销售额比在夏天的销售额要高。同样,滑雪设备的销售额在冬季也比夏天要高。事实上,如果我们打算运行一个以滑雪设备的销售额作为自变量x以及取暖用的燃油的销售额作为因变量y的回归模型,那么产生的模型将是很好的模型,并具有很高的R^2数值。不过,我们知道滑雪设备的销售额并没有造成人们购买更多的家用取暖的燃油。
3.当回归直线是平行于x轴,并且与原始数据的散点图拟合度也非常高,但R^2=0.说明一个低的R平方数值,并不一定意味着回归模型缺乏可信度。
4.一个高的R平方数值经常被解释为拟合得很好的标志。但这也并不总是正确的。例如,R平方数值仍会很高,但原始数据的散点图表明因变量y的观测值用一条曲线拟合比用一条直线拟合的效果可能会更好。
结论:R平方数值有时会给出有关线性回归模型对数据拟合程度好的误导信息。一般说来,较高的R平方数值比较低的R平方数值要好。接受回归模型足够好的R平方数值的决定因素主要取决于这个模型的应用目的以及经验和良好的管理知识。
14. 回归估计标准误差
15 . 线性回归的检验
数据分析概率及统计学基础相关推荐
- 统计学基础专栏01---探索性数据分析
统计学基础专栏01-探索性数据分析 0.术语 0.1.探索性数据分析 连续型数据 数据可在一个区间内取任意值 离散型数据 数据只能取整数,例如计数 分类型数据 数据只能从特定集合中取值,表示一系列可能 ...
- 数据分析与数据挖掘 - 05统计概率 一 统计学基础运算
一 统计学基础运算 1 方差的计算 在统计学中为了观察数据的离散程度,我们需要用到标准差,方差等计算.我们现在拥有以下两组数据,代表着两组同学们的成绩,现在我们要研究哪一组同学的成绩更稳定一些.方差是 ...
- NumPy 快速入门系列:应用统计学基础概念、相关统计指标与NumPy的实现
NumPy 快速入门系列:应用统计学基础概念.相关统计指标与NumPy的实现 前言: 统计学导论: 统计学定义: 统计学分类: 统计学基本概念: 统计过程: 统计指标与NumPy: 用 Python ...
- 统计学基础之数据分布
统计学基础之数据分布 学习几种常用的数据分布 1.正态分布 正态分布(Normal distribution),也称"常态分布",又名高斯分布.正态曲线呈钟型,两头低,中间高,左右 ...
- 统计学基础——负二项分布的数字特征
统计学基础--负二项分布的数字特征 一.引言 二.负二项分布定义的引出与理解 2.1 实际意义 2.2 初始定义 2.3 重新定义"负"二项分布 2.3 推导前的知识准备 三.数字 ...
- python如何计算概率事件_怎样用Python实现统计、概率、机器学习基础实验?一文看懂...
导读:概率论与统计学是机器学习的基础,但很多初学者不太了解它们.本文介绍了概率及统计的基本概念.联系以及用法,并以正态分布为例展示了什么是概率分布.分布函数以及经验法则.同样本文还概念性地解释了中心极 ...
- 数据分析必备的统计学知识(一)
数据分析师的必备技能栈里,除了熟悉业务.掌握业务分析思维和工具外,还有一个特别重要的知识点,就是统计学,无论在简历的技能描述中还是实际的面试过程中,统计学都是必备的基础知识. 为什么对于数据分析师来说 ...
- 统计学基础理论学习(1)
统计学基础知识 统计学基础知识知识点包括: 1. 数据的集中趋势 在统计学中,集中趋势又叫中央趋势,表示一个机率分布的中间值. 常见的几种表示集中趋势的计量包括算数平均数,中位数及众数. 数值平均数: ...
- python 计算订单量最多的店铺订货金额_Python数据分析实例-统计学在解决奶茶店问题中的应用...
作为数据分析师,除了熟练各种分析工具外,更重要的是分析.解决问题的能力以及扎实的数学功底,尤其是统计学. 本文将用一个例子,一步一步展示1)分析问题的步骤,2)更具需求选择合适工具和数据获取,3)和统 ...
最新文章
- arduino 呼吸灯_如何改善您的Arduino呼吸机:用于临时COVID-19呼吸机设计的RTS和SCS简介...
- oracle中用START WITH...CONNECT BY PRIOR子句实现递归查询
- 基于Prometheus和Grafana打造业务监控看板
- Django之创建应用以及配置路由
- python数据结构list的extend与append的差别
- SAP License:别在走SAP学习的误区
- 【软测试】(两)计算机组成原理-cpu
- 节后荐书:Python、PyQt5、Kotlin(评论送书)
- php利用svn hooks将程序自动发布到测试环境
- 网管利器:七大免费网络工具
- filebeat7.7.0相关详细配置预览- processors - add_fields
- 开源项目——小Q聊天机器人V1.0
- MobileNet v2的Inverted Bottleneck为什么可以抵消ReLU激活函数所带来的信息损失
- 全面了解风控策略体系
- 蓝精灵协会 (The Smurfs‘ Society) 宣布与著名艺术家展开一系列的合作,打造传奇 PFP 系列
- 黑马程序员---IT行业调查报告
- 【论文泛读85】基于上下文的句子相似度
- Retrofit 2.0 超能实践(一),okHttp完美支持Https传输
- 中国PI膜行业市场需求趋势分析及十四五前景预测报告2021-2027年版
- Java web实习总结