参考资料:可汗学院统计学、深入浅出统计学

统计学基础知识

1.平均数
平均值就是用数据之和除以数据的个数
2.方差
偏差=数据的数值-平均值
方差=[(偏差的平方)的合计]/(数据数)

3.标准差
标准差=方差的均方根
均值体现了平均程度,标准差体现数值的变异程度。

补充:标准分
z分=X−μθ\frac{X-\mu}{\theta}θX−μ​

数据类型有哪些?
在统计学中,统计数据主要可分为四种类型,分别是定类数据,定序数据,定距数据,定比变量。
1.定类数据(Nominal):名义级数据,数据的最低级,表示个体在属性上的特征或类别上的不同变量,仅仅是一种标志,没有序次关系。例如, ”性别“,”男“编码为1,”女“编码为2。
2.定序数据(Ordinal):数据的中间级,用数字表示个体在某个有序状态中所处的位置,不能做四则运算。例如,“受教育程度”,文盲半文盲=1,小学=2,初中=3,高中=4,大学=5,硕士研究生=6,博士及其以上=7。
3.定距数据(Interval):具有间距特征的变量,有单位,没有绝对零点,可以做加减运算,不能做乘除运算。例如,温度。
4.定比变量(Ratio):数据的最高级,既有测量单位,也有绝对零点,例如职工人数,身高。

箱线图


如果箱线图是对称的,那么数据则有可能也是相当对称的。箱线图的弊端是忽略了数据出现的频率,只是单纯考虑数据的差距等。

几何分布、二项分布、泊松分布

几何分布

几何分布满足条件:

几何分布方差、均值计算公式:


二项分布

二项分布是指在只有两个结果的n次独立的伯努利试验中,所期望的结果出现次数的概率。在单次试验中,结果A出现的概率为p,结果B出现的概率为q,p+q=1。那么在n=10,即10次试验中,结果A出现0次、1次、……、10次的概率各是多少呢?这样的概率分布呈现出什么特征呢?这就是二项分布所研究的内容。
二项分布均值和方差计算公式:

泊松分布



大数定律

定义 1 若ξ1, ξ2, …, ξn, … 是随机变量序列,令

若存在常数序列 a1, a2, …, an, … 对任何的正数ε,恒有

则称序列 {ξn} 服从大数定律(或大数法则)
定义 2 对于独立随机变量序列ξ1, ξ2, …, ξn, … 假定 Eξn 和 Dξn 都存在,令



则称序列 {ξn} 服从中心极限定理(Central Limit Theorem)。

大数定理和中心极限定律的区别

  • 大数定律是说,n只要越来越大,把这n个独立同分布的数加起来去除以n得到的这个样本均值(也是一个随机变量)会依概率收敛到真值ε{\varepsilon}ε,但是样本均值的分布是怎样的我们不知道。
  • 中心极限定理是说,n只要越来越大,这n个数的样本均值会趋近于正态分布,并且这个正态分布以u为均值,Σ2n\frac{{\Sigma}^{2}}{n}nΣ2​为方差。
  • 综上所述,这两个定律都是在说样本均值性质。随着n增大,大数定律说样本均值几乎必然等于均值。中心极限定律说,他越来越趋近于正态分布。并且这个正态分布的方差越来越小。直观上来讲,想到大数定律的时候,你脑海里浮现的应该是一个样本,而想到中心极限定理的时候脑海里应该浮现出很多个样本。

正态分布

正态分布的概率密度函数
f(x)=12πσe−(x−μ)22σ2\displaystyle f(x)=\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{{(x-\mu})^2}{2\sigma^2}}f(x)=2π​σ1​e−2σ2(x−μ)2​
标准化后:
f(x)=12πe−x22\displaystyle f(x)=\frac{1}{\sqrt{2\pi}}e^{-\frac{x^2}{2}}f(x)=2π​1​e−2x2​
正态分布曲线:

参考博客

沈波 https://blog.csdn.net/shenbo2030/article/details/20040455
如何理解二项分布
大数定律和中心极限定律
统计之都

统计学之基础知识(一)相关推荐

  1. 【入门】数据分析必备——统计学入门基础知识

    ↑↑↑关注后"星标"简说Python 人人都可以简单入门Python.爬虫.数据分析 简说Python推荐来源:木木自由 作者:小陌One old watch, like brie ...

  2. 数据分析必备——统计学入门基础知识

    数据说·梦想季 成功的关键在于相信自己有成功的能力.数据之路,与你同行!--数据说·梦想季 导读:要做好数据分析,除了自身技术硬以及数据思维灵活外,还得学会必备的统计学基础知识!因此,统计学是数据分析 ...

  3. 统计学之基础知识(数据分析准备)

    写在前面:数据分析的真正目的是从数据中找出规律,从数据中寻找启发,而不是寻找支持. 一.导论 统计学是一门收集.处理.分析.解释数据并从数据中得出结论的科学.分为描述性统计和推断性统计.应用领域有:企 ...

  4. SQL入门基础知识详解

    ////// 导读:科学技术的快速发展正在改变我们的社会,也在不经意间改变着未来人们的职业规划.据媒体预测,数据分析将是未来最重要的工作技能之一.或许不久的将来,一家企业中80%的岗位,都需要数据分析 ...

  5. 数据分析必备——SQL入门基础知识

    数据说·梦想季 一直很喜欢一句话:山鸟与鱼不同路,从此山水不相逢.意思就是如果你现在不够优秀,即使遇见了,也不配拥有-...努力是唯一的方向! // 导读:科学技术的快速发展正在改变我们的社会,也在不 ...

  6. 统计学中p值计算公式_不得不学的统计学基础知识(二)

    接上一期的分享,今天继续学习统计学的相关知识,今天涉及到的五个知识点主要包括离散型概率分布.连续型概率分布.假设检验.假设检验的运用(一类错误与二类错误)以及相关.因果以及回归关系.楼主整理了网友们分 ...

  7. GEO数据挖掘(3)-芯片基础知识

    高通量.全基因组的DNA芯片已经成为生物领域十分有用的工具.然而,芯片实验产生的数据量日益增长,由于不同的分析方法,会得出不同结论,因而分析起着关键作用. 基因芯片分析目的 基因芯片分析就是为了通过生 ...

  8. 学python需要什么文化基础-数据分析需要掌握那些基础知识?

    在这个信息对称的时代,数据分析师的工作将为领导决策提供重要的价值,在企业的地位备受重视.因此,这个职业也吸引了越来越多的人,那么想成为一名数据分析师,以下这些基础的知识是必须要掌握的. />北京 ...

  9. 学python需要什么基础知识-没学过Python先要学习哪些基础知识?

    零基础学Python应该学习哪些入门知识 关于零基础怎么样能快速学好Python的问题,百度提问和解答的都很多,你可以百度下看看.我觉得从个人自学的角度出发,应从以下几个方面来理解: 1 为什么选择学 ...

最新文章

  1. C++11 并发指南三(std::mutex 详解)
  2. git仓库相关知识01-安装和基本命令
  3. 鸿蒙 体验,华为鸿蒙OS全面上线,实际体验更胜EMUI11,安卓迎来“对手”
  4. 打造更好用的 EF 自动审计
  5. Angular SPA基于Ocelot API网关与IdentityServer4的身份认证与授权(二)
  6. Redis五种数据类型及应用场景
  7. mysql 8.0 重置数据库,Mysql 8.0安装及重置密码问题
  8. 震后十年,他重走那条生死送货线
  9. linux基础--grep以及模式正则表达式
  10. Access链接表的使用
  11. 【转载】文件上传命令rz和下载命令sz的安装
  12. springmvc源码-调用
  13. fp5139应用电路图_LM358各种应用电路
  14. 未来教育计算机操作题没分,计算机二级题目要求存为PowerPoint.pptx,我按照要求存了但是没有分,我做的未来教育的题...
  15. 西铁城手表最外圈数字是什么_手表外圈数字是什么意思 有什么作用
  16. 中国银行业发展前景预测与未来战略规划建议报告2022-2028年版
  17. 服务熔断降级什么意思?
  18. BZOJ 3168: [Heoi2013]钙铁锌硒维生素 [线性基 Hungary 矩阵求逆]
  19. oracle apex 日志,Oracle Apex 调试技巧
  20. 经典SQL Server语句大全(超详细)

热门文章

  1. 计算机网络——子网划分
  2. 软件测试面试:如何测试一个杯子
  3. 麦肯锡报告:到2030年机器人将取代8亿人的就业(上)
  4. 杭州10家企业跻身中国软件收入百强
  5. 纵使年华已逝,但我不曾放开爱你的手
  6. QQ2010如何开启透明效果皮肤
  7. Deepin虚拟机解决声卡_使用的设备标识号已超出本地系统范围_问题
  8. PHP获取上月月初和月末时间,获取指定时间的月初以及月末时间
  9. E: Some packages could not be authenticated
  10. 视频剪辑用的素材网推荐