写在前面

概率统计无疑是数据类岗位笔试和面试中很重要的一块,尤其是对我们这种本硕统计学专业的,可能问的就要更系统一些。思考了很久还是需要从基础知识慢慢复习起,理论结合具体实践,不然越看面经越焦虑哈不是嘛。不知道我的博客有没有人看,不过就当是一个小白2020的求职复习之路吧。
这个系列大概会按照安德森的商务与经济统计来慢慢梳理,也不想去找什么速成的方法了,总觉得是不靠谱的。每一部分会整理基本的知识点,尽可能的加上一点实际中的运用吧,如果有面经里的一些会稍微整理一点(当然以基础为主)。

这一 part 主要包括第一章到第二章的内容。


第一章 数据与统计资料

数据类型划分

分类变量和数量变量
截面数据和时间序列数据

两种统计

统计一般包括描述性统计统计推断


第二章 描述统计学1:表格法和图形法

描述性统计一般会用在数据分析比赛的第一步用来对数据进行初步的感知,或者是用在最后的数据可视化,所以这一步看似简单但实则是很重要的,怎么去直观的感受数据带来的信息,下面就来看看都有哪些操作。

针对分类变量的描述

频数分布

相对频数分布和百分数频数分布
这个虽然没有怎么接触到,但意义也是比较好理解的。

条形图和饼图
一般而言,人们更喜欢用条形图来展示,因为长度往往比角度更加的直观

针对数量变量的描述

频数分布
这里我们会问啦,上面分类变量也有这个方法啊,这里说的频数分布有哪里不一样嘛。答案是肯定的,因为类型的不同,所以说对于分类变量可以直接的根据类型进行计数,而数值型变量是没有类别的,需要人为的去划定一些组别,那么问题就聚焦到应该怎么去划定这个组别比较合理等等。
基本步骤为:

  1. 确定组数
  2. 确定组宽
  3. 确定组限


以这个例子来进行介绍,第一步共20个数据,要确定适合的组数,总不能说20个数据分10个组吧,这也太多了,也不能只分两组。根据一般的原则,组数会在5~20之间,根据数据的个数再酌情确定,这里我们选择5.
第二步,我们一般用这个公式来近似的确定组宽,

这里的话,即组宽近似为4.2,则取整选择为5.
最后则根据这些来确定组限即可,注意不要重叠,一些统计学的教材上面会强调左开右闭或者左闭右开(两个我都看到过),我个人感觉应该不是太重要,每个值都有去处就可以了。

相对频数分布和百分数频数分布
和上面的同理了,我就不说了。

打点图
这个图我倒是第一次听说!
它长这个样子!
大概意思就是取值一次就打一个点,还真可爱哈哈。

直方图
直方图是常用的数值型变量分布的可视化形式,要注意直方图的横坐标是连续的,区别于条形图(用于类别变量)是分割开的。
直方图是很好的展示分布形态的一个工具,很轻易的看到下面这张图是右偏的,

累积频数分布

茎叶显示
也就是通常所说的茎叶图哈,
非常简单的理解,要注意右侧数值要排序展示。
和直方图的区别就在于,一个是横的一个是竖的,茎叶图能展示更多的细节数据。

用表格方法汇总两个变量的数据

交叉分组表
通过这个交叉汇总的方式,我们可以接着得到很多的信息,比如针对横坐标进行质量等级的展示,或者针对纵坐标进行参加等级的展示等等。

辛普森悖论(重点)
这个真的考的是重中之重啊,几乎每个面试都有问到,虽然我暂时不知道运用在工作中是以什么形式体现,但是既然接触到了理论就需要好好的总结一下!
我们常常合并或综合两个或两个以上的交叉分组表中的数据,生成一个汇总的交叉分组表,以显示两个变量的相关性。在这种情形下,从两个或多个单独的交叉分组表得到的结论与一个综合的交叉分组表数据得到的结论可能截然相反。依据综合和未综合数据得到的相反结论被称为辛普森悖论
下面给出一个经典的例子~法官判决
综合民事庭和市政庭

未综合民事庭和市政庭

可以看到两个数据结论是截然相反的。对两位法官来说,法庭类型是一个隐藏的变量,所以当评价两位法官的记录时,它是不可忽视的变量。
在得出结论之前,我们应该思考应该考察综合形式还是未综合形式。

用图形显示方法汇总两个变量的数据

散点图和趋势线
是可以明显的展示变量之间的相关关系的。

复合条形图和结构条形图

数据可视化:创建有效图形显示的最佳实践


这一部分的话就是说如何选择合适的可视化图示来更好的说明数据带来的信息吧!这一块对于数据分析师来说当然也是非常重要的,在今后的实习和工作中应该也会进一步的学习,当然在笔试面试的考察中占比不是太大,但是依然要注意积累和总结。


小总结

好了今天这一部分就到这里了,前面一部分都是比较容易的,但是一步一步理解就会由浅入深了。
Part 1 的重点就在于了解一些描述变量的图示和表格,以及最重要的辛普森悖论,有机会后面会单独写一篇辛普森悖论,拭目以待啦。

[概率统计]商务与经济统计知识点总结 Part 1相关推荐

  1. 高等数学+线性代数+概率统计知识点梳理(参考李林108题)

    写在前面:请大家支持正版!!!李林老师口碑甚好,本文仅用于构建个人知识体系.所用参考资料为李林2021年高频考点透析108题. 文章目录 高等数学 考点1 函数的性质 考点2 极限的定义和性质 考点3 ...

  2. 概率与计算机论文,数学概率统计论文范文

    一.引言 如本校数学与应用数学专业和信息与计算科学专业,该课程实践教学主要是利用计算机对理论知识的模拟和实证.这样的实践教学对理论知识的理解有一定的帮助,但对于实际的运用却缺少训练.基于此,在实践教. ...

  3. 读书笔记:程序员的数学 概率统计

    读书笔记:程序员的数学 概率统计 特点 内容 第一.二章 概率定义 多随机变量 第三.四章 离散.连续分布 第五章 协方差矩阵与多元正态分布 第六.七章 估计与检验 伪随机数 第八章 各类应用 体会 ...

  4. 为什么边缘概率密度是联合概率密度的积分_高等数学线性代数概率统计每日一题20201006不定积分 齐次线性方程 边缘概率密度...

    高等数学线性代数概率统计每日一题20201006不定积分 齐次线性方程 边缘概率密度 微信公众号:大学数学云课堂 专注于大学数学,线性代数,概率统计,高等数学,数值分析, matlab编程,数学建模, ...

  5. 机器学习中的数学:概率统计

    内容亮点 详解 6 大核心板块:概率思想.随机变量.统计推断.随机过程.采样理论.概率模型,筑牢机器学习核心基础. 教你熟练使用 Python 工具库:依托 NumPy.SciPy.Matplotli ...

  6. 应用概率统计(陈魁)部分答案7~11章

    数理统计应用概率统计(陈魁)部分答案7~11章 第七章 数理统计的基本概念 习题7.2.7.3.7.4.7.6,答案见下图 第八章 参数估计 习题8.1.8.4.8.6.8.8.8.11.8.12,答 ...

  7. 概率统计笔记:高斯威沙特分布

    1 介绍 在概率论和统计学中,高斯威沙特分布是一个多变量四参数连续概率分布. 它是一个具有未知均值和精度矩阵(协方差矩阵的逆)的多元正态分布的共轭先验 2 定义 假设均值μ 满足如下的高斯分布 其中满 ...

  8. Matlab在概率统计中的应用问题及解决方案集锦

    前言 关于MATLAB系列的精品专栏大家可参见 MATLAB-30天带你从入门到精通 MATLAB深入理解高级教程(附源码) 喜欢的小伙伴可自行订阅,你的支持就是我不断更新的动力哟! Matlab在概 ...

  9. Matlab概率统计编程指南

    Matlab概率统计编程指南 第4章 概率统计 本章介绍MATLAB在概率统计中的若干命令和使用格式,这些命令存放于MatlabR12\Toolbox\Stats中. 4.1 随机数的产生 4.1.1 ...

  10. 距离算法在概率统计C语言,基于CBM-TOF探测器无触发数据获取系统的压缩算法-应用概率统计.PDF...

    基于CBM-TOF探测器无触发数据获取系统的压缩算法-应用概率统计 第39 卷 第6 期 核 技 术 Vol.39, No.6 2016 年6 月 NUCLEAR TECHNIQUES June 20 ...

最新文章

  1. iOS 自定义返回按钮,保留系统滑动返回
  2. GitHub遭攻击滥用以代管网钓套件
  3. 创建emp表 oracle,Oracle中创建和管理表详解
  4. android 模糊度处理_图像处理评价指标之模糊度、清晰度(待更新)
  5. 51. N 皇后018(回溯法求解)
  6. MySQL建表两个单引号报错_极客起源 - geekori.com - 问题详情 - mysql建表报错,查手册看不懂,求解?...
  7. 在idea中使用CheckStyle来规范代码
  8. 图解DotNet框架之一:编译与执行引擎(上)
  9. 搭建Nodejs环境 创建Express应用
  10. oracle查看当前用户表空间占用情况
  11. 团体程序设计天梯赛-练习集——7-9 打印学生选课清单 (25分)
  12. 免费搜题网课答案微信公众号系统
  13. PHP写一个简单的留言板
  14. APP强制更新(uni-app)
  15. html 背景图片不重复显示,css如何设置背景图片不重复?
  16. ORA-00937: not a single-group group function
  17. DSP一个程序如何实现RAM和Flash两种下载方式,CCS9
  18. [教程] 重新修复qnap的flash引导核心 (synology完败)
  19. Android 跳转手机管家的自启动界面
  20. ORA-00257: oracle报archiver error的解决方法

热门文章

  1. 2005/2006/2007/2008/2009/2010/2012/2013/2014/2015/2016/2017/2018/2019/2020高德poi 一级类别 二级类别
  2. 最简短的加入收藏代码
  3. 大学生计算机应用基础考试,大学计算机应用基础知识试题.doc
  4. [phaser3入门探坑]使用phaser3制作山寨马里奥
  5. 滚动字幕制作C语言示例
  6. SuperMap iDesktop之夜景特效制作
  7. [XJTUSE编译原理]第四章 语法分析——自上而下分析
  8. 操作系统与操作系统内核
  9. c# word 增加段落_word排版技巧:如何防止行距随字号而改变?
  10. 2021-04-02