预览

参考书籍:浙大概率论与数理统计, 俄罗斯的概率教材, 概率-施利亚耶夫著作, 统计学及应用-sarah boslaugh著作

统计学分类:

描述统计学:展示数据, 描述数据的集中和离散程度

推断统计学:根据样本数据推断总体的数据特征

统计趋势:

集中趋势, 离散趋势

统计学应用:

有数据, 就有统计分析的需求

把握要点:

概率论是统计学实施的基础, 统计学倾向于解决实际问题

常用符号:

μ: 总体均值

σ:总体标准差

s:样本方差

Σ:求和

总体和样本:

同一个数据集合既可以是总体也可以是样本, 具体取决于对该数据集合的分析目标

分析目标是数据集的数据分布, 则该数据集是总体

分析目标是通过该数据集,推断其他同类数据的趋势,则该数据集为样本

例如:

一个数据集为某个班学生的期末成绩

分析目标是描述成绩分布的时候, 那么该班的期末成绩为总体

分析目标是通过该班的成绩推断其他学生的期末成绩的时候, 那么该班的期末成绩为样本

集中趋势描述度量:

数据向中心值靠拢的程度,反映的是数据中心点的位置

反映集中趋势的测度的统计量: 均值, 中位数, 众数

均值:

算术平均数, 所有统计数据的平均值, 描述平均水平

均值对较小或者较大的异常值包容性较小, 容易受极端值的影响, 均值并不适合极端值多的数据集

对于偏态数据集(非对称数据) 均值结果会产生误导, 不能准确反映大多数数据的趋势, 则改用中位数取代

极端值: 也叫离群点,

分组数据均值:

分组区间中点X分组频数

中位数:

数据按照大小的排列顺序,

位于排序后的数据后的中间的数据

排序后的个数为偶数时: 中位数是中间两个数值的平均值

排序后的个数为奇数时: 中位数是就是中间的数值

太过于分散的数据集, 中位数也不能很好 的描述数据的集中趋势, 缺少敏感性

众数:

数据集中出现频数最多的数值, 众数不唯一

当数据具有明显的集中趋势的时候, 代表性较好, 不受极端值的影响

离散趋势描述度量:

描述数据分散程度的度量, 也会被称为, 波动测度或者分布测度

反映离散程度的度量: 极差, 四分位差, 方差, 标准差

极差:

数据中最大值最小值之差

简单描述数据的范围大小

四分位差(距):

数据集中间50%数据的极差, 数值为:数据集中的75%位置的数据和25%位置的数据的值之差

四分位差求法:

  1. 数据集从小到大排序
  2. 定义:n = 数据集的数据个数, k = 数据集的第k个百分位
  3. 求第k百分位位置的数据位置j
  4. J = Nk/100:为整数 取数据集的第j和j+1位置的数据的均值作为第k百分位的数

    J = nk/100:为小数 取数据集的第j+1位置的数据作为第k百分位的数

  5. 简单就是除的尽,取该位置的数和他后面的数的均值, 除不尽就取整数位置

方法二:

  1. 找到中位数: 50%分位数
  2. 找到前半部分的中位数 25%分位数(下分位数)
  3. 找到后半部分的中位数 75%分位数(上分位数`)
  4. 最小值 (下边缘)
  5. 最大值(上边缘)

四分位差不受离群点的影响, 可以制作箱线图, 可以方便的展示数据的分布情况, 数据的极大值,极小值, 数的大多数据的分布情况.

方差σ²:

每个值和均值的差的平方和除以值个数(元素值的平方和均值的平方差求和再求均值)

描述数据的离散程度, 数据距离中心越远就越离散

标准差σ:

方差的开方,为了保持数据描述单位的一致

图示表示数据

图示展示数据要点:

清晰易懂, 数据间的差别展示清楚, 传达信息明确

频数表, 频数直方图:

展示不同类别中所含有的实例数, 某一范围的数据的实例的多少

频数:绝对频数, 相对频数, 累积频数

相对频数: 每一类中的个体数占全体个数的比例

累积频数: 低于该类的所有频数的相对频数和

条形图:

展示只有几个类别的离散数据

堆积条形图:

突出每组内的值的相对分布情况

饼图:

展示数据的各个部分占全部比例的情况

帕累托图:

直方图加折线图, 直方图显示频数和相对频数, 折线图显示累积频数,

可以清晰的展示最多影响和累积影响

帕累托2:8原则:

80%的活动或者结果由20%的原因产生

箱线图:

由中位数, 第一分位数(下分位数), 第三分位数(上分位数), 最小值(下边缘), 最大值(上边缘) 组成

可以显示数据的集中趋势, 极差, 对称性, 以及离群点

直方图:

展示连续数据, 同组数据

可以判断数据的集中值与正太分布的相似程度

双变量图:

散点图

折线图:展示数据的变化趋势

茎叶图:

左茎右叶图

保留全部数据信息, 只管显示数据据的分布情况

柱形图:

显示一段时间内数据的变化, 或者各项之间的比较情况 不同组数据的对比

转载于:https://www.cnblogs.com/binyang/p/10918541.html

统计学 一 集中趋势相关推荐

  1. 数据分析基础 - 统计学

    学习资料:可汗学院公开课:统计学 1. 集中趋势与离散趋势 通常一批数据,先看他们的描述统计(可画出箱型图),即看集中趋势和离散趋势. 集中趋势: 集中趋势又称"数据的中心位置". ...

  2. 数学术语的英汉对照(权威,全面)

    abbreviation 简写符号:简写 abscissa 横坐标 absolute complement 绝对补集 absolute error 绝对误差 absolute inequality 绝 ...

  3. 高等数学术语英汉对照

    数学术语的英汉对照(权威,全面)English Chinese abbreviation 简写符号:简写 abscissa 横坐标 absolute complement 绝对补集 absolute ...

  4. python统计单词平均长度_统计学的Python实现-014:几何平均数(衡量样本集中趋势)...

    统计学解释 几何平均数:几何平均数(geometric mean)是衡量样本集中趋势的统计量,其值为该组数据所有n个变量值的乘积的n次方根.其计算公式如下: 在一些情况下,我们还会使用加权几何平均数, ...

  5. 【统计学01】概括性描述-集中趋势,离散程度,分布形状度量

    0 集中趋势度量 01 众数 02 中位数 03 平均数 普通加权:xˉ=∑i=1nxin\bar x=\frac {\sum_{i=1}^n x_i}{n}xˉ=n∑i=1n​xi​​ 分组加权:x ...

  6. 统计学:统计学概述(一)

    统计学:统计学概述(一) 雪柯 大工生物信息 提笔为写给奋进之人 已关注 陈灯 等 66 人赞同了该文章 文章的一开始我打算放一张图,让大家理解一下统计到底是在干什么,统计的基本流程是什么,本文旨在抛 ...

  7. 统计计量 | 统计学中常用的数据分析方法汇总

    来源:数据Seminar本文约10500字,建议阅读15+分钟 统计学中常用的数据分析方法汇总. Part1描述统计 描述统计是通过图表或数学方法,对数据资料进行整理.分析,并对数据的分布状态.数字特 ...

  8. 数据科学之基石:数据科学家必须掌握的10个统计学概念

    2021-01-29 12:29:00 全文共2848字,预计学习时长8分钟 图源:Google 数据科学是一个跨学科领域,其基石之一是统计学.如果没有足够的统计知识,就很难理解或解释数据. 统计学帮 ...

  9. 小白学统计(4)——数据集中趋势的描述

    原文地址:http://www.afenxi.com/post/16569 摘要:在社会和经济领域中有许多实际发生的数据,因为各种偶然因素的影响,这些数据看起来往往杂乱无章. 在社会和经济领域中有许多 ...

最新文章

  1. mysql驱动(github上的)
  2. 无所不在的物联网设备 你我都需要正视所带来的安全问题
  3. datatables ajax 数组,datatables ajax row undefined
  4. click Edit button in Opportunity - why curr is displayed wrongly
  5. hashset去重原理_9道Java集合面试题,搞定了再去投简历吧!
  6. 子集数据帧中的丢包因子级别
  7. 如何让Toast响应点击事件等基础Android基础文章N篇
  8. 输入课程信息的C语言代码,[源码和文档分享]基于C语言的课程信息管理系统
  9. Linux基础(day74)
  10. 计算机硬件常识知识,计算机硬件基础知识大全
  11. 北京房价预测——线性回归
  12. 【MEMS传感器】BMI160九轴传感器SPI驱动
  13. 游戏外挂篇:如何Dump内存获得游戏的辅助
  14. 《Revisiting Self-Supervised Monocular Depth Estimation》论文笔记
  15. RecyclerView的 overScrollMode,scrollbars属性含义
  16. 10g gtx 光纤通信测试_10G光模块知识问与答
  17. 简述 npm 发包流程
  18. 阿里云王牌架构师一问开发者:我需要一个高并发的架构,系统要改造成微服务吗
  19. Blender2.8安装Armory3D插件
  20. css div横屏超长滚动,CSS实现DIV超长截断,并显示...

热门文章

  1. PCIe扫盲——高级错误报告AER(一)
  2. 一步步教你做“锅打灰太狼”
  3. C语言------函数
  4. 简单介绍一下CAD做三维图的REVOLVE指令
  5. SQL Server 2000服务无法启动,提示“系统找不到指定的文件”解决方法及sp4安装不上...
  6. 三星手机电池循环清零代码_2018年自然语言处理最值得关注的研究、论文和代码...
  7. centos linux 安装jq,在centos中安装jq时遇到问题
  8. 一看就懂!!各进制转换方法
  9. 深度学习笔记:在小数据集上从头训练卷积神经网络
  10. 简单的病毒编程代码Python,利用python编写勒索病毒