一、图形信息化

1、统计

1)通过某种有意义的方式对原始数据提炼展现观察原始数据无法得出的观点
2)统计的根本在于数据
3)对统计的研究包括:统计数据的来源、计算方法、有效使用方法、得出结论。
3)搜集数据的方法:查看现有数据源、做实验、做调查。
4)对收集到的数据进行分析,得出统计量。可以计算事件概率,预测发生某些事件的可能性;了解某些结果的可信度。完成数据分析后,下结论作预测

2、图形

1)图形是发现数据隐含模式的一种有效方法,直观体现数据趋势

2)信息与数据的区别
数据:搜集的原始事实和数字,例如:数字5、6、7。
信息:加入某种意义的数据,例如:三个孩子的年龄分别为5、6、7。

3)图表的纵轴的起点和刻度 会影响人对数据的趋势、分布的判断。
4)频数一个特定组(区间)内的统计对象 的数目
5)饼图:体现不同组(类)所占比例。

6)条形图:更灵活、精确地比较各类的数量。分为垂直/水平条形图。
水平条形图:展现类别数据,尤其是类别名称太长的时候。
垂直条形图:展现数值型数据;若类别名称不长,也可体现类别数据。

一条黄金定律:在设计以百分数为表现内容的图形时,要设法指出频数(将频数标在图形中间 / 旁边)。

7)处理多批数据:
堆积条形图,可以让相互关联的长方形并列显示,借此比较频数;

分段条形图,将同类的长方形叠加,借此显示比例和总频数。

3、类别与数字

1)类别数据 = 定性数据:数字和数量。
2)数值型数据 = 定量数据:表述和质量。

直方图与条形图的区别:1.每个长方形的面积与频数成比例;2.直方图的长方形之间没有间隔。



每个区间涵盖200个得分,每个区间宽度都为200。
但是在表示年龄时,如果表示18-19的年龄范围,通常用18-20区间来表示。向下取整。
3)直方图特点:
长方形面积=每组频数
长方形高度=频数密度
4)频数密度:分组数据中的频数的密集度。
频数密度=频数 / 组距
5)累积频数:频数的累计总和。
6)显示总体趋势时,折线图效果更好;对数值或类别进行比较时,条形图效果更好

二、集中趋势的量度

1、均值——重要统计量

平均数的一般量度。用μ表示。
它可能不存在于真实数据中。如 3、31的均值是17。
均值对于抽样数据更稳定。


——∑x表示n个x之和
当指出频数 f 时,

—— ∑fx表示每个数字与其频数乘积之和,∑f表示频数和

2、异常值——重要统计量

与其他数据格格不入的极高或极低的数值。

3、偏斜数据——重要统计量

当异常值将数据向左或向右“拉”时,即产生偏斜数据。

4、中位数

中位数是一个中间值,也是一种平均数。
它可能不存在于真实数据中。如 3、31的中位数是17。

5、众数

众数也属于平均数,是唯一用于类别数据的平均数。
众数是频数最大的一个或几个值。
双峰数据:一批数据有两个众数。
众数必须存在于数据集中时。
一批数据中,众数太多则无意义。

三、分散性与变异性的量度

->分散性:全距(极差)、四分位数。

当三组组数据的均值、中位数和众数都相同时,如何度量这三组数据的分布情况?


1、全距 / 极差

计算方法:数据集中的最大值减去最小值。
最大值:上界
最小值:下界
全距仅描述数据宽度,并没有描述数据在上、下界的分布情况。
当异常值出现在上下界时,通过迷你距忽略异常值,找出全距中不含异常值的部分。

2、四分位数

多用于画箱线图。

四分位数:将数据一分为四的数值。最小的四分位数称为下四分位数,最大的四分位数称为上四分位数。中间的四分位数即中位数。
四分位距 IQR = 上四分位数Q3- 下四分位数Q1


3、百分位数

第k百分位数就是位于数据范围k%处的值,常用Pk表示。

四分位数其实也是一种百分位数。下四分位数即P25,上四分位数即P75,中位数即P50。

->变异性:方差、标准差、标准分


1、方差

方差是数值与均值的距离的平方数的平均值,是度量数据分散性的一种方法。

2、标准差

标准差是方差的平方根。体现了平均情况下的数值与均值的距离远近。

标准差小,数值距离均值近,数据的一致性强。
标准差大,数值距离均值远,数据的差异性大。

3、标准分



标准分计算公式:


标准分将几个数据集转换成一个 理论上的新分布,这个分布的均值为0,标准差为1。
正的z分表示数值低于均值,负的z分表示数值低于均值。若z分为0,则数值等于均值本身。

标准分=距离均值的标准差个数

有时候,将异常值定义为偏离均值三个标准差的数值。 即3σ。

深入浅出统计学——笔记(一)1~3章相关推荐

  1. 【统计学笔记】第12章 多元线性回归

    书籍:<统计学(第六版)> 书籍作者:贾俊平 索引

  2. 【统计学笔记】第十一章 一元线性回归

    方差分析表和回归分析表的解读 各种统计量检验的决策准则 各种假设检验的假设的建立 第十一章 一元线性回归 11.1 变量间的关系的度量 11.1.1 变量间的关系 函数关系:设有两个x和y,y随x一起 ...

  3. 深入浅出统计学 第二三章 量度

    量度 两类量度: (1) 集中趋势的量度->平均值,中位数,众数 (2) 分散性与变异性的亮度->全距(极值),四分位数(扩展:箱型图),方差与标准差,标准分 获取数据 import pa ...

  4. 正态分布表怎么查表_《深入浅出统计学》-读书笔记-再谈正态分布的应用

    目录: 橘猫吃不胖:<深入浅出统计学>-读书笔记-正态分布的应用​zhuanlan.zhihu.com <深入浅出统计学>,第九章,再谈正态分布的应用 上一篇提到的都是单一连续 ...

  5. 深入浅出统计学 第四五章 离散概率的计算与分布

    离散概率计算与分布的应用 在原书的这两章离散概率计算与分布的应用,重点在于概念的理解和公式的记忆. 而对于整本书而言,四五六章其实都作为第七章:三种离散概率分布,第八,九章,正态分布(连续概率分布之一 ...

  6. 深入浅出统计学 第一章 数据的可视化

    序言 在深入浅出统计学的第一张中一共出现了4类图像: 1. 比较基本比例->饼图 2. 比较数值的高低条形图(基本条形图,堆积条形图,分段条形图) 3. 连续数据的对比(等距直方图->频数 ...

  7. 深入浅出统计学第七章 几何分布,二项分布,柏松分布

    简介 <深入浅出统计学>第七章详细介绍了三种概率分布及其应用,而我们则将进行程序编写,来计算这三种概率分布. 几何分布 scipy几何分布原文地址 下面是书中一些重要公式的代码实现,此处我 ...

  8. 深入浅出SSD笔记 第1章 SSD综述

    深入浅出SSD笔记 第1章 SSD综述 第1章 SSD综述 1.1.1 存储技术概览 易失性存储器(VM,Volatile memory) 非易失性存储器(`NVM, Non-Volatile mem ...

  9. 一文让你完全弄懂回归问题、激活函数、梯度下降和神经元模型实战《繁凡的深度学习笔记》第 2 章 回归问题与神经元模型(DL笔记整理系列)

    <繁凡的深度学习笔记>第 2 章 回归问题与神经元模型(DL笔记整理系列) 3043331995@qq.com https://fanfansann.blog.csdn.net/ http ...

  10. 读书笔记:《思考的乐趣:Matrix67数学笔记》第4章 统计数据的陷阱

    <思考的乐趣:Matrix67数学笔记>第4章讲了几个统计学上的陷阱,由于现在流行的大数据与统计学很有渊源,所以认真读了这一章,在<大数据时代>中指出只考虑相关性就够了,而不考 ...

最新文章

  1. Algorithm:C++语言实现之概率算法相关问题(计算机中的概率事件、C语言中的随机事件、产生二维随机数、圆内均匀取点)
  2. java 获取当月第一天和最后一天 获取前一个月第一天和最后一天
  3. 只需3步,随时随地玩转数据分析
  4. RabbitMQ入门-发送消息机制的介绍
  5. 【PAT甲级 找到出现次数过半的数字】1054 The Dominant Color (20 分) C++
  6. ssky-keygen + ssh-copy-id 无密码登陆远程LINUX主机
  7. 51nod1836-战忽局的手段【期望dp,矩阵乘法】
  8. 基于报文地址的策略路由配置示例
  9. 去年下半年blog文章导入完毕
  10. linux eth0 proxy arp,在interface vlan下敲no ip proxy-arp什么意思
  11. C语言:求两个整数的最大公约数
  12. Spring下的@Inject、@Autowired、@Resource注解区别(转)
  13. iirf有时有效,有时返回404错误的解决方法
  14. java ee jaas_Java Web系列:JAAS认证和授权基础
  15. 中兴B860 AV2.1 S905L刷入armbian并启用docker且使用Portainer汉化版控制面板
  16. 华为员工能拿多少钱,揭秘一个真实的华为
  17. 关于「数据分析师」的一些理解
  18. java中小数点位数_Java中限制小数位数问题
  19. mysql 分析explain命令执行sql的计划
  20. ESR-CMDS参数含义

热门文章

  1. Java练习题(String)
  2. 我的世界手游java版的光影_我的世界光影整合包1.7.2
  3. Vue项目实例(一)------背景
  4. crypto-js加密、解密
  5. NVIDIA cuDNN 下载
  6. 【SPSS】包含多元线性回归、聚类分析、判别分析、主成分、相关系数、非参数秩检验的spss使用方法,含有相关例题,可以解决“数学建模”中数据建模的大部分问题
  7. Java实现校园论坛系统
  8. 在条码打印软件上如何选择TSC TTP-244Pro打印机
  9. 掘金网无极ip代理软件IOS版如何下载安装?
  10. 堆排序代码详解(Java实现)