马上要结课了,但是才刚刚学习三周不到,感觉不知道考啥。虽然专业课很多,但是我觉得写笔记会让我更有学习的动力。充分利用资源,加油!

第一章 统计和统计数据收集

对“统计”的理解:

  1. 统计工作:对数据进行搜集、整理和分析
  2. 统计资料:统计工作所取得的成果:原始资料,再生信息
  3. 统计学:对统计工作实践加以总结升华而产生的理论,用以指导统计实践

统计研究对象的特点:

  1. 数量性:凡事产生数据的领域,都需要统计工作和统计学;凡是能以数量来描述的事物,都可以作为统计学的研究对象
  2. 总体性:
  3. 具体性:一定时间、地点等条件下具体的事物的量
  4. 差异性:需要对总体中大量个体进行观察与分析:如平均值、方差、偏斜度等……

统计学分类:

  1. 描述统计学和推断统计学
  2. 理论统计学和应用统计学
    理论统计学·:基于概率论的原理,不包括一些传统概率论的内容:假设检验等……
    应用统计学:应用于各个领域所形成的分支,例如:参数估计、假设检验、方差分析、回归分析……

统计基本术语:

  • 变量:所分析的对象:比如销售额、年利润、年支出……

  • 数据:每年所不同的销售额、年利润……

  • 总体:研究对象的全体

  • 个体:总体中的每个元素或单元

  • 样本:从总体中挑选出来用来分析的一部分

  • 参数:描述总体特征的数值

  • 统计量:表述样本特征的数值

    数据收集

  • 普遍调查:例如:人口普查

  • 重点调查:调查钢厂公司,公司少但是占据大量市场份额

  • 典型调查:

  • 抽样调查:按照随机原则——以部分推断全体
    (1)涵盖误差:一组有代表性的样本被排除在抽样样本之外
    (2)无回应误差:发出去1000份,只得到240份,剩下的收不回来
    (3)抽样误差:
    (4)测量误差:样本数据测量程序的设计和应用不当,比如:问题设计不明确,比较模糊……

  • 网上调查
    优点:
    (1)及时性和共享性:收集数据迅速、被调查者和调查者共享调查结果
    (2)便捷性和低成本:
    (3)可靠性和客观性:
    (4)更好接触性:
    (5)穿越时空性:不受时间和空间的约束

变量
分类变量(定性变量):按类别分开,例如回答“是”或“否”;

数值变量(定量变量)

(1)离散变量:离散变量指变量值可以按一定顺序一一列举,通常以整数位取值的变量。
(2)连续变量:在一定区间内可以任意取值的变量叫连续变量,其数值是连续不断的,相邻两个数值可作无限分割,即可取无限个数值。

第二章 统计表和统计图

帕累托图:帕累托图是一种图表,作用是表示有多少结果是由已确认类型或范畴的原因所造成。

帕累托图可以用来分析质量问题,确定产生质量问题的主要因素。按等级排序的目的是指导如何采取纠正措施:项目班子应首先采取措施纠正造成最多数量缺陷的问题。

绘制帕累托图:
①打开原始数据,进行频数排序

②计算出累计频率,
③选中百分数频率和累计,画出折线图
然后改变图表类型为:组合图形
选择折线图为次坐标轴,即可得出帕累托图

用excel制作频数分布图
利用FREQUENCY函数
FREQUENCY(Data_array,Bins_array)

6/21更新

无语了, 线上考试 ,一个月没摸应统了,上次写笔记是在一个月前,马上考试,我要完了,┭┮﹏┭┮
.
.
.

第二章 统计表和统计图

先不学了,后面的比较重要
.
.
.
.
.
.

第三章 统计数据的描述度量

本章我复习了一个大概,具体老师要考的就是excel名词??别的好像也没啥考的了

本章主要介绍:
★度量中心(集中)趋势的指标
★度量离散程度(变异性)的指标
★度量偏斜程度的指标
★度量两种数值变量关系的指标

度量中心(集中)趋势的指标
算术平均数(AVERAGE)
加权算术平均数(SUMPRODUCT)

中位数(MEDIAN)记为Me (懂了!前两个字母,妈妈再也不用担心分不清m0和me了o(╥﹏╥)o)
*分组数据中位数的计算:*插值法


具体步骤如上图所示

众数(MODE)
*分组数据众数的计算:*插值法


具体步骤如上图所示

接下来我们实操一下,书上的例题【3.3】

鄙人手写分析,虽然书上有答案,不如自己手写一遍来得实在,对8?
算术平均数、众数、中位数之间的关系
♡完全对称 三个数完全一样
♡左偏态 (峰值靠右) 平均数、me、m0
♡右偏态(峰值靠左)m0、me、平均数
(反正me(中位数)都在中间(峰值))

四分位数(QUARTILE(数据集,第n位数))
Q1=(n+1)/4
Q3=3(n+1)/4
▷结果是整数
▷结果是半数 有2.5,即为第二个数和第三个数的平均数
▷结果以上都不是 取最接近的整数 比如2.75取3

0最小值
1第一分位数 25%
2第二分位数 50%
3第三分位数 75%
4最大值

五数汇总和箱线图

几何平均数(GEOMEAN)n个数值连续乘积的n次方根

度量离散程度的指标

极差R
四分位数极差QR=Q3-Q1
以上都不受极端值影响
平均差(AVEDEV)
A`D 各数据与其均值离差的绝对值的算术平均数
越大代表数据间的差异越大

方差&标准差
总体:方差(VARP)
标准差(STDVP)
样本:方差(VAR)
标准差(STDEV)

变异系数
CV=标准方差÷算术平均值×100%

z值
定义极端值,越大,数据远离均值的距离越大
z=(数据-均值)/标准差
z<-3&z>3时,认为数据中有极端值

度量两种数值变量关系的指标
协方差(COVAR)
相关系数(CORREL)

结束、、肝不下去了,明天还要上班,唉。。。社畜。。。

第四章 概率论基础

4.2随机试验与随机事件
随机试验的结果称为随机事件
试验中每一种可能出现的结果称为该试验的的一个基本事件,有多个基本事件构成的集合称为复合事件
样本空间(S):所有基本事件组成的集合
不可能事件()

事件间的关系:
包含与相等:a事件的发生,必然导致b事件的发生
并:a事件与b事件至少有一个发生
交:a事件和b事件同时发生
互斥:a和b不能同时发生
差:a-b(a事件发生而b事件不发生)
互逆:a和b仅有一个发生

概率:p
p(a∪b)=p(a)+p(b)-p(ab)概率的广义加法定理
古典概型(等可能概率):每一个基本事件发生的概率相等

条件概率:
p(b|a)=p(ab)/p(a)

随机变量及其分布函数
离散型:取值可以一一列出来
连续型:取值范围某一实数,取值无法一一列出来

分布函数:
p{x1<x<x2}=f(x2)-f(x1)

离散型分布:BINOM.DIST求解二项分布问题(false 等于-true 小于等于?)
当n很大,p很小时,可以用泊松分布μ(我打不出来兰埔他??)=np≤5(POISSON(K,μ,逻辑值))
逻辑值=1,返回小于等于k
逻辑值=0,返回等于k

超几何分布:HYPGEOM.DIST(K,n,M,N,逻辑值) 返回=k的值

连续型随机变量:
概率密度

正态分布:Σ越小,峰值越大
μ值大,越靠右


正态分布(NORM.DIST(x,μ,Σ,逻辑值))
逻辑值true 小于等于
逻辑值false 返回其密度函数的值

指数分布(EXPONDIST(x,λ,逻辑值))
逻辑值=1 小于等于
=0 返回分布密度函数的值

期望和方差


方差
二项分布 D(X)=σ2(平方

第五章 抽样与抽样分布

应用统计学(第三版)张建同~学习笔记(大数据专业)相关推荐

  1. 《机器学习方法(第三版)—— 李航》学习笔记(一)附代码

    目录 前言 一.第一章 机器学习及监督学习概论 1.机器学习 实现机器方法的步骤 机器学习的研究 2.机器学习的分类 基本分类 二.第二章 感知机 1.感知机模型 2.感知机学习策略 感知机学习策略 ...

  2. python核心编程第三版(一)学习笔记:正则表达式

    注:下面有些内容不全都来源于原著,这些都是通过各方面的资料收集合并的结果. 目录 一.正则表达式介绍 二.分类解析 1.元字符 匹配对象以及group()和groups()方法 搜索与匹配的比较 2. ...

  3. 《机器学习方法(第三版)—— 李航》学习笔记(四)

    目录 第六章 逻辑斯谛回归与最大熵模型 第九章 EM算法及其推广 第十章 隐马尔可夫模型 第十一章 条件随机场 提示:监督学习后几章概念性和推理较多,就不大量抄概念了... 第六章 逻辑斯谛回归与最大 ...

  4. Apache POI和EasyExcel 第三集:Apache POI的Excel大数据量写入(分为03版的xls、07版的xlsx、升级版SXSSF)

    Apache POI和EasyExcel 第三集:Apache POI的Excel大数据量写入(分为03版的xls.07版的xlsx.升级版SXSSF) 一.结果 我的03跑了1.204秒,07跑了5 ...

  5. 伯禹公益AI《动手学深度学习PyTorch版》Task 04 学习笔记

    伯禹公益AI<动手学深度学习PyTorch版>Task 04 学习笔记 Task 04:机器翻译及相关技术:注意力机制与Seq2seq模型:Transformer 微信昵称:WarmIce ...

  6. 三、MySQL子查询学习笔记(标量子查询、列子查询、行子查询、表子查询 详解)

    三.MySQL子查询学习笔记 7:子查询 含义: 一条查询语句中又嵌套了另一条完整的select语句,其中被嵌套的select语句,称为子查询或内查询:在外面的查询语句,称为主查询或外查询 分类: 一 ...

  7. 伯禹公益AI《动手学深度学习PyTorch版》Task 06 学习笔记

    伯禹公益AI<动手学深度学习PyTorch版>Task 06 学习笔记 Task 06:批量归一化和残差网络:凸优化:梯度下降 微信昵称:WarmIce 批量归一化和残差网络 BN和Res ...

  8. 东华软件张涵诚:政府大数据应用的案例和数据价值释放的方法

    作者:张涵诚 在我国,政府部门掌握着全社会量最大.最核心的数据.以往地方政府提振经济一般是招房地产.工厂等,随着土地及人口红利殆尽,大数据成为与水电煤等一样重要的生产资料,成为继土地之后政府最重要的资 ...

  9. 未来在大数据行业发展,本科阶段该选择统计学专业还是大数据专业

    首先,如果未来要进入大数据行业发展,本科阶段选择大数据专业无疑是更好的选择,原因有三方面,其一是大数据专业在知识结构上覆盖面更广:其二是大数据专业会整合更多的大数据教育资源和行业资源:其三是大数据专业 ...

最新文章

  1. 微软:Windows 7 SP1将于本月正式发布
  2. C语言通过函数参数不能带出动态内存的例子。
  3. 9家专利拥有者退出MPEG LA HEVC 华为加入HEVC Advance
  4. 统计信息在数据库中的作用_统计在行业中的作用
  5. 【Python爬虫】requests与urllib库的区别
  6. SocketAsyncEventArgs
  7. Android 功耗优化(13)---功耗基础知识
  8. vmware 多外网ip
  9. using namespace cv
  10. NMF扩展名是什么文件
  11. java矩形碰撞检测_JS/HTML5游戏常用算法之碰撞检测 包围盒检测算法详解【矩形情况】...
  12. WPF子线程更新UI
  13. isee看图精灵下载
  14. 蜂考c语言、数据结构(课后习题答案)
  15. 关于华为设备远程登录telnet和ssh的配置
  16. Elasticsearch ILM 索引生命周期管理常见坑及避坑指南
  17. 三星同时发展两种电视面板技术,围追堵截LG
  18. 修建公路1:最小生成树(克鲁斯卡尔算法)
  19. windows不安装虚拟机如何使用Linux系统作为开发工具?
  20. 软件设计师 UML建模大题

热门文章

  1. EternalBlue(永恒之蓝)漏洞
  2. Hadoop+Hbase+Springboot实现企业能源消耗监测大数据分析系统
  3. TSM泛读【TSM: Temporal Shift Module for Efficient Video Understanding】
  4. 谈谈带薪休假_早职到招聘
  5. 【React】895- 使用 IOC 解耦 React 组件
  6. 深入浅出系列之——KMP算法详解【吐血整理】
  7. CF——Technical Support
  8. 关于浮动元素float使其父元素高度塌陷的原因及解决方法
  9. 2021-04-03 Web前端之CSS——选择器、字体属性、文本属性、样式表
  10. nodejs+vue国产动漫网站论坛数据智能分析系统python django