样本与总体

1 什么是样本?

  • 样本是用来估计总体的
  • 样本应与总体的情况相似(比如,利用埃菲尔铁塔的模型去研究真正的埃菲尔铁塔的结构。那么这个样本应该在结构上,比例上与原来的母体相似(总体 population)
  • 样本应该是概率样本,也就是说是随机抽样的,每个样本被抽入的概率应该是等可能的。
  • 样本的情况叫做样本的统计值

2 什么是变量?

  • 变量是指因人而异的变
  • 分析变量的目的是探索日新月异的变化

3 量化是一个系统工程

  • 抽样、根据目的来确定某些个体的哪些属性、测量工具应是有效、可靠的(Vaild and Values,比如性别,年龄)
  • 量化的实施过程:调查工具(问卷)的设计、调查工具的测试与调试、调查工具的操作、数据编码(清理)、数据处理(重新编码、取平方等)
  • 量化研究是实验的代用品
  • 代用品是否可靠取决于量化的水平

4 数据分析

4.1 单变项分析(由点到线):

  1. 正态分布:看标准差(坡度 slope)和期望(均值 Mean)

  2. 平方和(计算用平均值计算的总误差,因为可能直接计算出来的误差有正有负,所以采用平方和来计算误差):用每一个人测得的实际值减去求得的平均值的平方,再求和。

  3. 方差(方差越小越稳定):因为当样本量巨大的时候,所求得的平方和是也可能会是巨大的,因此难以反映母体的情况。所有要将平方和去除以案例数。

  4. 标准差(离标准情况的差距):比如我想要超越其他人,我要达到全球的前1%,那么我要计算我比平均值高几个标准差。越往后,一个标准差拜托的人越多。

  5. 抽样分布:
    1)从一个总体里简单随机抽取M组样本,每组样本为N个人,对每一组N个人求平均值,然后观察M组样本均值的分布,可以发现是服从正态分布的。
    2)标准误:抽样分布当中的标准差就叫标准误。因为我们是在研究样本统计值的分布,而样本统计值与总体分布总是存在误差的,所以每个样本统计值的分布其实是误差的分布,误差的分布的标准差就是标准的误差。

4.2 双变项分析:由线到面

  1. 相关性分析:
    1)不相关:两条平行线
    2)正相关是水涨船高,负相关是此消彼长
    3)曲线相关:U型触底反弹(考研和激动程度的关系:考研初期很激动,到中期激动的程度越来越小,到后期又开始激动);倒U型(年龄和体力的关系:年幼时体力很差,到28左右体力达到峰值,然后逐渐又开始下降)

  2. 显著性检验(当检测出两个因素相关,然后要看到底是为什么相关,是随机的相关还是背后有必然性的关系):
    1、显著:显著不是重要(Sign(信号:表达一种意思,指某些事)、Signify、Significant、Significance)。显著就是某个联系背后是不是意味着什么东西。
    2、显著度检验的六步:
    1)研究假设 H1 (希望证实的对于总体假设)
    2)零假设 H0 (希望抛弃的那个对于总体的假设)
    3)根据变量类型选择检验方法
    4)决定愿意承担多大的犯一类错误的风险
    5)根据样本计算犯一类错误的风险
    6)参照第4-5步决定是否放弃零假设
    注:I类风险(可计算):(弃真)放弃了一个真的零假设;II类风险:(纳伪)接受了一个假的零假设。
    解释:假设我们要研究工资会不会随着年龄的增加而升高。我们的零假设是工资不会随着年龄的升高而升高。此时再次假设总体中有一组样本它是接受零假设的,并且抽到这组样本的概率是0.001%。接下来我们要从总体中抽一组样本。假设我们刚好抽到了接受零假设的那一组样本,同时我们不知道抽到这组的概率是多少。此时我们需要计算犯I类错误的风险。也就是说我们弃真的概率有多大。比如计算得出犯I类错误的概率为4%,那么如果我们的研究可以承担5%犯I类风险的错误,那么我们可以选择继续抛弃零假设,但是此时我们的研究就有一定的错误的可能性。但是这是没有办法的,不可能做到100%真。

  3. 回归分析:是预设因果关系的相关分析
    1)正态分布时平均值是最准的猜测
    2)回归分析是根据自变量更准地猜因变量
    3)最小二乘回归(最小平方和,拟合度最高:比如我给你一件衣服来猜我的身高,你会先问问这件衣服合不合身,再去估计)就是把猜测准确度最大化。
    4)回归分析的显著性检验与法庭审判类似

注:回归分析结果分析:B是指未标准化的回归系数(单位是一样的,不意味着任何事)。t值是指如果零假设是真的,那么你要移动多少个标准差可以到达那个零假设。下图可以看到,t值=B/Std_Error约为19.115。也就是说如果零假设是真的那么,要走19.115个标准差才可以到那个可能,也就是抽到一组样本满足零假设的概率非常非常的小。这个时候就要看你能够承担多少犯I类风险的错误。

斜率计算公式:

6、最小二乘线性回归系数公式:根据这条线去推测总体的误差是最小的。

7、ANOVA表告诉了我们减少了多少误差:
相较于原来13791092.340的误差减少了601个亿

8:R Square:误差减少了43.6%。就好比我们这件衣服把测量的误差挡掉了43.6%。

统计学基础(一)—样本与总体相关推荐

  1. 统计学基础之样本方差和总体方差

    统计学基础之样本方差与总体方差 文章目录 统计学基础之样本方差与总体方差 1. 方差(variance)的定义 2. 样本方差 3. 总体方差公式的有偏性证明 4. 样本方差公式分母为n-1的推导 参 ...

  2. 【统计学】从样本到总体

    总体和样本均值的符号: n = 样本容量 u = 总体均值 x = 样本均值 σ = 总体标准差 s = 样本标准差 样本均值分布的特征: 对于任何样本均值的分布: 样本容量越大,样本均值的分布越接近 ...

  3. 【定量分析、量化金融与统计学】统计推断基础(1)---总体、样本、标准差、标准误

    目录 一.前言 二.总体与样本 1.总体(population)的概念 2.总体的性质与参数 首先是:平均数(mean)µ 标准差(standard deviation,SD)σ希腊字母sigma 3 ...

  4. 统计学基础概念:总体(population)与样本(sample)

    商业统计原理体会1:总体(population)和样本(sample) 统计的目的 统计量(观察量) 样本均值(sample mean)和总体均值(population mean ) 统计的目的 上了 ...

  5. Python统计学之样本和总体的关系

    参考<深入浅出统计学> 样本和总体的关系 样本和总体的关系:1.样本占比 2.样本均值 样本占比到底算的是什么? 分解概念1: 什么叫总体中成功元素占比? 分解概念2: 什么是样本大小呢? ...

  6. 统计学方法论2---------推断统计分析:通过样本推断总体

    推断统计分析:通过样本推断总体 1.概述 2.点估计和区间估计 2.1.点估计 2.2.区间估计 2.2.1.中心极限定理 2.2.2.正态分布特征(数据分布比例)==图很重要== 3.假设检验(反证 ...

  7. 【统计学】统计学基础

    浅谈统计学 五种抽样方法:         1.简单随机:选取热量相同且每个样本有同等概率被选择的样本         2.系统:简单的系统抽取样本         3.任意:使用一个碰巧很容易被选择 ...

  8. NumPy 快速入门系列:应用统计学基础概念、相关统计指标与NumPy的实现

    NumPy 快速入门系列:应用统计学基础概念.相关统计指标与NumPy的实现 前言: 统计学导论: 统计学定义: 统计学分类: 统计学基本概念: 统计过程: 统计指标与NumPy: 用 Python ...

  9. 数据分析概率及统计学基础

    一.数据分析概述 1. 数据分析的概念 数据分析就是分析数据,从一大堆数据中提取你想要的信息.比较专业的回答:数据分析是有针对性的收集.加工.整理数据,并采用统计.挖掘技术分析和解释数据的科学与艺术. ...

最新文章

  1. 【AAAI2022】多任务推荐中的跨任务知识提炼
  2. python-copy模块使用
  3. 【数据挖掘】神经网络 后向传播算法( 向后传播误差 | 输出层误差公式 | 隐藏层误差公式 | 单元连接权值更新公式 | 单元偏置更新公式 | 反向传播 | 损失函数 | 误差平方和 | 交叉熵 )
  4. MaxCompute Spark 资源使用优化详解
  5. 10 张图带你深入理解Docker容器和镜像
  6. 前端:HTML/02/排版标记,块元素,行内元素,html字符实体,列表标记,图片标记
  7. Windows下Git的下载与安装
  8. C++数据结构02--链式线性表(单链表的实现)
  9. 营销团队管理必备101招
  10. 阿里官宣AI框架大牛贾扬清加盟,任职技术VP
  11. ISO/IEC 27002:2022中文版
  12. 2018华为网络技术大赛失败纪念
  13. matlab页面背景颜色改变为黑底白字
  14. dm数据库 linux版下载,Linux (Unix )下DM的安装
  15. 二倍图三倍图什么意思_iOS开发中的二倍图、三倍图
  16. CANopen协议介绍
  17. Artifact “xxx - xxxx“:war exploded:部署工件时出错。请参阅服务器日志了解详细信息
  18. 你必须懂!也可以懂的@Transactional原理!
  19. Win10安装Ubuntu子系统教程(附安装图形化界面)
  20. c语言——结构体数组——学生成绩表

热门文章

  1. 在线教育平台开发的“前世今生”
  2. 数理逻辑4 -- 公理化集合论2
  3. MultiBrowser或CrossBrowser测试和解构Microsoft Expression Web SuperPreview
  4. 大功率H桥电机驱动板电路设计方案 此大功率直流电机驱动板采用ir2103驱动芯片,可同时驱动两路电机
  5. 如何怎么在我的世界MC的worldedit模组Mod里使用//replace指令替换所有状态下的楼梯台阶和石墙
  6. 小白向:古月居ROS21讲自学笔记,看一下这个就大概了解这套课程讲什么啦!
  7. 匿名对象、内部类、匿名内部类
  8. 全球与中国低轨卫星推进技术市场现状及未来发展趋势2022-2028
  9. java结束内层循环_java中结束循环的标志break和continue语句
  10. A40I工控主板(SBC-X40I)LVDS显示屏测试