Previous review:

1)回归章节小结;

这周开始计数资料统计!

--------------------------------------

当观察数据按照某种属性和类别分组后,计数得到各组观察单位数的资料成为计数资料(enumerationdata)。其实就相当于计量资料进行了分类。

而与计量资料的区别在于两者的研究重点,计量重于不同处理下计量资料间的差异,而计数资料更偏向于统计某个分类占所有数据的比重,以比重去做研究。

就拿计算发病率来说,分子/分母计算发病率,即便分开比较了分子和分母的差异,并不能得到两者相比之后是否存在差异。

大多时候得到的数值都是绝对数字,在进行技术资料的统计分析前通常先计算相对数。

三十、相对数:

相对数(relative number)是两个有联系的指标之比,根据不同的用途和性质分为相对比、构成比、率等。

30.1:相对比(relative ratio)

简单来说就是两个数的比值,可以是同单位,也可以是不同单位。甚至两个数可以是绝对数字、相对数或平均数,啥啥都能比。

比较不同地区最低工资,是money/money,得出倍数;计算户口问题,可以总人数/总房数,计算出每房有多少人,人/房为单位。

或者更简单,每个人特别关心新学校的男女比例,就是男生/女生= x : x

30.2:构成比(constituent ratio)

表示事物或现象内各构成部分的比重,通常以100作为比例基数(结果乘以100%),也称为百分比。

构成比=内部某一构成部分的观察单位数/各组成部分的观察单位总数。

比如男生占总人数多少,就是一个构成比。

30.3:率(rate)

率是一个具有时期概念的比,需要强调在某一时期内某个现象发生的频率或强度,是一个反映强度的指标。

某事情在某个时期内发生率为:

某时期内发生某事件的观察单位数/该时期开始时暴露的观察单位数。

举个例子,2019年初调查了1000个人,有50人高血压,2020年再去调查这些人,有80人高血压,所以高血压的发病率就应该是:(80-50)/(1000-80),也就是只有第一年剩下的920人才可能新发病,所以30人应该是920人里面的一部分。而不是我们平时说2019年发病率是5%,2020年发病率是8%,这是口语中的错误概念。

30.4:标准化率

标准化率又称调整率,简称为标化率。对于内部构成不同的率进行比较时,按选定的标准进行调整,使得内部构成统一后再计算标化率。

计算方法成为直接法与间接法。两者计算结果比较接近,但是直接法计算比较简便,易于理解,更为常用。

主要的过程:①选定标准组,标准组一般为有代表性、较稳定的并且数量较大的人群;②按照选定的计算方法计算标准化率,然后再进行比较。

比如为了比较两个城市的发病率,但这两个城市中年龄构成比不同,城市A中老年人较多,而城市B中年轻人比重更高。这样统计出来的发病率并不能代表真实情况,所以需要选用一个更大的范围(比如全国范围)内年龄构成比来对这两个城市的比重进行校准,这样才能够保证在同样的水平上进行比较。

30.5:注意事项和误区相对数使用时会有一些注意事项,以及口语化的相对数存在着很多误区。

1、名为率但不是率的指标:真正意义上的率是应该有限定的时期。而有些顶着率的名头,严谨来说应该是相对比或者构成比的指标比比皆是:患病率,人群中某病病人所占百分比,所以应该是一个构成比的问题,只关心某个时间点,此时此刻有多少病人,而不是一个时期新出现了多少病人。某个时间段的死亡率,一般是通过死亡人数/病人数而得,但是亡人和病人并不一定是同一时期患病的,在统计死亡人数的前几天突然有疫情爆发,病人突然变多,死亡率就会相应下降,所以实则为相对比。

2、使用率时,分母不能太小:样本量越多算出来的率越稳定,意义也比较大。比如一个工厂生产零件,就生产了2件全部成功,而另一个工厂生产了2w件,只有2件失败,然后你就不能说第一个工厂更好因为成功率是100%。如果分母比较小还是提示一下绝对数字。

3、构成比和率是两个不同的相对数,用途不一样所以也不能混淆。

4、当各组的例数不相等的时候,计算不同率的平均值的时候不能直接把所有几个率相加然后求平均,应该分子求和/分母求和,然后得出平均数。

5、用率做比较时,应该注意是否可比:如果不能直接相比,就像前面回归的时候讲到标准偏回归系数,率也会有一个标准化率,需要进行标准化之后才能进行相互比较。

三十一、总体率的估计:

与样本平均数一样,样本率P也是一种统计量,也有抽样误差,用率的标准误Sp反映抽样误差的大小:Sp2=P(1-P)/n。

但是存在样本率就会存在总体率,这样就会存在“点估计”和“区间估计”两个概念。当然点估计不太推荐,最好还是区间估计会好一点。

31.1:正态理论法估计率的置信区间

样本含量较大的时候,nP(1-P)≥5时,P的抽样分布接近正态,所以可以用正态分布计算置信区间的上下限,就和之前提到的计算置信区间差不多。

95%:P±1.96Sp;99%:P±2.58Sp。

31.1:精确法估计率的置信区间

但是当nP(1-P)<5时,只能在小样本的情形下使用精确法计算置信区间。

这里面我就不给出具体计算公式,因为有了公式你也不会算……

万幸的是,有人专门计算出来了表格,通过查询表格,找到“样本量”和“实际数(就是计算率的时候分子量)”就可以找到对应的置信区间。

三十二、率的假设检验:

率的假设检验和前面我们所讲的均数的假设检验类似,被区分3种情况:

①样本率和总体率的比较;②两样本率的比较;③多个样本率的比较。这三种情况的假设检验可以参考t检验的假设检验,后面就不一一列举了。率的假设检验可以使用卡方(X2)检验和U检验,两者在公式和一些参数上是等价的。32.1:样本率和总体率的比较

设样本量为n,阳性数为x,样本率p=x/n,比较样本所属于的总体的率π和已知总体的率π0是否相等。

当n较小的时候,样本率接近0或1的时候,推荐使用泊松分布(之前戈赛特估计酵母细胞量的分布)做检验;当样本率不接近0和1的时候,使用二项分布做检验;当n较大时,np≥5时,可以使用卡方或者U检验。

U检验:

计算出u值之后比较是否<u0.05,若成立则没有差异。

卡方检验的话需要先根据π0计算出理论阳性数nπ0,和对应的理论非阳性数n(1-π0)。

如果你将p=x/n带入u检验的算式中会发现这两个公式其实是一样的,并且在0.05和0.01的显著性水平上,卡方检验的统计量确实是U检验统计量的平方,所以两者的检验是完全等价的。

32.2:样本率和总体率的比较

两个样本统计量依次为n1,x1,p1,n2,x2,p2,计算公式还是p=x/n,两样本所属于的总体率为π1和π2。

U检验:

卡方检验还是需要事先列表计算观察频数和理论频数。第一个表格为观察频数,每一行/列都有合计,右下角是总例数。

对于观察频数中每个小格子的理论频数计算是:使用行合计和列合计之积/总例数。

经过前面给过的卡方计算公式,可以得出一个规律:

如果使用四格表表示甲样本和乙样本的阳性数和非阳性数,简算公式为:

X2=[(ad-bc)2(a+b+c+d)]/[(a+b)(b+c)(a+c)(b+d)],也可以发现卡方值等于U值。

但考虑到卡方分布和U分布(正态分布)都是都是连续性的分布,而在正常情况下计数资料是间断性的,直接使用卡方分布和U分布会使得结果有所偏差。所以统计学家对卡方检验制订了一些校正规则:

1)n≥40时,所有格子的理论频数≥5,不需要校正;

2)n≥40时,所有格子的理论频数1≤T<5时,需要进行卡方检验的校正,可以使用卡方检验的校正公式或者四格表专用的校正公式,分别如下:

3)n<40时,或有至少有一个格子的理论频数T<1时,或当卡方检验的p值接近所确定的显著性水平α时,需要使用Fisher确切概率法。

32.3:多个样本率的比较

卡方检验和U检验的公式都和前面一样,只是因为不再是四格表,所以前面提到的简算公式就不再作数,具体的简算公式(其实我觉得也一点都不简算,该看不懂的还是看不懂)在后面R*C列联表中提到,两者的计算公式是一致的。(而且给你你也不用对吧,看了还占用脑容量,就算了)

--------------------------------------

开了一下计数资料统计的头!简要讲了一些四联表,这一最简单的列联表,之后会说到复杂的R*C列联表。

下期预告:

R*C列联表的统计分析。

c++ 用类统计不及格人数_统计小课堂13相关推荐

  1. pta7-3 统计不及格人数_编写程序,统计学生的成绩信息

    编写一程序,统计学生的成绩信息(成绩信息保存在文件Score.dat中) 要求: 1. 能按总分,数学成绩,英语成绩,计算机成绩分别排序 2. 能分别统计数学,英语,计算机中不及格人数 3. 能按学号 ...

  2. pta7-3 统计不及格人数_应用统计专硕院校专业难度分析【青岛大学、苏大、西安交通大学】...

    原文链接: 应用统计专硕院校专业难度分析[第十二期]​mp.weixin.qq.com 应用统计专硕院校专业难度分析 [第十二期] TO: 哈喽,小可爱们早上给你好呀! 今天安安姐给你们更新经济类6个 ...

  3. C语言实现一个根据学生成绩设置其等级,并完成统计不及格人数的函数

    C语言实现一个根据学生成绩设置其等级,并完成统计不及格人数的函数 SetGrade函数需要根据学生的成绩score设置其等级grade.等级设置:90-100为A,80-89为B,70-79为C,60 ...

  4. mysql查询统计不及格人数_MySQL,查询及格人数,不及格人数

    一个表score,字段是name,class,score.分别代表姓名,所在班级,分数. 要求用一条语句查出每个班的及格人数和不及格人数,格式为:class,及格人数,不及格人数. SELECT `c ...

  5. [C语言]统计成绩问题:输入某班学生某门课的成绩(最多不超过40人,具体人数由用户键盘输入),用函数编程统计不及格人数。

    输入 输入包含两行:    第一行是一个整数n,表示班级人数.    第二行是n个整数,表示n个学生的成绩,相邻两项之间用一个空格隔开. 输出 输出不及格人数. 输入示例 3    70 90 58 ...

  6. 8.4 输入某班学生某门课的成绩,(最多不超过40人,具体人数由用户键盘输入),用函数编程统计不及格人数

    #include<stdio.h> main() { int n,a[40],i,count=0; printf("请输入学生人数:"); scanf("%d ...

  7. 统计数字问题_统计问题

    统计数字问题 Statistics can be one of the most divisive and harmful misinformation tools, and I have seen ...

  8. gs地图开发_地图编制小课堂 | 境界分类

    之前我们学习了海洋.陆地等要素在地图上的表示,今天我们一起学习地图上另一重要要素--境界. 境界是一种区域范围与另一种区域范围的分界线,它是普通地图上的重要要素之一. 普通地图上,境界分为两大类:政区 ...

  9. python不及格人数_下面 if语句统计“成绩(score)优秀的男生以及不及格的男生”的人数,正确的语句是____________。_学小易找答案...

    [多选题]常用的经济结构分析方法有( ) [多选题]计量经济学检验主要是检验模型是否符合计量经济方法的基本假定.检验内容包括( ) [填空题]Python语言是一种解释型 语言,它不需要编译,它的执行 ...

最新文章

  1. libsvm学习 all
  2. Jquery tmpl模板中if条件有多个时的写法
  3. TensorRT学习笔记4 - 运行sampleGoogleNet
  4. 化工原理期中考,流体
  5. java+web+415_使用json返回HTTP状态415的Web服务 - 不支持的媒体类型
  6. halcon获取图像中心点_关于Halcon的复杂图形中心点查找
  7. IP地址专题二:子网掩码入门
  8. 直接使用临时变量导致的一个bug记录
  9. BC95-G NB-IOT 模块使用
  10. 爱数私有云盘 AnyShare 部署(一)
  11. ones/测试工程师面试
  12. 从0到1设计通用数据大屏搭建平台
  13. K8S以及Kubesphere离线部署方案
  14. CSS选择器有哪几种?举例轻松理解CSS选择器
  15. java(maven)链接neo4j
  16. linux设置sfq队列参数,Linux内核中流量控制(5)
  17. 关于APP个人信息安全和隐私合规评估,你想知道的都在这!
  18. 算法学习之道,应有三重境界
  19. 【免费使用】【redis】【数据库】快速使用redislabs免费套餐 注册和配置redis 缓存 数据库 nosql
  20. 大气颗粒物 PMF 源解析实践技术应用

热门文章

  1. [Python图像处理] 四十二.Python图像锐化及边缘检测万字详解(Roberts、Prewitt、Sobel、Laplacian、Canny、LOG)
  2. 【数据结构与算法】之深入解析“排序链表”的求解思路与算法示例
  3. LeetCode Algorithm 148. 排序链表
  4. 【Tools】Ubuntu20.04安装VMware Tools详解
  5. 【Linux系统编程】进程同步与互斥:System V 信号量
  6. 【Linux网络编程】无连接和面向连接协议的区别
  7. 如何在 Eclipse 中使用命令行
  8. 【Android】关于Android控件EditText的属性InputType的一些经验
  9. arm 架构_ARM发布A78增强版大核架构:性能怪兽
  10. python list删除元素_python中List添加、删除元素的几种方法