c++ 用类统计不及格人数

Previous review：

1)回归章节小结；

这周开始计数资料统计！

--------------------------------------

当观察数据按照某种属性和类别分组后，计数得到各组观察单位数的资料成为计数资料(enumerationdata)。其实就相当于计量资料进行了分类。

而与计量资料的区别在于两者的研究重点，计量重于不同处理下计量资料间的差异，而计数资料更偏向于统计某个分类占所有数据的比重，以比重去做研究。

就拿计算发病率来说，分子/分母计算发病率，即便分开比较了分子和分母的差异，并不能得到两者相比之后是否存在差异。

大多时候得到的数值都是绝对数字，在进行技术资料的统计分析前通常先计算相对数。

三十、相对数：

相对数(relative number)是两个有联系的指标之比，根据不同的用途和性质分为相对比、构成比、率等。

30.1：相对比(relative ratio)

简单来说就是两个数的比值，可以是同单位，也可以是不同单位。甚至两个数可以是绝对数字、相对数或平均数，啥啥都能比。

比较不同地区最低工资，是money/money，得出倍数；计算户口问题，可以总人数/总房数，计算出每房有多少人，人/房为单位。

或者更简单，每个人特别关心新学校的男女比例，就是男生/女生= x : x

30.2：构成比(constituent ratio)

表示事物或现象内各构成部分的比重，通常以100作为比例基数(结果乘以100%)，也称为百分比。

构成比=内部某一构成部分的观察单位数/各组成部分的观察单位总数。

比如男生占总人数多少，就是一个构成比。

30.3：率(rate)

率是一个具有时期概念的比，需要强调在某一时期内某个现象发生的频率或强度，是一个反映强度的指标。

某事情在某个时期内发生率为：

某时期内发生某事件的观察单位数/该时期开始时暴露的观察单位数。

举个例子，2019年初调查了1000个人，有50人高血压，2020年再去调查这些人，有80人高血压，所以高血压的发病率就应该是：(80-50)/(1000-80)，也就是只有第一年剩下的920人才可能新发病，所以30人应该是920人里面的一部分。而不是我们平时说2019年发病率是5%，2020年发病率是8%，这是口语中的错误概念。

30.4：标准化率

标准化率又称调整率，简称为标化率。对于内部构成不同的率进行比较时，按选定的标准进行调整，使得内部构成统一后再计算标化率。

计算方法成为直接法与间接法。两者计算结果比较接近，但是直接法计算比较简便，易于理解，更为常用。

主要的过程：①选定标准组，标准组一般为有代表性、较稳定的并且数量较大的人群；②按照选定的计算方法计算标准化率，然后再进行比较。

比如为了比较两个城市的发病率，但这两个城市中年龄构成比不同，城市A中老年人较多，而城市B中年轻人比重更高。这样统计出来的发病率并不能代表真实情况，所以需要选用一个更大的范围(比如全国范围)内年龄构成比来对这两个城市的比重进行校准，这样才能够保证在同样的水平上进行比较。

30.5：注意事项和误区相对数使用时会有一些注意事项，以及口语化的相对数存在着很多误区。

1、名为率但不是率的指标：真正意义上的率是应该有限定的时期。而有些顶着率的名头，严谨来说应该是相对比或者构成比的指标比比皆是：患病率，人群中某病病人所占百分比，所以应该是一个构成比的问题，只关心某个时间点，此时此刻有多少病人，而不是一个时期新出现了多少病人。某个时间段的死亡率，一般是通过死亡人数/病人数而得，但是亡人和病人并不一定是同一时期患病的，在统计死亡人数的前几天突然有疫情爆发，病人突然变多，死亡率就会相应下降，所以实则为相对比。

2、使用率时，分母不能太小：样本量越多算出来的率越稳定，意义也比较大。比如一个工厂生产零件，就生产了2件全部成功，而另一个工厂生产了2w件，只有2件失败，然后你就不能说第一个工厂更好因为成功率是100%。如果分母比较小还是提示一下绝对数字。

3、构成比和率是两个不同的相对数，用途不一样所以也不能混淆。

4、当各组的例数不相等的时候，计算不同率的平均值的时候不能直接把所有几个率相加然后求平均，应该分子求和/分母求和，然后得出平均数。

5、用率做比较时，应该注意是否可比：如果不能直接相比，就像前面回归的时候讲到标准偏回归系数，率也会有一个标准化率，需要进行标准化之后才能进行相互比较。

三十一、总体率的估计：

与样本平均数一样，样本率P也是一种统计量，也有抽样误差，用率的标准误Sp反映抽样误差的大小：Sp²=P(1-P)/n。

但是存在样本率就会存在总体率，这样就会存在“点估计”和“区间估计”两个概念。当然点估计不太推荐，最好还是区间估计会好一点。

31.1：正态理论法估计率的置信区间

样本含量较大的时候，nP(1-P)≥5时，P的抽样分布接近正态，所以可以用正态分布计算置信区间的上下限，就和之前提到的计算置信区间差不多。

95%：P±1.96Sp；99%：P±2.58Sp。

31.1：精确法估计率的置信区间

但是当nP(1-P)＜5时，只能在小样本的情形下使用精确法计算置信区间。

这里面我就不给出具体计算公式，因为有了公式你也不会算……

万幸的是，有人专门计算出来了表格，通过查询表格，找到“样本量”和“实际数(就是计算率的时候分子量)”就可以找到对应的置信区间。

三十二、率的假设检验：

率的假设检验和前面我们所讲的均数的假设检验类似，被区分3种情况：

①样本率和总体率的比较；②两样本率的比较；③多个样本率的比较。这三种情况的假设检验可以参考t检验的假设检验，后面就不一一列举了。率的假设检验可以使用卡方(X²)检验和U检验，两者在公式和一些参数上是等价的。32.1：样本率和总体率的比较

设样本量为n，阳性数为x，样本率p=x/n，比较样本所属于的总体的率π和已知总体的率π₀是否相等。

当n较小的时候，样本率接近0或1的时候，推荐使用泊松分布(之前戈赛特估计酵母细胞量的分布)做检验；当样本率不接近0和1的时候，使用二项分布做检验；当n较大时，np≥5时，可以使用卡方或者U检验。

U检验：

计算出u值之后比较是否＜u_0.05，若成立则没有差异。

卡方检验的话需要先根据π₀计算出理论阳性数nπ₀，和对应的理论非阳性数n(1-π₀)。

如果你将p=x/n带入u检验的算式中会发现这两个公式其实是一样的，并且在0.05和0.01的显著性水平上，卡方检验的统计量确实是U检验统计量的平方，所以两者的检验是完全等价的。

32.2：样本率和总体率的比较

两个样本统计量依次为n1，x1，p1，n2，x2，p2，计算公式还是p=x/n，两样本所属于的总体率为π1和π2。

U检验：

卡方检验还是需要事先列表计算观察频数和理论频数。第一个表格为观察频数，每一行/列都有合计，右下角是总例数。

对于观察频数中每个小格子的理论频数计算是：使用行合计和列合计之积/总例数。

经过前面给过的卡方计算公式，可以得出一个规律：

如果使用四格表表示甲样本和乙样本的阳性数和非阳性数，简算公式为：

X²=[(ad-bc)²(a+b+c+d)]/[(a+b)(b+c)(a+c)(b+d)]，也可以发现卡方值等于U值。

但考虑到卡方分布和U分布(正态分布)都是都是连续性的分布，而在正常情况下计数资料是间断性的，直接使用卡方分布和U分布会使得结果有所偏差。所以统计学家对卡方检验制订了一些校正规则：

1)n≥40时，所有格子的理论频数≥5，不需要校正；

2)n≥40时，所有格子的理论频数1≤T＜5时，需要进行卡方检验的校正，可以使用卡方检验的校正公式或者四格表专用的校正公式，分别如下：

3)n＜40时，或有至少有一个格子的理论频数T＜1时，或当卡方检验的p值接近所确定的显著性水平α时，需要使用Fisher确切概率法。

32.3：多个样本率的比较

卡方检验和U检验的公式都和前面一样，只是因为不再是四格表，所以前面提到的简算公式就不再作数，具体的简算公式(其实我觉得也一点都不简算，该看不懂的还是看不懂)在后面R*C列联表中提到，两者的计算公式是一致的。(而且给你你也不用对吧，看了还占用脑容量，就算了)

--------------------------------------

开了一下计数资料统计的头！简要讲了一些四联表，这一最简单的列联表，之后会说到复杂的R*C列联表。

下期预告：

R*C列联表的统计分析。

c++ 用类统计不及格人数_统计小课堂13相关推荐

pta7-3 统计不及格人数_编写程序，统计学生的成绩信息
编写一程序,统计学生的成绩信息(成绩信息保存在文件Score.dat中) 要求: 1. 能按总分,数学成绩,英语成绩,计算机成绩分别排序 2. 能分别统计数学,英语,计算机中不及格人数 3. 能按学号 ...
pta7-3 统计不及格人数_应用统计专硕院校专业难度分析【青岛大学、苏大、西安交通大学】...
原文链接: 应用统计专硕院校专业难度分析[第十二期]mp.weixin.qq.com 应用统计专硕院校专业难度分析 [第十二期] TO: 哈喽,小可爱们早上给你好呀! 今天安安姐给你们更新经济类6个 ...
C语言实现一个根据学生成绩设置其等级，并完成统计不及格人数的函数
C语言实现一个根据学生成绩设置其等级,并完成统计不及格人数的函数 SetGrade函数需要根据学生的成绩score设置其等级grade.等级设置:90-100为A,80-89为B,70-79为C,60 ...
mysql查询统计不及格人数_MySQL，查询及格人数，不及格人数
一个表score,字段是name,class,score.分别代表姓名,所在班级,分数. 要求用一条语句查出每个班的及格人数和不及格人数,格式为:class,及格人数,不及格人数. SELECT `c ...
[C语言]统计成绩问题：输入某班学生某门课的成绩（最多不超过40人，具体人数由用户键盘输入），用函数编程统计不及格人数。
输入输入包含两行: 第一行是一个整数n,表示班级人数. 第二行是n个整数,表示n个学生的成绩,相邻两项之间用一个空格隔开. 输出输出不及格人数. 输入示例 3 70 90 58 ...
8.4 输入某班学生某门课的成绩，（最多不超过40人,具体人数由用户键盘输入），用函数编程统计不及格人数
#include<stdio.h> main() { int n,a[40],i,count=0; printf("请输入学生人数:"); scanf("%d ...
统计数字问题_统计问题
统计数字问题 Statistics can be one of the most divisive and harmful misinformation tools, and I have seen ...
gs地图开发_地图编制小课堂 | 境界分类
之前我们学习了海洋.陆地等要素在地图上的表示,今天我们一起学习地图上另一重要要素--境界. 境界是一种区域范围与另一种区域范围的分界线,它是普通地图上的重要要素之一. 普通地图上,境界分为两大类:政区 ...
python不及格人数_下面 if语句统计“成绩(score)优秀的男生以及不及格的男生”的人数,正确的语句是____________。_学小易找答案...
[多选题]常用的经济结构分析方法有( ) [多选题]计量经济学检验主要是检验模型是否符合计量经济方法的基本假定.检验内容包括( ) [填空题]Python语言是一种解释型语言,它不需要编译,它的执行 ...

c++ 用类统计不及格人数_统计小课堂13

c++ 用类统计不及格人数_统计小课堂13相关推荐

最新文章

热门文章