四、参数估计
- 4.1 矩估计和极大似然估计法
- - 4.1.1 矩估计
  - 4.1.2 极大似然估计
  - - 单参数 optimize( )
    - 多参数 optim( ) 、nlm( )
- 4.2 单正态总体参数的区间估计
- - 4.2.1 均值μ的区间估计
  - 4.2.2 方差σ^2^的区间估计
- 4.3 两正态总体参数的区间估计
- - 4.3.1 均值差μ1-μ2的置信区间
  - 4.3.2 两方差比的置信区间
- 4.4 单总体比率p的区间估计
- 4.5 两总体比率差p1-p2的区间估计
- 4.6 样本容量的确定
- - 4.6.1 估计正态总体均值时样本容量的确定
  - 4.6.2 估计比例 p时样本容量的确定

四、参数估计

根据样本推断总体的分布和分布的数字特征称为统计推断。
参数估计有两类，一类是点估计，以某个统计量的样本观测值作为未知参数的估计值；另一类是区间估计，用两个统计量所构造的区间来估计位置参数【给出了估计的可信度】。

4.1 矩估计和极大似然估计法

4.1.1 矩估计

若总体X的k阶矩存在，则样本的k阶矩依概率收敛到总体的k阶矩，样本矩的连续函数收敛到总体矩的连续函数----->用样本矩作为总体矩的估计量

矩估计可能是不唯一的，通常采用低阶矩给出未知参数的估计
在总体分布未知的情况下，也可以用样本均值估计总体均值，用样本方差估计总体方差
没有固定的R程序求出矩估计，可利用R的计算功能根据具体问题编写相应的R程序

例1：通常事件的成败机会比 g(θ)=θ/1-θ 是人们感兴趣的参数。对某个篮球运动员记录其一次在比赛中投篮命中与否，观测数据如下：
1 1 0 1 0 0 1 0 1 1 1 0 1 1 0 1
0 0 1 0 1 0 1 0 0 1 1 0 1 1 0 1
编写相应的R函数估计这个篮球运动员投篮的成败比

> x<-c(1,1,0,1,0,0,1,0,1,1,1,0,1,1,0,1,0,0,1,0,1,0,1,0,0,1,1,0,1,1,0,1)
> theta<-mean(x)
> t<-theta/(1-theta)
> t
[1] 1.286

例2：下面的观测值为来自指数分布的一个样本，估计参数λ
0.17834 0.33181 1.20810 0.08954 0.33990 0.68148 0.02528 0.34818 1.20790 2.62448

> x<-c(0.17834,0.33181, 1.20810, 0.08954, 0.33990, 0.68148, 0.02528, 0.34818, 1.20790, 2.62448)
> lambda<-1/mean(x)
> lambda
[1] 1.421
使用二阶矩进行矩估计：
> lambda<-1/sd(x)
> lambda
[1] 1.256

实际上，上面的数据是模拟参数为2的指数分布，可见低阶矩更为精确。

4.1.2 极大似然估计

单参数 optimize( )

optimize(f = , interval = , lower = min(interval), upper = max(interval), maximum = TRUE, tol = .Machine$double.eps^0.25, ...)

f 是似然函数，interval 是参数θ的取值范围，lower 是θ的下界，upper 是θ的上界，maximum=T是求极大值，tol表示求值的精度，省略号是对f 的附加说明

多参数 optim( ) 、nlm( )

optim(par, fn, gr = NULL, method = c("Nelder-Mead", "BFGS", "CG", "L-BFGS-B", "SANN", "Brent"), lower = -Inf, upper = Inf,  control = list( ), hessian = FALSE,...)

函数nlm( )仅使用牛顿-拉夫逊算法求函数的最小值点；函数optim( )提供method选项中的六种方法中的一种进行优化。

nlm(f, p, ..., hessian = FALSE, typsize = rep(1, length(p)), fscale = 1, print.level = 0, ndigit = 12, gradtol = 1e-6,  stepmax = max(1000 * sqrt(sum((p/typsize)^2)), 1000),  steptol = 1e-6, iterlim = 100, check.analyticals = TRUE)

例：一地质学家为研究密歇根湖的湖滩地区的岩石成分，随机地自该地区取出100个样品，每个样品有十块石子，他记录了每个样品中属石灰石的石子数，得到的数据如下：

样品中的石子数 0 1 2 3 4 5 6 7 8 9 10

样品个数 0 1 6 7 23 26 21 12 3 1 2

假设这100次观测相互独立，求这地区石子中的石灰石比例p的极大似然估计

样品中的石子数	0	1	2	3	4	5	6	7	8	9	10
样品个数	0	1	6	7	23	26	21	12	3	1	2

显然，每个样品中的石子数服从二项分布binom(10,p),下面根据100次观测估计参数p:
> f <- function(p)(p^517)*(1-p)^483   #似然函数
> optimize(f,c(0,1),maximum = T)
$maximum
[1] 0.517
$objective
[1] 1.664e-301
因此，该地区石子中石灰石的比例p的最大似然估计为0.517

4.2 单正态总体参数的区间估计

4.2.1 均值μ的区间估计

1）方差σ²已知时μ的置信区间

> # 求方差已知时均值的置信区间
> z.test<- function(x,n,sigma,alpha,u0=0,alternative="two.sided"){+   options(digits = 4)
+   result<- list( )
+   mean<- mean(x)
+   z<- (mean-u0)/(sigma/sqrt(n))
+   p<- pnorm(z,lower.tail = F)
+   #把计算结果放到resul里
+   result$mean<-mean
+   result$z<-z
+   result$p.value<-p
+   #假设检验
+   if(alternative=="two.sided")
+     result$p.value<- 2*pnorm(abs(z),lower.tail = F)
+   else if (alternative=="greater")
+     result$p.value<- pnorm(z)
+   #求置信区间
+   result$conf.int<-c(
+     mean-sigma*qnorm(1-alpha/2,mean=0,sd=1,lower.tail = T)/sqrt(n),
+     mean+sigma*qnorm(1-alpha/2,mean=0,sd=1,lower.tail = T)/sqrt(n)
+   )
+   result
+ }

例：一个人10次称自己的体重（单位500g）：175,176,173,175,174,173,173,176,173,179，假设此人体重服从正态分布，标准差为1.5，求体重的置信水平为95%的置信区间。

> x<-c(175,176,173,175,174,173,173,176,173,179)
> result<-z.test(x,10,1.5,0.05)
> result$conf.int
[1] 173.8 175.6

2）方差σ²未知时μ的置信区间

t.test(x, y = NULL, alternative = c("two.sided","less","greater"), mu=0, paired = F, var.equal = F, conf.level = 0,95, ...)

若仅出现数据x，进行单样本t检验;否则进行二样本t检验。
alternative=“two.sided”是缺省值（默认），表示求置信区间；alternative="less"表示求置信上限；alternative="greater"表示求置信下限。
mu表示均值，仅在假设检验中起作用。

在上例中如果不知道方差，就需要用函数t.test()来求置信区间
> x<-c(175,176,173,175,174,173,173,176,173,179)
> t.test(x)$conf.int
[1] 173.3 176.1

4.2.2 方差σ²的区间估计

#卡方检验:方差的置信区间
chisq.var.test<- function(x,var,alpha,alternative="two.sided"){options(digitis=4)results <- list( )n<- length(x)v<- var(x)result$var<- vchi2<-(n-1)*v/varresult$chi2<-chi2p<- pchisq(chi2,n-1)result$p.value <-pif(alternative=="less")result$p.value<-pchaisq(chi2,n-1,lower.tail=F)else if(alternative=="two.sided")result$p.value<- 2*min(pchisq(chi2,n-1),pchisq(chi2,n-1,lower.tail = F))result$conf.int<- c((n-1)*v/qchisq(alpha/2,df=n-1,lower.tail = F),(n-1)*v/qchisq(alpha/2,df=n-1,lower.tail = T))result
}

4.3 两正态总体参数的区间估计

4.3.1 均值差μ1-μ2的置信区间

1）两方差都已知时两均值差的置信区间

> #两正态总体均值差的区间估计（方差已知）
> two.sample.ci<- function(x,y,conf.level=0.95,sigma1,sigma2){+   options(digits = 4)
+   m= length(x);n=length(y)
+   xbar=mean(x)-mean(y)
+   alpha=1-conf.level
+   zstar=qnorm(1-alpha/2)*(sigma1/m+sigma2/n)^(1/2)
+   xbar+c(-zstar,+zstar)
+ }

2）两方差都未知但相等时两均值差的置信区间
利用t.test(x,y,var.equal=TRUE)可求

4.3.2 两方差比的置信区间

var.test(x, y, ratio=1, alternative=c("two.sided","less","greater"), conf.level=0.95, ...)

4.4 单总体比率p的区间估计

prop.test(x, n, p=NULL, alternative=c("two.sided","less","greater"), conf.level=0.95, correct=TRUE)

correct=TRUE是否做连续型矫正，不矫正的区间长度＜矫正后的区间长度

binom.test(x, n, p=NULL, alternative=c("two.sided","less","greater"), conf.level=0.95)

例：从一份共有3042人的人名录中随机抽200人，发现38人的地址已变动，试以95%的置信水平，估计这份名录中需要修改地址的比例。

用正态分布来近似
> prop.test(38,200,correct = TRUE)1-sample proportions test with continuity correctiondata:  38 out of 200, null probability 0.5
X-squared = 76, df = 1, p-value <2e-16
alternative hypothesis: true p is not equal to 0.5
95 percent confidence interval:0.1395 0.2527
sample estimates:p
0.19
以95%的置信水平认为这份名录中需要修改地址的比例p落在（0.1395，0.2527）中，点估计为0.19用二项分布来近似
> binom.test(38,200)Exact binomial testdata:  38 and 200
number of successes = 38, number of trials = 200, p-value <2e-16
alternative hypothesis: true probability of success is not equal to 0.5
95 percent confidence interval:0.1381 0.2513
sample estimates:
probability of success 0.19

4.5 两总体比率差p1-p2的区间估计

例：据一项市场调查，在A地区被调查的1000人中有478人喜欢品牌K，在B地区被调查的750人中有246人喜欢品牌K，试估计两地区人们喜欢品牌K比例差的95%置信区间。

> like<-c(478,246)
> people<-c(1000,750)
> prop.test(like,people)2-sample test for equality of proportions with continuity correctiondata:  like out of people
X-squared = 39, df = 1, p-value = 4e-10
alternative hypothesis: two.sided
95 percent confidence interval:0.1031 0.1969
sample estimates:
prop 1 prop 2 0.478  0.328

可以看出，A地区喜欢品牌K的人更多，且A、B两地区喜欢品牌K的比例之差的95%的置信区间为（0.1031，0.1969）

4.6 样本容量的确定

4.6.1 估计正态总体均值时样本容量的确定

1）总体方差σ²已知

size.norm1<- function(d,var,conf.level){alpha = 1-conf.level((qnorm(1-alpha/2)*var^(1/2))/d)^2
}

d是允许的最大绝对误差
2）总体方差σ²未知

size.norm2<- function(s,alpha,d,m){t0<- qt(alpha/2,m,lower.tail=FALSE)n0<- (t0*s/d)^2t1<- qt(alpha/2,n0,lower.tail=FALSE)n1<- (t1*s/d)^2while(abs(n1-n0)>0.5){n0<- (qt(alpha/2,n1,lower.tail=FALSE)*s/d)^2n1<- (qt(alpha/2,n0,lower.tail=FALSE)*s/d)^2}n1
}

m是事先给定的一个很大的数

4.6.2 估计比例 p时样本容量的确定

size.bin<- function(d,p,conf.level=0.95){alpha=1-conf.level((qnorm(1-alpha/2))/d)^2*p*(1-p)
}

例：某市一所重点大学历届毕业生就业率为90%，试估计应届毕业生就业率，要求估计误差不超过3%，试问在α=0.05下要抽取应届毕业生多少人？

> size.bin(0.03,0.9,0.95)
[1] 384.1

R语言学习笔记4_参数估计相关推荐

R语言学习笔记——高级篇：第十四章-主成分分析和因子分析
R语言 R语言学习笔记--高级篇:第十四章-主成分分析和因子分析文章目录 R语言前言一.R中的主成分和因子分析二.主成分分析 2.1.判断主成分的个数 2.2.提取主成分 2.3.主成分旋转 ...
R语言学习笔记（1~3）
R语言学习笔记(1~3) 一.R语言介绍 x <- rnorm(5) 创建了一个名为x的向量对象,它包含5个来自标准正态分布的随机偏差. 1.1 注释由符号#开头. #函数c()以向量的形式输 ...
r语言c函数怎么用,R语言学习笔记——C#中如何使用R语言setwd()函数
在R语言编译器中,设置当前工作文件夹可以用setwd()函数. > setwd("e://桌面//") > setwd("e:\桌面\") > ...
R语言学习笔记 07 Probit、Logistic回归
R语言学习笔记文章目录 R语言学习笔记 probit回归 factor()和as.factor() relevel() 案例11.4复刻 glm函数整理变量回归:Logistic和Probit- ...
R语言学习笔记——入门篇：第一章-R语言介绍
R语言 R语言学习笔记--入门篇:第一章-R语言介绍文章目录 R语言一.R语言简介 1.1.R语言的应用方向 1.2.R语言的特点二.R软件的安装 2.1.Windows/Mac 2.2.Lin ...
R语言学习笔记——入门篇：第三章-图形初阶
R语言 R语言学习笔记--入门篇:第三章-图形初阶文章目录 R语言一.使用图形 1.1.基础绘图函数:plot( ) 1.2.图形控制函数:dev( ) 补充--直方图函数:hist( ) 补充- ...
R语言学习笔记 06 岭回归、lasso回归
R语言学习笔记文章目录 R语言学习笔记比较lm.ridge和glmnet函数画岭迹图图6-4 <统计学习导论基于R语言的应用>P182 图6-6<统计学习导论基于R语言的 ...
R语言学习笔记（八）--读写文件与网络爬虫
R语言学习笔记(八) 1 工作路径 2 保存R对象 3 Scan函数 3-1 从控制台读取数据 3-2 从txt文件读取数据 3-3 从url读取数据 4 按行读写文本文件 5 读取文本文件(txt. ...
R语言学习笔记（三）多元数据的数据特征、相关分析与图形表示
文章目录写在前面独立性检验 χ2\chi^2χ2独立性检验 Fisher独立性检验 Cochran-Mantel-Haenszel χ2\chi^2χ2独立性检验相关性分析相关性检验相关性检 ...

R语言学习笔记4_参数估计

目录

四、参数估计

4.1 矩估计和极大似然估计法

4.1.1 矩估计

4.1.2 极大似然估计

单参数 optimize( )

多参数 optim( ) 、nlm( )

4.2 单正态总体参数的区间估计

4.2.1 均值μ的区间估计

4.2.2 方差σ²的区间估计

4.3 两正态总体参数的区间估计

4.3.1 均值差μ1-μ2的置信区间

4.3.2 两方差比的置信区间

4.4 单总体比率p的区间估计

4.5 两总体比率差p1-p2的区间估计

4.6 样本容量的确定

4.6.1 估计正态总体均值时样本容量的确定

4.6.2 估计比例 p时样本容量的确定

R语言学习笔记4_参数估计相关推荐

最新文章

热门文章

R语言学习笔记4_参数估计

目录

四、参数估计

4.1 矩估计和极大似然估计法

4.1.1 矩估计

4.1.2 极大似然估计

单参数 optimize( )

多参数 optim( ) 、nlm( )

4.2 单正态总体参数的区间估计

4.2.1 均值μ的区间估计

4.2.2 方差σ2的区间估计

4.3 两正态总体参数的区间估计

4.3.1 均值差μ1-μ2的置信区间

4.3.2 两方差比的置信区间

4.4 单总体比率p的区间估计

4.5 两总体比率差p1-p2的区间估计

4.6 样本容量的确定

4.6.1 估计正态总体均值时样本容量的确定

4.6.2 估计比例 p时样本容量的确定

R语言学习笔记4_参数估计相关推荐

最新文章

热门文章

4.2.2 方差σ²的区间估计