目录

  • 四、参数估计
    • 4.1 矩估计和极大似然估计法
      • 4.1.1 矩估计
      • 4.1.2 极大似然估计
        • 单参数 optimize( )
        • 多参数 optim( ) 、nlm( )
    • 4.2 单正态总体参数的区间估计
      • 4.2.1 均值μ的区间估计
      • 4.2.2 方差σ^2^的区间估计
    • 4.3 两正态总体参数的区间估计
      • 4.3.1 均值差μ1-μ2的置信区间
      • 4.3.2 两方差比的置信区间
    • 4.4 单总体比率p的区间估计
    • 4.5 两总体比率差p1-p2的区间估计
    • 4.6 样本容量的确定
      • 4.6.1 估计正态总体均值时样本容量的确定
      • 4.6.2 估计比例 p时样本容量的确定

四、参数估计

根据样本推断总体的分布和分布的数字特征称为统计推断。
参数估计有两类,一类是点估计,以某个统计量的样本观测值作为未知参数的估计值;另一类是区间估计,用两个统计量所构造的区间来估计位置参数【给出了估计的可信度】。

4.1 矩估计和极大似然估计法

4.1.1 矩估计

若总体X的k阶矩存在,则样本的k阶矩依概率收敛到总体的k阶矩,样本矩的连续函数收敛到总体矩的连续函数----->用样本矩作为总体矩的估计量

  • 矩估计可能是不唯一的,通常采用低阶矩给出未知参数的估计
  • 在总体分布未知的情况下,也可以用样本均值估计总体均值,用样本方差估计总体方差
  • 没有固定的R程序求出矩估计,可利用R的计算功能根据具体问题编写相应的R程序

例1:通常事件的成败机会比 g(θ)=θ/1-θ 是人们感兴趣的参数。对某个篮球运动员记录其一次在比赛中投篮命中与否,观测数据如下:
1 1 0 1 0 0 1 0 1 1 1 0 1 1 0 1
0 0 1 0 1 0 1 0 0 1 1 0 1 1 0 1
编写相应的R函数估计这个篮球运动员投篮的成败比

> x<-c(1,1,0,1,0,0,1,0,1,1,1,0,1,1,0,1,0,0,1,0,1,0,1,0,0,1,1,0,1,1,0,1)
> theta<-mean(x)
> t<-theta/(1-theta)
> t
[1] 1.286

例2:下面的观测值为来自指数分布的一个样本,估计参数λ
0.17834 0.33181 1.20810 0.08954 0.33990 0.68148 0.02528 0.34818 1.20790 2.62448

> x<-c(0.17834,0.33181, 1.20810, 0.08954, 0.33990, 0.68148, 0.02528, 0.34818, 1.20790, 2.62448)
> lambda<-1/mean(x)
> lambda
[1] 1.421
使用二阶矩进行矩估计:
> lambda<-1/sd(x)
> lambda
[1] 1.256

实际上,上面的数据是模拟参数为2的指数分布,可见低阶矩更为精确。

4.1.2 极大似然估计

单参数 optimize( )

optimize(f = , interval = , lower = min(interval), upper = max(interval), maximum = TRUE, tol = .Machine$double.eps^0.25, ...)

f 是似然函数,interval 是参数θ的取值范围,lower 是θ的下界,upper 是θ的上界,maximum=T是求极大值,tol表示求值的精度,省略号是对f 的附加说明

多参数 optim( ) 、nlm( )

optim(par, fn, gr = NULL, method = c("Nelder-Mead", "BFGS", "CG", "L-BFGS-B", "SANN", "Brent"), lower = -Inf, upper = Inf,  control = list( ), hessian = FALSE,...)

函数nlm( )仅使用牛顿-拉夫逊算法求函数的最小值点;函数optim( )提供method选项中的六种方法中的一种进行优化。

nlm(f, p, ..., hessian = FALSE, typsize = rep(1, length(p)), fscale = 1, print.level = 0, ndigit = 12, gradtol = 1e-6,  stepmax = max(1000 * sqrt(sum((p/typsize)^2)), 1000),  steptol = 1e-6, iterlim = 100, check.analyticals = TRUE)

例:一地质学家为研究密歇根湖的湖滩地区的岩石成分,随机地自该地区取出100个样品,每个样品有十块石子,他记录了每个样品中属石灰石的石子数,得到的数据如下:

样品中的石子数 0 1 2 3 4 5 6 7 8 9 10
样品个数 0 1 6 7 23 26 21 12 3 1 2

假设这100次观测相互独立,求这地区石子中的石灰石比例p的极大似然估计

显然,每个样品中的石子数服从二项分布binom(10,p),下面根据100次观测估计参数p:
> f <- function(p)(p^517)*(1-p)^483   #似然函数
> optimize(f,c(0,1),maximum = T)
$maximum
[1] 0.517
$objective
[1] 1.664e-301
因此,该地区石子中石灰石的比例p的最大似然估计为0.517

4.2 单正态总体参数的区间估计

4.2.1 均值μ的区间估计

1)方差σ2已知时μ的置信区间

> # 求方差已知时均值的置信区间
> z.test<- function(x,n,sigma,alpha,u0=0,alternative="two.sided"){+   options(digits = 4)
+   result<- list( )
+   mean<- mean(x)
+   z<- (mean-u0)/(sigma/sqrt(n))
+   p<- pnorm(z,lower.tail = F)
+   #把计算结果放到resul里
+   result$mean<-mean
+   result$z<-z
+   result$p.value<-p
+   #假设检验
+   if(alternative=="two.sided")
+     result$p.value<- 2*pnorm(abs(z),lower.tail = F)
+   else if (alternative=="greater")
+     result$p.value<- pnorm(z)
+   #求置信区间
+   result$conf.int<-c(
+     mean-sigma*qnorm(1-alpha/2,mean=0,sd=1,lower.tail = T)/sqrt(n),
+     mean+sigma*qnorm(1-alpha/2,mean=0,sd=1,lower.tail = T)/sqrt(n)
+   )
+   result
+ }

例:一个人10次称自己的体重(单位500g):175,176,173,175,174,173,173,176,173,179,假设此人体重服从正态分布,标准差为1.5,求体重的置信水平为95%的置信区间。

> x<-c(175,176,173,175,174,173,173,176,173,179)
> result<-z.test(x,10,1.5,0.05)
> result$conf.int
[1] 173.8 175.6

2)方差σ2未知时μ的置信区间

t.test(x, y = NULL, alternative = c("two.sided","less","greater"), mu=0, paired = F, var.equal = F, conf.level = 0,95, ...)

若仅出现数据x,进行单样本t检验;否则进行二样本t检验。
alternative=“two.sided”是缺省值(默认),表示求置信区间;alternative="less"表示求置信上限;alternative="greater"表示求置信下限。
mu表示均值,仅在假设检验中起作用。

在上例中如果不知道方差,就需要用函数t.test()来求置信区间
> x<-c(175,176,173,175,174,173,173,176,173,179)
> t.test(x)$conf.int
[1] 173.3 176.1

4.2.2 方差σ2的区间估计

#卡方检验:方差的置信区间
chisq.var.test<- function(x,var,alpha,alternative="two.sided"){options(digitis=4)results <- list( )n<- length(x)v<- var(x)result$var<- vchi2<-(n-1)*v/varresult$chi2<-chi2p<- pchisq(chi2,n-1)result$p.value <-pif(alternative=="less")result$p.value<-pchaisq(chi2,n-1,lower.tail=F)else if(alternative=="two.sided")result$p.value<- 2*min(pchisq(chi2,n-1),pchisq(chi2,n-1,lower.tail = F))result$conf.int<- c((n-1)*v/qchisq(alpha/2,df=n-1,lower.tail = F),(n-1)*v/qchisq(alpha/2,df=n-1,lower.tail = T))result
}

4.3 两正态总体参数的区间估计

4.3.1 均值差μ1-μ2的置信区间

1)两方差都已知时两均值差的置信区间

> #两正态总体均值差的区间估计(方差已知)
> two.sample.ci<- function(x,y,conf.level=0.95,sigma1,sigma2){+   options(digits = 4)
+   m= length(x);n=length(y)
+   xbar=mean(x)-mean(y)
+   alpha=1-conf.level
+   zstar=qnorm(1-alpha/2)*(sigma1/m+sigma2/n)^(1/2)
+   xbar+c(-zstar,+zstar)
+ }

2)两方差都未知但相等时两均值差的置信区间
利用t.test(x,y,var.equal=TRUE)可求

4.3.2 两方差比的置信区间

var.test(x, y, ratio=1, alternative=c("two.sided","less","greater"), conf.level=0.95, ...)

4.4 单总体比率p的区间估计

prop.test(x, n, p=NULL, alternative=c("two.sided","less","greater"), conf.level=0.95, correct=TRUE)

correct=TRUE是否做连续型矫正,不矫正的区间长度<矫正后的区间长度

binom.test(x, n, p=NULL, alternative=c("two.sided","less","greater"), conf.level=0.95)

例:从一份共有3042人的人名录中随机抽200人,发现38人的地址已变动,试以95%的置信水平,估计这份名录中需要修改地址的比例。

用正态分布来近似
> prop.test(38,200,correct = TRUE)1-sample proportions test with continuity correctiondata:  38 out of 200, null probability 0.5
X-squared = 76, df = 1, p-value <2e-16
alternative hypothesis: true p is not equal to 0.5
95 percent confidence interval:0.1395 0.2527
sample estimates:p
0.19
以95%的置信水平认为这份名录中需要修改地址的比例p落在(0.1395,0.2527)中,点估计为0.19用二项分布来近似
> binom.test(38,200)Exact binomial testdata:  38 and 200
number of successes = 38, number of trials = 200, p-value <2e-16
alternative hypothesis: true probability of success is not equal to 0.5
95 percent confidence interval:0.1381 0.2513
sample estimates:
probability of success 0.19

4.5 两总体比率差p1-p2的区间估计

例:据一项市场调查,在A地区被调查的1000人中有478人喜欢品牌K,在B地区被调查的750人中有246人喜欢品牌K,试估计两地区人们喜欢品牌K比例差的95%置信区间。

> like<-c(478,246)
> people<-c(1000,750)
> prop.test(like,people)2-sample test for equality of proportions with continuity correctiondata:  like out of people
X-squared = 39, df = 1, p-value = 4e-10
alternative hypothesis: two.sided
95 percent confidence interval:0.1031 0.1969
sample estimates:
prop 1 prop 2 0.478  0.328

可以看出,A地区喜欢品牌K的人更多,且A、B两地区喜欢品牌K的比例之差的95%的置信区间为(0.1031,0.1969)

4.6 样本容量的确定

4.6.1 估计正态总体均值时样本容量的确定

1)总体方差σ2已知

size.norm1<- function(d,var,conf.level){alpha = 1-conf.level((qnorm(1-alpha/2)*var^(1/2))/d)^2
}

d是允许的最大绝对误差
2)总体方差σ2未知

size.norm2<- function(s,alpha,d,m){t0<- qt(alpha/2,m,lower.tail=FALSE)n0<- (t0*s/d)^2t1<- qt(alpha/2,n0,lower.tail=FALSE)n1<- (t1*s/d)^2while(abs(n1-n0)>0.5){n0<- (qt(alpha/2,n1,lower.tail=FALSE)*s/d)^2n1<- (qt(alpha/2,n0,lower.tail=FALSE)*s/d)^2}n1
}

m是事先给定的一个很大的数

4.6.2 估计比例 p时样本容量的确定

size.bin<- function(d,p,conf.level=0.95){alpha=1-conf.level((qnorm(1-alpha/2))/d)^2*p*(1-p)
}

例:某市一所重点大学历届毕业生就业率为90%,试估计应届毕业生就业率,要求估计误差不超过3%,试问在α=0.05下要抽取应届毕业生多少人?

> size.bin(0.03,0.9,0.95)
[1] 384.1

R语言学习笔记4_参数估计相关推荐

  1. R语言学习笔记——高级篇:第十四章-主成分分析和因子分析

    R语言 R语言学习笔记--高级篇:第十四章-主成分分析和因子分析 文章目录 R语言 前言 一.R中的主成分和因子分析 二.主成分分析 2.1.判断主成分的个数 2.2.提取主成分 2.3.主成分旋转 ...

  2. R语言学习笔记(1~3)

    R语言学习笔记(1~3) 一.R语言介绍 x <- rnorm(5) 创建了一个名为x的向量对象,它包含5个来自标准正态分布的随机偏差. 1.1 注释 由符号#开头. #函数c()以向量的形式输 ...

  3. r语言c函数怎么用,R语言学习笔记——C#中如何使用R语言setwd()函数

    在R语言编译器中,设置当前工作文件夹可以用setwd()函数. > setwd("e://桌面//") > setwd("e:\桌面\") > ...

  4. R语言学习笔记 07 Probit、Logistic回归

    R语言学习笔记 文章目录 R语言学习笔记 probit回归 factor()和as.factor() relevel() 案例11.4复刻 glm函数 整理变量 回归:Logistic和Probit- ...

  5. R语言学习笔记——入门篇:第一章-R语言介绍

    R语言 R语言学习笔记--入门篇:第一章-R语言介绍 文章目录 R语言 一.R语言简介 1.1.R语言的应用方向 1.2.R语言的特点 二.R软件的安装 2.1.Windows/Mac 2.2.Lin ...

  6. R语言学习笔记——入门篇:第三章-图形初阶

    R语言 R语言学习笔记--入门篇:第三章-图形初阶 文章目录 R语言 一.使用图形 1.1.基础绘图函数:plot( ) 1.2.图形控制函数:dev( ) 补充--直方图函数:hist( ) 补充- ...

  7. R语言学习笔记 06 岭回归、lasso回归

    R语言学习笔记 文章目录 R语言学习笔记 比较lm.ridge和glmnet函数 画岭迹图 图6-4 <统计学习导论 基于R语言的应用>P182 图6-6<统计学习导论 基于R语言的 ...

  8. R语言学习笔记(八)--读写文件与网络爬虫

    R语言学习笔记(八) 1 工作路径 2 保存R对象 3 Scan函数 3-1 从控制台读取数据 3-2 从txt文件读取数据 3-3 从url读取数据 4 按行读写文本文件 5 读取文本文件(txt. ...

  9. R语言学习笔记(三)多元数据的数据特征、相关分析与图形表示

    文章目录 写在前面 独立性检验 χ2\chi^2χ2独立性检验 Fisher独立性检验 Cochran-Mantel-Haenszel χ2\chi^2χ2独立性检验 相关性分析 相关性检验 相关性检 ...

最新文章

  1. 杭州新设大数据资源管理局 推动资源共享、市场规范
  2. 在DelayQueue中更改延迟,从而更改顺序
  3. 1078 字符串压缩与解压 (20 分)
  4. 传输层与数据链路层滑动窗口协议的异同
  5. python交易_Python实现银行账户资金交易管理系统
  6. php scrscriptipt,xss跨站脚本攻击 (初级-中级-高级)
  7. linux raid5 nas,free nas 创建软raid5 来做iscsi服务 1
  8. 【zotero】异常与错误,Attachments skipped because they are top-level items,snapshots,an avoided filetype解决方法
  9. java 随机数算法_Java随机数算法原理与实现方法实例详解
  10. 浅谈2020年国内第三方支付平台安全性
  11. 硬盘的结构和介绍,硬盘MBR详细介绍(超详细彩图)
  12. SAP License:SAP HR人力资源管理系统
  13. 【软考数据库】第五章 计算机网络
  14. Go语言150行代码搞定苹果Apns高并发推送
  15. 获取短信验证码并实现登录
  16. python画脑电信号
  17. 关于@hide的理解
  18. [Android]搜索框SearchView
  19. 地心坐标系转地理坐标系(NED)
  20. 小程序用户头像昵称,微信头像昵称填写onChooseAvatar(2022最佳实践uniapp和原生)

热门文章

  1. 【算法与数据结构】—— 博弈论(高阶篇之SG博弈)
  2. 朝闻道(刘慈欣小说)
  3. 各种风格404错误页面html模板源码30多套高大尚响应式网站模板html5网页静态模板Bootstrap扁平化网站源码css3手机seo自适响应。
  4. ES6-ES12所有特性详解
  5. 在带有触控 ID 的妙控键盘上无法正常使用触控 ID的解决方法
  6. Google Voice 语音搜索
  7. WaveSwipeRefreshLayout实现微信热文精选,微信热文安卓app版,activity中viewpager套fragment
  8. 终端I/O之终端标识
  9. cala开发编程入门Hello World示例
  10. Openstack Train版搭建