拓端tecdat|R语言使用蒙特卡洛模拟进行正态性检验及可视化
原文链接:http://tecdat.cn/?p=14601
原文出处:拓端数据部落公众号
如何使用蒙特卡洛模拟来推导随机变量可能的分布,我们回到统计数据(无协变量)进行说明。我们假设观察值是基础随机变量,具有未知分布的随机变量。
这里有两种策略。在经典统计中,我们使用概率定理来推导随机变量的属性在可能的情况下的分布。另一种方法是进行计算统计。
对于评估拟合度,测试正态性不是很有用。在本文中,我想说明这一点。我们使用男生的身高数据,
X=Davis$height[Davis$sex=="M"]
我们可以可视化其分布(密度和累积分布)
u=seq(155,205,by=.5)
par(mfrow=c(1,2))
hist(X,col=rgb(0,0,1,.3))
lines(density(X),col="blue",lwd=2)
lines(u,dnorm(u,178,6.5),col="black")
Xs=sort(X)
n=length(X)
p=(1:n)/(n+1)
plot(Xs,p,type="s",col="blue")
lines(u,pnorm(u,178,6.5),col="black")
它看起来像正态分布,因此我们可以在左侧添加密度高斯分布,在右侧添加cdf。我不想测试它是否是高斯分布。为了查看此分布是否相关,可以使用蒙特卡洛模拟法
我们可以在左侧看到很难通过密度(直方图以及核密度密度估计器)评估正态性 。人们很难想到两个密度之间的有效距离。但是,如果我们看一下右边的图,我们可以比较经验分布累积分布。如上所述,我们可以按照Cramer-von Mises 检验或 Kolmogorov-Smirnov 距离的建议计算黄色区域 。
如果我们抽取10,000个反事实样本,则可以使用测试统计量等的方法来可视化距离的分布(此处为密度),并将其与样本的观察值进行比较。测试统计量超过观察值的样本比例
mean(dks)
[1] 0.78248
计算版本的值
ks.test(X,"pnorm",178,6.5)One-sample Kolmogorov-Smirnov testdata: X
D = 0.068182, p-value = 0.8079
alternative hypothesis: two-sided
在统计数据中,要么操作抽象对象(如随机变量),要么实际上使用一些代码生成假样本以量化不确定性。后者很有趣,因为它有助于可视化复杂的量化。
参考文献
1.R语言泊松Poisson回归模型分析案例
2.R语言进行数值模拟:模拟泊松回归模型
3.r语言泊松回归分析
4.R语言对布丰投针(蒲丰投针)实验进行模拟和动态可视化
5.用R语言模拟混合制排队随机服务排队系统
6.GARCH(1,1),MA以及历史模拟法的VaR比较
7.R语言做复杂金融产品的几何布朗运动的模拟
8.R语言进行数值模拟:模拟泊松回归模型
9.R语言对巨灾风险下的再保险合同定价研究案例:广义线性模型和帕累托分布Pareto distributions
拓端tecdat|R语言使用蒙特卡洛模拟进行正态性检验及可视化相关推荐
- 拓端tecdat|R语言逻辑回归(Logistic回归)模型分类预测病人冠心病风险
最近我们被客户要求撰写关于冠心病风险的研究报告,包括一些图形和统计输出. 相关视频:R语言逻辑回归(Logistic回归)模型分类预测病人冠心病风险 逻辑回归Logistic模型原理和R语言分类预测冠 ...
- 拓端tecdat|R语言用LOESS(局部加权回归)季节趋势分解(STL)进行时间序列异常检测
最近我们被客户要求撰写关于LOESS(局部加权回归)的研究报告,包括一些图形和统计输出. 这篇文章描述了一种对涉及季节性和趋势成分的时间序列的中点进行建模的方法.我们将对一种叫做STL的算法进行研究, ...
- 拓端tecdat|R语言向量误差修正模型 (VECMs)分析长期利率和通胀率影响关系
最近我们被客户要求撰写关于向量误差修正模型的研究报告,包括一些图形和统计输出. 向量自回归模型估计的先决条件之一是被分析的时间序列是平稳的.但是,经济理论认为,经济变量之间在水平上存在着均衡关系,可以 ...
- 拓端tecdat|R语言线性回归和时间序列分析北京房价影响因素可视化案例
最近我们被客户要求撰写关于北京房价影响因素的研究报告,包括一些图形和统计输出. 目的 房价有关的数据可能反映了中国近年来的变化: 人们得到更多的资源(薪水),期望有更好的房子 人口众多 独生子女政策: ...
- 拓端tecdat荣获掘金社区入驻新人奖
2021年7月,由掘金发起了"入驻成长礼"颁奖活动.本次活动邀请到知名开发者.服务机构代表等业界人士. 据了解,掘金社区"新入驻创作者礼"主要对已经积累了一定历 ...
- 拓端tecdat荣获2022年度51CTO博主之星
相信技术,传递价值,这是51CTO每一个技术创作者的动力与信念,2022 年度,拓端tecdat 作为新锐的数据分析咨询公司,在51CTO平台上,不断的输出优质的技术文章,分享前沿创新技术,输出最佳生 ...
- R语言大会:宏基因组数据分析和可视化套路总结
2019年5月25日,我应邀参加在人民大学召开的R语言大会. <5月24-26日,第12届中国R会议(北京)可视化专场> 作题为<R语言在宏基因组数据统计分析及可视化中的应用> ...
- R语言使用timeROC包计算无竞争情况下的生存资料多时间AUC值、R语言使用timeROC包的plotAUCcurve函数可视化多时间生存资料的不同标记物情况下对应的AUC曲线、并进行对比
R语言使用timeROC包计算无竞争情况下的生存资料多时间AUC值.R语言使用timeROC包的plotAUCcurve函数可视化多时间生存资料的不同标记物情况下对应的AUC曲线.并进行对比 目录
- R语言使用GGally包的ggpairs函数可视化变量相关性分析图:包含散点图、密度图、柱状图、箱图等、并自定义数据点的大小
R语言使用GGally包的ggpairs函数可视化变量相关性分析图:包含散点图.密度图.柱状图.箱图等.并自定义数据点的大小 目录
- R语言使用hexbin包的hexbin函数可视化散点图、应对数据量太大、且有数据重叠的情况、普通散点图可视化效果变差的情况、提供了对六边形单元格的二元绑定、通过图例颜色标定每一个区域数据点的数量
R语言使用hexbin包的hexbin函数可视化散点图.应对数据量太大.且有数据重叠的情况.普通散点图可视化效果变差的情况.hexbin函数提供了对六边形单元格的二元绑定.通过图例颜色标定每一个区域数 ...
最新文章
- C# WebAPI中DateTime类型字段在使用微软自带的方法转json格式后默认含T的解决办法...
- HTML 限制 input 输入类型
- python访问mysql_python连接mysql
- c语言一级考试题目第四季度,模拟试题8套
- onTextChanged参数解释及实现EditText字数监听
- leetcode之移除链表的元素
- 汇编语言(王爽老师)
- 富途证券招股书解读:近2个月客户资产下降
- 华云三维:CrownCAD(皇冠CAD)用户注册量突破5万
- 深入理解计算机系统----第四章处理器体系结构
- app第三方支付测试点
- tesseract的使用
- AI 搜房,贝壳找房的Milvus实践
- Part1---3.数据库编程与完整性
- 什么是一网统管?终于有人讲明白了
- Android关于适配的相关知识。
- 机器学习/深度学习/自然语言处理学习路线
- 使用百度API获取地名坐标信息
- 和菜头-要相亲相爱,更要相互伤害
- sja1c语言,A1SJ71AP21-S3基础知识三菱A1SJ71AP21-S3用户手册(硬件) - 广州正凌
热门文章
- Uncaught TypeError: undefined is not a function
- Paxos算法在大型系统中常见的应用场景
- Lync Server 2010企业版系列PART7:部署前端
- Delphi2010安装TWordApplication控件
- LibSVM文本分类之结果统计
- 交换机 VLAN配置基础及实例
- Linux-页、页表、页框(块)+虚拟内存
- C++--第9课 - 构造与析构 - 上
- 限时免费《敏捷个人-认识自我,管理自我 v0.6.pdf》
- 如何用Uber JVM Profiler等可视化工具监控Spark应用程序?