r 多元有序logistic回归_R语言多分类logistic逻辑回归模型在混合分布模拟单个风险损失值评估的应用...
原文链接
拓端数据科技 / Welcome to tecdattecdat.cn
通常,我们在回归模型中一直说的一句话是“ 请查看一下数据 ”。
在上一篇文章中,我们没有查看数据。如果我们查看单个损失的分布,那么在数据集中,我们会看到以下内容:
- > n=nrow(couts)
- > plot(sort(couts$cout),(1:n)/(n+1),xlim=c(0,10000),type="s",lwd=2,col="green")
看来我们的数据库中有固定成本索赔。在标准情况下,我们如何处理?我们可以在这里使用混合分布,
与
- 小额索赔的分布
,例如指数分布
- 狄拉克分布
,即
- 分布
,例如Gamma分布或对数正态分布
- > I1=which(couts$cout<1120)
- > I2=which((couts$cout>=1120)&(couts$cout<1220))
- > I3=which(couts$cout>=1220)
- > (p1=length(I1)/nrow(couts))
- [1] 0.3284823
- > (p2=length(I2)/nrow(couts))
- [1] 0.4152807
- > (p3=length(I3)/nrow(couts))
- [1] 0.256237
- > X=couts$cout
- > (kappa=mean(X[I2]))
- [1] 1171.998
在上一篇文章中,我们讨论了所有参数可能与某些协变量相关的想法,即
产生以下模型,
对于概率,我们应该使用多项式模型。回忆一下逻辑回归模型,如果
,则
即
要导出多元扩展
和
同样,可以使用最大似然,因为
在这里,变量
(分为三个级别)分为三个指标(就像标准回归模型中的任何分类解释变量一样)。从而,
对于逻辑回归,然后使用牛顿拉夫森(Newton Raphson)算法在数值上计算最大似然。在R中,首先我们必须定义级别,例如
- > couts$tranches=cut(couts$cout,breaks=seuils,
- + labels=c("small","fixed","large"))
然后,我们可以定义一个多分类logistic模型回归
使用一些选定的协变量
- > formula=(tranches~ageconducteur+agevehicule+zone+carburant,data=couts)
- # weights: 30 (18 variable)
- initial value 2113.730043
- iter 10 value 2063.326526
- iter 20 value 2059.206691
- final value 2059.134802
- converged
输出在这里
- Coefficients:
- (Intercept) ageconducteur agevehicule zoneB zoneC
- fixed -0.2779176 0.012071029 0.01768260 0.05567183 -0.2126045
- large -0.7029836 0.008581459 -0.01426202 0.07608382 0.1007513
- zoneD zoneE zoneF carburantE
- fixed -0.1548064 -0.2000597 -0.8441011 -0.009224715
- large 0.3434686 0.1803350 -0.1969320 0.039414682
- Std. Errors:
- (Intercept) ageconducteur agevehicule zoneB zoneC zoneD
- fixed 0.2371936 0.003738456 0.01013892 0.2259144 0.1776762 0.1838344
- large 0.2753840 0.004203217 0.01189342 0.2746457 0.2122819 0.2151504
- zoneE zoneF carburantE
- fixed 0.1830139 0.3377169 0.1106009
- large 0.2160268 0.3624900 0.1243560
为了可视化协变量的影响,还可以使用样条函数
- > library(splines)
- > reg=(tranches~bs(agevehicule))
- # weights: 15 (8 variable)
- initial value 2113.730043
- iter 10 value 2070.496939
- iter 20 value 2069.787720
- iter 30 value 2069.659958
- final value 2069.479535
- converged
例如,如果协变量是汽车的寿命,那么我们有以下概率
- > predict(reg,newdata=data.frame(agevehicule=5),type="probs")
- small fixed large
- 0.3388947 0.3869228 0.2741825
对于0到20岁的所有年龄段,
例如,对于新车,固定成本所占的比例很小(在这里为紫色),并且随着车龄的增长而不断增加。如果协变量是驾驶员居住地区的人口密度,那么我们获得以下概率
- # weights: 15 (8 variable)
- initial value 2113.730043
- iter 10 value 2068.469825
- final value 2068.466349
- converged
- > predict
- small fixed large
- 0.3484422 0.3473315 0.3042263
基于这些概率,可以在给定一些协变量(例如密度)的情况下得出索赔的预期成本。但首先,定义整个数据集的子集
- > sbaseA=couts[couts$tranches=="small",]
- > sbaseB=couts[couts$tranches=="fixed",]
- > sbaseC=couts[couts$tranches=="large",]
阈值由
- > (k=mean(sousbaseB$cout))
- [1] 1171.998
然后,让我们运行四个模型,
- > reg
- > regA
- > regB
- > regC
现在,我们可以基于这些模型计算预测,
> pred=cbind(predA,predB,predC)
为了可视化每个组成部分对溢价的影响,我们可以计算概率,预期成本(给定每个子集的成本),
- > cbind(proba,pred)[seq(10,90,by=10),]
- small fixed large predA predB predC
- 10 0.3344014 0.4241790 0.2414196 423.3746 1171.998 7135.904
- 20 0.3181240 0.4471869 0.2346892 428.2537 1171.998 6451.890
- 30 0.3076710 0.4626572 0.2296718 438.5509 1171.998 5499.030
- 40 0.3032872 0.4683247 0.2283881 451.4457 1171.998 4615.051
- 50 0.3052378 0.4620219 0.2327404 463.8545 1171.998 3961.994
- 60 0.3136136 0.4417057 0.2446807 472.3596 1171.998 3586.833
- 70 0.3279413 0.4056971 0.2663616 473.3719 1171.998 3513.601
- 80 0.3464842 0.3534126 0.3001032 463.5483 1171.998 3840.078
- 90 0.3652932 0.2868006 0.3479061 440.4925 1171.998 4912.379
现在,可以将这些数字绘制在图形中,
(水平虚线在我们的数据集中是索赔的平均费用)。
专栏
精算科学
关于结合数学、统计方法以及程序语言对经济活动来做风险分析、评估的见解。
探索专栏 ➔
参考文献
1.用SPSS估计HLM层次线性模型模型
2.R语言线性判别分析(LDA),二次判别分析(QDA)和正则判别分析(RDA)
3.基于R语言的lmer混合线性回归模型
4.R语言Gibbs抽样的贝叶斯简单线性回归仿真分析
5.在r语言中使用GAM(广义相加模型)进行电力负荷时间序列分析
6.使用SAS,Stata,HLM,R,SPSS和Mplus的分层线性模型HLM
7.R语言中的岭回归、套索回归、主成分回归:线性模型选择和正则化
8.R语言用线性回归模型预测空气质量臭氧数据
9.R语言分层线性模型案例
r 多元有序logistic回归_R语言多分类logistic逻辑回归模型在混合分布模拟单个风险损失值评估的应用...相关推荐
- r语言logistic回归_R语言多分类logistic逻辑回归模型在混合分布模拟单个风险损失值评估的应用...
原文链接 :http://tecdat.cn/?p=14017tecdat.cn 通常,我们在回归模型中一直说的一句话是" 请查看一下数据 ". 在上一篇文章中,我们没有查看数据 ...
- r 多元有序logistic回归_R实现多分类logistic回归
多分类logistic回归 在临床研究中,接触最多的是二分类数据,如淋巴癌是否转移,是否死亡,这些因变量最后都可以转换成二分类0与1的问题.然后建立二元logistic回归方程,可以得到影响因素的OR ...
- r ridge回归_R语言区间数据回归分析
原文链接:http://tecdat.cn/?p=14874 通常,GLM的连接函数可能比分布更重要.为了说明,考虑以下数据集,其中包含5个观察值 x = c(1,2,3,4,5)y = c(1,2, ...
- R语言使用epiDisplay包的logistic.display函数获取二分类logistic回归模型的汇总统计信息(自变量初始和调整后的优势比及置信区间,回归系数的Wald检验的p值、简化汇总结果
R语言使用epiDisplay包的logistic.display函数获取二分类logistic回归模型的汇总统计信息(自变量初始和调整后的优势比及置信区间,回归系数的Wald检验的p值.自变量的似然 ...
- R语言 | 二分类和多分类的逻辑回归实现
目录 二分类逻辑回归 数据准备 模型构建 模型检验 多分类逻辑回归 二分类逻辑回归 首先,我先展示下我逻辑回归的总体代码,如果有基础的同志需要的话,可以直接修改数据和参数拿去用呀: library(l ...
- R语言使用R基础安装中的glm函数构建乳腺癌二分类预测逻辑回归模型、分类预测器(分类变量)被自动替换为一组虚拟编码变量、summary函数查看检查模型、使用table函数计算混淆矩阵评估分类模型性能
R语言使用R基础安装中的glm函数构建乳腺癌二分类预测逻辑回归模型(Logistic regression).分类预测器(分类变量)被自动替换为一组虚拟编码变量.summary函数查看检查模型.使用t ...
- ML:基于自定义数据集利用Logistic、梯度下降算法GD、LoR逻辑回归、Perceptron感知器、SVM支持向量机、LDA线性判别分析算法进行二分类预测(决策边界可视化)
ML:基于自定义数据集利用Logistic.梯度下降算法GD.LoR逻辑回归.Perceptron感知器.支持向量机(SVM_Linear.SVM_Rbf).LDA线性判别分析算法进行二分类预测(决策 ...
- 使用聚类算法(Kmeans)进行数据降维并作为分类算法逻辑回归(logistic Regression)的数据预处理步骤实战
使用聚类算法(Kmeans)进行数据降维并作为分类算法逻辑回归(logistic Regression)的数据预处理步骤实战 目录
- 机器学习入门与Python实战(三):分类与逻辑回归 Logistic Regression
目录 现实案例 分类预测 通过股价预测任务区分回归任务与分类任务 分类问题求解 更适合于分类场景的模型:逻辑回归 逻辑回归处理更复杂的分类任务 逻辑回归模型求解 Python实战:商业异常消费数据预测 ...
最新文章
- react生命周期和组件生命周期
- JSON序列化(stringify)对象时排除某些属性的两种方法
- 使用mysql制作学生成绩单_【实例讲解】快速制作学生成绩单
- JVM JRE JDK,这些东西到底是什么?(转载)
- 不能再任性 APP收集个人信息基本规范公开征求意见
- 若依如何修改超级管理员登录密码?
- 当大家都不理解你的时候,就是你成就的捷径
- 分享一个安全实现JSONP跨域的插件
- 在阿里云开源镜像站中下载centOS7
- 快速入门Flink (7) —— 小白都喜欢看的Flink流处理之DataSources和DataSinks
- asp企业建站系统 最新推出的 免费下载
- 读书笔记—趁年轻,折腾吧
- 倾斜摄影三维模型、激光点云、正射影像、数字高程模型如何实现在线浏览?
- 【洛谷 1516】青蛙的约会
- metasploit-framework(MSF)--Github翻译
- numpy之多维数组
- [2018年工作重点规划] substance designer 使用和工作流,材质库
- Java4班题库-传智专修学院Java面试题库三
- HCIE认证考下来多少钱?
- [转载]Markdown文档中常用的一些符号