原文链接

拓端数据科技 / Welcome to tecdat​tecdat.cn

通常,我们在回归模型中一直说的一句话是“ 请查看一下数据 ”。

在上一篇文章中,我们没有查看数据。如果我们查看单个损失的分布,那么在数据集中,我们会看到以下内容:

  1. > n=nrow(couts)
  2. > plot(sort(couts$cout),(1:n)/(n+1),xlim=c(0,10000),type="s",lwd=2,col="green")

看来我们的数据库中有固定成本索赔。在标准情况下,我们如何处理?我们可以在这里使用混合分布,

  • 小额索赔的分布

,例如指数分布

  • 狄拉克分布

,即

  • 分布

,例如Gamma分布或对数正态分布

  1. > I1=which(couts$cout<1120)
  2. > I2=which((couts$cout>=1120)&(couts$cout<1220))
  3. > I3=which(couts$cout>=1220)
  4. > (p1=length(I1)/nrow(couts))
  5. [1] 0.3284823
  6. > (p2=length(I2)/nrow(couts))
  7. [1] 0.4152807
  8. > (p3=length(I3)/nrow(couts))
  9. [1] 0.256237
  10. > X=couts$cout
  11. > (kappa=mean(X[I2]))
  12. [1] 1171.998

在上一篇文章中,我们讨论了所有参数可能与某些协变量相关的想法,即

产生以下模型,

对于概率,我们应该使用多项式模型。回忆一下逻辑回归模型,如果

,则

要导出多元扩展

同样,可以使用最大似然,因为

在这里,变量

(分为三个级别)分为三个指标(就像标准回归模型中的任何分类解释变量一样)。从而,

对于逻辑回归,然后使用牛顿拉夫森(Newton Raphson)算法在数值上计算最大似然。在R中,首先我们必须定义级别,例如

  1. > couts$tranches=cut(couts$cout,breaks=seuils,
  2. + labels=c("small","fixed","large"))

然后,我们可以定义一个多分类logistic模型回归

使用一些选定的协变量

  1. > formula=(tranches~ageconducteur+agevehicule+zone+carburant,data=couts)
  2. # weights: 30 (18 variable)
  3. initial value 2113.730043
  4. iter 10 value 2063.326526
  5. iter 20 value 2059.206691
  6. final value 2059.134802
  7. converged

输出在这里

  1. Coefficients:
  2. (Intercept) ageconducteur agevehicule zoneB zoneC
  3. fixed -0.2779176 0.012071029 0.01768260 0.05567183 -0.2126045
  4. large -0.7029836 0.008581459 -0.01426202 0.07608382 0.1007513
  5. zoneD zoneE zoneF carburantE
  6. fixed -0.1548064 -0.2000597 -0.8441011 -0.009224715
  7. large 0.3434686 0.1803350 -0.1969320 0.039414682
  8. Std. Errors:
  9. (Intercept) ageconducteur agevehicule zoneB zoneC zoneD
  10. fixed 0.2371936 0.003738456 0.01013892 0.2259144 0.1776762 0.1838344
  11. large 0.2753840 0.004203217 0.01189342 0.2746457 0.2122819 0.2151504
  12. zoneE zoneF carburantE
  13. fixed 0.1830139 0.3377169 0.1106009
  14. large 0.2160268 0.3624900 0.1243560

为了可视化协变量的影响,还可以使用样条函数

  1. > library(splines)
  2. > reg=(tranches~bs(agevehicule))
  3. # weights: 15 (8 variable)
  4. initial value 2113.730043
  5. iter 10 value 2070.496939
  6. iter 20 value 2069.787720
  7. iter 30 value 2069.659958
  8. final value 2069.479535
  9. converged

例如,如果协变量是汽车的寿命,那么我们有以下概率

  1. > predict(reg,newdata=data.frame(agevehicule=5),type="probs")
  2. small fixed large
  3. 0.3388947 0.3869228 0.2741825

对于0到20岁的所有年龄段,

例如,对于新车,固定成本所占的比例很小(在这里为紫色),并且随着车龄的增长而不断增加。如果协变量是驾驶员居住地区的人口密度,那么我们获得以下概率

  1. # weights: 15 (8 variable)
  2. initial value 2113.730043
  3. iter 10 value 2068.469825
  4. final value 2068.466349
  5. converged
  6. > predict
  7. small fixed large
  8. 0.3484422 0.3473315 0.3042263

基于这些概率,可以在给定一些协变量(例如密度)的情况下得出索赔的预期成本。但首先,定义整个数据集的子集

  1. > sbaseA=couts[couts$tranches=="small",]
  2. > sbaseB=couts[couts$tranches=="fixed",]
  3. > sbaseC=couts[couts$tranches=="large",]

阈值由

  1. > (k=mean(sousbaseB$cout))
  2. [1] 1171.998

然后,让我们运行四个模型,

  1. > reg
  2. > regA
  3. > regB
  4. > regC

现在,我们可以基于这些模型计算预测,

> pred=cbind(predA,predB,predC)

为了可视化每个组成部分对溢价的影响,我们可以计算概率,预期成本(给定每个子集的成本),

  1. > cbind(proba,pred)[seq(10,90,by=10),]
  2. small fixed large predA predB predC
  3. 10 0.3344014 0.4241790 0.2414196 423.3746 1171.998 7135.904
  4. 20 0.3181240 0.4471869 0.2346892 428.2537 1171.998 6451.890
  5. 30 0.3076710 0.4626572 0.2296718 438.5509 1171.998 5499.030
  6. 40 0.3032872 0.4683247 0.2283881 451.4457 1171.998 4615.051
  7. 50 0.3052378 0.4620219 0.2327404 463.8545 1171.998 3961.994
  8. 60 0.3136136 0.4417057 0.2446807 472.3596 1171.998 3586.833
  9. 70 0.3279413 0.4056971 0.2663616 473.3719 1171.998 3513.601
  10. 80 0.3464842 0.3534126 0.3001032 463.5483 1171.998 3840.078
  11. 90 0.3652932 0.2868006 0.3479061 440.4925 1171.998 4912.379

现在,可以将这些数字绘制在图形中,

(水平虚线在我们的数据集中是索赔的平均费用)。


专栏

精算科学

关于结合数学、统计方法以及程序语言对经济活动来做风险分析、评估的见解。

探索专栏


参考文献

1.用SPSS估计HLM层次线性模型模型

2.R语言线性判别分析(LDA),二次判别分析(QDA)和正则判别分析(RDA)

3.基于R语言的lmer混合线性回归模型

4.R语言Gibbs抽样的贝叶斯简单线性回归仿真分析

5.在r语言中使用GAM(广义相加模型)进行电力负荷时间序列分析

6.使用SAS,Stata,HLM,R,SPSS和Mplus的分层线性模型HLM

7.R语言中的岭回归、套索回归、主成分回归:线性模型选择和正则化

8.R语言用线性回归模型预测空气质量臭氧数据

9.R语言分层线性模型案例

r 多元有序logistic回归_R语言多分类logistic逻辑回归模型在混合分布模拟单个风险损失值评估的应用...相关推荐

  1. r语言logistic回归_R语言多分类logistic逻辑回归模型在混合分布模拟单个风险损失值评估的应用...

    原文链接 :http://tecdat.cn/?p=14017​tecdat.cn 通常,我们在回归模型中一直说的一句话是" 请查看一下数据 ". 在上一篇文章中,我们没有查看数据 ...

  2. r 多元有序logistic回归_R实现多分类logistic回归

    多分类logistic回归 在临床研究中,接触最多的是二分类数据,如淋巴癌是否转移,是否死亡,这些因变量最后都可以转换成二分类0与1的问题.然后建立二元logistic回归方程,可以得到影响因素的OR ...

  3. r ridge回归_R语言区间数据回归分析

    原文链接:http://tecdat.cn/?p=14874 通常,GLM的连接函数可能比分布更重要.为了说明,考虑以下数据集,其中包含5个观察值 x = c(1,2,3,4,5)y = c(1,2, ...

  4. R语言使用epiDisplay包的logistic.display函数获取二分类logistic回归模型的汇总统计信息(自变量初始和调整后的优势比及置信区间,回归系数的Wald检验的p值、简化汇总结果

    R语言使用epiDisplay包的logistic.display函数获取二分类logistic回归模型的汇总统计信息(自变量初始和调整后的优势比及置信区间,回归系数的Wald检验的p值.自变量的似然 ...

  5. R语言 | 二分类和多分类的逻辑回归实现

    目录 二分类逻辑回归 数据准备 模型构建 模型检验 多分类逻辑回归 二分类逻辑回归 首先,我先展示下我逻辑回归的总体代码,如果有基础的同志需要的话,可以直接修改数据和参数拿去用呀: library(l ...

  6. R语言使用R基础安装中的glm函数构建乳腺癌二分类预测逻辑回归模型、分类预测器(分类变量)被自动替换为一组虚拟编码变量、summary函数查看检查模型、使用table函数计算混淆矩阵评估分类模型性能

    R语言使用R基础安装中的glm函数构建乳腺癌二分类预测逻辑回归模型(Logistic regression).分类预测器(分类变量)被自动替换为一组虚拟编码变量.summary函数查看检查模型.使用t ...

  7. ML:基于自定义数据集利用Logistic、梯度下降算法GD、LoR逻辑回归、Perceptron感知器、SVM支持向量机、LDA线性判别分析算法进行二分类预测(决策边界可视化)

    ML:基于自定义数据集利用Logistic.梯度下降算法GD.LoR逻辑回归.Perceptron感知器.支持向量机(SVM_Linear.SVM_Rbf).LDA线性判别分析算法进行二分类预测(决策 ...

  8. 使用聚类算法(Kmeans)进行数据降维并作为分类算法逻辑回归(logistic Regression)的数据预处理步骤实战

    使用聚类算法(Kmeans)进行数据降维并作为分类算法逻辑回归(logistic Regression)的数据预处理步骤实战 目录

  9. 机器学习入门与Python实战(三):分类与逻辑回归 Logistic Regression

    目录 现实案例 分类预测 通过股价预测任务区分回归任务与分类任务 分类问题求解 更适合于分类场景的模型:逻辑回归 逻辑回归处理更复杂的分类任务 逻辑回归模型求解 Python实战:商业异常消费数据预测 ...

最新文章

  1. react生命周期和组件生命周期
  2. JSON序列化(stringify)对象时排除某些属性的两种方法
  3. 使用mysql制作学生成绩单_【实例讲解】快速制作学生成绩单
  4. JVM JRE JDK,这些东西到底是什么?(转载)
  5. 不能再任性 APP收集个人信息基本规范公开征求意见
  6. 若依如何修改超级管理员登录密码?
  7. 当大家都不理解你的时候,就是你成就的捷径
  8. 分享一个安全实现JSONP跨域的插件
  9. 在阿里云开源镜像站中下载centOS7
  10. 快速入门Flink (7) —— 小白都喜欢看的Flink流处理之DataSources和DataSinks
  11. asp企业建站系统 最新推出的 免费下载
  12. 读书笔记—趁年轻,折腾吧
  13. 倾斜摄影三维模型、激光点云、正射影像、数字高程模型如何实现在线浏览?
  14. 【洛谷 1516】青蛙的约会
  15. metasploit-framework(MSF)--Github翻译
  16. numpy之多维数组
  17. [2018年工作重点规划] substance designer 使用和工作流,材质库
  18. Java4班题库-传智专修学院Java面试题库三
  19. HCIE认证考下来多少钱?
  20. [转载]Markdown文档中常用的一些符号

热门文章

  1. border-radius的兼容问题
  2. 03构建之法阅读笔记之三
  3. 【linux】关于分析系统问题的前几分钟
  4. jQuery Mobile 笔记(1)- jQuery Mobile页面结构
  5. [Linq]Linq To Xml (待整理)
  6. 拔掉网线时Socket的检查方法
  7. ESP32 SDK OTA Demo升级流程
  8. 机器学习中样本不平衡处理办法
  9. 第五章-分布式并行编程框架MapReduce
  10. 互链网-未来世界的连接方式 (1)央行数字货币CBDC模型