摘要

本文以某财产保险公司的汽车保险数据为样本,包括了保单类型、车辆驾驶人性别、年龄、车龄、驾驶人年龄分组、车辆所属地区、车年数、索赔次数和保险期间的累计赔付总额。运用python对数据进行描述性分析、相关分析及分类分析,同时运用逻辑回归模型算法对客户是否会发生索赔进行预测。分析得出影响客户索赔的几个因素,为财产保险公司进行合理规划风险客户提出建议,帮助保险公司规避风险。

该报告相关代码在:https://www.heywhale.com/mw/project/6409b11b96002ef5b01e54ac

关键字

保险公司汽车保险描述性分析分类分析逻辑回归模型预测

引言

索赔是保险公司经常需要处理的业务,把索赔发生的概率、以及在什么情况下了解索赔发生的概率最大掌握住,是保险公司规避风险的重要工作。降低索赔次数可以帮助保险公司实现更多的利润,同时,也有助于保险公司保持稳健经营。本次分析的目的是通过对某财产汽车保险公司的保险数据的分析,找到对汽车保险发生索赔概率的影响因素。

  1. 研究背景与研究目标

  1. 研究背景

随着汽车行业的发展,汽车保险公司的业务也在不断发展,现阶段汽车保险公司通过对保险索赔数据的收集分析,数据挖掘能够找到影响索赔的因素,从而帮助保险公司规避风险。本文数据来自网络,为某个财产保险公司的部分汽车保险数据。

  1. 研究目标

通过汽车保险数据预测索赔发生概率。通常保险公司会通过客户的数据来判断该客户是否会对公司进行索赔。通过已收集到的客户信息及索赔发生情况来预测索赔发生概率,同时为保险公司提出合理化建议。

  1. 数据收集与数据预处理

  1. 数据收集

本文数据来自于网络,包含了保险公司客户的一些基本信息、索赔信息,共12873条。信息共有9个变量,字段信息如下表所示:

变量

含义

保单类型

包括转入、新车、续保1年、续保2年、续保3年以上5个水平

性别

男性,女性

车龄

取值1-10年

年龄

取值18-70岁

年龄分组

1-7组

地区

北京、上海、天津、重庆、深圳

车年数

车年数

索赔次数

索赔次数

赔付总额

保险期间的累计赔付总额

  1. 数据预处理

  1. 缺失值数据处理

通过数据信息描述可知所有字段数量均为12873条,没有缺失值。

  1. 重复数据处理

通过对数据的检查分析,未发现重复数据。但对字段特征进行分析后发现,年龄和年龄分组存在严重的多重共线性问题,车年数和索赔次数存在较强的多重共线性问题,在后续的逻辑回归建模中会删掉年龄和车年数这两个特征。

  1. 异常数据处理

对数值型数据进行描述性分析,发现车年数、索赔次数、赔付总额有较多的异常值,本案例中异常值保留分析。

  1. 数据描述性分析

  1. 整体样本数据分析

对数据样本进行结果(索赔、不索赔)所占比例进行占比描述。要求索赔的客户占数据总量的71.68%,不要求索赔的客户占比28.32%,相差3倍左右,整体样本比较均衡合理。

  1. 定性数据分析

对性别、地区、保单类型和年龄分组定性数据进行分析,发现转入的保单和续保1年的保单占比比较大,驾驶人年龄集中在30-50岁,地区分布比较均匀。

  1. 相关性分析

  1. 非数值类型数据处理

为了更好地分析数据间特征的相关性,讲定性变量使用label Encoding函数进行编号处理。其中包括性别,地区,保单类型。

  1. 相关系数图表分析

对数值型数据进行相关性分析,明显看出年龄和年龄分组、车年数和索赔次数、车年数和赔付总额、索赔次数和赔付总额存在的多重共线性。为了更加严谨,继续用方差膨胀系数法(VIF检验)检验多重共线性问题,一般认为VIF<10时,不存在多重共线性;10<=VIF<100 较强的多重共线性;VIF>=100严重的多重共线性。

  1. 数据建模与分析

  1. 类别变量编码转换

在机器学习应用中,特征工程是一件非常重要的事情,数据集中经常遇到离散变量,而机器学习算法只认识数值变量。因此针对本次的数据,在建模之前运用Sklearn库的label Encoding函数对定性数据进行编号处理。同时原数据集中没有索赔是否发生的二分类变量,可以通过索赔次数变量生成新的变量明“是否索赔”,生成索赔是否发生的二分类变量 1是0 否。

  1. 数据集划分

有监督的机器学习需要拆分数据集为训练集和测试集,本文通过Sklearn库的model_selection包train_test_split函数进行数据拆分,拆分比例为:训练集比测试集为7比3。

  1. 模型建立与评估

  1. 逻辑回归模型

逻辑回归也是一种广义线性回归(generalized linear model)模型。逻辑回归虽然名字里带“回归”,但它实际上是一种分类方法,主要用于二分类问题,也可以处理多分类问题。逻辑回归模型本质就是将线性回归模型通过 Sigmoid 函数进行了一个非线性转换,得到一个介于 0~1 之间的概率值。本文通过 sklearn 库 linear_model 包中的 LogisticRegression 函数进行逻辑回归模型的建立。通过代码计算得知AUC值为100%,ROC曲线如下图所示:

  1. 逻辑回归模型总结

由于网上的数据经过脱敏和优化处理,使得模型的整体效果很好。

回归分析之汽车保险数据分析相关推荐

  1. 计算机进行回归分析,excel表格数据分析回归的模型是-excel数据分析线性回归中MS,SS,F,DF分别是什么意思...

    excel回归结果的每个值 都是什么含义,都是怎么来的? SS表示均值偏差的平方和和数据的总变化量. F是F的值,F是方差分析得到的统计量,用来检验回归方程是否显著. DF表示自由度,自由度是在计算某 ...

  2. 小白学数据分析-----回归分析在游戏人气分析的应用探索

    昨天简单说了一下相关分析在充值购买失衡方面的应用,今天就接着昨天的话题,说一下回归分析(Regression  Analysis),回归分析是研究一个变量(因变量)和另一个变量(自变量)关系的统计方法 ...

  3. 小白学数据分析--回归分析在游戏人气分析的应用探索

    小白学数据分析--回归分析在游戏人气分析的应用探索 昨天简单说了一下相关分析在充值购买失衡方面的应用,今天就接着昨天的话题,说一下回归分析(Regression  Analysis),回归分析是研究一 ...

  4. matlab多元回归模型分析,matlab多元回归工具箱 Excel数据分析工具进行多元回归分析.doc...

    matlab多元回归工具箱 Excel数据分析工具进行多元回归分析.doc matlab多元回归工具箱 Excel数据分析工具进行多元回归分析 导读:就爱阅读网友为您分享以下"Excel数据 ...

  5. python 数据分析学什么-如何在业余时学数据分析?

    高票答案分两种. 一是提供学习资源的,各种经典书籍.网站教程,都很好,能够为初学者减少很多资源筛选的时间.但对于很多浮躁的小白来说,无疑是目标缺失的,每一部分学完能做什么,如何应用,是一个很大的问题. ...

  6. 关于数据分析:你想知道的都在这里!

    本篇学习整理笔记来源于:简书@功彬eleven.<谁说菜鸟不会数据分析>.公众号:杜王丹.公众号:数据分析. 在原作者的基础上进行整理分类,将本篇分为:数据分析的概念.做数据分析的原因.数 ...

  7. R循环有两个_R语言数据分析与挖掘(第九章):聚类分析(2)——层次聚类

    层次聚类(hierarchical clustering)基于簇间的相似度在不同层次上分析数据,从而形成树形的聚类结构,层次聚类一般有两种划分策略:自底向上的聚合(agglomerative)策略和自 ...

  8. python数据分析-如何在业余时学数据分析?

    高票答案分两种. 一是提供学习资源的,各种经典书籍.网站教程,都很好,能够为初学者减少很多资源筛选的时间.但对于很多浮躁的小白来说,无疑是目标缺失的,每一部分学完能做什么,如何应用,是一个很大的问题. ...

  9. spss聚类分析_【SPSS数据分析】SPSS聚类分析的软件操作与结果解读 ——【杏花开生物医药统计】...

    在对数据进行统计分析时,我们会遇到将一些数据进行分类处理的情况,但是又没有明确分类标准,这时候就需要用到SPSS聚类分析. SPSS聚类分析分为两种:一种为R型聚类,是针对变量进行的聚类分析:另一种为 ...

最新文章

  1. 笔记本电脑u盘装linux系统,用U盘给Linux笔记本电脑重装Win7/XP系统的图文教程
  2. 农信互联X联网副总冯兴臣:关于互农产品的一些思考
  3. Linux调试分析诊断利器----strace
  4. Kafka 入门和 Spring Boot 集成
  5. LeetCode 1048. 最长字符串链(哈希+DP)
  6. spring源码分析第一天------源码分析知识储备
  7. NodeJS中使用SQLite3
  8. 2019最新k8s集群搭建教程 (centos k8s 搭建)
  9. C++deque双端队列
  10. Java IO3:字符流
  11. java中res是什么意思_java中的set是什么意思
  12. LAMP 3.1 mysql的root密码重置
  13. NYOJ -11--奇偶数分离
  14. windows cmd命令行查看结束进程
  15. 超像素学习笔记(1)——概念及判别条件
  16. 《俗人笔记》之《Java基础语法下》
  17. Ivor Horton‘s Beginning Visual C++ 2013 - Visual C++ 2013 入门经典
  18. 5款高逼格实用手机APP推荐,千万不能错过!
  19. linux动态链接库全局变量共享问题DLL共享数据段
  20. 记一次docker环境搭建笔记

热门文章

  1. 22-08-08 西安 尚医通(04)MongoDB命令、MongoTemplate、MongoRepository
  2. 鸡尾酒疗法(C语言)
  3. ARFoundation☀️ 八、SARF:ARFoundation可视化插件
  4. redis value最大值_Redis value的5种类型及常见操作
  5. rn_xtcxyczjh-1 功能 封装 通用 回调
  6. 遗传算法求解香蕉函数极大值
  7. linux ssd加速机械硬盘,关于linux:机械硬盘随机IO慢的超乎你的想象
  8. [Python 爬虫之路3] 使用seletom,爬取淘女郎-美人库的内容
  9. c语言二分法查找数组元素,c语言二分法如何实现查找数组元素
  10. 关于UWB(超宽带)