阿里天池---教学赛】金融数据分析赛题2:保险反欺诈预测
目录
赛题背景
赛题数据
赛题任务
一:操作指南
二:数据预处理
赛题背景
赛题以保险风控为背景,保险是重要的金融体系,对社会发展,民生保障起到重要作用。保险欺诈近些年层出不穷,在某些险种上保险欺诈的金额已经占到了理赔金额的20%甚至更多。对保险欺诈的识别成为保险行业中的关键应用场景。
赛题数据
赛题任务
数据集提供了之前客户索赔的车险数据,希望你能开发模型帮助公司预测哪些索赔是欺诈行为
To DO:预测用户的车险是否为欺诈行为
字段 | 说明 |
---|---|
policy_id | 保险编号 |
age | 年龄 |
customer_months | 成为客户的时长,以月为单位 |
policy_bind_date | 保险绑定日期 |
policy_state | 上保险所在地区 |
policy_csl | 组合单一限制Combined Single Limit |
policy_deductable | 保险扣除额 |
policy_annual_premium | 每年的保费 |
umbrella_limit | 保险责任上限 |
insured_zip | 被保人邮编 |
insured_sex | 被保人姓名:FEMALE或者MALE |
insured_education_level | 被保人学历 |
insured_occupation | 被保人职业 |
insured_hobbies | 被保人兴趣爱好 |
insured_relationship | 被保人关系 |
capital-gains | 资本收益 |
capital-loss | 资本损失 |
incident_date | 出险日期 |
incident_type | 出险类型 |
collision_type | 碰撞类型 |
incident_severity | 事故严重程度 |
authorities_contacted | 联系了当地的哪个机构 |
incident_state | 出事所在的省份,已脱敏 |
incident_city | 出事所在的城市,已脱敏 |
incident_hour_of_the_day | 出事所在的小时(一天24小时的哪个时间) |
number_of_vehicles_involved | 涉及的车辆数 |
property_damage | 是否有财产损失 |
bodily_injuries | 身体伤害 |
witnesses | 目击证人 |
police_report_available | 是否有警察记录的报告 |
total_claim_amount | 整体索赔金额 |
injury_claim | 伤害索赔金额 |
property_claim | 财产索赔金额 |
vehicle_claim | 汽车索赔金额 |
auto_make | 汽车品牌,比如Audi, BMW, Toyota, Volkswagen |
auto_model | 汽车型号,比如A3,X5,Camry,Passat等 |
auto_year | 汽车购买的年份 |
fraud | 是否欺诈,1或者0 |
评价标准: AUC, 即ROC曲线下面的面积 (Area under the Curve of ROC)
一:操作指南
1、报名成功后,选手打开参考代码 保险反欺诈预测_天池notebook-阿里云天池
点击右上角“Fork”按钮,将参考代码加载到自己的实验室中进行编辑;
2、数据源:
train.csv 训练集
test.csv 测试集
submission.csv 提交格式
添加数据源后,可以在download中看到
二:数据预处理
1.导入数据
# 导入数据
import pandas as pd
# 数据加载
train = pd.read_csv('./train.csv')
train
test = pd.read_csv('./test.csv')
test
# 合并train, test两个数据
data = pd.concat([train, test], axis=0)
data
#查看数据长度
data.index = range(len(data))
data
## 数据探索
data.isnull().sum()
# 唯一值个数
for col in data.columns:
print(col, data[col].nunique())
# 单独看某个字段
data['property_damage'].value_counts()
data['property_damage'] = data['property_damage'].map({'NO': 0, 'YES': 1, '?': 2})
data['property_damage'].value_counts()
data['police_report_available'].value_counts()
data['police_report_available'] = data['police_report_available'].map({'NO': 0, 'YES': 1, '?': 2})
data['police_report_available'].value_counts()
# policy_bind_date, incident_date
data['policy_bind_date'] = pd.to_datetime(data['policy_bind_date'])
data['incident_date'] = pd.to_datetime(data['incident_date'])
# 查看最大日期,最小日期
data['policy_bind_date'].min() # 1990-01-08
data['policy_bind_date'].max() # 2015-02-22
data['incident_date'].min() # 2015-01-01
data['incident_date'].max() # 2015-03-01
base_date = data['policy_bind_date'].min()
# 转换为date_diff
data['policy_bind_date_diff'] = (data['policy_bind_date'] - base_date).dt.days
data['incident_date_diff'] = (data['incident_date'] - base_date).dt.days
data['incident_date_policy_bind_date_diff'] = data['incident_date_diff'] - data['policy_bind_date_diff']
data[['policy_bind_date', 'incident_date', 'policy_bind_date_diff', 'incident_date_diff', 'incident_date_policy_bind_date_diff']]
# 去掉原始日期字段 policy_bind_date incident_date
data.drop(['policy_bind_date', 'incident_date'], axis=1, inplace=True)
data
阿里天池---教学赛】金融数据分析赛题2:保险反欺诈预测相关推荐
- 阿里天池金融数据分析赛题2:保险反欺诈预测baseline
金融数据分析赛题2:保险反欺诈预测baseline 好久没写baseline了,最近逛比赛的时候突然看到阿里新人赛又出新题目了,索性写个baseline给初学者,昨天晚上把比赛数据下载了,然后随便跑了 ...
- 天池学习赛-保险反欺诈预测参考代码过程
目录 一.赛题背景 二.数据加载 1.导入相关库 2.导入训练集: 3.导入测试集: 三.合并数据集(对train和test进行合并) 四.数据清洗 五.对数据唯一值个数进行处理 六.对日期特征进行处 ...
- 阿里天池--金融数据分析赛题1:银行客户认购产品预测
赛题简介 银行客户认购产品预测 赛题以银行产品认购预测为背景,想让你来预测下客户是否会购买银行的产品.在和客户沟通的过程中,我们记录了和客户联系的次数,上一次联系的时长,上一次联系的时间间隔,同时在银 ...
- 【教学赛】金融数据分析赛题1:银行客户认购产品预测(0.9676)
本文是对天池教学赛,银行客户认购产品预测的记录,教学赛网址如下: [教学赛]金融数据分析赛题1:银行客户认购产品预测_学习赛_天池大赛-阿里云天池 1. 读取数据 import pandas as p ...
- 金融数据分析赛题1:银行客户认购产品预测学习赛心得
目录 一.auto框架介绍 二.赛题背景: 三.赛题数据: 四.项目分析 (一).利用autogluon对训练集进行自动分析 1.首先导入所需要的外部库 2.读取数据,并进行标注 3.输入到Tabul ...
- 天池项目金融数据分析赛题1:银行客户认购产品预测
赛题简介 本次教学赛是陈博士发起的数据分析系列赛事第1场 -- 银行客户认购产品预测 赛题以银行产品认购预测为背景,想让你来预测下客户是否会购买银行的产品.在和客户沟通的过程中,我们记录了和客户联系的 ...
- 项目实例---金融---用机器学习构建模型,进行信用卡反欺诈预测
来源: 用机器学习构建模型,进行信用卡反欺诈预测 反欺诈中所用到的机器学习模型有哪些? Credit card fraud detection 构建信用卡反欺诈预测模型--机器学习 信用卡交易数据相关 ...
- 天池教学赛:银行客户认购产品预测
目录 前言 一.赛题背景 二.数据探索 1.读取数据 2.查看数据统计量 duration分箱展示 3.查看数据分布 4.数据相关图 5.其它变量可视化展示 三.数据建模 四.特征输出 五.最终成绩 ...
- 阿里天池_优秀策略答辩PPT和相关博客
简介 前段时间想熟悉下机器学习完整项目,选择了阿里之前的一个相对实际的移动推荐项目(实际是分类,并非推荐),有兴趣自己研究.将本人参考借鉴的blog和ppt做了简单整理回顾.加深下印象 阿里天池大数据 ...
最新文章
- 干货丨2017年AI与深度学习要点大全
- Redis的各项功能解决了哪些问题?
- linux-RPM与YUM
- 22504!Windows 11 新预览版发布
- Spring入门-框架搭建
- 第 10 章 数组和指针
- 简谈Java的join()方法(转)
- 继续SecureString
- apache+tomcat+jk配置负载均衡
- 如何使用STL寫XML轉檔程式? (C/C++) (STL) (Web) (XML)
- mac整站下载工具wget
- quot 云计算 quot 是计算机,云计算是什么意思?
- 2022-2027年中国电动汽车充电站行业发展监测及投资战略研究报告
- Android 12 已来,你的 App 崩溃了吗?
- 华为u8500在usb模式下logcat无法打印信息
- 犬类水疗跑步机的全球与中国市场2022-2028年:技术、参与者、趋势、市场规模及占有率研究报告
- 一个不重复的随机数发生函数
- 2021-06-10-APP PUSH推送机制
- eclipse点餐系统的框架
- springCloud笔记——微服务介绍
热门文章
- 《实用机器学习》(孙亮 黄倩.著)笔记——第七章 基于内容的推荐算法
- Linux USB 驱动入门之发送SCSI 指令READ_10给U盘读取数据
- ICP许可证和EDI许可证有什么不同?ICP许可证和EDI许可证区别在哪儿?
- 什么是Java面向对象(实例详解)
- 品味男人:时尚男人的九大美化武器
- 三马争霸消费积分 腾讯强化大数据布局
- 靠板凳战胜实德晋级 回家战国安高指还打年轻牌
- JavaScript面向对象焦点图片轮播banner
- java sap总账凭证接口_SAP系统接口自动生成会计凭证且无需记账码的方法与流程...
- android打电话报告,Android开发学习——打电话应用(示例代码)