目录

赛题背景

赛题数据

赛题任务

一:操作指南

二:数据预处理


赛题背景

赛题以保险风控为背景,保险是重要的金融体系,对社会发展,民生保障起到重要作用。保险欺诈近些年层出不穷,在某些险种上保险欺诈的金额已经占到了理赔金额的20%甚至更多。对保险欺诈的识别成为保险行业中的关键应用场景。

赛题数据

赛题任务

数据集提供了之前客户索赔的车险数据,希望你能开发模型帮助公司预测哪些索赔是欺诈行为
To DO:预测用户的车险是否为欺诈行为

字段 说明
policy_id 保险编号
age 年龄
customer_months 成为客户的时长,以月为单位
policy_bind_date 保险绑定日期
policy_state 上保险所在地区
policy_csl 组合单一限制Combined Single Limit
policy_deductable 保险扣除额
policy_annual_premium 每年的保费
umbrella_limit 保险责任上限
insured_zip 被保人邮编
insured_sex 被保人姓名:FEMALE或者MALE
insured_education_level 被保人学历
insured_occupation 被保人职业
insured_hobbies 被保人兴趣爱好
insured_relationship 被保人关系
capital-gains 资本收益
capital-loss 资本损失
incident_date 出险日期
incident_type 出险类型
collision_type 碰撞类型
incident_severity 事故严重程度
authorities_contacted 联系了当地的哪个机构
incident_state 出事所在的省份,已脱敏
incident_city 出事所在的城市,已脱敏
incident_hour_of_the_day 出事所在的小时(一天24小时的哪个时间)
number_of_vehicles_involved 涉及的车辆数
property_damage 是否有财产损失
bodily_injuries 身体伤害
witnesses 目击证人
police_report_available 是否有警察记录的报告
total_claim_amount 整体索赔金额
injury_claim 伤害索赔金额
property_claim 财产索赔金额
vehicle_claim 汽车索赔金额
auto_make 汽车品牌,比如Audi, BMW, Toyota, Volkswagen
auto_model 汽车型号,比如A3,X5,Camry,Passat等
auto_year 汽车购买的年份
fraud 是否欺诈,1或者0

评价标准: AUC, 即ROC曲线下面的面积 (Area under the Curve of ROC)

一:操作指南

1、报名成功后,选手打开参考代码 保险反欺诈预测_天池notebook-阿里云天池
点击右上角“Fork”按钮,将参考代码加载到自己的实验室中进行编辑;

2、数据源:
train.csv 训练集
test.csv 测试集
submission.csv 提交格式
添加数据源后,可以在download中看到

二:数据预处理

1.导入数据

# 导入数据

import pandas as pd

# 数据加载
train = pd.read_csv('./train.csv')
train

test = pd.read_csv('./test.csv')
test

# 合并train, test两个数据
data = pd.concat([train, test], axis=0)
data

#查看数据长度

data.index = range(len(data))
data

## 数据探索
data.isnull().sum()

# 唯一值个数
for col in data.columns:
    print(col, data[col].nunique())

# 单独看某个字段
data['property_damage'].value_counts()
data['property_damage'] = data['property_damage'].map({'NO': 0, 'YES': 1, '?': 2})
data['property_damage'].value_counts()

data['police_report_available'].value_counts()
data['police_report_available'] = data['police_report_available'].map({'NO': 0, 'YES': 1, '?': 2})
data['police_report_available'].value_counts()

# policy_bind_date, incident_date
data['policy_bind_date'] = pd.to_datetime(data['policy_bind_date'])
data['incident_date'] = pd.to_datetime(data['incident_date'])

# 查看最大日期,最小日期
data['policy_bind_date'].min() # 1990-01-08
data['policy_bind_date'].max() # 2015-02-22

data['incident_date'].min() # 2015-01-01
data['incident_date'].max() # 2015-03-01

base_date = data['policy_bind_date'].min()
# 转换为date_diff
data['policy_bind_date_diff'] = (data['policy_bind_date'] - base_date).dt.days

data['incident_date_diff'] = (data['incident_date'] - base_date).dt.days
data['incident_date_policy_bind_date_diff'] = data['incident_date_diff'] - data['policy_bind_date_diff']
data[['policy_bind_date', 'incident_date', 'policy_bind_date_diff', 'incident_date_diff', 'incident_date_policy_bind_date_diff']]

# 去掉原始日期字段 policy_bind_date    incident_date
data.drop(['policy_bind_date', 'incident_date'], axis=1, inplace=True)
data

阿里天池---教学赛】金融数据分析赛题2:保险反欺诈预测相关推荐

  1. 阿里天池金融数据分析赛题2:保险反欺诈预测baseline

    金融数据分析赛题2:保险反欺诈预测baseline 好久没写baseline了,最近逛比赛的时候突然看到阿里新人赛又出新题目了,索性写个baseline给初学者,昨天晚上把比赛数据下载了,然后随便跑了 ...

  2. 天池学习赛-保险反欺诈预测参考代码过程

    目录 一.赛题背景 二.数据加载 1.导入相关库 2.导入训练集: 3.导入测试集: 三.合并数据集(对train和test进行合并) 四.数据清洗 五.对数据唯一值个数进行处理 六.对日期特征进行处 ...

  3. 阿里天池--金融数据分析赛题1:银行客户认购产品预测

    赛题简介 银行客户认购产品预测 赛题以银行产品认购预测为背景,想让你来预测下客户是否会购买银行的产品.在和客户沟通的过程中,我们记录了和客户联系的次数,上一次联系的时长,上一次联系的时间间隔,同时在银 ...

  4. 【教学赛】金融数据分析赛题1:银行客户认购产品预测(0.9676)

    本文是对天池教学赛,银行客户认购产品预测的记录,教学赛网址如下: [教学赛]金融数据分析赛题1:银行客户认购产品预测_学习赛_天池大赛-阿里云天池 1. 读取数据 import pandas as p ...

  5. 金融数据分析赛题1:银行客户认购产品预测学习赛心得

    目录 一.auto框架介绍 二.赛题背景: 三.赛题数据: 四.项目分析 (一).利用autogluon对训练集进行自动分析 1.首先导入所需要的外部库 2.读取数据,并进行标注 3.输入到Tabul ...

  6. 天池项目金融数据分析赛题1:银行客户认购产品预测

    赛题简介 本次教学赛是陈博士发起的数据分析系列赛事第1场 -- 银行客户认购产品预测 赛题以银行产品认购预测为背景,想让你来预测下客户是否会购买银行的产品.在和客户沟通的过程中,我们记录了和客户联系的 ...

  7. 项目实例---金融---用机器学习构建模型,进行信用卡反欺诈预测

    来源: 用机器学习构建模型,进行信用卡反欺诈预测 反欺诈中所用到的机器学习模型有哪些? Credit card fraud detection 构建信用卡反欺诈预测模型--机器学习 信用卡交易数据相关 ...

  8. 天池教学赛:银行客户认购产品预测

    目录 前言 一.赛题背景 二.数据探索 1.读取数据 2.查看数据统计量 duration分箱展示 3.查看数据分布 4.数据相关图 5.其它变量可视化展示 三.数据建模 四.特征输出 五.最终成绩 ...

  9. 阿里天池_优秀策略答辩PPT和相关博客

    简介 前段时间想熟悉下机器学习完整项目,选择了阿里之前的一个相对实际的移动推荐项目(实际是分类,并非推荐),有兴趣自己研究.将本人参考借鉴的blog和ppt做了简单整理回顾.加深下印象 阿里天池大数据 ...

最新文章

  1. 干货丨2017年AI与深度学习要点大全
  2. Redis的各项功能解决了哪些问题?
  3. linux-RPM与YUM
  4. 22504!Windows 11 新预览版发布
  5. Spring入门-框架搭建
  6. 第 10 章 数组和指针
  7. 简谈Java的join()方法(转)
  8. 继续SecureString
  9. apache+tomcat+jk配置负载均衡
  10. 如何使用STL寫XML轉檔程式? (C/C++) (STL) (Web) (XML)
  11. mac整站下载工具wget
  12. quot 云计算 quot 是计算机,云计算是什么意思?
  13. 2022-2027年中国电动汽车充电站行业发展监测及投资战略研究报告
  14. Android 12 已来,你的 App 崩溃了吗?
  15. 华为u8500在usb模式下logcat无法打印信息
  16. 犬类水疗跑步机的全球与中国市场2022-2028年:技术、参与者、趋势、市场规模及占有率研究报告
  17. 一个不重复的随机数发生函数
  18. 2021-06-10-APP PUSH推送机制
  19. eclipse点餐系统的框架
  20. springCloud笔记——微服务介绍

热门文章

  1. 《实用机器学习》(孙亮 黄倩.著)笔记——第七章 基于内容的推荐算法
  2. Linux USB 驱动入门之发送SCSI 指令READ_10给U盘读取数据
  3. ICP许可证和EDI许可证有什么不同?ICP许可证和EDI许可证区别在哪儿?
  4. 什么是Java面向对象(实例详解)
  5. 品味男人:时尚男人的九大美化武器
  6. 三马争霸消费积分 腾讯强化大数据布局
  7. 靠板凳战胜实德晋级 回家战国安高指还打年轻牌
  8. JavaScript面向对象焦点图片轮播banner
  9. java sap总账凭证接口_SAP系统接口自动生成会计凭证且无需记账码的方法与流程...
  10. android打电话报告,Android开发学习——打电话应用(示例代码)