kaggle数据挖掘竞赛Home Credit Default Risk讲解
1.从常理来说这种预测的结果应该是0,1,也就是分为欺诈和不欺诈两种,一般衡量指标为accuracy,但是如果这样会有缺点,因为可以预测所有人都是不欺诈的,这时accuracy的值就会很大,但这样的方案无法应用。所以这里把预测的结果写为连续,这样衡量指标就可以主要用ROC,AUC和F1 Score作为衡量指标,也更准确了。
2.EDA(Exploratory Data Analysis)
探索性数据分析(EDA)是一个开放的过程,在这个过程中,我们计算统计数据并生成图表,以发现数据中的趋势、异常、模式或关系。EDA的目标是了解我们的数据能告诉我们什么。它通常从一个高层次的概述开始,然后随着我们发现数据的有趣领域而缩小到特定的领域。这些发现本身可能很有趣,或者可以用来通知我们的建模选择,比如帮助我们决定使用哪些特性。
- 考察目标的分布
从这个信息,我们看到这是一个不平衡的分类问题。按时偿还的贷款远远多于未偿还的贷款。一旦我们进入更复杂的机器学习模型,我们就可以通过类在数据中的表示来对类进行加权,以反映这种不平衡。
- 考察每列缺失数据的比例
# Function to calculate missing values by column# Funct
def missing_values_table(df):# Total missing valuesmis_val = df.isnull().sum()# Percentage of missing valuesmis_val_percent = 100 * df.isnull().sum() / len(df)# Make a table with the resultsmis_val_table = pd.concat([mis_val, mis_val_percent], axis=1)# Rename the columnsmis_val_table_ren_columns = mis_val_table.rename(columns = {0 : 'Missing Values', 1 : '% of Total Values'})# Sort the table by percentage of missing descendingmis_val_table_ren_columns = mis_val_table_ren_columns[mis_val_table_ren_columns.iloc[:,1] != 0].sort_values('% of Total Values', ascending=False).round(1)# Print some summary informationprint ("Your selected dataframe has " + str(df.shape[1]) + " columns.\n" "There are " + str(mis_val_table_ren_columns.shape[0]) +" columns that have missing values.")# Return the dataframe with missing informationreturn mis_val_table_ren_columns
有两个方法处理缺失数据,一是填充,二是丢掉缺失比例大的列。
- 查看列数据类别
- 查看种类为object的列的数据种类
- 因为大部分模型无法处理类别变量(除了lightgbm),要找到方法来处理这些类别变量
- 分为两种处理方法,一个是label encoding(也就是每个类别一个数字),或者one-hot encoding
- 标签编码的问题是,它给类别一个任意的顺序。分配给每个类别的值是随机的,不反映类别的任何固有方面。在上面的例子中,程序员接收到4和数据科学家1,但是如果我们再次执行相同的过程,标签可能被颠倒或者完全不同。整数的实际赋值是任意的。因此,当我们执行标签编码时,模型可能会使用特性的相对值(例如程序员= 4和数据科学家= 1)来分配不是w的权重。
- 在这里把2个类别的,大于2个类别的用one-hot
- 如果发现train和test数据集列不齐要进行对齐操作
- 可以计算一下target与各列数据的相关系数
- 可以计算各属性之间的相关系数(形成一个二维矩阵)
kaggle数据挖掘竞赛Home Credit Default Risk讲解相关推荐
- kaggle竞赛 - Home Credit Default Risk金牌心得
转自:知乎 https://zhuanlan.zhihu.com/p/43323121 正文 最优单模已在kaggle分享,本地CV为7993,线上最终的私榜成绩为7996,我们最终融合的成绩为801 ...
- Kaggle竞赛介绍: Home Credit default risk(一)
请点击上方"AI公园",关注公众号 本文选自Kaggle 作者:Will Koehrsen 编译:ronghuaiyang Kaggle的信用卡违约风险预测竞赛,非常有参考价值,做 ...
- Kaggle:Home Credit Default Risk 特征工程构建及可视化(2)
博主在之前的博客 Kaggle:Home Credit Default Risk 数据探索及可视化(1) 中介绍了 Home Credit Default Risk 竞赛中一个优秀 kernel 关于 ...
- Home Credit Default Risk 违约风险预测,kaggle比赛,初级篇,LB 0.749
Home Credit Default Risk 结论 背景知识 数据集 数据分析 平衡度 数据缺失 数据类型 离群值 填充缺失值 建模 Logistic Regression LightGBM Fe ...
- Home Credit Default Risk(1) — 背景介绍
总体介绍 Home Credit Default Risk是Home Credit公司在kaggle上的一个信贷风险评估竞赛.其提供的数据文件描述及文件间关联关系如下: 有些金融专有名词尤其是一些 ...
- home credit default risk捷信消费金融违约风险模型复现(论文_毕业设计_作业)
你能预测每个申请人偿还贷款的能力吗?由于信用记录不足或不存在,许多人难以获得贷款.而且,不幸的是,这些人经常被不可靠的贷方利用,例如高利贷,校园贷. 捷信努力为没有银行账户的人群扩大金融包容性.为了确 ...
- home credit default risk(捷信违约风险)机器学习模型复现(论文_毕业设计_作业)
你能预测每个申请人偿还贷款的能力吗?由于信用记录不足或不存在,许多人难以获得贷款.而且,不幸的是,这些人经常被不可靠的贷方利用,例如高利贷,校园贷. 捷信努力为没有银行账户的人群扩大金融包容性.为了确 ...
- 【陆勤阅读】参加kaggle数据挖掘竞赛是怎样一种体验?
转载自: http://www.wtoutiao.com/p/mf57Hk.html 数据科学自媒体 · 2015-08-02 05:46 先贴下Kaggle Profile以示诚意(https:// ...
- kaggle数据挖掘竞赛--信用卡违约风险评估模型
本例程是通过客户提供的信息分析客户会产生违约的可能性.由此来判断是否要给客户提供贷款.背景内容不再多说,数据相关的解释在代码中会有注释.运行中缺失的包请自行安装,我这里的环境是anaconda 直接上 ...
最新文章
- pycharm自定义格式化
- mysql ddl 语法解析工具_sharding-sphere之语法解析器
- 包装类java_Java 包装类
- matlab sort descend,详解Matlab中 sort 函数用法
- 人工智能发展史_人工智能发展史:4张图看尽AI重大里程碑
- php在四线城市待遇如何,月薪5000元在四线城市算什么水平,丢人吗?
- 在Ubuntu 18.04系统中使用Netplan工具配置网络
- 利用DllPlugin分割你的第三方库
- 2022年NPS基准:NPS分数达到多少算好?
- 树形结构的处理——组合模式
- 台风怎么看内存颗粒_高体质CJR颗粒!七彩虹CVN捍卫者内存评测
- 人要像鹰一样重生、蜕变、成长
- 帝国塔防2 empire defence 2的攻略
- html背景多图片拼接,将多个图片整合到一张图片中再用css_进行网页背景定位.
- XML的两种常见格式
- 剑魂之刃登录显示服务器异常,《剑魂之刃》更新后链接服务器失败的原因及解决办法...
- 职场必备!学会这4个技巧,便可轻松操作Excel!
- Java-互联网通信流程介绍【基础】
- 英语单词的形象联想组合记忆法
- java 挡泥板_VIN原厂配置查询
热门文章
- 比特币开发者:BSC可能会超越以太坊成为顶级智能合约平台
- SAP License:SAP系统的优点和功能
- SAP License:SAP 清帐函数示例
- 想要羊毛薅得少,欺诈防控少不了
- 【Axure电商原型】电商APP高保真原型+移动端通用版电商app模板+用户中心+会员体系+内容推荐+社区体系+运营推广+订单流程+运营活动+订单管理+售后及服务+秒杀专区+特惠推荐+高保真移动端电商
- 【代码备份】ORACLE数据库表同步DBLINK
- Luogu P1039 侦探推理(模拟+枚举)
- Git使用教程之从远程库克隆项目(四)
- SSO的几种跨域方案
- Http GET、Post方式的请求总结