1.从常理来说这种预测的结果应该是0,1,也就是分为欺诈和不欺诈两种,一般衡量指标为accuracy,但是如果这样会有缺点,因为可以预测所有人都是不欺诈的,这时accuracy的值就会很大,但这样的方案无法应用。所以这里把预测的结果写为连续,这样衡量指标就可以主要用ROC,AUC和F1 Score作为衡量指标,也更准确了。

2.EDA(Exploratory Data Analysis)

探索性数据分析(EDA)是一个开放的过程,在这个过程中,我们计算统计数据并生成图表,以发现数据中的趋势、异常、模式或关系。EDA的目标是了解我们的数据能告诉我们什么。它通常从一个高层次的概述开始,然后随着我们发现数据的有趣领域而缩小到特定的领域。这些发现本身可能很有趣,或者可以用来通知我们的建模选择,比如帮助我们决定使用哪些特性。

  • 考察目标的分布

从这个信息,我们看到这是一个不平衡的分类问题。按时偿还的贷款远远多于未偿还的贷款。一旦我们进入更复杂的机器学习模型,我们就可以通过类在数据中的表示来对类进行加权,以反映这种不平衡。

  • 考察每列缺失数据的比例
# Function to calculate missing values by column# Funct
def missing_values_table(df):# Total missing valuesmis_val = df.isnull().sum()# Percentage of missing valuesmis_val_percent = 100 * df.isnull().sum() / len(df)# Make a table with the resultsmis_val_table = pd.concat([mis_val, mis_val_percent], axis=1)# Rename the columnsmis_val_table_ren_columns = mis_val_table.rename(columns = {0 : 'Missing Values', 1 : '% of Total Values'})# Sort the table by percentage of missing descendingmis_val_table_ren_columns = mis_val_table_ren_columns[mis_val_table_ren_columns.iloc[:,1] != 0].sort_values('% of Total Values', ascending=False).round(1)# Print some summary informationprint ("Your selected dataframe has " + str(df.shape[1]) + " columns.\n"      "There are " + str(mis_val_table_ren_columns.shape[0]) +" columns that have missing values.")# Return the dataframe with missing informationreturn mis_val_table_ren_columns

有两个方法处理缺失数据,一是填充,二是丢掉缺失比例大的列。

  • 查看列数据类别
  • 查看种类为object的列的数据种类
  • 因为大部分模型无法处理类别变量(除了lightgbm),要找到方法来处理这些类别变量
  • 分为两种处理方法,一个是label encoding(也就是每个类别一个数字),或者one-hot encoding
  • 标签编码的问题是,它给类别一个任意的顺序。分配给每个类别的值是随机的,不反映类别的任何固有方面。在上面的例子中,程序员接收到4和数据科学家1,但是如果我们再次执行相同的过程,标签可能被颠倒或者完全不同。整数的实际赋值是任意的。因此,当我们执行标签编码时,模型可能会使用特性的相对值(例如程序员= 4和数据科学家= 1)来分配不是w的权重。
  • 在这里把2个类别的,大于2个类别的用one-hot
  • 如果发现train和test数据集列不齐要进行对齐操作
  • 可以计算一下target与各列数据的相关系数
  • 可以计算各属性之间的相关系数(形成一个二维矩阵)

kaggle数据挖掘竞赛Home Credit Default Risk讲解相关推荐

  1. kaggle竞赛 - Home Credit Default Risk金牌心得

    转自:知乎 https://zhuanlan.zhihu.com/p/43323121 正文 最优单模已在kaggle分享,本地CV为7993,线上最终的私榜成绩为7996,我们最终融合的成绩为801 ...

  2. Kaggle竞赛介绍: Home Credit default risk(一)

    请点击上方"AI公园",关注公众号 本文选自Kaggle 作者:Will Koehrsen 编译:ronghuaiyang Kaggle的信用卡违约风险预测竞赛,非常有参考价值,做 ...

  3. Kaggle:Home Credit Default Risk 特征工程构建及可视化(2)

    博主在之前的博客 Kaggle:Home Credit Default Risk 数据探索及可视化(1) 中介绍了 Home Credit Default Risk 竞赛中一个优秀 kernel 关于 ...

  4. Home Credit Default Risk 违约风险预测,kaggle比赛,初级篇,LB 0.749

    Home Credit Default Risk 结论 背景知识 数据集 数据分析 平衡度 数据缺失 数据类型 离群值 填充缺失值 建模 Logistic Regression LightGBM Fe ...

  5. Home Credit Default Risk(1) — 背景介绍

    总体介绍   Home Credit Default Risk是Home Credit公司在kaggle上的一个信贷风险评估竞赛.其提供的数据文件描述及文件间关联关系如下: 有些金融专有名词尤其是一些 ...

  6. home credit default risk捷信消费金融违约风险模型复现(论文_毕业设计_作业)

    你能预测每个申请人偿还贷款的能力吗?由于信用记录不足或不存在,许多人难以获得贷款.而且,不幸的是,这些人经常被不可靠的贷方利用,例如高利贷,校园贷. 捷信努力为没有银行账户的人群扩大金融包容性.为了确 ...

  7. home credit default risk(捷信违约风险)机器学习模型复现(论文_毕业设计_作业)

    你能预测每个申请人偿还贷款的能力吗?由于信用记录不足或不存在,许多人难以获得贷款.而且,不幸的是,这些人经常被不可靠的贷方利用,例如高利贷,校园贷. 捷信努力为没有银行账户的人群扩大金融包容性.为了确 ...

  8. 【陆勤阅读】参加kaggle数据挖掘竞赛是怎样一种体验?

    转载自: http://www.wtoutiao.com/p/mf57Hk.html 数据科学自媒体 · 2015-08-02 05:46 先贴下Kaggle Profile以示诚意(https:// ...

  9. kaggle数据挖掘竞赛--信用卡违约风险评估模型

    本例程是通过客户提供的信息分析客户会产生违约的可能性.由此来判断是否要给客户提供贷款.背景内容不再多说,数据相关的解释在代码中会有注释.运行中缺失的包请自行安装,我这里的环境是anaconda 直接上 ...

最新文章

  1. pycharm自定义格式化
  2. mysql ddl 语法解析工具_sharding-sphere之语法解析器
  3. 包装类java_Java 包装类
  4. matlab sort descend,详解Matlab中 sort 函数用法
  5. 人工智能发展史_人工智能发展史:4张图看尽AI重大里程碑
  6. php在四线城市待遇如何,月薪5000元在四线城市算什么水平,丢人吗?
  7. 在Ubuntu 18.04系统中使用Netplan工具配置网络
  8. 利用DllPlugin分割你的第三方库
  9. 2022年NPS基准:NPS分数达到多少算好?
  10. 树形结构的处理——组合模式
  11. 台风怎么看内存颗粒_高体质CJR颗粒!七彩虹CVN捍卫者内存评测
  12. 人要像鹰一样重生、蜕变、成长
  13. 帝国塔防2 empire defence 2的攻略
  14. html背景多图片拼接,将多个图片整合到一张图片中再用css_进行网页背景定位.
  15. XML的两种常见格式
  16. 剑魂之刃登录显示服务器异常,《剑魂之刃》更新后链接服务器失败的原因及解决办法...
  17. 职场必备!学会这4个技巧,便可轻松操作Excel!
  18. Java-互联网通信流程介绍【基础】
  19. 英语单词的形象联想组合记忆法
  20. java 挡泥板_VIN原厂配置查询

热门文章

  1. 比特币开发者:BSC可能会超越以太坊成为顶级智能合约平台
  2. SAP License:SAP系统的优点和功能
  3. SAP License:SAP 清帐函数示例
  4. 想要羊毛薅得少,欺诈防控少不了
  5. 【Axure电商原型】电商APP高保真原型+移动端通用版电商app模板+用户中心+会员体系+内容推荐+社区体系+运营推广+订单流程+运营活动+订单管理+售后及服务+秒杀专区+特惠推荐+高保真移动端电商
  6. 【代码备份】ORACLE数据库表同步DBLINK
  7. Luogu P1039 侦探推理(模拟+枚举)
  8. Git使用教程之从远程库克隆项目(四)
  9. SSO的几种跨域方案
  10. Http GET、Post方式的请求总结