贷款用户逾期问题Task1

  • 项目介绍
  • 数据梳理
  • 数据分割
  • 删除无关特征
  • 缺失值处理

项目介绍

这是数据挖掘组队学习的一个任务,简单说明:这份数据集是金融数据(非原始数据,已经处理过了),我们要做的是预测贷款用户是否会逾期。表格中 “status” 是结果标签:0表示未逾期,1表示逾期。

要求:数据切分方式 - 三七分,其中测试集30%,训练集70%,随机种子设置为2018

任务1:对数据进行探索和分析。时间:2天
数据类型的分析
无关特征删除
数据类型转换
缺失值处理
……以及你能想到和借鉴的数据分析处理

数据梳理

打开data.csv,数据集有4700多个样本,将近90个样本特征……

我们先梳理一下各个特征的代表含义:

custid:信用卡ID(无意义)
trade_no:交易号?(无意义)
bank_card_no:卡号(无意义)
low_volume_percent:
middle_volume_percent
take_amount_in_later_12_month_highest:最后12个月总交易
trans_amount_increase_rate_lately:交易增长率
trans_activity_month:月交易活跃度
trans_activity_day:日交易活跃度
transd_mcc
trans_days_interval_filter
trans_days_interval
regional_mobility:区域流动,有用
student_feature:是否学生,很有用,但缺失值很多
repayment_capability:还款能力()
is_high_user:是否高用户?
number_of_trans_from_2011:自2011的交易数量
first_transaction_time:第一次交易时间
historical_trans_amount:历史交易笔数
historical_trans_day:历史交易天数
rank_trad_1_month:一个月交易排名
trans_amount_3_month:三个月内交易总数
avg_consume_less_12_valid_month:12个月有效交易平均数
abs:??
top_trans_count_last_1_month:
avg_price_last_12_month:12月内交易平均价格
avg_price_top_last_12_valid_month:有效百分比,有缺失值
reg_preference_for_trad:几线城市
trans_top_time_last_1_month:一个月次数
trans_top_time_last_6_month:六个月
consume_top_time_last_1_month:
consume_top_time_last_6_month: #和上面一样的
cross_consume_count_last_1_month:??
trans_fail_top_count_enum_last_1_month
trans_fail_top_count_enum_last_6_month:交易失败计数
trans_fail_top_count_enum_last_12_month
consume_mini_time_last_1_month:
max_cumulative_consume_later_1_month:最大消费累计后1个月
max_consume_count_later_6_month:最大消费计数后6个月
railway_consume_count_last_12_month:铁路消耗在过去12个月计算
pawns_auctions_trusts_consume_last_1_month
pawns_auctions_trusts_consume_last_6_month:典当拍卖信托在过去6个月消耗
jewelry_consume_count_last_6_month:珠宝交易
status:是否逾期还款,预测值
source:都一样
first_transaction_day::所有交易天数??
trans_day_last_12_month:12个月后交易天数??
id_name:姓名没用
apply_score:统计申请
apply_credibility:可信的申请
query_org_count:查询计数
query_finance_count:查询财政??
query_cash_count:查询支付
query_sum_count:总和
latest_query_time:组后查询时间
latest_one_month_apply:申请次数
latest_three_month_apply
latest_six_month_apply
loans_score:贷款方面的
loans_credibility_behavior 下面都是一些关于贷款的信息,就没有仔细看了
loans_count
loans_settle_count
loans_overdue_count
loans_org_count_behavior
consfin_org_count_behavior
loans_cash_count
latest_one_month_loan
latest_three_month_loan
latest_six_month_loan
history_suc_fee
history_fail_fee
latest_one_month_suc
latest_one_month_fail
loans_long_time
loans_latest_time
loans_credit_limit
loans_credibility_limit
loans_org_count_current
loans_product_count
loans_max_limit
loans_avg_limit
consfin_credit_limit
consfin_credibility
consfin_org_count_current
consfin_product_count
consfin_max_limit
consfin_avg_limit
latest_query_day
loans_latest_day


# Imports导入基本的库import numpy as np
import matplotlib.pyplot as plt
import seaborn as snsimport pandas as pd
from pandas import Series,DataFramefrom sklearn.model_selection import train_test_splitsns.set_style('whitegrid')
%matplotlib inline#导入数据
data_df = pd.read_csv("E:/learning with zhangyi/数据挖掘实践组队学习/data.csv",encoding = 'gbk')
data_df.head()# 观察数据 和 数据类型
data_df.info()

数据分割


# 数据切分方式 - 三七分,其中测试集30%,训练集70%,随机种子设置为2018X_train,X_test,y_train,y_test=train_test_split(X,y,test_size=0.3,random_state=2018)from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()X_train_scled = scaler.fit_transform(X_train)
X_test_scaled = scaler.fit_transform(X_test)

删除无关特征

#删除一些不需要的特征变量
data_df.drop(['custid','trade_no','bank_card_no','id_name'],axis=1,inplace=True)

缺失值处理

众数,随机森林??

贷款用户逾期问题Task1相关推荐

  1. 贷款用户逾期问题Task4

    贷款用户逾期问题Task4 任务4 - 模型评估(2天) 评估 任务4 - 模型评估(2天) 任务4:记录5个模型(逻辑回归.SVM.决策树.随机森林.XGBoost)关于accuracy.preci ...

  2. 贷款用户逾期问题Task3

    贷款用户逾期问题Task3 任务3 - 建模(2天) 逻辑回归LR 支持向量机SVM 决策树 任务3 - 建模(2天) 用逻辑回归.svm和决策树:随机森林和XGBoost进行模型构建,评分方式任意, ...

  3. ML - 贷款用户逾期情况分析5 - 特征工程2(特征选择)

    文章目录 特征选择 (判定贷款用户是否逾期) 1. IV值进行特征选择 1.1 基本介绍 1.2 计算公式 2. 随机森林进行特征选择 2.1 平均不纯度减少 mean decrease impuri ...

  4. ML实操 - 贷款用户逾期情况分析

    目录 任务描述 实现过程 基本思路 1. 数据集预览 2. 数据预处理 3. 特征工程 4. 模型选择 4.1 数据及划分及数据归一化 4.2 LR 4.3 SVM 4.4 决策树 4.5 Xgboo ...

  5. ML - 贷款用户逾期情况分析2 - 特征工程1(数据预处理)

    文章目录 数据预处理 (判定贷款用户是否逾期) 1. 删除无用特征 2. 数据格式化 - X_date 3. 数据处理 - 类别特征 X_cate 4. 数据处理 - 其他非数值型特征 5. 数据处理 ...

  6. 【机器学习-贷款用户逾期情况分析2】3.stacking模型融合

    3.0 任务说明 用你目前评分最高的模型作为基准模型,和其他模型进行stacking融合,得到最终模型及评分果. 3.1 stacking模型融合 Stacking(有时候也称之为stacked ge ...

  7. ML - 贷款用户逾期情况分析6 - Final

    文章目录 思路 1. 导入数据 2. 性能评估函数 3. 模型优化 3.1 LR模型 3.2 SVM模型 3.3 决策树模型 3.4 XGBoost模型 3.5 LightGBM模型 3.6 模型融合 ...

  8. [转载] 机器学习 scikit-learn1 预测贷款用户是否会逾期

    参考链接: 使用Scikit-Learn在Python中减少维度 scikit-learn 一周算法实践集训 简介代码说明代码目录结构代码使用方法 个人总结参考文档任务1. 逻辑回归模型实践[2018 ...

  9. 预测贷款用户是否逾期:数据清洗与预处理

    任务一 做一个项目的第一步是数据清洗与预处理,也是对数据进行探索和分析.这份数据集是金融数据,我们的目标是要预测贷款用户是否会逾期,其中status表示标签,1表示逾期,0表示未逾期. 1.查看数据 ...

  10. 预测贷款用户是否会逾期

    数据信息: 这是本次实践数据的下载地址 https://pan.baidu.com/s/1dtHJiV6zMbf_fWPi-dZ95g 说明:这份数据集是金融数据(非原始数据,已经处理过了),要做的是 ...

最新文章

  1. 女性养生需知的16条健康戒律
  2. C++ const成员Demo - Win32 版本
  3. IIS Permissions
  4. 口腔取模过程及注意事项_取模变形?教你三种方法,轻松防止取模变形!
  5. 1个ieee1394端口_5G新在哪儿(6)?-天线端口的故事
  6. 团队成员的分应该怎么分?
  7. redhat6.2 下gcc安装
  8. 关于BMZCTF hitcon_2017_ssrfme的解法
  9. do_initcalls 的原理
  10. wgs84坐标系拾取工具_Wgs84坐标系转换为gcj02坐标系及bd09坐标系的验证
  11. 电力自动化系统为何需要卫星同步时钟装置?
  12. maven 详情查考 maven实战 许晓斌
  13. HoloLens开发学习笔记(一):HoloLens简介
  14. sqlserver 数据误删除恢复
  15. 【狂神Java笔记】Java网络编程实战详细笔记整理(附代码)
  16. 微信中的黑科技你知道吗?
  17. android刷步工具,位移精灵1.51(安卓10刷步数)
  18. 全面总结C++类模板使用的基础知识
  19. albus就是要第一个出场
  20. java JDK 1.8 版本

热门文章

  1. 8法则的挑战:长尾理论与长尾效应
  2. android 测试键值,Android无线测试之—KEYCODE键值对应大全
  3. macd底背离的python_java尝试编写macd,试验顶背离底背离
  4. 谷歌图形化HTML5网页编辑器Google Web Designer
  5. Audio Effect
  6. 嵌入式linux开发,.mak是什么文件
  7. 想不想修真鸿蒙秘术,想不想修真鸿蒙秘诀怎么得 揭开想不想修真秘诀真面目...
  8. c语言保龄球计分系统课程设计,[C语言课程设计保龄球积分.doc
  9. JAVA基础之HttpServletResponse响应
  10. 时序逻辑电路的设计(一) -- 模10的计数器电路(附Multisim)