1、本项目为预测贷款用户是否逾期的数据预处理部分,主要包括特征处理、数据类型分析、数据类型转换以及缺失值处理。

一、数据查看

选择的IDE为pycharm,首先导入pandas库与numpy库,查看数据的大小,所包含的特征,每个特征的缺失值情况,需要转换数据类型的特征等。下面为具体的代码。

#导入numpy和pandas库
import numpy as np
import pandas as pd
dataset=pd.read_csv('D:/data/data.csv',encoding='gbk')
dataset.info()

二、特征处理

删除无关的特征,比如日期,用户名,卡号等,具体代码如下。

# 删除无关信息
dataset = dataset.drop(["custid","trade_no","bank_card_no","id_name","first_transaction_time","latest_query_time","loans_latest_time","source"],axis=1)

分析每列数据, 若值两两不同,则判断线性无关,进行删除。

for i in dataset.columns:count = dataset[i].count()if len(list(dataset[i].unique())) in [1,count,count-1]:dataset.drop(i,axis = 1,inplace=True )

三、缺失值处理

在reg_preference_for_trad中出现了缺失值,需要对其进行处理,这里选择众数进行填充;将student_feature中将NAN转换为0。具体代码如下:

# reg_preference_for_trad 缺失值填充
dataset['reg_preference_for_trad'] = dataset['reg_preference_for_trad'].fillna(dataset['reg_preference_for_trad'].mode()[0])
# student_feature 缺失值填充
dataset["student_feature"] = dataset["student_feature"].fillna(0)

四、数据类型转换

对reg_preference_for_trad特征进行编码,{'一线城市':1,'二线城市':2,'三线城市':3,,'其他城市': 4, '境外':0}

代码如下:

data_map = dataset['reg_preference_for_trad'].map({'一线城市': 1, '二线城市': 2,'三线城市': 3,  '其他城市': 4, '境外':0})
#数字转码
n=set(dataset['reg_preference_for_trad'])
dic={}
for i,j in enumerate(n):dic[j]=i
dataset['reg_preference_for_trad'] = dataset['reg_preference_for_trad'].map(dic)

数据处理结果如下:

预测贷款用户是否逾期-数据预处理相关推荐

  1. 预测贷款用户是否逾期:数据清洗与预处理

    任务一 做一个项目的第一步是数据清洗与预处理,也是对数据进行探索和分析.这份数据集是金融数据,我们的目标是要预测贷款用户是否会逾期,其中status表示标签,1表示逾期,0表示未逾期. 1.查看数据 ...

  2. 模型优化———预测贷款用户是否逾期

    一.学习要求 对一份金融数据,我们在之前的博客中用各种模型完成了预测贷款用户是否会逾期的工作,接下来我们要介绍网格搜索和交叉验证的方法,来提高模型的准确率. 二.基础知识 什么是网格搜索 通过循环遍历 ...

  3. [转载] 机器学习 scikit-learn1 预测贷款用户是否会逾期

    参考链接: 使用Scikit-Learn在Python中减少维度 scikit-learn 一周算法实践集训 简介代码说明代码目录结构代码使用方法 个人总结参考文档任务1. 逻辑回归模型实践[2018 ...

  4. 机器学习 scikit-learn1 预测贷款用户是否会逾期

    scikit-learn 一周算法实践集训 简介 代码说明 代码目录结构 代码使用方法 个人总结 参考文档 任务1. 逻辑回归模型实践[2018.11.14 - 2018.11.15] 任务2.支持向 ...

  5. 预测贷款用户是否会逾期

    数据信息: 这是本次实践数据的下载地址 https://pan.baidu.com/s/1dtHJiV6zMbf_fWPi-dZ95g 说明:这份数据集是金融数据(非原始数据,已经处理过了),要做的是 ...

  6. (预测贷款用户是否会逾期)支持向量机和决策树的模型建立

    (预测贷款用户是否会逾期)支持向量机和决策树的模型建立 数据是金融数据,我们要做的是预测贷款用户是否会逾期,表格中,status是标签:0表示未逾期,1表示逾期.[今天的任务]构建支持向量机和决策树模 ...

  7. Python时间序列模型推理预测实战:时序推理数据预处理(特征生成、lstm输入结构组织)、模型加载、模型预测结果保存、条件判断模型循环运行

    Python时间序列模型推理预测实战:时序推理数据预处理(特征生成.lstm输入结构组织).模型加载.模型预测结果保存.条件判断模型循环运行 目录

  8. 大数据预测实战-随机森林预测实战(一)-数据预处理

    数据读取 气温预测的任务目标就是使用一份天气相关数据来预测某一天的最高温度,属于回归任务,首先观察一下数据集∶ # 数据读取 import pandas as pdfeatures = pd.read ...

  9. 应用SVM预测澳大利亚降雨(含数据预处理与调参)

    0 声明 本文主要内容来自视频'[2020机器学习全集]菜菜的sklearn完整版,价值4999元的最全机器学习sklearn全集,赶紧收藏_哔哩哔哩_bilibili',课件来自"http ...

最新文章

  1. PermSize 设置过小对性能的影响(OutOfMemoryError:PermGen spac)
  2. 数据分析入门极简书单
  3. [Trie] Luogu P2992 [USACO08DEC]秘密消息Secret Message
  4. python编辑器对比和推荐
  5. idea资源包下创建资源包_资源包技巧和最佳实践
  6. 世界500强高频逻辑推理智力面试题(一)
  7. js读取服务器上的txt文件,javascript – 每15秒读取一次文本文件的内容
  8. python while循环if_初入python 用户输入,if,(while 循环)
  9. emacs 安装指引
  10. java段注释_Java的注释
  11. 实现米思齐的数码管图形化编程实验
  12. LittleVGL开发之显示中文字体以及矢量图标
  13. 利用Puppeteer来标准化抓站新闻格式
  14. 2017安卓开发工程师面试题总结
  15. NAS存储的定义和优势介绍
  16. 『政善治』Postman工具 — 18、NewMan的使用
  17. PHP 数组定义与基本使用
  18. chatgpt赋能python:Python中的4J-Selenium库:从基础到进阶
  19. 人生不问长短,但求白首同心之人
  20. 0欧姆电阻的过流能力

热门文章

  1. 安卓游戏《神庙逃亡2》之技术流高手进阶技巧
  2. 复制成绩表计算机专业的表结构,数据结构 数据结构与算法期末实验考试成绩表.doc...
  3. 实现div滚动条默认最底部以及默认最右边
  4. 线性布局下,如何最左或者最右
  5. 13 WEB漏洞:SQL注入之MYSQL注入
  6. 高通新平台,骁龙735处理器参数介绍
  7. MYSQL 5.7 Global Status的全面讲解
  8. 民用/家用 固态硬盘选择及购买
  9. 这份 Git 应急手册,关键时刻可保你一命
  10. 构造函数执行多少次?