任务一

做一个项目的第一步是数据清洗与预处理,也是对数据进行探索和分析。这份数据集是金融数据,我们的目标是要预测贷款用户是否会逾期,其中status表示标签,1表示逾期,0表示未逾期。

1.查看数据

可以使用excel或者SPSS等分析软件打开文件进行查看,当然是数据量允许的情况下才能用excel打开,否则你的电脑会一直转圈圈。还有就是可以导入python查看,一般python导入数据使用的是pandas库,导入数据常常会遇到编码问题,可以尝试其他编码导入,或者查看文件编码再导入。具体代码如下:

#导入numpy和pandas库
import numpy as np
import pandas as pd#data=pd.read_csv('E:/data/data.csv') 显示编码不对
#data=pd.read_csv('E:/data/data.csv',encoding='utf-8') 加入编码,发现还是错的
data=pd.read_csv('E:/data/data.csv',encoding='gbk')  #试了一下其他编码,这是正确的

查看数据的步骤:

(1)查看数据前几行或者后几行,了解数据的大体;

(2)查看数据大小,几行几列;

(3)数据标签的分布情况;

(4)数据的特征(列名);

(5)每个分类变量中存在几个类别;

(6)连续变量的均值、中位数等;

(7)缺失值的处理;

data.head()
data.shape
data.groupby('status').size()
data.columns
data['student_feature'].value_counts()
data.info() #数据各个特征的缺失情况
data.describe() #数据的各个特征值的分布情况
data.drop(['custid','trade_no','bank_card_no','source','id_name'],axis=1,inplace=True) #初步删除不需要的特征

进行到缺失值处理这里发现,有305条记录的缺失特征基本是一致的,且缺失的特征占比为50%,所以进行了手动删除这些记录的信息,接着按照上面的步骤重新导入数据分析。

注意:在填充缺失值前,对于非数值型变量要转变,或者

预测贷款用户是否逾期:数据清洗与预处理相关推荐

  1. 预测贷款用户是否逾期-数据预处理

    1.本项目为预测贷款用户是否逾期的数据预处理部分,主要包括特征处理.数据类型分析.数据类型转换以及缺失值处理. 一.数据查看 选择的IDE为pycharm,首先导入pandas库与numpy库,查看数 ...

  2. 模型优化———预测贷款用户是否逾期

    一.学习要求 对一份金融数据,我们在之前的博客中用各种模型完成了预测贷款用户是否会逾期的工作,接下来我们要介绍网格搜索和交叉验证的方法,来提高模型的准确率. 二.基础知识 什么是网格搜索 通过循环遍历 ...

  3. [转载] 机器学习 scikit-learn1 预测贷款用户是否会逾期

    参考链接: 使用Scikit-Learn在Python中减少维度 scikit-learn 一周算法实践集训 简介代码说明代码目录结构代码使用方法 个人总结参考文档任务1. 逻辑回归模型实践[2018 ...

  4. 机器学习 scikit-learn1 预测贷款用户是否会逾期

    scikit-learn 一周算法实践集训 简介 代码说明 代码目录结构 代码使用方法 个人总结 参考文档 任务1. 逻辑回归模型实践[2018.11.14 - 2018.11.15] 任务2.支持向 ...

  5. 预测贷款用户是否会逾期

    数据信息: 这是本次实践数据的下载地址 https://pan.baidu.com/s/1dtHJiV6zMbf_fWPi-dZ95g 说明:这份数据集是金融数据(非原始数据,已经处理过了),要做的是 ...

  6. (预测贷款用户是否会逾期)支持向量机和决策树的模型建立

    (预测贷款用户是否会逾期)支持向量机和决策树的模型建立 数据是金融数据,我们要做的是预测贷款用户是否会逾期,表格中,status是标签:0表示未逾期,1表示逾期.[今天的任务]构建支持向量机和决策树模 ...

  7. 机器学习 scikit-learn8 - 预测贷款用户是否会逾期 - Stacking模型融合【调包】

    Stacking模型融合 1 简介 2 模型融合的原理 2.1 StackingClassifier 概述 2.2 StackingCVClassifier 概述 3 代码使用方法 4 核心代码说明 ...

  8. ML - 贷款用户逾期情况分析2 - 特征工程1(数据预处理)

    文章目录 数据预处理 (判定贷款用户是否逾期) 1. 删除无用特征 2. 数据格式化 - X_date 3. 数据处理 - 类别特征 X_cate 4. 数据处理 - 其他非数值型特征 5. 数据处理 ...

  9. ML实操 - 贷款用户逾期情况分析

    目录 任务描述 实现过程 基本思路 1. 数据集预览 2. 数据预处理 3. 特征工程 4. 模型选择 4.1 数据及划分及数据归一化 4.2 LR 4.3 SVM 4.4 决策树 4.5 Xgboo ...

最新文章

  1. 《小程序个人信息保护研究报告》解读
  2. Spark 案例(依据电商网站的真实需求)
  3. 「NOI2017」泳池
  4. kettle 数据转换
  5. svn更改用户名方法:
  6. POJ2044 深搜+剪枝(云彩下雨)
  7. linux安装mysql社区版 rpm_linux系统rpm包安装mysql
  8. 学习前做过规划,现在却连入门都不算!那么究竟如何学习Python呢
  9. 一起谈.NET技术,C# 中奇妙的函数之ToLookup
  10. leetcode617. 合并二叉树
  11. STM32串口寄存器操作(转)
  12. Battle Encoder Shirase一款能限制进程CPU占有率的小东西
  13. nginx的基本使用和反向代理,地址重写问题
  14. 女生真的不适合做程序么?。。我的成长之路。。
  15. 基于python的ROOT-MUSIC算法
  16. 计算器与计算机小键盘的使用,会计神器!用上Cherry轴的计算器还能当小键盘用...
  17. 台达b3伺服参数设置方法_台达伺服基本参数设置
  18. Linux系统下安装ssh服务
  19. 将macOS Big Sur降级到Catalina或Mojave的方法步骤
  20. LaTeX 常用符号命令大全

热门文章

  1. linux装百度网盘不能运行,在Deepin系统中安装百度网盘的两种方法
  2. 因安装搜狗输入法而引发的一系列惨案
  3. IDC机房网络系列视频
  4. Docker 安装 SRS
  5. python定义整数_Python | 程序定义一个整数值并打印
  6. 第七讲-特征值与特征向量
  7. Ubuntu还需要做什么才能替代Windows?
  8. 初学Singleton单例模式
  9. singleton模式 C++
  10. Canvas画椭圆的方法