删除重复行

# 查看重复值
isDuplicated = df.duplicated(['MonthlyIncome_rf', 'age', 'DebtRatio', 'SeriousDlqin2yrs', 'RevolvingUtilizationOfUnsecuredLines', 'NumberOfTime30-59DaysPastDueNotWorse', 'NumberOfOpenCreditLinesAndLoans', 'NumberOfTimes90DaysLate', 'NumberRealEstateLoansOrLines', 'NumberOfTime60-89DaysPastDueNotWorse'])
# print(isDuplicated[isDuplicated==True])# 删除重复值,选择多个字段判断是否完全重复
df = df.drop_duplicates(['MonthlyIncome_rf', 'age', 'DebtRatio', 'SeriousDlqin2yrs', 'RevolvingUtilizationOfUnsecuredLines', 'NumberOfTime30-59DaysPastDueNotWorse', 'NumberOfOpenCreditLinesAndLoans', 'NumberOfTimes90DaysLate', 'NumberRealEstateLoansOrLines', 'NumberOfTime60-89DaysPastDueNotWorse'])# df.info()

用箱型图查看数个属性的分布情况

#查看相关字段箱型图,查看30-59,60-89,90以上逾期次数三者的分布,得知有少量过大的异常点
plt.figure(figsize=(12,12))
plt.ylim(0, 100)
plt.boxplot(df[['NumberOfTime30-59DaysPastDueNotWorse','NumberOfTime60-89DaysPastDueNotWorse','NumberOfTimes90DaysLate']],labels=['30-59','60-89', '90'])
plt.grid(linestyle='--')
plt.show()
#查看年龄分布
plt.figure(figsize=(12,12))
plt.ylim(20, 120)
plt.boxplot(df[['age']],labels=['age'])
plt.title("age distribution",fontsize = 20)
plt.grid(linestyle='--')
plt.show()

发现30-59,60-89,90天数逾期次数有个别异常极大值,这里作删除处理,发现存在age=0的点也进行删除

# 删除异常数据:年龄等于0的数据行,逾期次数过高的数据行#负债率过高的数据行离群点但不是异常点不删除
df = df[df['age'] > 0]
df = df[df['NumberOfTime30-59DaysPastDueNotWorse'] < 50]
df = df[df['NumberOfTime60-89DaysPastDueNotWorse'] < 50]
df = df[df['NumberOfTimes90DaysLate'] < 50]
#df = df[df['DebtRatio'] < 100000]

山东大学暑期项目实训-基于信用评分卡算法模型的个人信用评级系统的设计与实现-第二周-5(7月8日)相关推荐

  1. 山东大学暑期项目实训-基于信用评分卡算法模型的个人信用评级系统的设计与实现-第一周-1(6月28日)

    实训题目名称 基于信用评分卡算法模型的个人信用评级系统的设计与实现 项目流程 本项目核心信用风险评级模型的主要的研发及设计实现策略及流程如下: (1) 数据获取,包括获取存量客户及潜在客户的数据.存量 ...

  2. 山东大学暑期项目实训-基于信用评分卡算法模型的个人信用评级系统的设计与实现-第一周-3(7月2日)

    继续学习了对于数据预处理和数据建模评估的内容 标准化和归一化处理 标准化 使用库函数进行标准化处理.自定义函数实现标准化处理 归一化 使用库函数进行归一化处理.自定义函数实现归一化处理 训练集和测试集 ...

  3. 山东大学暑期项目实训-基于信用评分卡算法模型的个人信用评级系统的设计与实现-第二周-6(7月9日

    #划分测试集训练集 查看MonthlyIncome_rf的分布情况,没有作标准化与归一化,选择一定范围内的值进行查看 用df.copy(deep=True)创建一个不同内存空间的副本 #查看相关字段直 ...

  4. 山东大学暑期项目实训-基于信用评分卡算法模型的个人信用评级系统的设计与实现-第二周-4( 7月5日 )

    数据预处理部分 首先对NumberOfDependents字段中缺失的数据进行处理 查看数据集信息可知:NumberOfDependents字段中缺失行少于5000,数量较少,于是选择直接对缺失行进行 ...

  5. 山东大学暑期项目实训-基于信用评分卡算法模型的个人信用评级系统的设计与实现-第三周-9(7月16日)

    日总结 进行完分箱的工作后,我们开始进行WOE值和IV值的计算以为后面模型转变做好准备,在通过了解和学习相关知识后,我们通过创建函数bin_self,在里面算出好坏样本数,然后再将分箱结果引入,通过公 ...

  6. 山东大学暑期项目实训-基于信用评分卡算法模型的个人信用评级系统的设计与实现-第四周-11(7月21日)

    模型建立后开始计算分数,先找到前面由逻辑回归输出结果里面的逻辑回归系数.然后计算评分卡分值,由查阅资料得知score=offset+factor*log(odds),这里设置基础分值为500,PDO和 ...

  7. 山东大学暑期项目实训-基于信用评分卡算法模型的个人信用评级系统的设计与实现-第四周-12(7月23日)

    在得出基础分和各部分得分后,两者相加即可得出个人总评分,自定义compute_score函数来找到每一行数据根据分箱得出的分数段的得分,最想通过各评分相加得出最终评分,并对最终结果进行输出. comp ...

  8. 山东大学暑期项目实训-基于信用评分卡算法模型的个人信用评级系统的设计与实现-第四周-10(7月19日)

    得出woe值和IV值后,通过柱状图对数据进行可视化输出.再自定义函数replace_woe,读取训练集,并将得到的woe值进行替换输出到新的文件WoeData里面.去除掉对因变量影响不明显的变量'Se ...

  9. 山东大学暑期项目实训-基于信用评分卡算法模型的个人信用评级系统的设计与实现-第三周-7(7月12日)

    日总结 通过上周对基础知识的学习已经数据预处理后,本周先就已经处理好的数据进行探索性数据分析,通过直方图对各个数据列进行适当的划分bins数后.观察分析直方图,发现其中大多数都按照预期呈现正态分布,但 ...

最新文章

  1. C++泛型编程:template模板
  2. 量化指标公式源码_通达信实用指标:《看涨跌》指标公式源码
  3. julia(5)-变量与内部常量
  4. 部署在SAP Cloud Platform CloudFoundry环境的应用如何消费SAP Leonardo机器学习API
  5. BZOJ3110: [Zjoi2013]K大数查询(整体二分)
  6. python对excel数据更改_利用python对excel中一列的时间数据更改格式代码示例
  7. iOS 又出重大Bug!一秒搞崩 iPhone 的网络连接功能
  8. java集合类(三)About Iterator Vector(Stack)
  9. C4—Qt实现记事本(二)2021-11-16
  10. 各厂商服务器存储默认管理口登录信息(默认IP、用户名、密码)
  11. 数值计算方法第一章—数值计算引论
  12. os+rom+android+6.0+n9005,三星S8+官方韩版安卓9固件rom系统线刷升级包:G955NKSU3DSG5
  13. Office之word如何删除页眉横线
  14. 我面试过没有上万人也有十几个,简历要这么写才有hr要你
  15. linux 平台下 MATLAB 打不开图形界面
  16. 高考志愿填报|物联网为何成为【热门选手】?
  17. QT实现图片的滚轮缩放、框选放大、拖拽移动
  18. php 免登陆如何使用方法,火车头教程17:dz3.0免登陆接口使用教程
  19. 64位系统魔兽服务器不兼容,win10系统64位系统无法玩魔兽的具体技巧
  20. 显卡测试哪个软件好,哪种显卡测试软件更好

热门文章

  1. qt5 textedit怎么改变鼠标响应_聊聊鼠标的前世今生
  2. Android开源so库,Android-studio导入.so库问题?
  3. 道路交通警示牌数据集以及训练好的YOLO模型权重文件
  4. python电脑攻击_python实现MAC洪水攻击
  5. JLink defective
  6. 《 Python List 列表全实例详解系列(九)》__列表反转(6种方法)
  7. 互联网校招 | 大厂面试官常问的java八股文都在了
  8. gaussian软件linux版本,高斯(Gaussian)软件linux下安装
  9. linux中端口号和PID互相查询
  10. 武汉计算机考试科目,武汉计算机应用能力考试调整部分科目的通知