日总结

在进行了探索性数据分析后,我们开始了数据分箱,最先采用kmeans对数据进行分箱,但如上次探索性数据分析的时候,由于个别数据与平均数差距过大。导致分箱出现严重的不均匀,第一个有近10w条数据,但最后一个只有几条数据,为了数据分布尽量均匀,我们采用了手动划分bins的边界,将超过一定阈值的数统一分箱到一个箱里面,这样就不会造成箱的冗余和数据不均,这样分箱后,再方便对数据进行WOE值的计算。

例如

# RevolvingUtilizationOfUnsecuredLines分箱
RevolvingUtilizationOfUnsecuredLines = df['RevolvingUtilizationOfUnsecuredLines']
bins = [-1, 0.2, 0.4, 0.6, 0.8, 1, 60000]

通过手动分箱设置-1左边界涵盖包括0的数据,因为有五万多的数据所以设置上限值为60000作为右边界,以此分箱保证了每个箱数据的均匀性,以免数据在分箱时出现严重的不均。

山东大学暑期项目实训-基于信用评分卡算法模型的个人信用评级系统的设计与实现-第三周-8(7月14日)相关推荐

  1. 山东大学暑期项目实训-基于信用评分卡算法模型的个人信用评级系统的设计与实现-第一周-1(6月28日)

    实训题目名称 基于信用评分卡算法模型的个人信用评级系统的设计与实现 项目流程 本项目核心信用风险评级模型的主要的研发及设计实现策略及流程如下: (1) 数据获取,包括获取存量客户及潜在客户的数据.存量 ...

  2. 山东大学暑期项目实训-基于信用评分卡算法模型的个人信用评级系统的设计与实现-第一周-3(7月2日)

    继续学习了对于数据预处理和数据建模评估的内容 标准化和归一化处理 标准化 使用库函数进行标准化处理.自定义函数实现标准化处理 归一化 使用库函数进行归一化处理.自定义函数实现归一化处理 训练集和测试集 ...

  3. 山东大学暑期项目实训-基于信用评分卡算法模型的个人信用评级系统的设计与实现-第二周-6(7月9日

    #划分测试集训练集 查看MonthlyIncome_rf的分布情况,没有作标准化与归一化,选择一定范围内的值进行查看 用df.copy(deep=True)创建一个不同内存空间的副本 #查看相关字段直 ...

  4. 山东大学暑期项目实训-基于信用评分卡算法模型的个人信用评级系统的设计与实现-第二周-5(7月8日)

    删除重复行 # 查看重复值 isDuplicated = df.duplicated(['MonthlyIncome_rf', 'age', 'DebtRatio', 'SeriousDlqin2yr ...

  5. 山东大学暑期项目实训-基于信用评分卡算法模型的个人信用评级系统的设计与实现-第二周-4( 7月5日 )

    数据预处理部分 首先对NumberOfDependents字段中缺失的数据进行处理 查看数据集信息可知:NumberOfDependents字段中缺失行少于5000,数量较少,于是选择直接对缺失行进行 ...

  6. 山东大学暑期项目实训-基于信用评分卡算法模型的个人信用评级系统的设计与实现-第三周-9(7月16日)

    日总结 进行完分箱的工作后,我们开始进行WOE值和IV值的计算以为后面模型转变做好准备,在通过了解和学习相关知识后,我们通过创建函数bin_self,在里面算出好坏样本数,然后再将分箱结果引入,通过公 ...

  7. 山东大学暑期项目实训-基于信用评分卡算法模型的个人信用评级系统的设计与实现-第四周-11(7月21日)

    模型建立后开始计算分数,先找到前面由逻辑回归输出结果里面的逻辑回归系数.然后计算评分卡分值,由查阅资料得知score=offset+factor*log(odds),这里设置基础分值为500,PDO和 ...

  8. 山东大学暑期项目实训-基于信用评分卡算法模型的个人信用评级系统的设计与实现-第四周-12(7月23日)

    在得出基础分和各部分得分后,两者相加即可得出个人总评分,自定义compute_score函数来找到每一行数据根据分箱得出的分数段的得分,最想通过各评分相加得出最终评分,并对最终结果进行输出. comp ...

  9. 山东大学暑期项目实训-基于信用评分卡算法模型的个人信用评级系统的设计与实现-第四周-10(7月19日)

    得出woe值和IV值后,通过柱状图对数据进行可视化输出.再自定义函数replace_woe,读取训练集,并将得到的woe值进行替换输出到新的文件WoeData里面.去除掉对因变量影响不明显的变量'Se ...

  10. 山东大学暑期项目实训-基于信用评分卡算法模型的个人信用评级系统的设计与实现-第三周-7(7月12日)

    日总结 通过上周对基础知识的学习已经数据预处理后,本周先就已经处理好的数据进行探索性数据分析,通过直方图对各个数据列进行适当的划分bins数后.观察分析直方图,发现其中大多数都按照预期呈现正态分布,但 ...

最新文章

  1. java反射 数组类,乐字节Java反射之三:方法、数组、类加载器和类的生命周期
  2. 敏捷测试2015新看点
  3. 用spring的InitializingBean的afterPropertiesSet来初始化
  4. 在线绘图(PS)(海报)
  5. [转] 面向对象编程 - 访问限制
  6. 水仙花数c语言程序解析,C语言求水仙花数代码解析
  7. 利用泛型与反射更新实体(ADO.NET Entity Framework)
  8. java物流管理系统代码_Java物流配送管理系统 Spring 源码下载
  9. php mpm_winnt,Windows下Apache模块配置 mpm_winnt_module
  10. AcWing 143. 最大异或对 —— 神奇的二进制
  11. 我的秋招圆满落幕了,很开心
  12. STM32 DFU下载与 DFU生成工具
  13. 线性模型(Linear Model)
  14. java正整数分解因数_java将一个正整数分解质因数
  15. qt MD5 和AES 加密
  16. Axon Framework架构概述
  17. 看雪软件安全精选:二进制各种漏洞原理实战分析总结
  18. 谁在“接盘”造车新势力?
  19. 关于java集合的练习
  20. office正在连接到服务器,excel2010总是显示正在访问打印机,导致打开很慢,怎样...-office正在访问打印机,word一直正在连接到打...

热门文章

  1. poj3322 Bloxorz I
  2. ffmpeg 转换flv压缩大小_简单几步教你怎样使用FFmpeg工具快速的转换FLV视频为MP4格式...
  3. hivesql修改字段类型_Hive SQL常用命令总结,大数据开发人员按需收藏
  4. qemu-kvm虚拟机性能优化
  5. mapbox-gl集成three.js开发
  6. win8.1或win10 UEFI + GPT 安装
  7. 同洲、宇龙手机源代码之争
  8. 数据解读 | 北京大兴机场的野心
  9. Java数据采集--2.使用Jsoup抓取开源中国
  10. diy 格力空调arduino遥控器