#划分测试集训练集
查看MonthlyIncome_rf的分布情况,没有作标准化与归一化,选择一定范围内的值进行查看
用df.copy(deep=True)创建一个不同内存空间的副本
#查看相关字段直方图df2=df.copy(deep=True)df2 = df2[df2['MonthlyIncome_rf'] < 60000]df2.hist('MonthlyIncome_rf',figsize=(12,12),bins=80)plt.title("MonthlyIncome distribution",fontsize = 20)plt.show() #得知月收入分布情况
划分测试集与训练集
测试集占比为20%,训练集占比为80%
#划分测试集训练集
Y = df['SeriousDlqin2yrs']
X = df.iloc[:, 2:]
# 测试集占比20%
X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size=0.2, random_state=0)
train = pd.concat([Y_train, X_train], axis=1)
test = pd.concat([Y_test, X_test], axis=1)
train.to_csv('TrainData.csv', index=False)
test.to_csv('TestData.csv', index=False)

bad与good用来表示坏客户与好客户

bad = Y.sum()
good = Y.count() - bad

坏客户为‘SeriousDlqin2yrs’字段中为1的行,所以总数用Y.sum()进行计算

山东大学暑期项目实训-基于信用评分卡算法模型的个人信用评级系统的设计与实现-第二周-6(7月9日相关推荐

  1. 山东大学暑期项目实训-基于信用评分卡算法模型的个人信用评级系统的设计与实现-第一周-1(6月28日)

    实训题目名称 基于信用评分卡算法模型的个人信用评级系统的设计与实现 项目流程 本项目核心信用风险评级模型的主要的研发及设计实现策略及流程如下: (1) 数据获取,包括获取存量客户及潜在客户的数据.存量 ...

  2. 山东大学暑期项目实训-基于信用评分卡算法模型的个人信用评级系统的设计与实现-第一周-3(7月2日)

    继续学习了对于数据预处理和数据建模评估的内容 标准化和归一化处理 标准化 使用库函数进行标准化处理.自定义函数实现标准化处理 归一化 使用库函数进行归一化处理.自定义函数实现归一化处理 训练集和测试集 ...

  3. 山东大学暑期项目实训-基于信用评分卡算法模型的个人信用评级系统的设计与实现-第二周-5(7月8日)

    删除重复行 # 查看重复值 isDuplicated = df.duplicated(['MonthlyIncome_rf', 'age', 'DebtRatio', 'SeriousDlqin2yr ...

  4. 山东大学暑期项目实训-基于信用评分卡算法模型的个人信用评级系统的设计与实现-第二周-4( 7月5日 )

    数据预处理部分 首先对NumberOfDependents字段中缺失的数据进行处理 查看数据集信息可知:NumberOfDependents字段中缺失行少于5000,数量较少,于是选择直接对缺失行进行 ...

  5. 山东大学暑期项目实训-基于信用评分卡算法模型的个人信用评级系统的设计与实现-第三周-9(7月16日)

    日总结 进行完分箱的工作后,我们开始进行WOE值和IV值的计算以为后面模型转变做好准备,在通过了解和学习相关知识后,我们通过创建函数bin_self,在里面算出好坏样本数,然后再将分箱结果引入,通过公 ...

  6. 山东大学暑期项目实训-基于信用评分卡算法模型的个人信用评级系统的设计与实现-第四周-11(7月21日)

    模型建立后开始计算分数,先找到前面由逻辑回归输出结果里面的逻辑回归系数.然后计算评分卡分值,由查阅资料得知score=offset+factor*log(odds),这里设置基础分值为500,PDO和 ...

  7. 山东大学暑期项目实训-基于信用评分卡算法模型的个人信用评级系统的设计与实现-第四周-12(7月23日)

    在得出基础分和各部分得分后,两者相加即可得出个人总评分,自定义compute_score函数来找到每一行数据根据分箱得出的分数段的得分,最想通过各评分相加得出最终评分,并对最终结果进行输出. comp ...

  8. 山东大学暑期项目实训-基于信用评分卡算法模型的个人信用评级系统的设计与实现-第四周-10(7月19日)

    得出woe值和IV值后,通过柱状图对数据进行可视化输出.再自定义函数replace_woe,读取训练集,并将得到的woe值进行替换输出到新的文件WoeData里面.去除掉对因变量影响不明显的变量'Se ...

  9. 山东大学暑期项目实训-基于信用评分卡算法模型的个人信用评级系统的设计与实现-第三周-7(7月12日)

    日总结 通过上周对基础知识的学习已经数据预处理后,本周先就已经处理好的数据进行探索性数据分析,通过直方图对各个数据列进行适当的划分bins数后.观察分析直方图,发现其中大多数都按照预期呈现正态分布,但 ...

最新文章

  1. 托马斯·弗里德曼:美政府应研究任正非的提议
  2. 单引号oracle如何转义_如何在Oracle中预测和转义单引号'
  3. 改变网页标签图片(favicon)
  4. mysql 两张表差集_mysql中两张表使用left join on 求差集详解
  5. PHP教程 数据库和MySQL_PHP教程 - MySQL 创建数据库和表
  6. k3导入账套_金蝶k3凭证导入导出的操作方法金蝶k3操作指南
  7. MATLAB简介及教程
  8. 海思3518C 4G模块移植及运用
  9. Nacos 2.0原理解析(一):Distro协议
  10. 识别中Excel的空值和空格值
  11. 麒麟信安总裁刘文清:携手 openEuler,共推操作系统产业新发展
  12. 11年艺术学习“转投”数学,他出版首本TensorFlow中文教材,成为蚂蚁金服技术大军一员
  13. DOS命令:chkdsk
  14. 裸辞1天 vs 裸辞10天 vs 裸辞一个月
  15. DevOps 小组运维管理手册
  16. 【Linux基础编程】tr命令
  17. Python+Open3D 解析Velodyne VLP-16激光雷达数据
  18. android内存扩展格式,一文看懂:如何为你的安卓手机选择合适的存储卡
  19. java计算机毕业设计ssm基于SSM学生信息管理系统37myx(附源码、数据库)
  20. 步进电机和步进驱动器的介绍、接线、细分和控制方法

热门文章

  1. 使用EasyRecovery来恢复误删的照片
  2. EasyRecovery14数据恢复软件基本内容常识教程
  3. 吴恩达机器学习(三)模型描述
  4. 麻省理工学院计算机专业怎么样,麻省理工大学的计算机专业怎么样?
  5. linux目录权限都是nobody,你真的了解Linux的目录权限?
  6. tcp序列号为什么是随机的_TCP学习笔记
  7. 目前的代码系统,一类的继承和方法的扩展为主的形式是否可以进行一种形式的优化?从而提升运行效率...
  8. java计算机毕业设计ssm农产品追溯系统设计与实现_e59uz(附源码、数据库)
  9. 高斯单机安装; 磁盘容量不足问题
  10. 【OpenFiler】使用虚拟机安装openfiler