继续学习了对于数据预处理和数据建模评估的内容

标准化和归一化处理

标准化

使用库函数进行标准化处理、自定义函数实现标准化处理

归一化

使用库函数进行归一化处理、自定义函数实现归一化处理

训练集和测试集的处理

数据集按一定比例拆分成训练集和测试集

查看标准化与归一化的差异

正态分布数据的处理效果、偏态分布的处理结果

拆分数据集

使用train_test_split按8:2拆分训练集和测试集

使用自定义的方式按8:2拆分训练集和测试集

划分K折交叉验证数据集

使用KFold获取5折拆分数据集

使用StratifiedKFold获得的5折数据集

使用StratifiedShuffleSplit获得指定训练测试样本数比例的K折数据

检测和处理缺失值与重复值

缺失值整体检验和统计

指定字段缺失值统计

删除带有缺失值的样本行

删除含有缺失值的字段

使用单一值填充数值型字段缺失

使用众数填充文本型字段

使用临近值填充字段

使用SimpleImputer完成单变量插补

缺失值处理-多变量插补

使用K近邻算法进行插补

使用随机森林模型进行插补

使用迭代插补

重复值检测与处理

检测数据集中的重复值

删除重复行

离散化和分箱处理

将字段转换成二值形式

使用numpy.digitize对字段按指定边界分箱¶

使用pandas.cut对字段按指定边界分箱

使用sklearn.preprocessing.KBinsDiscretizer对字段进行分箱处理

包含等宽与等频分箱、使用OneHot编码、使用聚类方法

自定义的KMeans分箱实现¶

文本的数值化处理

使用自定义编程方式将字段转换成数值类型

使用pandas.Categorical将字段转换成自然数

使用sklearn.preprocessing.LabelEncoder将字段转换成自然数

使用sklearn.preprocessing.OrdinalEncoder将字段转换成自然数

使用sklearn.preprocessing.OneHotEncoder对字段进行OneHot编码

训练和验证聚类模型

使用KMeans聚类并衡量性能指标

按8:2拆分训练集和测试集、训练KMeans聚类模型、预测聚类结果并对比实际分类、使用内部度量指标评价聚类结果

使用DBSCAN类并衡量性能指标

构建DBSCAN模型并查看聚类结果、使用内部度量指标评价聚类结果

聚类数据可视化

构建二维平面的一批聚类数据点、 KMeans聚类结果及可视化、DBSCAN聚类结果及可视化

山东大学暑期项目实训-基于信用评分卡算法模型的个人信用评级系统的设计与实现-第一周-3(7月2日)相关推荐

  1. 山东大学暑期项目实训-基于信用评分卡算法模型的个人信用评级系统的设计与实现-第一周-1(6月28日)

    实训题目名称 基于信用评分卡算法模型的个人信用评级系统的设计与实现 项目流程 本项目核心信用风险评级模型的主要的研发及设计实现策略及流程如下: (1) 数据获取,包括获取存量客户及潜在客户的数据.存量 ...

  2. 山东大学暑期项目实训-基于信用评分卡算法模型的个人信用评级系统的设计与实现-第二周-6(7月9日

    #划分测试集训练集 查看MonthlyIncome_rf的分布情况,没有作标准化与归一化,选择一定范围内的值进行查看 用df.copy(deep=True)创建一个不同内存空间的副本 #查看相关字段直 ...

  3. 山东大学暑期项目实训-基于信用评分卡算法模型的个人信用评级系统的设计与实现-第二周-5(7月8日)

    删除重复行 # 查看重复值 isDuplicated = df.duplicated(['MonthlyIncome_rf', 'age', 'DebtRatio', 'SeriousDlqin2yr ...

  4. 山东大学暑期项目实训-基于信用评分卡算法模型的个人信用评级系统的设计与实现-第二周-4( 7月5日 )

    数据预处理部分 首先对NumberOfDependents字段中缺失的数据进行处理 查看数据集信息可知:NumberOfDependents字段中缺失行少于5000,数量较少,于是选择直接对缺失行进行 ...

  5. 山东大学暑期项目实训-基于信用评分卡算法模型的个人信用评级系统的设计与实现-第三周-9(7月16日)

    日总结 进行完分箱的工作后,我们开始进行WOE值和IV值的计算以为后面模型转变做好准备,在通过了解和学习相关知识后,我们通过创建函数bin_self,在里面算出好坏样本数,然后再将分箱结果引入,通过公 ...

  6. 山东大学暑期项目实训-基于信用评分卡算法模型的个人信用评级系统的设计与实现-第四周-11(7月21日)

    模型建立后开始计算分数,先找到前面由逻辑回归输出结果里面的逻辑回归系数.然后计算评分卡分值,由查阅资料得知score=offset+factor*log(odds),这里设置基础分值为500,PDO和 ...

  7. 山东大学暑期项目实训-基于信用评分卡算法模型的个人信用评级系统的设计与实现-第四周-12(7月23日)

    在得出基础分和各部分得分后,两者相加即可得出个人总评分,自定义compute_score函数来找到每一行数据根据分箱得出的分数段的得分,最想通过各评分相加得出最终评分,并对最终结果进行输出. comp ...

  8. 山东大学暑期项目实训-基于信用评分卡算法模型的个人信用评级系统的设计与实现-第四周-10(7月19日)

    得出woe值和IV值后,通过柱状图对数据进行可视化输出.再自定义函数replace_woe,读取训练集,并将得到的woe值进行替换输出到新的文件WoeData里面.去除掉对因变量影响不明显的变量'Se ...

  9. 山东大学暑期项目实训-基于信用评分卡算法模型的个人信用评级系统的设计与实现-第三周-7(7月12日)

    日总结 通过上周对基础知识的学习已经数据预处理后,本周先就已经处理好的数据进行探索性数据分析,通过直方图对各个数据列进行适当的划分bins数后.观察分析直方图,发现其中大多数都按照预期呈现正态分布,但 ...

最新文章

  1. c 与matlab混编,谈谈Matlab与C/C++或C#的互调用(混合编程)
  2. Hbase 技术细节笔记(上)
  3. leetcode- 两数之和
  4. der解码规则_DER编码简介
  5. AVR单片机计算器C语言源程序,AVR单片机简单计算器的Proteus仿真实现+源码
  6. Red Hat 6.0 Installation Steps
  7. 剖析Caffe源码之Layer_factory
  8. 想学高级软件测试去哪里学,软件测试要学多久
  9. Qt connect parent widget 连接父控件的信号槽
  10. html5教学案例撰写,教学案例撰写基本格式
  11. Linux忘记密码的找回方法
  12. 安装Eclipse完整版 配上百度云链接
  13. android超大屏触摸设备,世界上最大的安卓Android平板电脑具有98英寸的屏幕
  14. 交通灯matlab程序,毕业论文设计(交通灯).doc
  15. 伯努利贝叶斯分类算法
  16. 从冬奥看中国科技(六):千里光伏初长成
  17. UML系列文章(6)---公共机制
  18. 华米 Amazfit 跃我 GTR 4和GTS 4的区别
  19. PyTorch-5 自定义 Datasets, DataLoaders 和 Transforms
  20. Openwrt Kernel panic - not syncing: Fatal exception 解决方案

热门文章

  1. 【Android高级进阶】论一个普通大学电子商务大三学生,flutter项目案例
  2. 软考准备(计算机组成原理)CPU部分
  3. linux中运行candence,allegro 在linux下怎么启动
  4. 外挂产业:月交易额能达到30万元,不愁没有买家
  5. 【萧氏布局】:黄金、白银TD、纸白银、行情解析布局操作
  6. Encryption-基础:MD5加密
  7. 单目标定---从原理到实现(c++)(利用张氏标定法)
  8. Python基础入门:从变量到异常处理(三)
  9. 【解决方案】“云边端”三级架构协同打造基于安防视频云服务EasyCVR的智慧城市解决方案
  10. java项目删除多余jar包_清理java项目中多余的jar包