【项目实训】实验八 数据处理
1.数据清洗
实验背景
在进行贝叶斯分类之前重点是对数据进行预处理操作,如,缺失值的填充、将文字表述转为数值型、日期处理格式(处理成“年-月-日”三列属性或者以最早时间为基准计算差值)、无关属性的删除等方面。数据中存在大量连续值的属性,不能直接计算似然,需要将连续属性离散化。
实验数据
训练数据集train.csv包含9000条数据,测试数据集test.csv包含1000条数据。注意,训练集和测试集中都有缺失值存在。
以下是字段说明:
字段 | 描述 |
---|---|
loan_id | 贷款记录唯一标识 |
user_id | 借款人唯一标识 |
total_loan | 贷款数额 |
year_of_loan | 贷款年份 |
interest | 当前贷款利率 |
monthly_payment | 分期付款金额 |
grade | 贷款级别 |
employment_type | 所在公司类型 |
industry | 工作领域 |
work_year | 工作年限 |
home_exist | 是否有房 |
censor_status | 审核情况 |
issue_date | 贷款发放的月份 |
use | 贷款用途类别 |
post_code | 贷款人申请时邮政编码 |
region | 地区编码 |
debt_loan_ratio | 债务收入比 |
del_in_18month | 借款人过去18个月逾期30天以上的违约事件数 |
scoring_low | 借款人在贷款评分中所属的下限范围 |
scoring_high | 借款人在贷款评分中所属的上限范围 |
known_outstanding_loan | 借款人档案中未结信用额度的数量 |
known_dero | 贬损公共记录的数量 |
pub_dero_bankrup | 公开记录清除的数量 |
recircle_bal | 信贷周转余额合计 |
recircle_util | 循环额度利用率 |
initial_list_status | 贷款的初始列表状态 |
app_type | 是否个人申请 |
earlies_credit_mon | 借款人最早报告的信用额度开立的月份 |
title | 借款人提供的贷款名称 |
policy_code | 公开可用的策略代码=1新产品不公开可用的策略代码=2 |
f系列匿名特征 | 匿名特征f0-f4,为一些贷款人行为计数特征的处理 |
early_return | 借款人提前还款次数 |
early_return_amount | 贷款人提前还款累积金额 |
early_return_amount_3mon | 近3个月内提前还款金额 |
isDefault | 贷款是否违约(预测标签) |
参考资料
Pandas是一个强大的分析结构化数据的工具集,基于NumPy构建,提供了高级数据结构和数据操作工具,它是使Python成为强大而高效的数据分析环境的重要因素之一。
一个强大的分析和操作大型结构化数据集所需的工具集
基础是NumPy,提供了高性能矩阵的运算
提供了大量能够快速便捷地处理数据的函数和方法
应用于数据挖掘,数据分析
提供数据清洗功能
实验步骤
读取训练集和测试集,选择方法进行数据清洗
填充空值,可以选择填充众数或者平均数或者其他
文字表述转为数值型
时间格式处理
无关属性的删除.选择皮尔森系数法,方差法或者其他方法
连续属性离散化.浮点数取整,等距法或者其他方法
生成清洗后的CSV文件
实验结果
清洗前:
清洗后:
【项目实训】实验八 数据处理相关推荐
- 数据库系统实训——实验八——数据库维护
第一部分:样例库的应用 1) 使用MYSQLDUMP命令备份数据库 mysqldump -u root -p shujukuziyuan >D:/mysql/shujukuzioyuan.sql ...
- 山东大学软件学院项目实训-创新实训-山大软院网络攻防靶场实验平台(二)-docker安装与学习
目录 前言: 一.docker安装 1.centos7使用yum安装 二.命令行创建 docker 容器测试 前言: 项目实训立项通过后的几天均在学习 docker 的相关知识,上一篇文章也简单记述了 ...
- 山东大学软件学院项目实训-创新实训-网络安全靶场实验平台(一)
目录 前言 一.项目介绍 二.项目框架 三.个人分工 四.本周任务完成情况 4.1 Vue安装 4.1.1 node.js安装及配置 4.1.2 安装vue及脚手架 4.1.3 运行Vue项目 4. ...
- 项目实训(八):用flask实现文件的上传与下载
我们在项目实训(七)中已经完成了简单的flask应用,但是项目需要一个能够实现功能的接口,因为算法部分还没有确定下来,所以要先实现上传文件和下载文件这俩功能,后期再将算法部分嵌入进去.本篇的代码要和基 ...
- 山东大学软件学院项目实训-创新实训-山大软院网络攻防靶场实验平台(六)-SQL注入数字型
目录 前言: 一.SQL 注入漏洞简介 1.简介 2.危害 3.利用 4.防范 二.相关配置 三.编写"SQL 注入漏洞-数字型注入"后端代码 1.使用 springboot 框架 ...
- 【单片机项目实训】八路抢答器
将单片机项目实训--8路抢答器分享出来,如有不足,敬请指出. [实验图片] [实验视频] [项目实训]8路抢答器 目录 一.设计要求 二.方案选择 三.硬件电路设计 五.其他图片 六.资料链接 七.关 ...
- 【单片机项目实训】基于nRF905的多点温度无线采集系统
将单片机项目实训--基于nRF905的多点温度无线采集系统分享出来,如有不足,敬请指出. [实验图片] [实验视频] 基于nRF905的多点温度无线采集系统设计 目录 目录 一.设计要求 二.方案设计 ...
- 2022年大数据BI工程师项目实训介绍
来自[仅悦数据]<大数据BI工程师项目实训>的介绍,精心整理,盗用必究- 本文阅读约需15分钟,感谢观看~ 最新播报:2022年BI大数据实训全面升级,我们必将更专业.更用心! 一.202 ...
- 工业机器人实训实验平台
ZN-IRB02工业机器人实训实验平台 一.产品概述 ZN-IRB02工业机器人实训实验平台是专门针对工业机器人领域开发的一套实训实验教学系统,ZN-IRB02工业机器人实训实验平台按照模块化结构进行 ...
- 计算机实训实验报告,计算机实训实验报告.doc
计算机实训实验报告.doc HEFEI UNIVERSITY 计算机实训综合报告 系 别 电子信息与电气工程系 专 业 07电气类 班 级 07级电气类(4)班 姓 名 指导老师 完成时间 2007年 ...
最新文章
- (原创)c#学习笔记08--面向对象编程简介01--面向对象编程的含义03--对象的生命周期--构造函数和析构函数...
- boost::hana::count用法的测试程序
- python 可视化饼图_Python可视化学习(饼状图,坐标系...)
- OpenCV常见的优化方法和技巧总结
- mysql2014授权设置_mysql权限管理(2014-09-15)
- HH SaaS电商系统服务商品在移动端下单结算的交互设计
- (06)VHDL实现计数器
- struts实现文件下载
- ConcurrentLinkedQueue 的outofMemory错误解决方案
- 深入解读Linux进程调度系列(8)——调度与cgroup
- Java下一代高并发技术——虚拟线程“JEP 425: Virtual Threads (Preview)”
- css 缩小图片后,图片变模糊的解决办法
- html 自动字体大小,根据屏幕大小自动修改字体大小的代码
- 百度 UNIT 使用
- 数学建模常用算法:人工鱼群算法(AFAS)求解二元函数最小值+限定x,y范围测试【java实现--详细注释+Matlab绘制小鱼游动过程】
- java 水波纹_java实现水波纹扩散效果
- python : turtle 画一朵花
- 2022新鲜出炉Android面试总结附真题+答案解析(京东、新东方、货拉拉...)
- uni-app 父传子、子传父、路径传参、本地存储
- .dwg转换为.svg
热门文章
- Android 热点开启流程
- Mac中使用Mounty对NTFS文件进行读写操作,报错“卷不能在读/写模式下重新挂载,可能是因为先前没有完全卸载(安全删除)”问题的解决
- 为什么 你会如此痛苦……?
- Snapchat面试题:移除K位
- 由于系统错误 1114:动态连接库(DLL)初始化例程失败。(MySQL ODBC 5.3 Unicode Driver,c:\Program Files(x86)\MySQL\Connector
- Contrastive Multiview Coding
- xman_2019_format
- 其他技术 网易云音乐Mp3,通过网易官方搜索引擎获取mp3外链
- 程序员慵懒的周末:不想出门还想吃肯德基香辣鸡翅?
- Postgresql学习03-C外部函数创建,及与Plsql自定义函数效率对比