数据集:银行客户信息

链接:https://pan.baidu.com/s/1JXqEMxgOrNlkVyBt1fQTWw
提取码:2him

# 导包
import pandas as pd
import numpy as np
# 导入数据
train_data = pd.read_csv('modified_bank-additional-train.csv')
test_data = pd.read_csv('modified_bank-additional-test.csv')
# 显示数据维数
train_data.shape
(7873, 21)
test_data.shape
(3964, 21)
# 查看数据集的前4个特征、后2个特征和标签(SalePrice)
train_data.iloc[0:4, [0, 1, 2, 3, -3, -2, -1]]
age job marital education euribor3m nr.employed y
0 56 services married high.school 4.857 5191.0 no
1 54 retired married basic.9y 4.857 5191.0 no
2 35 blue-collar married basic.6y 4.857 5191.0 no
3 39 management single basic.9y 4.857 5191.0 no
# 除去最后一列的特征数据集
all_features = pd.concat((train_data.iloc[:, :-1], test_data.iloc[:, :-1]))
all_features.shape
(11837, 20)
# 查看数据集基本信息
all_features.info()
<class 'pandas.core.frame.DataFrame'>
Int64Index: 11837 entries, 0 to 3963
Data columns (total 20 columns):#   Column          Non-Null Count  Dtype
---  ------          --------------  -----  0   age             11837 non-null  int64  1   job             11837 non-null  object 2   marital         11837 non-null  object 3   education       11837 non-null  object 4   default         11837 non-null  object 5   housing         11837 non-null  object 6   loan            11837 non-null  object 7   contact         11837 non-null  object 8   month           11837 non-null  object 9   day_of_week     11837 non-null  object 10  duration        11837 non-null  int64  11  campaign        11837 non-null  int64  12  pdays           11837 non-null  int64  13  previous        11837 non-null  int64  14  poutcome        11837 non-null  object 15  emp.var.rate    11837 non-null  float6416  cons.price.idx  11837 non-null  float6417  cons.conf.idx   11837 non-null  float6418  euribor3m       11837 non-null  float6419  nr.employed     11837 non-null  float64
dtypes: float64(5), int64(5), object(10)
memory usage: 1.9+ MB
# 查看空值信息
all_features.isnull().sum()
age               0
job               0
marital           0
education         0
default           0
housing           0
loan              0
contact           0
month             0
day_of_week       0
duration          0
campaign          0
pdays             0
previous          0
poutcome          0
emp.var.rate      0
cons.price.idx    0
cons.conf.idx     0
euribor3m         0
nr.employed       0
dtype: int64
# 查看重复值信息
all_features.duplicated().sum()
1
# 预处理数据
numeric_features = all_features.dtypes[all_features.dtypes != 'object'].index
# 非object类型数据标准化处理
all_features[numeric_features] = all_features[numeric_features].apply(lambda x: (x - x.mean()) / (x.std()))
# 标准化后,每个特征的均值变为0,所以可以直接用0来填充
all_features[numeric_features] = all_features[numeric_features].fillna(0)
# 离散数值转成指示特征(dummy_na=True将缺失值也当作合法的特征值并为其创建指示特征)
all_features = pd.get_dummies(all_features, dummy_na=True)
all_features.shape
(11837, 73)
# 转换为numpy
n_train = train_data.shape[0]
# 拆分数据集
train_features = np.array(all_features[:n_train].values)
test_features = np.array(all_features[n_train:].values)
train_labels = np.array(train_data.y.values)
test_labels = np.array(test_data.y.values)
# 支持向量机预测
from sklearn.svm import SVC
# from sklearn.linear_model import SGDClassifier
# from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import accuracy_score
clf = SVC(kernel='linear', C=1)
clf.fit(train_features, train_labels)
predictions = clf.predict(test_features)
from sklearn.metrics import accuracy_score
from sklearn.metrics import classification_report
print(classification_report(test_labels, predictions))
print("AC", accuracy_score(test_labels, predictions))
              precision    recall  f1-score   supportno       0.90      0.86      0.88      2420yes       0.80      0.85      0.82      1544accuracy                           0.86      3964macro avg       0.85      0.86      0.85      3964
weighted avg       0.86      0.86      0.86      3964AC 0.8572149344096872

数据集:银行客户信息相关推荐

  1. ML之FE:基于自定义数据集(银行客户信息贷款和赔偿)对比实现特征衍生(手动设计新特征、利用featuretools工具实现自动特征生成)

    ML之FE:基于自定义数据集(银行客户信息贷款和赔偿)对比实现特征衍生(手动设计新特征.利用featuretools工具实现自动特征生成) 目录 基于自定义数据集(银行客户信息贷款和赔偿)对比实现特征 ...

  2. ML之FE:基于自定义数据集(银行客户信息贷款和赔偿)对比实现特征衍生(手动设计新特征、利用featuretools工具实现自动构造特征/特征衍生)

    ML之FE:基于自定义数据集(银行客户信息贷款和赔偿)对比实现特征衍生(手动设计新特征.利用featuretools工具实现自动构造特征/特征衍生) 目录 基于自定义数据集(银行客户信息贷款和赔偿)对 ...

  3. asp.net中小银行客户信息管理系统

    系统阐述了中小银行客户信息管理系统,并对该系统的需求分析及系统需要实现的设计方法作了介绍.该系统的基本功能包括管理员管理,客户管理,客户类型管理,员工管理,贷款管理,产品管理,个人管理等功能,并且个个 ...

  4. 数据集的信息总结(自己看到新的就会更新)

    人体姿态: LSP (2D)   地址:http://sam.johnson.io/research/lsp.html   样本数:2K   关节点个数:14   全身,单人 FLIC (2D)   ...

  5. botch 数据集 标注信息转换为 csv 的 python实现

    长期以来都是使用 AWK, 但 botch 这个好像用 awk略麻烦,使用python 试试,就当练手了 主要是 使用 python的文件.字符串 操作,实现了 一个 有限状态机 # -*- codi ...

  6. 《卫生信息基本数据集编制规范》等23项行业标准的通告

    相关贴子: 基本信息数据集 个人信息_1 疾病管理基本数据集第1部分:乙肝患者管理_1_1 疾病管理基本数据集第2部分:高血压患者健康管理_1 疾病管理基本数据集第3部分:重型精神疾病患者管理_1 疾 ...

  7. 基于Spark技术的银行客户数据分析

    基于Spark技术的银行客户数据分析 1. 实验室名称: 2. 实验项目名称: 一.业务场景 二.数据集说明 三.操作步骤 阶段一.启动HDFS.Spark集群服务和zeppelin服务器 阶段二.准 ...

  8. 【目标检测】yolo系列:从yolov1到yolov5之YOLOv5训练自己数据集(v6.0)

    一.源码下载及requirments 源码下载地址:https://github.com/ultralytics/yolov5 (持续更新中) 本人所用环境如下: pytorch:1.8(因为cuda ...

  9. Mnist数据集简介

    1,基本概念 MNIST是一个非常有名的手写体数字识别数据集,在很多资料中,这个数据集都会被用作深度学习的入门样例.而TensorFlow的封装让使用MNIST数据集变得更加方便.MNIST数据集是N ...

最新文章

  1. SpringBoot学习之路:09.Spring Boot中添加Filter应用
  2. linux 系统性能指标采样脚本
  3. 傅里叶(FFT)+小波变换+数据压缩
  4. 《企业云桌面实施》-小技巧-04-VMWare Workstation-虚拟机强行关机开机
  5. mysql的数据类型以及性能优化
  6. AttributeError: module ‘cv2‘ has no attribute ‘SIFT‘
  7. android盒子模拟器,emubox模拟器盒子
  8. python zipfile_python zipfile - 刘江的python教程
  9. solr 的 field, copyfield ,dynamic field
  10. 一般项目的并发量有多少_汽车保养一般包含哪些项目、保养周期是多少
  11. eclipse修改工作的目录顺序
  12. 电脑黑屏的原因有哪些
  13. iview在项目中遇到的坑
  14. Scintilla教程(6): 字符集
  15. ubuntu16.04部署开源看板项目wekan(非docker部署)
  16. DeepFlow高效的光流匹配算法(下)
  17. Docker探赜索隐
  18. 20189217 2018-2019-2 《密码与安全新技术专题》第1周作业
  19. 泛函分析复习笔记(一)度量空间
  20. 风的UV分量转成风向风速(C#)

热门文章

  1. 动态规划解决贴纸拼字游戏
  2. ubuntu20 安装TP Link TL-WDN5200无线网卡驱动
  3. CSAPP作业:Fork函数的学习感悟
  4. 微软与纳斯达克开展合作将区块链产品整合至纳斯达克服务中
  5. vmware虚拟机windows xp 登录后死掉不能修复的错误的解决
  6. 计算机专业海报加文字,巧用字体做海报之——字图穿插
  7. 只需5步——在轻量应用服务器部署Hexo博客
  8. 用Javascript实现Blogger/Blogspot的传统模板翻页功能
  9. 昵图网显示内部服务器错误,为什么博客老是显示网页错误?无法正常打开
  10. Datadog:APM和分布式跟踪的新Java支持