目录

任务

数据探索

特征删除

缺失值处理

异常值处理

特征生成

特征合并

特征缩放

数据归一化

数据标准化

相关性分析

划分训练集、模型评估和选择

参考


任务

关于数据类型转换以及缺失值处理(尝试不同的填充看效果)以及你能借鉴的数据探索

特征工程

import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score,precision_score,recall_score,f1_score
from sklearn.metrics import roc_auc_score,roc_curve,auc

数据探索

首先观察一下数据构成:

data = pd.read_csv('data.csv',encoding='gbk')
data.head()

data.shape
(4754, 90)

特征删除

#删除一些与识别个人身份相关的特征
data.drop(['custid','trade_no','bank_card_no','id_name'],axis=1,inplace=True)
data.drop('Unnamed: 0',axis=1,inplace=True)

将数据划分成X,y,并将X划分为数值型和非数值型

#数据划分为数值型、非数值型、标签
X_num = (data.drop('status',axis=1)).select_dtypes('number').copy()
X_str = data.select_dtypes(exclude='number').copy()
y = data['status']#删除只有单一值的数据
for col in X_str:if len(X_str[col].unique()) == 1:print(col)
for col in X_num:if len(X_num[col].unique()) == 1:print(col)X_str.drop('source',axis=1,inplace=True)

缺失值处理

X_num_miss = ( X_num.isnull().sum()/len(X_num) ).sort_values(ascending=False)
X_num_miss.head()
X_str_miss = (X_str.isnull().sum() / len(X_str)).sort_values(ascending=False)
X_str_miss

可以看到,缺失率最高的特征是student_feature,超过一半的数据缺失,其他的特征缺失率都在10%以下。对于高缺失率的特征,有两种方法进行处理,一个是EM插补,另一个是多重插补。由于两种方法比较复杂,这里先将缺失值归为一类,用0填充。

#X_num['student_feature'].value_counts()
X_num.fillna(0,inplace=True)

其他特征用众数填充缺失值

X_num.fillna(X_num.mode().iloc[0,:],inplace=True)
X_str.fillna(X_str.mode().iloc[0,:],inplace=True)
#用前后数据填充
#X_num.fillna(method='pad',inplace=True)
#X_um.fillna(method='bfill',inplace=True)
#用插值法填充
#X_num = X_num.interpolate()

异常值处理

import matplotlib.pyplot as plt
import seaborn as sns
%matplotlib inline
for i, col in enumerate(X_num.columns):plt.figure(i + 1,figsize=(10, 5))#小提琴图sns.violinplot(y=X_num[col],x=y)

用IQR方法处理极端值,IQR = 上四分位数(Q3)-下四分位数(Q1)。异常值为大于上四分位数、小于下四分位数的值,也就是说用Q3+1.5IQR和Q1-1.5IQR对极端值进行修正,成为新的极大、极小值。

#极端值处理函数
def iqr_outlier(x, thre=1.5):x_cl = x.copy()q25, q75 = x.quantile(q=[0.25,0.75])iqr = q75 - q25top = q75 + thre * iqrbottom = q25 - thre * iqrx_cl[x_cl > top] = topx_cl[x_cl < bottom] = bottom return x_cl#对进行缺失值填充后的数据进行极端值修正
X_num_cl = pd.DataFrame()
for col in X_num.columns:X_num_cl[col] = iqr_outlier(X_num[col])X_num = X_num_cl

特征生成

在处理离散型特征时有几种编码方式:序号编码、独热编码、二进制编码。序号编码用于处理类别间有大小关系的数据,独热编码用于处理无序关系的数据,二进制编码是对数据先做序号编码,然后将序号转换为二进制得到0\1特征向量,这种方法相比于独热编码来说转换后的向量维数比较少,可以节约存储空间。所以当特征中的分类数较多的时候不妨使用二进制编码。
    这里要处理的是reg_preference_for_trad特征,数据之间没有序关系,只有五类,适合用独热编码将之转换为哑变量。

X_str.head()

#独热编码
X_str_dummy = pd.get_dummies(X_str['reg_preference_for_trad'])
#序号编码
'''
dic = {}
for i,j in enumerate(set(X_str['reg_preference_for_trad']):dic[j] = i
X_str['reg_preference_for_trad'] = X_str['reg_preference_for_trad'].map(dic)
'''
#处理日期型特征
X_date = pd.DataFrame()
X_date['latest_query_time_year'] = pd.to_datetime(X_str['latest_query_time']).dt.year
X_date['latest_query_time_month'] = pd.to_datetime(X_str['latest_query_time']).dt.month
X_date['latest_query_time_weekday'] = pd.to_datetime(X_str['latest_query_time']).dt.weekday
X_date['loans_latest_time_year'] = pd.to_datetime(X_str['loans_latest_time']).dt.year
X_date['loans_latest_time_month'] = pd.to_datetime(X_str['loans_latest_time']).dt.month
X_date['loans_latest_time_weekday'] = pd.to_datetime(X_str['loans_latest_time']).dt.weekday

特征合并

X_cl = pd.concat([X_num,X_str_dummy,X_date],axis=1,sort=False)
X_cl.shape

(4754,91)

特征缩放

数据归一化

from sklearn.preprocessing import MinMaxScaler
X_min_max = MinMaxScaler().fit_transform(X_cl)

数据标准化

from sklearn.preprocessing import StandardScaler
X_std = StandardScaler().fit_transform(X_cl)

相关性分析

#data.cov()协方差矩阵
#data.corr()相似矩阵

划分训练集、模型评估和选择

from sklearn.linear_model import LogisticRegression
from sklearn.svm import SVC
from sklearn.tree import DecisionTreeClassifier
from xgboost.sklearn import XGBClassifier
from lightgbm.sklearn import LGBMClassifierX_std_train,X_std_test,y_train,y_test = train_test_split(X_std,y,test_size=0.3,random_state=1122)print("逻辑回归")
lr = LogisticRegression()
lr.fit(X_std_train,y_train)
print("决策树")
dtc = DecisionTreeClassifier(max_depth=8)
dtc.fit(X_std_train,y_train)
print("svm线性核")
svm = SVC(kernel='linear',probability=True)
svm.fit(X_std_train,y_train)
print("xgboost")
xgbc = XGBClassifier()
xgbc.fit(X_std_train,y_train)
print("lightgbm")
lgbc = LGBMClassifier()
lgbc.fit(X_std_train,y_train)
print('all done!')
#模型评估
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score
from sklearn.metrics import roc_auc_score, roc_curve, auc
import matplotlib.pyplot as pltdef model_metrics(clf, X_train, X_test, y_train, y_test):y_train_pred = clf.predict(X_train)y_test_pred = clf.predict(X_test)y_train_prob = clf.predict_proba(X_train)[:,1]y_test_prob = clf.predict_proba(X_test)[:,1]#准确率print('准确率:\n')print('训练集: ','%.4f'%accuracy_score(y_train,y_train_pred), end=' ')print('测试集: ','%4f'%accuracy_score(y_test,y_test_pred),end=' ')#精准率print('精准率:\n')print('训练集: ','%.4f'%precision_score(y_train,y_train_pred),end=' ')print('测试集: ','%.4f'%precision_score(y_test,y_test_pred),end=' ')#召回率print('召回率:\n')print('训练集: ','%.4f'%recall_score(y_train,y_train_pred),end=' ')print('测试集: ','%.4f'%recall_score(y_test,y_test_pred),end=' ')#f1_scoreprint('f1-score:\n')print('训练集: ','%.4f'%f1_score(y_train,y_train_pred),end=' ')print('测试集: ','%.4f'%f1_score(y_test,y_test_pred),end=' ')#aucprint('auc:\n')print('训练集: ','%.4f'%roc_auc_score(y_train,y_train_prob),end=' ')print('测试集: ','%.4f'%roc_auc_score(y_test,y_test_prob),end=' ')#roc曲线fpr_train, tpr_train, thred_train = roc_curve(y_train,y_train_prob,pos_label=1)fpr_test, tpr_test, thred_test = roc_curve(y_test,y_test_prob,pos_label=1)label = ['Train - AUC:{:.4f}'.format(auc(fpr_train,tpr_train)),'Test - AUC:{:.4f}'.format(auc(fpr_test,tpr_test))]plt.plot(fpr_train,tpr_train)plt.plot(fpr_test,tpr_test)plt.plot([0,1],[0,1],'d--')plt.xlabel('False Positive Rate')plt.ylabel('True Positive Rate')plt.legend(label, loc = 4)plt.title('ROC Curve')
model_metrics(lr,X_std_train,X_std_test,y_train,y_test)

model_metrics(svm,X_std_train,X_std_test,y_train,y_test)

model_metrics(dtc,X_std_train,X_std_test,y_train,y_test)

model_metrics(xgbc,X_std_train,X_std_test,y_train,y_test)

model_metrics(lgbc,X_std_train,X_std_test,y_train,y_test)

比较

评分相比于之前普遍有1%左右的提升。

参考

数据预处理总结

机器学习缺失值处理方法

百面机器学习

客户贷款逾期预测[5] - 特征工程相关推荐

  1. 【直播】王茂霖:二手车交易价格预测-千变万化特征工程(河北高校数据挖掘邀请赛)

    二手车交易价格预测-千变万化特征工程 目前 河北高校数据挖掘邀请赛 正在如火如荼的进行中.为了大家更好的参赛,王茂霖分享了 从0梳理1场数据挖掘赛事!,完整梳理了从环境准备.数据读取.数据分析.特征工 ...

  2. 【算法竞赛学习】二手车交易价格预测-Task3特征工程

    二手车交易价格预测-Task3 特征工程 三. 特征工程目标 Tip:此部分为零基础入门数据挖掘的 Task3 特征工程部分,带你来了解各种特征工程以及分析方法,欢迎大家后续多多交流. 赛题:零基础入 ...

  3. 二手车价格预测task03:特征工程

    二手车价格预测task03:特征工程 1.学习了operator模块operator.itemgetter()函数 2.学习了箱线图 3.了解了特征工程的方法 (内容介绍) 4.敲代码学习,加注解 以 ...

  4. 推荐算法 | 预测算法 | 特征工程

    推荐算法有哪些? - 知乎 一.  推荐算法  非个性化推荐  "如果你不知道该推荐什么,那么推荐大家都喜欢的准没错". 基于热门榜单或者最多使用等方式进行的推荐颗粒度较为粗,执行 ...

  5. 天池学习赛:工业蒸汽量预测2——特征工程

    上一篇<天池学习赛:工业蒸汽量预测1--数据探索> 目录 1.特征工程 1.1 预处理 1.2 特征处理 1.3 特征降维 1.3.1 特征选择 1.3.2 线性降维 2.赛题代码 3 结 ...

  6. 【数据挖掘】心跳信号分类预测 之 特征工程 —— 学习笔记(三)

    目录 三.特征工程 3.1 特征工程概述 3.2 学习目标 3.3 内容介绍 3.4 代码与理论学习 3.4.1 安装.导入依赖并读取数据 3.4.2 数据预处理 3.4.3 使用 tsfresh 进 ...

  7. 二手车交易价格预测:特征工程

    前言 文章数据基于天池零基础入门数据挖掘 - 二手车交易价格预测的比赛:https://tianchi.aliyun.com/competition/entrance/231784/informati ...

  8. 二手车交易价格预测——Task3特征工程

    二手车交易价格预测--特征工程 一.目标 二.异常值处理 (一)删除异常值 三.特征构造 (一)构造时间特征 (二)构造地区特征 四.数据清洗 (一)数据分桶 (二)删除冗余数据 (三)处理数据集中的 ...

  9. 类似用户画像预测的特征工程技巧总结

    一 情景 给定一批原始训练数据,这些数据有各个用户(user_id)多条历史记录.根据这些原始训练数据预测当中的部分或全部的用户(user_id)的可能行为.例如识别羊毛党项目:http://www. ...

  10. 天猫用户重复购买预测之特征工程

    特征工程 处理数据 # 全量信息处理,合并数据 all_data = train_data.append(test_data) all_data = all_data.merge(user_info, ...

最新文章

  1. Vijos p1165 火烧赤壁 离散化+单调栈
  2. 站在汽修厂的角度看需求
  3. asp mysql连接已重置,mysql-检查经典ASP中的连接是否正常
  4. Linux系统基本概念
  5. 抽象高于实现 ——unity框架提取
  6. matlab车牌定位与识别,基于matlab车牌的定位与分割识别程序概要
  7. 个人开发者上架Android应用市场
  8. 网络安全课第三节 SQL 注入的检测与防御
  9. 流程图软件Visio的使用笔记
  10. Speedoffice(word)文档如何设置分栏
  11. python分割文件_python简单分割文件的方法
  12. arcgis 10.8 for win10安装教程
  13. 几个超赞的颜色搭配网站,非常实用!强烈推荐!!
  14. i7 10700k和i9 9900k对比哪个好
  15. HCIA--基础网络实验---HTTP服务搭建
  16. 关于群晖NAS计划运行Python脚本的笔记
  17. react项目如何运行
  18. pic c语言 位标志,PIC单片机状态寄存器中的C(进位/借位位标志)
  19. 苹果手机用的linux系统,苹果最差的手机竟是它,你有用过吗?
  20. 神经网络研究主要内容,神经网络的起源和发展

热门文章

  1. python爬虫beta版之抓取知乎单页面回答(low 逼版)
  2. 首行缩进,文字之间的间距
  3. 全国省市区mysql数据
  4. 一步一步搭建客服系统
  5. Js加载百度热点新闻
  6. vue3 effect
  7. Audio Effect
  8. BUUCTF Misc 弱口令 [RoarCTF2019]黄金6年 小易的U盘 [WUSTCTF2020]alison_likes
  9. 用JS生成声音,实现钢琴演奏
  10. linux 域名判断 跳转,Nginx判断不同的域名指向不同的root路径实例