任务

数据探索

特征删除

缺失值处理

异常值处理

特征生成

特征合并

特征缩放

数据归一化

数据标准化

任务

关于数据类型转换以及缺失值处理（尝试不同的填充看效果）以及你能借鉴的数据探索

特征工程

import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score,precision_score,recall_score,f1_score
from sklearn.metrics import roc_auc_score,roc_curve,auc

数据探索

首先观察一下数据构成：

data = pd.read_csv('data.csv',encoding='gbk')
data.head()

data.shape

(4754, 90)

特征删除

#删除一些与识别个人身份相关的特征
data.drop(['custid','trade_no','bank_card_no','id_name'],axis=1,inplace=True)
data.drop('Unnamed: 0',axis=1,inplace=True)

将数据划分成X,y,并将X划分为数值型和非数值型

#数据划分为数值型、非数值型、标签
X_num = (data.drop('status',axis=1)).select_dtypes('number').copy()
X_str = data.select_dtypes(exclude='number').copy()
y = data['status']#删除只有单一值的数据
for col in X_str:if len(X_str[col].unique()) == 1:print(col)
for col in X_num:if len(X_num[col].unique()) == 1:print(col)X_str.drop('source',axis=1,inplace=True)

缺失值处理

X_num_miss = ( X_num.isnull().sum()/len(X_num) ).sort_values(ascending=False)
X_num_miss.head()

X_str_miss = (X_str.isnull().sum() / len(X_str)).sort_values(ascending=False)
X_str_miss

可以看到，缺失率最高的特征是student_feature,超过一半的数据缺失，其他的特征缺失率都在10%以下。对于高缺失率的特征，有两种方法进行处理，一个是EM插补，另一个是多重插补。由于两种方法比较复杂，这里先将缺失值归为一类，用0填充。

#X_num['student_feature'].value_counts()
X_num.fillna(0,inplace=True)

其他特征用众数填充缺失值

X_num.fillna(X_num.mode().iloc[0,:],inplace=True)
X_str.fillna(X_str.mode().iloc[0,:],inplace=True)
#用前后数据填充
#X_num.fillna(method='pad',inplace=True)
#X_um.fillna(method='bfill',inplace=True)
#用插值法填充
#X_num = X_num.interpolate()

异常值处理

import matplotlib.pyplot as plt
import seaborn as sns
%matplotlib inline
for i, col in enumerate(X_num.columns):plt.figure(i + 1,figsize=(10, 5))#小提琴图sns.violinplot(y=X_num[col],x=y)

用IQR方法处理极端值，IQR = 上四分位数（Q3）-下四分位数（Q1）。异常值为大于上四分位数、小于下四分位数的值，也就是说用Q3+1.5IQR和Q1-1.5IQR对极端值进行修正，成为新的极大、极小值。

#极端值处理函数
def iqr_outlier(x, thre=1.5):x_cl = x.copy()q25, q75 = x.quantile(q=[0.25,0.75])iqr = q75 - q25top = q75 + thre * iqrbottom = q25 - thre * iqrx_cl[x_cl > top] = topx_cl[x_cl < bottom] = bottom return x_cl#对进行缺失值填充后的数据进行极端值修正
X_num_cl = pd.DataFrame()
for col in X_num.columns:X_num_cl[col] = iqr_outlier(X_num[col])X_num = X_num_cl

特征生成

在处理离散型特征时有几种编码方式：序号编码、独热编码、二进制编码。序号编码用于处理类别间有大小关系的数据，独热编码用于处理无序关系的数据，二进制编码是对数据先做序号编码，然后将序号转换为二进制得到0\1特征向量，这种方法相比于独热编码来说转换后的向量维数比较少，可以节约存储空间。所以当特征中的分类数较多的时候不妨使用二进制编码。
这里要处理的是reg_preference_for_trad特征，数据之间没有序关系，只有五类，适合用独热编码将之转换为哑变量。

X_str.head()

#独热编码
X_str_dummy = pd.get_dummies(X_str['reg_preference_for_trad'])
#序号编码
'''
dic = {}
for i,j in enumerate(set(X_str['reg_preference_for_trad']):dic[j] = i
X_str['reg_preference_for_trad'] = X_str['reg_preference_for_trad'].map(dic)
'''

#处理日期型特征
X_date = pd.DataFrame()
X_date['latest_query_time_year'] = pd.to_datetime(X_str['latest_query_time']).dt.year
X_date['latest_query_time_month'] = pd.to_datetime(X_str['latest_query_time']).dt.month
X_date['latest_query_time_weekday'] = pd.to_datetime(X_str['latest_query_time']).dt.weekday
X_date['loans_latest_time_year'] = pd.to_datetime(X_str['loans_latest_time']).dt.year
X_date['loans_latest_time_month'] = pd.to_datetime(X_str['loans_latest_time']).dt.month
X_date['loans_latest_time_weekday'] = pd.to_datetime(X_str['loans_latest_time']).dt.weekday

特征合并

X_cl = pd.concat([X_num,X_str_dummy,X_date],axis=1,sort=False)
X_cl.shape

（4754，91）

特征缩放

数据归一化

from sklearn.preprocessing import MinMaxScaler
X_min_max = MinMaxScaler().fit_transform(X_cl)

数据标准化

from sklearn.preprocessing import StandardScaler
X_std = StandardScaler().fit_transform(X_cl)

划分训练集、模型评估和选择

from sklearn.linear_model import LogisticRegression
from sklearn.svm import SVC
from sklearn.tree import DecisionTreeClassifier
from xgboost.sklearn import XGBClassifier
from lightgbm.sklearn import LGBMClassifierX_std_train,X_std_test,y_train,y_test = train_test_split(X_std,y,test_size=0.3,random_state=1122)print("逻辑回归")
lr = LogisticRegression()
lr.fit(X_std_train,y_train)
print("决策树")
dtc = DecisionTreeClassifier(max_depth=8)
dtc.fit(X_std_train,y_train)
print("svm线性核")
svm = SVC(kernel='linear',probability=True)
svm.fit(X_std_train,y_train)
print("xgboost")
xgbc = XGBClassifier()
xgbc.fit(X_std_train,y_train)
print("lightgbm")
lgbc = LGBMClassifier()
lgbc.fit(X_std_train,y_train)
print('all done!')

#模型评估
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score
from sklearn.metrics import roc_auc_score, roc_curve, auc
import matplotlib.pyplot as pltdef model_metrics(clf, X_train, X_test, y_train, y_test):y_train_pred = clf.predict(X_train)y_test_pred = clf.predict(X_test)y_train_prob = clf.predict_proba(X_train)[:,1]y_test_prob = clf.predict_proba(X_test)[:,1]#准确率print('准确率:\n')print('训练集: ','%.4f'%accuracy_score(y_train,y_train_pred), end=' ')print('测试集: ','%4f'%accuracy_score(y_test,y_test_pred),end=' ')#精准率print('精准率:\n')print('训练集: ','%.4f'%precision_score(y_train,y_train_pred),end=' ')print('测试集: ','%.4f'%precision_score(y_test,y_test_pred),end=' ')#召回率print('召回率:\n')print('训练集: ','%.4f'%recall_score(y_train,y_train_pred),end=' ')print('测试集: ','%.4f'%recall_score(y_test,y_test_pred),end=' ')#f1_scoreprint('f1-score:\n')print('训练集: ','%.4f'%f1_score(y_train,y_train_pred),end=' ')print('测试集: ','%.4f'%f1_score(y_test,y_test_pred),end=' ')#aucprint('auc:\n')print('训练集: ','%.4f'%roc_auc_score(y_train,y_train_prob),end=' ')print('测试集: ','%.4f'%roc_auc_score(y_test,y_test_prob),end=' ')#roc曲线fpr_train, tpr_train, thred_train = roc_curve(y_train,y_train_prob,pos_label=1)fpr_test, tpr_test, thred_test = roc_curve(y_test,y_test_prob,pos_label=1)label = ['Train - AUC:{:.4f}'.format(auc(fpr_train,tpr_train)),'Test - AUC:{:.4f}'.format(auc(fpr_test,tpr_test))]plt.plot(fpr_train,tpr_train)plt.plot(fpr_test,tpr_test)plt.plot([0,1],[0,1],'d--')plt.xlabel('False Positive Rate')plt.ylabel('True Positive Rate')plt.legend(label, loc = 4)plt.title('ROC Curve')

model_metrics(lr,X_std_train,X_std_test,y_train,y_test)

model_metrics(svm,X_std_train,X_std_test,y_train,y_test)

model_metrics(dtc,X_std_train,X_std_test,y_train,y_test)

model_metrics(xgbc,X_std_train,X_std_test,y_train,y_test)

model_metrics(lgbc,X_std_train,X_std_test,y_train,y_test)

比较

评分相比于之前普遍有1%左右的提升。

参考

数据预处理总结

机器学习缺失值处理方法

百面机器学习

客户贷款逾期预测[5] - 特征工程相关推荐

【直播】王茂霖：二手车交易价格预测-千变万化特征工程（河北高校数据挖掘邀请赛）
二手车交易价格预测-千变万化特征工程目前河北高校数据挖掘邀请赛正在如火如荼的进行中.为了大家更好的参赛,王茂霖分享了从0梳理1场数据挖掘赛事!,完整梳理了从环境准备.数据读取.数据分析.特征工 ...
【算法竞赛学习】二手车交易价格预测-Task3特征工程
二手车交易价格预测-Task3 特征工程三. 特征工程目标 Tip:此部分为零基础入门数据挖掘的 Task3 特征工程部分,带你来了解各种特征工程以及分析方法,欢迎大家后续多多交流. 赛题:零基础入 ...
二手车价格预测task03:特征工程
二手车价格预测task03:特征工程 1.学习了operator模块operator.itemgetter()函数 2.学习了箱线图 3.了解了特征工程的方法 (内容介绍) 4.敲代码学习,加注解以 ...
推荐算法 | 预测算法 | 特征工程
推荐算法有哪些? - 知乎一. 推荐算法非个性化推荐 "如果你不知道该推荐什么,那么推荐大家都喜欢的准没错". 基于热门榜单或者最多使用等方式进行的推荐颗粒度较为粗,执行 ...
天池学习赛：工业蒸汽量预测2——特征工程
上一篇<天池学习赛:工业蒸汽量预测1--数据探索> 目录 1.特征工程 1.1 预处理 1.2 特征处理 1.3 特征降维 1.3.1 特征选择 1.3.2 线性降维 2.赛题代码 3 结 ...
【数据挖掘】心跳信号分类预测之特征工程 —— 学习笔记（三）
目录三.特征工程 3.1 特征工程概述 3.2 学习目标 3.3 内容介绍 3.4 代码与理论学习 3.4.1 安装.导入依赖并读取数据 3.4.2 数据预处理 3.4.3 使用 tsfresh 进 ...
二手车交易价格预测：特征工程
前言文章数据基于天池零基础入门数据挖掘 - 二手车交易价格预测的比赛:https://tianchi.aliyun.com/competition/entrance/231784/informati ...
二手车交易价格预测——Task3特征工程
二手车交易价格预测--特征工程一.目标二.异常值处理 (一)删除异常值三.特征构造 (一)构造时间特征 (二)构造地区特征四.数据清洗 (一)数据分桶 (二)删除冗余数据 (三)处理数据集中的 ...
类似用户画像预测的特征工程技巧总结
一情景给定一批原始训练数据,这些数据有各个用户(user_id)多条历史记录.根据这些原始训练数据预测当中的部分或全部的用户(user_id)的可能行为.例如识别羊毛党项目:http://www. ...
天猫用户重复购买预测之特征工程
特征工程处理数据 # 全量信息处理,合并数据 all_data = train_data.append(test_data) all_data = all_data.merge(user_info, ...

客户贷款逾期预测[5] - 特征工程

任务

特征工程

数据探索

特征删除

缺失值处理

异常值处理

特征生成

特征合并

特征缩放

数据归一化

数据标准化

相关性分析

划分训练集、模型评估和选择

比较

参考

客户贷款逾期预测[5] - 特征工程相关推荐

最新文章

热门文章