深度之眼-科赛网二分类大赛入门之路

比赛简介

比赛网址：https://www.kesci.com/home/competition/5c234c6626ba91002bfdfdd3/content

比赛题目：「二分类算法」提供银行精准营销解决方案

赛题描述：

数据：

训练集：

测试集（没有标签y）：

字段说明：

NO	字段名称	数据类型	字段描述
1	ID	Int	客户唯一标识
2	age	Int	客户年龄
3	job	String	客户的职业
4	marital	String	婚姻状况
5	education	String	受教育水平
6	default	String	是否有违约记录
7	balance	Int	每年账户的平均余额
8	housing	String	是否有住房贷款
9	loan	String	是否有个人贷款
10	contact	String	与客户联系的沟通方式
11	day	Int	最后一次联系的时间（几号）
12	month	String	最后一次联系的时间（月份）
13	duration	Int	最后一次联系的交流时长
14	campaign	Int	在本次活动中，与该客户交流过的次数
15	pdays	Int	距离上次活动最后一次联系该客户，过去了多久（999表示没有联系过）
16	previous	Int	在本次活动之前，与该客户交流过的次数
17	poutcome	String	上一次活动的结果
18	y	Int	预测客户是否会订购定期存款业务

测评算法：

AUC

实验步骤

1.读取数据

import numpy as np
import pandas as pd# 训练集
train_data = pd.read_csv('./train_set.csv')
train_data.drop(['ID'], inplace=True, axis=1)# 测试集
test_data = pd.read_csv('./test_set.csv')
test_data.drop(['ID'], inplace=True, axis=1)

inplace=True代表不创建新的对象，直接对原始对象进行修改。

2.预处理

通过sklearn的preprocessing模块进行预处理，将数据中所有数据格式为object的列通过LabelEncoder()函数转化为类别category。

# 预处理
from sklearn import preprocessing
for col in train_data.columns[train_data.dtypes=='object']:LE = preprocessing.LabelEncoder()LE.fit(train_data[col])# 将string类型转换成categorytrain_data[col] = LE.transform(train_data[col])test_data[col] = LE.transform(test_data[col])

3.标准化

通过preprocessing模块的StandardScaler()函数进行数据标准化。

# 标准化
scaler = preprocessing.StandardScaler()
scaler.fit(train_data[['age','balance','duration','campaign','pdays','previous']])train_data[['age','balance','duration','campaign','pdays','previous']] = scaler.transform(train_data[['age','balance','duration','campaign','pdays','previous']])
test_data[['age','balance','duration','campaign','pdays','previous']] = scaler.transform(test_data[['age','balance','duration','campaign','pdays','previous']])

4.切分训练集和验证集

通过model_selection模块的train_test_split()函数切分训练集和验证集，比例为4:1。

# 切分训练集和验证集
from sklearn.model_selection import train_test_split
use_col = list(set(train_data.columns) - set(['y']))
train_X, valid_X, train_y, valid_y = train_test_split(train_data[use_col], train_data['y'], test_size=0.2)

5.使用简单模型

（1）LogisticRegression

# Logistic Regression
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score, roc_auc_score
LR = LogisticRegression(solver='liblinear')
LR.fit(train_X, train_y.values.ravel())  # 利用ravel()处理不平衡数据LR_pred = LR.predict(valid_X)
LR_pred_prob = LR.predict_proba(valid_X)[:, 1]
print("Accuracy:{:.4f}".format(accuracy_score(valid_y, LR_pred)))
print("AUC Score(Train data): {:.4f}".format(roc_auc_score(valid_y, LR_pred_prob)))LR_test_pred_prob = LR.predict_proba(test_data)[:, 1]
df_test = pd.read_csv('./test_set.csv')
df_test['pred'] = LR_test_pred_prob.tolist()
df_result = df_test.loc[:, ['ID', 'pred']]
df_result.to_csv('LR.csv', index=False)

在验证集上的准确率为0.8940，AUC得分为0.8726

（2）KNN

# kNN
from sklearn.neighbors import KNeighborsClassifier
KNN = KNeighborsClassifier()
KNN.fit(train_X, train_y.values.ravel())KNN_pred = KNN.predict(valid_X)
KNN_pred_prob = KNN.predict_proba(valid_X)[:, 1]
print("Accuracy:{:.4f}".format(accuracy_score(valid_y, KNN_pred)))
print("AUC Score(Train data): {:.4f}".format(roc_auc_score(valid_y, KNN_pred_prob)))KNN_test_pred_prob = KNN.predict_proba(test_data)[:, 1]
df_test = pd.read_csv('./test_set.csv')
df_test['pred'] = KNN_test_pred_prob.tolist()
df_result = df_test.loc[:, ['ID', 'pred']]
df_result.to_csv('KNN.csv', index=False)

在验证集上的准确率为0.8922，AUC得分为0.8119

（3）决策树

# Decision Tree
from sklearn.tree import DecisionTreeClassifier
DT = DecisionTreeClassifier(min_samples_split=40)
DT.fit(train_X, train_y.values.ravel())DT_pred = DT.predict(valid_X)
DT_pred_prob = DT.predict_proba(valid_X)[:, 1]
print("Accuracy:{:.4f}".format(accuracy_score(valid_y, DT_pred)))
print("AUC Score(Train data): {:.4f}".format(roc_auc_score(valid_y, DT_pred_prob)))DT_test_pred_prob = DT.predict_proba(test_data)[:, 1]
df_test = pd.read_csv('./test_set.csv')
df_test['pred'] = DT_test_pred_prob.tolist()
df_result = df_test.loc[:, ['ID', 'pred']]
df_result.to_csv('DT.csv', index=False)

在验证集上的准确率为0.8924，AUC得分为0.8588

（4）平均得分

# 平均得分
ave_pred = (LR_pred + KNN_pred + DT_pred) / 3
ave_pred_prob = (LR_pred_prob + KNN_pred_prob + DT_pred_prob) / 3
print("AUC Score(Train data): {:.4f}".format(roc_auc_score(valid_y, ave_pred_prob)))ave_test_pred_prob = (LR_test_pred_prob + KNN_test_pred_prob + DT_test_pred_prob) / 3
df_test = pd.read_csv('./test_set.csv')
df_test['pred'] = ave_test_pred_prob.tolist()
df_result = df_test.loc[:, ['ID', 'pred']]
df_result.to_csv('./average.csv', index=False)

AUC得分为0.9123

6.使用GradientBoosting

# Gradient Boosting
from sklearn.ensemble import GradientBoostingClassifier
GB = GradientBoostingClassifier()
GB.fit(train_X, train_y.values.ravel())GB_pred = GB.predict(valid_X)
GB_pred_prob = GB.predict_proba(valid_X)[:, 1]
print("Accuracy:{:.4f}".format(accuracy_score(valid_y, GB_pred)))
print("AUC Score(Train data): {:.4f}".format(roc_auc_score(valid_y, GB_pred_prob)))

在验证集上的准确率为0.9038，AUC得分为0.9221，明显比简单模型效果更好。

7.网格搜索最优参数

搜索最优参数时，使用整个训练集：

full_train_X = train_data.iloc[:, train_data.columns!='y']
full_train_y = train_data.iloc[:, train_data.columns=='y']

首先同时搜索学习率learning_rate和迭代次数n_estimators：

# 网格搜索最优参数
from sklearn.model_selection import GridSearchCV
# 搜索学习率learning_rate和迭代次数n_estimators
param_search1 = {'learning_rate': [0.01, 0.1, 1.],'n_estimators': list(range(10, 100, 10))+list(range(100,1001,100))}
grid1 = GridSearchCV(estimator=GradientBoostingClassifier(),param_grid=param_search1,scoring='roc_auc',iid=False,cv=3)
grid1.fit(full_train_X, full_train_y.values.ravel())
grid1.best_params_,grid1.best_score_

得到最优学习率和最优迭代次数，以及对应的AUC得分为：

({'learning_rate': 0.1, 'n_estimators': 500}, 0.9286749844960692)

然后同时搜索最大深度max_depth和最小样本数min_samples_split和叶子节点最小样本数min_samples_leaf，使用第一步得到的最优学习率和最优迭代次数：

# 搜索最大深度max_depth和最小样本数min_samples_split和叶子节点最小样本数min_samples_leaf
param_search2 = {'max_depth': list(range(3, 14, 2)),'min_samples_split': list(range(100, 1001, 200)),'min_samples_leaf': list(range(50, 101, 10))}
grid2 = GridSearchCV(estimator=GradientBoostingClassifier(learning_rate=grid1.best_params_['learning_rate'],n_estimators=grid1.best_params_['n_estimators']),param_grid=param_search2,scoring='roc_auc',iid=False,cv=3)
grid2.fit(full_train_X, full_train_y.values.ravel())
grid2.best_params_,grid2.best_score_

得到最优的最大深度，叶子节点最小样本数，最小样本数和对应的AUC得分为：

({'max_depth': 5, 'min_samples_leaf': 90, 'min_samples_split': 300},0.9302954874270872)

8.生成预测

使用网格搜索得到的五个参数，对整个训练集进行拟合之后，对测试集数据进行预测，得到预测结果的csv文件。

# 生成预测
from sklearn.ensemble import GradientBoostingClassifier
GB = GradientBoostingClassifier(learning_rate=0.1,n_estimators=500,max_depth=5,min_samples_leaf=90,min_samples_split=300)
GB.fit(full_train_X, full_train_y.values.ravel())
GB_pred = GB.predict(test_data)
GB_pred_prob = GB.predict_proba(valid_X)[:, 1]GB_test_pred_prob = GB.predict_proba(test_data)[:, 1]
df_test = pd.read_csv('./test_set.csv')
df_test['pred'] = GB_test_pred_prob.tolist()
df_result = df_test.loc[:, ['ID', 'pred']]
df_result.to_csv('./GB.csv', index=False)

9.查看得分

离前十0.9402差了一个百分点。

深度之眼-科赛网二分类大赛入门之路相关推荐

[TensorFlow深度学习入门]实战九·用CNN做科赛网TibetanMNIST藏文手写数字数据集准确率98%+
[TensorFlow深度学习入门]实战九·用CNN做科赛网TibetanMNIST藏文手写数字数据集准确率98.8%+ 我们在博文,使用CNN做Kaggle比赛手写数字识别准确率99%+,在此基础之 ...
全国大学生交通科技大赛交科赛交通运输科技大赛智能交通创新技术应用大赛国家三等奖论文文字作品资料经验分享
点开视频后,再点视频下方<展开全文>直接看国奖文字等超全资料截图哦.(小白必看)全国大学生交通科技大赛交科赛交通运输科技大赛智能交通创新技术应用大赛国家三等奖论文文字作品资料经验分享这个 ...
最简单深度学习Python实现（二分类问题）
二分类问题指的是所有数据的标签就只有两种,正面或者负面. 一,准备数据我们使用的数据是内置于Keras的IMDB数据集.它包含50000条两极分化的电影评论,正面评论和负面评论各占一半.其中2500 ...
深度学习初级课程 6.二分类
深度学习初级课程 1.单一神经元 2.深度神经网络 3.随机梯度下降法 4.过拟合和欠拟合 5.剪枝.批量标准化 6.二分类问题应用.用TPU探测希格斯玻色子正文介绍到目前为止,在本课程中,我 ...
Keras深度学习（2）-二分类问题之电影评论分类
二分类问题可能是应用最广泛的机器学习问题.在这个例子中,你将学习根据电影评论的文字内容将其划分为正面或负面. 本节使用 IMDB 数据集,它包含来自互联网电影数据库(IMDB)的 50 000 条严重 ...
使用机器学习和深度学习对PE进行二分类和多分类
文章目录 1. 前言 2. 安装库 2.1 安装lief 2.2 安装ember 3. 数据预处理 4. 训练模型 5. 预测新数据 5.1 二分类预测 5.2 多分类预测 6. 代码下载 1. 前言 ...
科赛网魔镜杯“风控算法比赛”赛后总结
1.问题描述从平均400个数据维度来评估当前用户的信用状态,给每个借款人打出当前状态的信用分.在此基础上,再结合新发标的信息,打出对于每个标的6个月内逾期率的预测,为投资人提供了关键的决策依据,促进 ...
深度学习神经网络（5）逻辑回归二分类-Pytorch实现乳腺癌预测
深度学习神经网络逻辑回归二分类-乳腺癌预测一.前言二.代码实现 2.1 引入依赖库 2.2 加载并查看数据集 2.3 数据处理 2.4 数据分割 2.5 迭代训练 2.6 数据验证一.前言 ...
pytorch 猫狗二分类 resnet
深度学习(猫狗二分类) 题目要求数据获取与预处理网络模型模型原理 Resnet背景 Resnet原理代码实现模型构建训练过程批验证过程单一验证APP 运行结果训练结果批验证结果 A ...
公告 | 科赛Kesci宣布正式更名为和鲸HeyWhale，致力于打造中国最好的数据科学协同创新平台
2019年1月1日,数据科学平台科赛网(Kesci.com)正式更名为"和鲸科技". 和鲸旗下拥有聚集了超过50,000+数据智能人才的专业第三方数据科学社区kesci(科赛网). ...

深度之眼-科赛网二分类大赛入门之路

比赛简介

实验步骤

深度之眼-科赛网二分类大赛入门之路相关推荐

最新文章

热门文章