介绍

这是一个相对简单而且有趣的分类案例,此次比赛意在区分食尸鬼、地精和灵魂。每种物体的特征由骨骼长度,腐烂的严重程度,头发长度,无灵魂的程度,颜色构成。详细内容请看下图:

由上图可以看出,这是一个典型的机器学习分类物体,下面来看下具体怎么实现吧!

具体实现

# -*- coding: utf-8 -*-
#导入一些将会被用到的库
import numpy as np # linear algebra
import pandas as pd # data processing, CSV file I/O (e.g. pd.read_csv)
from matplotlib import pyplot as plt
#matplotlib inline
import seaborn as sns
from sklearn import preprocessing
from sklearn import metrics
from sklearn.model_selection import train_test_split
from sklearn.model_selection import GridSearchCV
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import VotingClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.ensemble import BaggingClassifier
from sklearn.ensemble import RandomForestClassifier, AdaBoostClassifier, GradientBoostingClassifier
from sklearn.neighbors import KNeighborsClassifier
from sklearn.cross_validation import StratifiedShuffleSplit
from sklearn.svm import SVC
from sklearn.metrics import accuracy_score, log_loss
from sklearn.svm import SVC, LinearSVC, NuSVC
from sklearn.naive_bayes import GaussianNB
from sklearn.discriminant_analysis import LinearDiscriminantAnalysis
from sklearn.discriminant_analysis import QuadraticDiscriminantAnalysis
import warnings
warnings.filterwarnings("ignore")
#读取文件
train_data_orig = pd.read_csv('C:/Users/new/Desktop/data/train.csv')
test_data_orig = pd.read_csv('C:/Users/new/Desktop/data/test.csv')
#把文件中的id这一列去掉
train_data = train_data_orig.drop(['id'], axis = 1)
test_data = test_data_orig.drop(['id'], axis = 1)
#拿到训练集中的标签
le = preprocessing.LabelEncoder().fit(train_data.type) #对数据的标签进行编码,从string到float类型
labels = le.transform(train_data.type)           # encode species strings
#这里是提取数据中的类别,下面有用到
classes = list(le.classes_)
#测试数据的id,在保存测试结果时会用到
test_ids = test_data_orig.id
#把数据转换成标签,其实是把字符属性转换为数值属性/类别
#训练数据
color_le = preprocessing.LabelEncoder()
color_le.fit(train_data['color'])
#测试数据
color_test_le=preprocessing.LabelEncoder()
color_test_le.fit(test_data['color'])
#这里把训练和测试数据的color转换为数值类型,类似于标签,这样才能够被机器学习模型处理
train_data['color_int'] = color_le.transform(train_data['color'])
train_data=train_data.drop(['color','type'], axis = 1)test_data['color_int'] = color_test_le.transform(test_data['color'])
test_data=test_data.drop(['color'], axis = 1)# print(train_data)
# print(test_data)
#print(labels)
#print(test_ids)
#对上面的train_data进行划分,分为train_data和test_data(进行模型评估)
sss = StratifiedShuffleSplit(labels, 10, test_size=0.2, random_state=23)for train_index, test_index in sss:X_train, X_test = train_data.values[train_index], train_data.values[test_index]y_train, y_test = labels[train_index], labels[test_index]#建立十种分类器
classifiers = [KNeighborsClassifier(3),SVC(kernel="rbf", C=0.025, probability=True),NuSVC(probability=True),DecisionTreeClassifier(),RandomForestClassifier(),AdaBoostClassifier(),GradientBoostingClassifier(),GaussianNB(),LinearDiscriminantAnalysis(),QuadraticDiscriminantAnalysis()]# Logging for Visual Comparison
log_cols=["Classifier", "Accuracy", "Log Loss"]
log = pd.DataFrame(columns=log_cols)for clf in classifiers:clf.fit(X_train, y_train)name = clf.__class__.__name__print("="*30)print(name)print('****Results****')train_predictions = clf.predict(X_test)acc = accuracy_score(y_test, train_predictions)print("Accuracy: {:.4%}".format(acc))train_predictions = clf.predict_proba(X_test)ll = log_loss(y_test, train_predictions)print("Log Loss: {}".format(ll))log_entry = pd.DataFrame([[name, acc*100, ll]], columns=log_cols)log = log.append(log_entry)print("="*30)
sns.set_color_codes("muted")
sns.barplot(x='Accuracy', y='Classifier', data=log, color="b")plt.xlabel('Accuracy %')
plt.title('Classifier Accuracy')
plt.show()sns.set_color_codes("muted")
sns.barplot(x='Log Loss', y='Classifier', data=log, color="g")plt.xlabel('Log Loss')
plt.title('Classifier Log Loss')
plt.show()

下面是不同模型的测试结果,可以发现,最后三个模型准确率相同,在这里选取LinearDiscriminantAnalysis作为分类器模型。


==============================
KNeighborsClassifier
****Results****
Accuracy: 69.3333%
Log Loss: 3.6023867502177156
==============================
SVC
****Results****
Accuracy: 34.6667%
Log Loss: 1.1088815337732691
==============================
NuSVC
****Results****
Accuracy: 78.6667%
Log Loss: 0.5199398109239035
==============================
DecisionTreeClassifier
****Results****
Accuracy: 58.6667%
Log Loss: 14.276027576563083
==============================
RandomForestClassifier
****Results****
Accuracy: 80.0000%
Log Loss: 0.4967723491575394
==============================
AdaBoostClassifier
****Results****
Accuracy: 65.3333%
Log Loss: 0.9052712341643282
==============================
GradientBoostingClassifier
****Results****
Accuracy: 78.6667%
Log Loss: 0.49213620556208354
==============================
GaussianNB
****Results****
Accuracy: 82.6667%
Log Loss: 0.3855068195590601
==============================
LinearDiscriminantAnalysis
****Results****
Accuracy: 82.6667%
Log Loss: 0.48017310243083433
==============================
QuadraticDiscriminantAnalysis
****Results****
Accuracy: 82.6667%
Log Loss: 0.3934316190564318
==============================
# Predict Test Set
favorite_clf = LinearDiscriminantAnalysis()
favorite_clf.fit(X_train, y_train)
test_predictions = favorite_clf.predict_proba(test_data)# Format DataFrame
submission = pd.DataFrame(test_predictions, columns=classes)
submission.insert(0, 'id', test_ids)
submission.reset_index()# Export Submission
submission.to_csv('C:/Users/new/Desktop/data/submission.csv', index = False)#把结果写进提交文件中
submission.tail()

实验数据:Ghouls, Goblins, and Ghosts

Kaggle实战之食尸鬼、地精、鬼魂分类相关推荐

  1. Kaggle实战:点击率预估

    版权声明:本文出自程世东的知乎,原创文章,转载请注明出处:Kaggle实战--点击率预估. 请安装TensorFlow1.0,Python3.5 项目地址: chengstone/kaggle_cri ...

  2. kaggle实战—泰坦尼克(五、模型搭建-模型评估)

    kaggle实战-泰坦尼克(一.数据分析) kaggle实战-泰坦尼克(二.数据清洗及特征处理) kaggle实战-泰坦尼克(三.数据重构) kaggle实战-泰坦尼克(四.数据可视化) kaggle ...

  3. kaggle实战—泰坦尼克(二、数据清洗及特征处理)

    kaggle实战-泰坦尼克(一.数据分析) kaggle实战-泰坦尼克(二.数据清洗及特征处理) kaggle实战-泰坦尼克(三.数据重构) kaggle实战-泰坦尼克(四.数据可视化) kaggle ...

  4. Kaggle实战——点击率预估

    <深度学习私房菜:跟着案例学Tensorflow>作者 版权声明:本文出自程世东的知乎,原创文章,转载请注明出处:Kaggle实战--点击率预估. 请安装TensorFlow1.0,Pyt ...

  5. Kaggle实战(一)生死还难预测37

    Kaggle实战(泰坦尼克号海难生死预测) 1.背景介绍 泰坦尼克号于1909年3月31日在爱尔兰动工建造,1911年5月31日下水,次年4月2日完工试航.她是当时世界上体积最庞大.内部设施最豪华的客 ...

  6. 基于Kaggle数据的词袋模型文本分类教程

     基于Kaggle数据的词袋模型文本分类教程 发表于23小时前| 454次阅读| 来源FastML| 0 条评论| 作者Zygmunt Z 词袋模型文本分类word2vecn-gram机器学习 w ...

  7. kaggle实战—泰坦尼克(三、数据重构)

    kaggle实战-泰坦尼克(一.数据分析) kaggle实战-泰坦尼克(二.数据清洗及特征处理) kaggle实战-泰坦尼克(三.数据重构) kaggle实战-泰坦尼克(四.数据可视化) kaggle ...

  8. kaggle实战笔记_1.数据处理

    kaggle实战笔记_1.数据处理 数据处理的重要性比模型更重要 如果正负样本是1:100的话,直接拿去做建模,问题是非常大的,如果其评判标准为accuracy的话,如果把任何一个样本都判定为负样本的 ...

  9. kaggle实战—泰坦尼克(四、数据可视化)

    kaggle实战-泰坦尼克(一.数据分析) kaggle实战-泰坦尼克(二.数据清洗及特征处理) kaggle实战-泰坦尼克(三.数据重构) kaggle实战-泰坦尼克(四.数据可视化) kaggle ...

  10. 实战:使用Pytorch搭建分类网络(肺结节假阳性剔除)

    实战:使用Pytorch搭建分类网络(肺结节假阳性剔除) 阅前可看: 实战:使用yolov3完成肺结节检测(Luna16数据集)及肺实质分割 其中的脚本资源getMat.py文件是对肺结节进行切割. ...

最新文章

  1. 计算机的五大主要应用领域是电大,电大计算机应用基础考答案
  2. 【Android动画】之Tween动画 (渐变、缩放、位移、旋转)
  3. 在html中超链接_HTML 超级链接详细讲解
  4. SQL经典面试题及答案
  5. PJAX初体验(主要是利用HTML5 新增API pushState和replaceState+AJAX)
  6. 幻灯片:LINQ Inside, Part 1
  7. sqlalchemy in查询优化_SQL高级:代码实战 SQL 单表优化
  8. 【Oracle】ORA-04031错误解决
  9. android自定义渐变色圆环,CircleShape渐变颜色圆环
  10. 计算原矩阵Jaccard相似度和签名矩阵的Jaccard相似度
  11. unity NGUI下载 支持unity高版本
  12. SVN客户端安装及汉化
  13. (XWZ)的python学习笔记Ⅵ——进程和线程
  14. 按键精灵post请求_[教程] 以本论坛为例,手把手教你使用按键精灵POST登陆网页...
  15. 增强的字节码反编译工具:Enhanced Class Decompiler
  16. Oracle Contracts Core Tables
  17. Spring关于@required注解
  18. Vue入门(Vue.js,库与框架,MVVM,BootCDN,Vue入门,数据双向绑定,vue事件,生命周期,钩子函数 )
  19. 西文是指什么,【英语中的复合句是指什么具体来说是指哪些类的语法知识?】作业帮...
  20. Range-based for(C++20)

热门文章

  1. HDU1598 并查集+枚举
  2. JSON 之 SuperObject(3): 访问
  3. dedecms注入漏洞 5.3 5.5
  4. 复杂参数的基本使用方式
  5. Windows下安装NetCat
  6. xml+flash图片展示
  7. C++11 auto类型推导
  8. 24. (附加)二叉搜索树的前续遍历序列(c++版本)
  9. 人脸图像特征提取方法(HOG、Dlib、CNN)简述
  10. python网络编程难点_python网络编程