本文接前文Kaggle入门,主要的区别是更换了分类器XGBoost。

# -*- coding: utf-8 -*-import pandas as pd
import xgboost as xgb# 读训练数据
data = pd.read_csv('data/train.csv')#数据预处理
data['Sex'] = data['Sex'].apply(lambda s: 1 if s == 'male' else 0) #把性别从字符串类型转换为0或1数值型数据
data = data.fillna(0) #缺失字段填0
# 选取特征
X_train = data[['Sex', 'Age', 'Pclass', 'SibSp', 'Parch', 'Fare']].as_matrix()
#字段说明:性别,年龄,客舱等级,兄弟姐妹和配偶在船数量,父母孩子在船的数量,船票价格# 建立标签数据集
y_train = data['Survived']#训练模型
model = xgb.XGBClassifier(max_depth=10, n_estimators=300, learning_rate=0.01).fit(X_train, y_train)# 读测试数据
testdata = pd.read_csv('data/test.csv')#数据清洗, 数据预处理
testdata = testdata.fillna(0)
testdata['Sex'] = testdata['Sex'].apply(lambda s: 1 if s == 'male' else 0)#特征选择
X_test = testdata[['Sex', 'Age', 'Pclass', 'SibSp', 'Parch', 'Fare']].as_matrix()#评估模型
predictions = model.predict(X_test)# 保存预测结果
submission = pd.DataFrame({ 'PassengerId': testdata['PassengerId'],'Survived': predictions })
submission.to_csv("titanic_xgboost_submission.csv", index=False)

Kaggle入门 (Titanic XGBoost)相关推荐

  1. Kaggle入门 (Titanic TensorFlow Softmax)

    Kaggle用简单一句话来概括是一个数据分析的竞赛平台,现在已经被Google收购了. 作为机器学习.数据分析.数据挖掘方面的专业人员或爱好者,可以在上面学习到很多先进的方法和经验. 本文介绍一下如何 ...

  2. Kaggle 入门练习 -- Titanic

    Kaggle 入门练习 – Titanic Kaggle 大数据比赛的入门练习,泰坦尼克遇难者预测 import pandas as pd# 导入数据集 train = pd.read_csv('Ti ...

  3. python数据挖掘项目实战 预测_Python机器学习/数据挖掘项目实战 泰坦尼克号Titanic生存预测 Kaggle入门比赛...

    # Titanic : Machine Learning from DisasterQuestion要求你建立一个预测模型来回答这个问题:"什么样的人更有可能生存?"使用乘客数据 ...

  4. kaggle入门-泰坦尼克之灾

    kaggle入门-泰坦尼克之灾 引言 数据认识 总结 特征处理 建模预测 logistic分类模型 随机森林 SVM xgboost 模型验证 交叉验证 学习曲线 高偏差: 高方差 模型融合 总结 后 ...

  5. Kaggle入门,看这一篇就够了

    转载地址:https://zhuanlan.zhihu.com/p/25686876 之前发表了这篇关于 Kaggle 的专栏,旨在帮助对数据科学( Data Science )有兴趣的同学们更好的了 ...

  6. Datawhale打卡活动 Kaggle Spaceship Titanic Day3

    文章目录 Datawhale打卡活动 Kaggle Spaceship Titanic Day 3 验证集划分与树模型 步骤1:学习sklearn中的数据划分方法 K折交叉验证(KFold.Strat ...

  7. 关于Kaggle入门,看这一篇就够了

    这次酝酿了很久想给大家讲一些关于Kaggle那点儿事,帮助对数据科学(Data Science)有兴趣的同学们更好的了解这个项目,最好能亲身参与进来,体会一下学校所学的东西和想要解决一个实际的问题所需 ...

  8. 关于Kaggle入门

    博客转载至:https://blog.csdn.net/bbbeoy/article/details/73274931 这次酝酿了很久想给大家讲一些关于Kaggle那点儿事,帮助对数据科学(Data ...

  9. Kaggle入门和学习资源

    官网:https://www.kaggle.com/ 转载自:https://zhuanlan.zhihu.com/p/25686876 也可以看看:https://zhuanlan.zhihu.co ...

最新文章

  1. Spring----Spring Boot Rest的使用方法
  2. MySQL 优化之 index merge(索引合并)
  3. mysql 归类函数_mysql常用的函数归类
  4. .NET中的Assembly分析
  5. 移动互联网的特性 互联网+
  6. 在MyEclipse(2015)中上传项目到github的步骤(很详细)
  7. 关于msgpack序列化后的消息包是否再压缩
  8. 手机 物理分辨率 逻辑分辨率
  9. 【iOS】使用 otool 命令查看 App 所使用的动态库
  10. 格林尼治时间转换为本地时间
  11. 计算机安全意识小故事,安全故事精选5篇
  12. 习题6-5 巡逻机器人(Patrol Robot, ACM/ICPC Hanoi 2006, UVa1600)
  13. 深度学习推荐系统实战笔记
  14. 链表的定义及使用 综合实战:超市购物车
  15. MySQL数据库(5)
  16. 基于WebKit的网络爬虫
  17. xp系统在哪里查看补丁安装?系统补丁查看方法
  18. Sqlite3 C++ 使用方法
  19. Streaming的介绍
  20. 【unity物理系统】人物乳摇的实现

热门文章

  1. 仿ireader书架
  2. 8587520在51CTO【礼树迎蛇 红满社区】
  3. 如何在DC机上禁用成员机的本地账号
  4. CodeForces - 830C Bamboo Partition(数学+推公式)
  5. 洛谷 - P4001 [ICPC-Beijing 2006]狼抓兔子(网格图最大流转换为对偶图最短路)
  6. HDU - 6356 Glad You Came(线段树)
  7. 山东理工大学第十二届ACM程序设计竞赛 - Cut the tree(树上启发式合并+线段树)
  8. CodeForces - 1348C Phoenix and Distribution(思维)
  9. HDU - 6153 A Secret(KMP的next数组性质/扩展KMP)
  10. python基础语法-对文件的操作