Titanic

1. 不要痴迷于使用复杂的模型,有时候使用简单模型效果更佳。

经过数据预处理和数据清洗之后,使用随机森林和逻辑回归两种模型。随机森林模型对象使用网格搜索进行十折验证进行调参。

两个模型对象的准确率:

  logr rf_grid
训练集 84.11% 89.09%
验证集 79.85% 78.36%
测试集 78.47% 77.03%

注:此处训练集和验证集是对train.csv数据使用train_test_split方法取得的。本质上都是训练集的数据。测试集的准确率是在Kaggle上提交预测之后返回的结果。

可以看到随机森林模型对象对训练集数据有更高的预测准确率,而在验证集和测试集上表现反倒不如逻辑回归模型对象好。

2. 不要把所有训练集的数据(包括训练集和验证集)喂给模型对象,否则容易出现过拟合现象。

我在尝试这样做后,测试集的准确率反而下降了一个百分点。

3. 训练集的数据规模不大的时候,数据清洗和模型对象的调参对最后准确率会有非常大的影响。

没有一种万能的公式去使用。唯一能够起到作用的是数据清洗和模型调优之前,真正做到对问题和数据有深刻的理解。

Kaggle心得(一)相关推荐

  1. Kaggle心得(二)

    House Prices: Advanced Regression Techniques 1. 了解模型的好坏 第一遍提交的时候,只是单纯比较了线性回归模型和随机森林模型对验证集的mean squar ...

  2. 第一次参加kaggle比赛的一些收获与心得,记录一下

    #摘要 虽然陆陆续续接触过深度学习的一些相关知识,但是从来没有系统地学习和总结过.加上之前研究的领域是SLAM(实时建图和定位),没有很好的机会直接应用深度学习技术,实践深度学习的机会也比较少.近段时 ...

  3. Kaggle比赛心得

    正文共5453个字,5张图,预计阅读时间14分钟. 最近参加了两场Kaggle比赛,收获颇多,一直想写篇文章总结一下.接触Kaggle到现在不到一年,比赛成绩一个银牌(5%)一个铜牌(9%),勉强算入 ...

  4. kaggle竞赛 - Home Credit Default Risk金牌心得

    转自:知乎 https://zhuanlan.zhihu.com/p/43323121 正文 最优单模已在kaggle分享,本地CV为7993,线上最终的私榜成绩为7996,我们最终融合的成绩为801 ...

  5. 一份关于kaggle特征构建技巧和心得

    https://www.toutiao.com/i6642477603657613831/ 2019-01-04 13:25:00 摘要: 本文是一份关于如何在Kaggle排行榜上取得出色成绩的提示, ...

  6. 一份关于kaggle特征构建技巧和心得 1

    摘要: 本文是一份关于如何在Kaggle排行榜上取得出色成绩的提示,包含经纬度数据的处理. 在很长的一段时间里,我们表现出缺乏创造力,所做出的工作被认为是山寨.借鉴,这一点是不可否认,但随着自身的积累 ...

  7. kaggle、TDS、arXiv等,我最喜欢的数据科学资源

    ↑↑↑关注后"星标"Datawhale 每日干货 & 每月组队学习,不错过 Datawhale干货 编译:张峰,Datawhale成员 来源:TowardsDataScie ...

  8. 竞赛老陪跑怎么办?来自一位Kaggle比赛失败者的含泪总结

    大数据文摘出品 来源:medium 编译:zeroInfinity.笪洁琼 Kaggle比赛应该是数据竞赛中公认含金量最高的那个.每场比赛,参加的队伍至少上千人,也并非每次都次都能脱引而出,一不小心就 ...

  9. 不可错过的2019秋招CV岗心得!原来拿offer也是有套路的

    来源:CSDN博客,遵循 CC 4.0 BY-SA 版权协议 作者:Lovewxy_不再回忆 链接:https://blog.csdn.net/weixin_37627840/article/deta ...

最新文章

  1. 剑指offer:对称的二叉树
  2. python自然语言处理课后答案
  3. 学会python之后-【一点资讯】学会Python后,人生简直开挂了!
  4. alias cli3 配置_vue-cli3全面配置详解
  5. 如何在命令提示符下编译运行含有Package的java文件
  6. Hibernate初学之CURD
  7. 2014025650《嵌入式程序设计》第一周学习总结
  8. ECS Windows系统使用自带监视器查看IIS并发连接数
  9. 自动化Ansible常见命令
  10. 正则分割 oracle,Oracle通过正则表达式分割字符串 REGEXP_SUBSTR
  11. cscope索引软链接解决方法
  12. 【Keras】LSTM和Bi-LSTM神经网络
  13. 淘宝客服外包哪家最好
  14. 流畅的python第六章 使用一等函数设计模式
  15. 掌握这6个可视化图表,小白也能轻松玩转数据分析
  16. 太牛了!我的阿里春招之路分享,值得收藏!
  17. react中的时间戳转换成年-月-日 时:分:秒
  18. TODO List—2018今日头条校招
  19. 计算机硬件型号,怎样检测电脑硬件型号
  20. 川大计算机系导师,川大计算机学院硕士生导师简介

热门文章

  1. java面试-深入理解JVM(一)——JVM内存模型
  2. php artisan常用方法
  3. StartActivityForResult(中规中矩版 获得Acivity2的性别选择)
  4. Security issue about static code checking
  5. 【转】sql if else 语句
  6. HDU 1166 敌兵布阵【树状数组】
  7. vivado使用自带IP核和创建自己定义的IP核
  8. SDR、DDR、QDR存储器的比较
  9. Word 2007 自动更新,让操作速度加倍!
  10. CSDN Markdown编辑器的使用