Kaggle心得(一)
Titanic
1. 不要痴迷于使用复杂的模型,有时候使用简单模型效果更佳。
经过数据预处理和数据清洗之后,使用随机森林和逻辑回归两种模型。随机森林模型对象使用网格搜索进行十折验证进行调参。
两个模型对象的准确率:
logr | rf_grid | |
训练集 | 84.11% | 89.09% |
验证集 | 79.85% | 78.36% |
测试集 | 78.47% | 77.03% |
注:此处训练集和验证集是对train.csv数据使用train_test_split方法取得的。本质上都是训练集的数据。测试集的准确率是在Kaggle上提交预测之后返回的结果。
可以看到随机森林模型对象对训练集数据有更高的预测准确率,而在验证集和测试集上表现反倒不如逻辑回归模型对象好。
2. 不要把所有训练集的数据(包括训练集和验证集)喂给模型对象,否则容易出现过拟合现象。
我在尝试这样做后,测试集的准确率反而下降了一个百分点。
3. 训练集的数据规模不大的时候,数据清洗和模型对象的调参对最后准确率会有非常大的影响。
没有一种万能的公式去使用。唯一能够起到作用的是数据清洗和模型调优之前,真正做到对问题和数据有深刻的理解。
Kaggle心得(一)相关推荐
- Kaggle心得(二)
House Prices: Advanced Regression Techniques 1. 了解模型的好坏 第一遍提交的时候,只是单纯比较了线性回归模型和随机森林模型对验证集的mean squar ...
- 第一次参加kaggle比赛的一些收获与心得,记录一下
#摘要 虽然陆陆续续接触过深度学习的一些相关知识,但是从来没有系统地学习和总结过.加上之前研究的领域是SLAM(实时建图和定位),没有很好的机会直接应用深度学习技术,实践深度学习的机会也比较少.近段时 ...
- Kaggle比赛心得
正文共5453个字,5张图,预计阅读时间14分钟. 最近参加了两场Kaggle比赛,收获颇多,一直想写篇文章总结一下.接触Kaggle到现在不到一年,比赛成绩一个银牌(5%)一个铜牌(9%),勉强算入 ...
- kaggle竞赛 - Home Credit Default Risk金牌心得
转自:知乎 https://zhuanlan.zhihu.com/p/43323121 正文 最优单模已在kaggle分享,本地CV为7993,线上最终的私榜成绩为7996,我们最终融合的成绩为801 ...
- 一份关于kaggle特征构建技巧和心得
https://www.toutiao.com/i6642477603657613831/ 2019-01-04 13:25:00 摘要: 本文是一份关于如何在Kaggle排行榜上取得出色成绩的提示, ...
- 一份关于kaggle特征构建技巧和心得 1
摘要: 本文是一份关于如何在Kaggle排行榜上取得出色成绩的提示,包含经纬度数据的处理. 在很长的一段时间里,我们表现出缺乏创造力,所做出的工作被认为是山寨.借鉴,这一点是不可否认,但随着自身的积累 ...
- kaggle、TDS、arXiv等,我最喜欢的数据科学资源
↑↑↑关注后"星标"Datawhale 每日干货 & 每月组队学习,不错过 Datawhale干货 编译:张峰,Datawhale成员 来源:TowardsDataScie ...
- 竞赛老陪跑怎么办?来自一位Kaggle比赛失败者的含泪总结
大数据文摘出品 来源:medium 编译:zeroInfinity.笪洁琼 Kaggle比赛应该是数据竞赛中公认含金量最高的那个.每场比赛,参加的队伍至少上千人,也并非每次都次都能脱引而出,一不小心就 ...
- 不可错过的2019秋招CV岗心得!原来拿offer也是有套路的
来源:CSDN博客,遵循 CC 4.0 BY-SA 版权协议 作者:Lovewxy_不再回忆 链接:https://blog.csdn.net/weixin_37627840/article/deta ...
最新文章
- 剑指offer:对称的二叉树
- python自然语言处理课后答案
- 学会python之后-【一点资讯】学会Python后,人生简直开挂了!
- alias cli3 配置_vue-cli3全面配置详解
- 如何在命令提示符下编译运行含有Package的java文件
- Hibernate初学之CURD
- 2014025650《嵌入式程序设计》第一周学习总结
- ECS Windows系统使用自带监视器查看IIS并发连接数
- 自动化Ansible常见命令
- 正则分割 oracle,Oracle通过正则表达式分割字符串 REGEXP_SUBSTR
- cscope索引软链接解决方法
- 【Keras】LSTM和Bi-LSTM神经网络
- 淘宝客服外包哪家最好
- 流畅的python第六章 使用一等函数设计模式
- 掌握这6个可视化图表,小白也能轻松玩转数据分析
- 太牛了!我的阿里春招之路分享,值得收藏!
- react中的时间戳转换成年-月-日 时:分:秒
- TODO List—2018今日头条校招
- 计算机硬件型号,怎样检测电脑硬件型号
- 川大计算机系导师,川大计算机学院硕士生导师简介