知乎上的砍手豪的kaggle主页是:

https://www.kaggle.com/h4211819/competitions

此人以数据挖掘为主,下面是他在知乎上写的我发现的比较有用的一些观点.

比赛的一开始就有人教大家怎么probing leaderboard,如果用那些被探测到的数据,
自然就很容易在LB混到好名次,所以比赛完了自然要掉名次。
其次跟19%,81%没啥关系,照说本来就该用local CV的,去过拟合public board的只能说根本还没入门机器学习。
GBDT对参数其实没那么敏感,对异常值敏感

就说我参赛的经历吧,我就发现X236=1的时候全是大数,

然而总共也就只有两个样本,
天知道是outlier还是有价值的pattern,
像随机森林和线性模型基本都会忽略这种联系,
但是gbdt这种对outlier敏感的会在某些random seed的情况下体现出这个联系的影响。

用xgboost这类Tree Based model啦
题主也是在做kaggle的俄罗斯房地产题吧
按照我做这个题的经验,任何企图填充NaN和outlier的行为都会使xgboost的score下降...

data>model>feature engineering>ensemble(这个不一定对,因为有些数据集就是存在两种相反的规律,就是需要不同的模型混合)

提到了嫁接学习:
https://github.com/plantsgo/ijcai-2018

下面这个链接提到了把数据重新排布下,提高四个万分位
https://zhuanlan.zhihu.com/p/36580283

愿意分享代码的其实主要是排名2%~3%的Olivier,andy harless这样的选手。

提到了对重复样本的检测
https://zhuanlan.zhihu.com/p/50203168

kaggle的比赛真的靠ensemble吗?
所有人谈论kaggle的时候都不区分讨论tabular比赛和cvnlp 这种nn类比赛,
我觉得nn类比赛确实连简单的seed average都可以得到不错的分数提升,
但是在tabular比赛里,xgb和lgb是非常强大稳定的模型,ensemble的提升
在我看来其实是非常有限的。

我个人观点,除了匿名数据赛外,一个比赛获胜的重要性是:
好的baseline>业务理解(特征工程+数据清理等等)>模型融合,
xgb/lgb作为tabular比赛强大而稳定的模型,想像nn那样多跑几个多样性上分,
可能收益还不如细微的抖动。
ensemble主要用于将一个互不认识的大团队成员短期快速整合的手段,
事实上上面很多队伍还只是简单线性叠加而已,也不会比ensemble差。
16年及以前,kaggle几MB甚至几百kb的小数据匿名赛比例较大,
有靠这个刷到GM的,所以那时候给人一种kaggle要靠大量模型堆叠的感觉。

大佬蛙哥回复表示:
在训练集和测试机分布不完全一致的时候,pseudo-labelling是杀手锏级别方法。
https://www.kaggle.com/c/jigsaw-toxic-comment-classification-challenge/discussion/52557#300898

(这个方法我试了下,毛病就是非常容易爆内存,本地需要有较好的设备才容易进行)

知乎上砍手豪关于kaggle的观点(转载)相关推荐

  1. 知乎上获赞率最高的神回复(转载)

    知乎上获赞率最高的神回复 --看完整个人都神清气爽 很多时候,一句犀利尖锐或充满哲理的话,往往比长篇大论更能打动人.点醒人.当你遇到人生难题的时候,不妨来看看这66个知乎上获赞率最高的神回复吧. 01 ...

  2. 知乎上8个100K+高赞回答(筛选自63万个回答)

    最近知乎首页上老是看到这个话题:<知乎上的高票答案就是好的吗?>,很好奇目前高赞回答都有哪些?各有多少赞同数?于是继续这些天爬知乎数据的节奏,以用户主页的回答为爬取入口(按赞同排序),其中 ...

  3. 知乎上的一道问题:出家人怎么解决性欲?

    知乎上的一道问题:出家人怎么解决性欲? 2017-1-8 19:00| 发布者: 新闻| 查看: 7707| 评论: 0 摘要: 这是知乎上的一道问题.原题叫<和尚怎么解决性欲>. 本来由 ...

  4. [转]打工仔拒绝与砍手党同流合污 因被辞退怒杀主管

    阿星,乖乖的样子,无论如何也和我们心里凶狠的杀人犯联系不起来. 这个15岁开始即在深圳的"广西砍手党"团伙里做饭炒菜的小伙子,却从没参与过"砍手党"的任何一件作 ...

  5. 知乎上关于电子商务话题的精彩问答

    知乎上关于电子商务话题的精彩问答 zz http://www.douban.com/group/topic/22418888/ 电商本质: 电子商务公司究竟应该是互联网基因,还是零售基因的改良?为什么 ...

  6. 企业在知乎上做问答推广的技巧分析,企业知乎推广营销方法步骤

    很多企业想要在知乎通过问答推广来进行品牌漏出,但在知乎做推广营销并不简单,这其中既要了解知乎的算法规则,也要明白知乎对内容的审核要求,下面洛希网络科技为大家分享企业在知乎上做问答推广的技巧. 1.流量 ...

  7. 在知乎上看到的一个电话诈骗的文章

    在知乎上看到的一个电话诈骗的文章, 原文地址: http://zhuanlan.zhihu.com/taosay/19795797 之后有另外一个文章的分析: http://zhuanlan.zhih ...

  8. 知乎上关于机器人的热门有趣的问答分享与机器人探索之路的点点滴滴

    开始学习机器人-分享机器人探索之路的点点滴滴 知乎上关于机器人的热门有趣的问答 选用什么样的系统或平台开发机器人/机器臂? 开始学习机器人--公开课推荐 自动控制.机器人.人工智能等领域有哪些值得引进 ...

  9. 爬了下知乎上的高颜值小姐姐!美翻了!

         作者:shenzhongqiang   来源:Python与数据分析 国庆阅兵方阵中的军乐队小姐姐火了,看到朋友圈好多小伙伴说自己恋爱了.除了军乐队的小姐姐,知乎上也有很多漂亮小姐姐的照片. ...

最新文章

  1. SAP MM MIGO过账报错 - 用本币计算的余额 - 之对策
  2. 图解 wp WordPress 文章 链接 在新窗口打开
  3. 写学生管理系统后的一些感想
  4. JavaScript总结01
  5. Programming WCF Services翻译笔记(四)
  6. Oracle的resouce、unlimited tablespace 及如何把数据导入不同的表空间
  7. 一个关于数学归纳法的悖论问题-续
  8. 【每日SQL打卡】​​​​​​​​​​​​​​​DAY 10丨换座位【难度中等】
  9. Team Foundation Server 2010 安装、部署与配置(一):安装计划 .
  10. python不相等的两个字符串的 if 条件判断为True
  11. 发现TP5一个神奇的问题
  12. Python 随笔之Redis
  13. 你认识什么是前端吗?你是合格的前端吗?
  14. 赛车游戏代码大全html,赛车游戏代码
  15. python给一个不多于5位的正整数 要求_python作业题2 给一个不多于5位的正整数,要求:一、求它是几位数,二、逆序打印出各位数字。...
  16. miuiv13-redmi-note11TPro-root
  17. C++中begin、end、front、back函数的用法
  18. 勾股定理计算机语言,勾股定理公式计算器
  19. zencart和php是什么,什么是ZenCart ZenCart有什么特点 ZenCart模板
  20. 使用缓存django、redis

热门文章

  1. SQL复习(w3school)笔记
  2. 写了个序列化反序列化助手
  3. 带宽测量:pathload编译及运行
  4. c语言接口作用是什么,C语言接口与实现之异常处理try-except
  5. 使用 apifm-wxapi 快速开发小程序
  6. 在python中下列代码的运行结果是print abc_python与数学
  7. SpringDataJpa报错: Table 'XX.hibernate_sequence' doesn't exist
  8. libopencv_core.a(persistence.cpp.o): undefined reference to symbol 'gzclose'
  9. Approximate Nearest Neighbors.接近最近邻搜索
  10. zabbix邮件告警