kaggle-地震预测-LANL Earthquake Prediction比赛记录

1.baseline

加入这次比赛的时间比较晚,所以直接先follow了别人的一个baseline来start找找思路,链接如下:
https://www.kaggle.com/artgor/seismic-data-eda-and-baseline

2.比赛记录

  1. 时间:2019/04/17,10:35AM 第一次提交
    score:1.640 TOP73%
    下一步:特征有点少也没有一些表示趋势和峰值的特征,打算去先从更多扩展有效特征入手

扩展特征:

  1. 趋势:用曲线拟合后的斜率来表示趋势
def add_trend_feature(arr, abs_values = False):idx = np.array(range(len(arr)))if abs_values:arr = np.abs(arr)lr = LinearRegression()lr.fit(idx.reshape(-1,1),arr)return lr.coef_[0]
  1. 变化率:
def change_rate(x):change = (np.diff(x)/x[:-1]).values#每个点的变换ratechange = change[np.nonzero(change)[0]]#返回非0值的下标从而将值为0的数值取出change = change[~np.isnan(change)]#除去非法字符change = change[change!=-np.inf]change = change[change!= np.inf]return np.mean(change)

3.分位数quantile
4.count_big 计算大于某一值的信号数量的总数
5.mad 中位数绝对偏差
6.kurtosis() and x.skew()衡量信号峰值和扁平程度

  1. 时间:2019/05/15,9:35PM 第13次提交
    score:1.411
    下一步:调参+寻求更有效的特征

  2. 时间:2019/05/19,10:55PM 第19次提交
    score:1.410

    下一步:调参+寻求更有效的特征

  3. 时间: 2019/05/27 5:35PM 第28次提交
    昨晚kernel 公开了一个1.399的模型,排名一晚上掉了近200名,被迫将一个调参一半的NN模型融合交了上去,Score 1.369

    下一步,继续训练自己的LSTM model。这个model的提升空间还很大,特征处理再好一点的话应该还能进不少。加油
    (ps:lstm处理时间序列优势太大了,随便几个特征丢上去就能得分好高)

  4. 时间:2019/5/30 34次提交
    看了不少讨论,感觉自己在LB上过拟合的非常厉害,可能最后的成绩会掉不少,毕竟只选了百分之13的数据,头疼。

    model 现在是CATboost+LGBM+LSTM+GP的blend模型。
    最近破事有点多,有点烦。

  5. 时间: 2019/6/2

  6. 6/3

    挺喜欢这个位次的,就这样吧。

结局

凉凉~~~ 没在地震中幸存下来,不过还好没有掉出奖牌区,也算是一个安慰了。
完事之后写个复盘把。
以后加油

learning

  • question1:
    Can you please share some insights on choosing hyperparameters for each training method?

  • answer:
    Basically this is experience + intuition + trial and error.
    The meaning of each parameter can be read in the documentation. Usually for lgb at first I tune max_depth and learning rate manually for a first solution. Then I try adding regularizarion on case of overfitting - lowering max_depth and num_leaves, increase min_data_in_leaf and reg_. After this I use bayesian optimization to tune all parameters.
    Xgboost, catboost are similar.
    For SVM I tuned nu and C with gridsearch.

  • question2:
    Could you give a brief explanation on the part where you used windows to extract some features.

  • answer:
    Here are some articles with explanations of this approach:
    https://www.kdnuggets.com/2017/11/automated-feature-engineering-time-series-data.html
    https://medium.com/making-sense-of-data/time-series-next-value-prediction-using-regression-over-a-rolling-window-228f0acae363
    https://machinelearningmastery.com/basic-feature-engineering-time-series-data-python/

  • question3:
    loss function 的选择?
    -answer:
    本问题中最好选择huber loss 而非L1 or L2因为huber对异常值更加敏感。

kaggle-地震预测-LANL Earthquake Prediction相关推荐

  1. LANL Earthquake Prediction收获

    一.简介 比赛地址:传送门 描述:该比赛目标是使用地震信号来预测地震发生的时间. 训练数据:两列,第一列是地震的信号数值acoustic_data,第二列是还有多久发生地震time_to_failur ...

  2. Kaggle Bike Sharing Demand Prediction – How I got in top 5 percentile of participants?

    Kaggle Bike Sharing Demand Prediction – How I got in top 5 percentile of participants? Introduction ...

  3. kaggle:PUBG Finish Placement Prediction

    The Mission of Machine Learning :PUBG Finish Placement Prediction 一. Introduction 二. Experiments 三. ...

  4. kaggle TMDB Box Office Prediction

    点这传送kaggle原作者 点这传送数据源&比赛 首先是常规的读数 import numpy as np # linear algebra import pandas as pd # data ...

  5. kaggle——Santander Customer Transaction Prediction

    比赛地址 https://www.kaggle.com/c/santander-customer-transaction-prediction 一.赛后总结 1.1学习他人 1.1.1 List of ...

  6. label y 训练集测试集x_Adversarial validation-对抗验证| 一种解决训练集与测试集分布不一致的方法...

    导语: 马上就要五一了,祝全世界人民五一快乐!在这之前,想过好几个准备这些天可以完成的专题,比如Boosting系列在搞点最近几年的新玩意,或者开一个新专题,如心心念念的GNN/GCN(主要是又可以去 ...

  7. 机器学习里的bias的一些处理方法和思考

    点击上方"小白学视觉",选择加"星标"或"置顶" 重磅干货,第一时间送达 作者:砍手豪 链接:https://zhuanlan.zhihu. ...

  8. 德鲁周记09--Kaggle比赛 TMDB Box Office Prediction

    Kaggle TMDB Box Office Prediction 报告 一.问题定义: 二.获取数据: 三.研究数据: 四.准备数据 五.模型研究 六.模型微调和模型融合 一.问题定义: 该问题来源 ...

  9. 【深度学习】【物联网】深度解读:深度学习在IoT大数据和流分析中的应用

    作者|Natalie 编辑|Emily AI 前线导读:在物联网时代,大量的感知器每天都在收集并产生着涉及各个领域的数据.由于商业和生活质量提升方面的诉求,应用物联网(IoT)技术对大数据流进行分析是 ...

最新文章

  1. Combox控件下拉选择不同值触发的动作响应
  2. 10万现金+高薪offer!新网银行智能语音大赛火热进行中
  3. docker部署项目 dockerfile 实战 SpringBoot、flask
  4. SpringCloud 应用在 Kubernetes 上的最佳实践 —— 高可用(容量评估)
  5. Make Membership header extension fields editable
  6. Mybatis缓存配置
  7. 数据结构思维 第十章 哈希
  8. 【Vegas原创】远程桌面下重启xp系统的命令
  9. php mkdir没有权限不能创建成功的问题
  10. mysql optimize 用法_mysql中OPTIMIZE TABLE的作用
  11. ASP.net MVC redis完整示例(含集合,哈希,sortedset)
  12. 01.网络工程师常识
  13. 百度移动开放平台认领应用--apk 空包签名
  14. Python —— 爬取成果微博相册图片 ——明星
  15. html5怎么实现雨滴效果,HTML5实现晶莹剔透的雨滴特效
  16. linux怎么查看证书库,curl --resolve 查看证书情况
  17. Linux内核IP Queue机制的分析(一)
  18. 自动生成了个登录界面
  19. 如何快速统计Excel中Sheet数
  20. getCoverageAndShow.sh 测试覆盖率结果使用nginx实现远程访问展示

热门文章

  1. plsql 提示记录被另一个用户锁住
  2. python画散点图和折线图
  3. 传奇脚本变量,命令详解
  4. “战疫杯”大学生程序设计在线邀请赛(2)
  5. tip-of-tree - top-of-tree - ToT
  6. 我们从工程项目中学习什么?
  7. Sofia-SIP辅助文档十一 - Sofia SIP用户代理库 - nea - SIP事件模块
  8. 读书笔记--数据治理之术
  9. 人工神经网络(ANN)及BP算法
  10. 对KAGGLE经典泰坦尼克号问题的解析(一)