第一场数据挖掘比赛的一些经验心得

本篇文章主要介绍内容：数据去噪，采样，特征工程

数据去噪：

无论是数据挖掘的比赛也好，还是日常生活中的各种项目也好，我们拿到手的数据集含有噪声数据是很正常的。噪声会降低我们的数据质量，从而影响我们模型的效果。因此，对噪声的处理是必须的，这一点是众所周知的事情。但是，在去噪的过程中我们也要注意以下问题。

在我们这些天做的一个比赛上，一个队友，拿着没有好好处理噪音的数据集却误打误撞跑出了最高的分数，这一点着实令人感到沮丧和产生弃赛的想法。昨天看一本机器学习的书的时候才知道：在训练集中引入噪声数据能起到提升模型健壮性的作用。

提高模型的健壮性，会使得模型对噪声数据不再那么敏感。因此，当你准备处理噪声数据对时候，要权衡模型对健壮性和模型的效果。

另外注意,数据去噪主要是去除数据中标注带噪声的实例，去除这样的噪声数据是有利的。但去除特征带噪声的数据，往往效果变差。可见，噪声特征也带有一定信息，能用来构建模型。说一句比较哲学的话：没有特征也是一个特征。

采样：

无放回简单随机抽样，有放回简单抽样，这两个我想不用多提。

主要了解一下：

平衡采样，分层采样

整群采样

我们在分类问题上，经常会遇到不平衡的分类问题。比如说正样本10000条，负样本才100条。这是我们应该采用平衡采样，或者分层采样。对于上述例子来说，平衡采样会将负样本复制10遍，将正样本随机删除，直至留下1000条。如此一来正负样本数目一致。也就是说，对大样本进行下采样，对小样本进行上采样。而对于分层采样来说，他会将数据分层，保证正负样本数据比例仍然为100:1，否则可能会出现全是正样本，没有负样本，或负样本极少的情况。

整群采样则是将数据集分组成N个簇，这些簇彼此互斥。然后从N个簇中随机采样p个为样本集。

交叉验证：

1.留出法：一种很简单的方法，只需要将数据划分为两部分，一部分为训练集，一部分为测试集。对于留出法我的下意识觉得这种做法太low，毫无用处。但这种想法是完全错误的，绝不能因为原理简单而轻视任何算法。当数据有明显的时间序列因素的时候，就应该采用留出法，因为这样可以体现时间因素的作用。

2.K折交叉验证:这种算法不用多说，大家应该很清楚了。我要说的是，K折交叉验证也有其不足之处。当你选择这种做法的时候，可能会因为单次K份数据划分导致数据分布发生变化而引入偏差。这时候我们可以进行多次K折交叉验证，取均值。另外，当K=N（N为数据的条数）时，K折交叉验证有了另一个名字：留一法。即每一条样本当测试集，其余数据作训练集。这种算法计算成本很高，但是在数据稀疏的时候，很实用。

自助法：即自主采样，使用有放回的重复采样的方式进行训练集，测试集构建。在数据集小的时候很有用。建议放入知识库中。

对特征工程的一些理解：

1.所谓特征工程，就是将原始数据空间变换为新的特征空间。但注意，将原始数据转化为实向量之后，对应的特征空间不一定是最佳的。

2.线性模型我们需要将类别变量进行one-hot，但是对树模型来说，如lgb，可以直接处理categorical类型变量。

3.特征的挖掘与专业领域知识强相关。特征工程即该领域的业务逻辑的一种数据层面的表现。特征提取即是用特征描述业务逻辑的过程

4.先做探索性数据分析（EDA）。

第一场数据挖掘比赛的一些经验心得相关推荐

CodeForces--ZeptoLab Code Rush 2015 (我参加的第一场cf比赛)
http://codeforces.com/contest/526 背景:教练说了进队要看各大oj排名,看你打比赛的情况.上次校初赛就挂了,所以还是来试试比赛.(其实对进队不抱希望的,就是练练代码和思 ...
记第一场cf比赛（Codeforces915）
比赛感想本来21:05开始的比赛,结果记成21:30了...晚了25分钟才开始[捂脸] 这次是Educational Round,所以还比较简单. 前两道题一眼看去模拟+贪心,怕错仔细看了好几遍题, ...
为第一场数据比赛做准备
读文章搞搞图像分割嘟嘟论文 https://zhuanlan.zhihu.com/p/70758906 https://zhuanlan.zhihu.com/p/57759536
2018年牛客多校算法寒假训练营练习比赛（第一场）C. 六子冲
2018年牛客多校算法寒假训练营练习比赛(第一场)C. 六子冲题目链接做法:模拟即可 #include <bits/stdc++.h> #define P pair<int,in ...
【干货】Kaggle 数据挖掘比赛经验分享（mark 专业的数据建模过程）
简介 Kaggle 于 2010 年创立,专注数据科学,机器学习竞赛的举办,是全球最大的数据科学社区和数据竞赛平台.笔者从 2013 年开始,陆续参加了多场 Kaggle上面举办的比赛,相继获得了 C ...
Kaggle 数据挖掘比赛经验分享 (转载)
[干货]Kaggle 数据挖掘比赛经验分享 (转载) 标签: 数据挖掘数据科学家机器学习kaggle 2017-05-21 19:25 99人阅读评论(0) 收藏举报本文章已收录于: 分类 ...
kaggle账号_Kaggle 数据挖掘比赛经验分享
文章发布于公号[数智物语] (ID:decision_engine),关注公号不错过每一篇干货. 来源 | 腾讯广告算法大赛作者 | 陈成龙 Kaggle 于 2010 年创立,专注数据科学,机器学 ...
Kaggle 数据挖掘比赛经验分享（转）
原作者:陈成龙简介 Kaggle 于 2010 年创立,专注数据科学,机器学习竞赛的举办,是全球最大的数据科学社区和数据竞赛平台.笔者从 2013 年开始,陆续参加了多场 Kaggle上面举办的比赛 ...
【干货】Kaggle 数据挖掘比赛经验分享
[干货]Kaggle 数据挖掘比赛经验分享 Kaggle 于 2010 年创立,专注数据科学,机器学习竞赛的举办,是全球最大的数据科学社区和数据竞赛平台.笔者从 2013 年开始,陆续参加了多场 Ka ...

第一场数据挖掘比赛的一些经验心得

第一场数据挖掘比赛的一些经验心得相关推荐

最新文章

热门文章