本篇文章主要介绍内容:数据去噪,采样,特征工程

数据去噪:

无论是数据挖掘的比赛也好,还是日常生活中的各种项目也好,我们拿到手的数据集含有噪声数据是很正常的。噪声会降低我们的数据质量,从而影响我们模型的效果。因此,对噪声的处理是必须的,这一点是众所周知的事情。但是,在去噪的过程中我们也要注意以下问题。

在我们这些天做的一个比赛上,一个队友,拿着没有好好处理噪音的数据集却误打误撞跑出了最高的分数,这一点着实令人感到沮丧和产生弃赛的想法。昨天看一本机器学习的书的时候才知道:在训练集中引入噪声数据能起到提升模型健壮性的作用。

提高模型的健壮性,会使得模型对噪声数据不再那么敏感。因此,当你准备处理噪声数据对时候,要权衡模型对健壮性和模型的效果。

另外注意,数据去噪主要是去除数据中标注带噪声的实例,去除这样的噪声数据是有利的。但去除特征带噪声的数据,往往效果变差。可见,噪声特征也带有一定信息,能用来构建模型。说一句比较哲学的话:没有特征也是一个特征。

采样:

无放回简单随机抽样,有放回简单抽样,这两个我想不用多提。

主要了解一下:

平衡采样,分层采样

整群采样

我们在分类问题上,经常会遇到不平衡的分类问题。比如说正样本10000条,负样本才100条。这是我们应该采用平衡采样,或者分层采样。对于上述例子来说,平衡采样会将负样本复制10遍,将正样本随机删除,直至留下1000条。如此一来正负样本数目一致。也就是说,对大样本进行下采样,对小样本进行上采样。而对于分层采样来说,他会将数据分层,保证正负样本数据比例仍然为100:1,否则可能会出现全是正样本,没有负样本,或负样本极少的情况。

整群采样则是将数据集分组成N个簇,这些簇彼此互斥。然后从N个簇中随机采样p个为样本集。

交叉验证:

1.留出法:一种很简单的方法,只需要将数据划分为两部分,一部分为训练集,一部分为测试集。对于留出法我的下意识觉得这种做法太low,毫无用处。但这种想法是完全错误的,绝不能因为原理简单而轻视任何算法。当数据有明显的时间序列因素的时候,就应该采用留出法,因为这样可以体现时间因素的作用。

2.K折交叉验证:这种算法不用多说,大家应该很清楚了。我要说的是,K折交叉验证也有其不足之处。当你选择这种做法的时候,可能会因为单次K份数据划分导致数据分布发生变化而引入偏差。这时候我们可以进行多次K折交叉验证,取均值。另外,当K=N(N为数据的条数)时,K折交叉验证有了另一个名字:留一法。即每一条样本当测试集,其余数据作训练集。这种算法计算成本很高,但是在数据稀疏的时候,很实用。

自助法:即自主采样,使用有放回的重复采样的方式进行训练集,测试集构建。在数据集小的时候很有用。建议放入知识库中。

对特征工程的一些理解:

1.所谓特征工程,就是将原始数据空间变换为新的特征空间。但注意,将原始数据转化为实向量之后,对应的特征空间不一定是最佳的。

2.线性模型我们需要将类别变量进行one-hot,但是对树模型来说,如lgb,可以直接处理categorical类型变量。

3.特征的挖掘与专业领域知识强相关。特征工程即该领域的业务逻辑的一种数据层面的表现。特征提取即是用特征描述业务逻辑的过程

4.先做探索性数据分析(EDA)。

第一场数据挖掘比赛的一些经验心得相关推荐

  1. CodeForces--ZeptoLab Code Rush 2015 (我参加的第一场cf比赛)

    http://codeforces.com/contest/526 背景:教练说了进队要看各大oj排名,看你打比赛的情况.上次校初赛就挂了,所以还是来试试比赛.(其实对进队不抱希望的,就是练练代码和思 ...

  2. 记第一场cf比赛(Codeforces915)

    比赛感想 本来21:05开始的比赛,结果记成21:30了...晚了25分钟才开始[捂脸] 这次是Educational Round,所以还比较简单. 前两道题一眼看去模拟+贪心,怕错仔细看了好几遍题, ...

  3. 为第一场数据比赛做准备

    读文章 搞搞图像分割 嘟嘟论文 https://zhuanlan.zhihu.com/p/70758906 https://zhuanlan.zhihu.com/p/57759536

  4. 2018年牛客多校算法寒假训练营练习比赛(第一场)C. 六子冲

    2018年牛客多校算法寒假训练营练习比赛(第一场)C. 六子冲 题目链接 做法:模拟即可 #include <bits/stdc++.h> #define P pair<int,in ...

  5. 【干货】Kaggle 数据挖掘比赛经验分享(mark 专业的数据建模过程)

    简介 Kaggle 于 2010 年创立,专注数据科学,机器学习竞赛的举办,是全球最大的数据科学社区和数据竞赛平台.笔者从 2013 年开始,陆续参加了多场 Kaggle上面举办的比赛,相继获得了 C ...

  6. Kaggle 数据挖掘比赛经验分享 (转载)

     [干货]Kaggle 数据挖掘比赛经验分享 (转载) 标签: 数据挖掘数据科学家机器学习kaggle 2017-05-21 19:25 99人阅读 评论(0) 收藏 举报 本文章已收录于: 分类 ...

  7. kaggle账号_Kaggle 数据挖掘比赛经验分享

    文章发布于公号[数智物语] (ID:decision_engine),关注公号不错过每一篇干货. 来源 | 腾讯广告算法大赛 作者 | 陈成龙 Kaggle 于 2010 年创立,专注数据科学,机器学 ...

  8. Kaggle 数据挖掘比赛经验分享(转)

    原作者:陈成龙 简介 Kaggle 于 2010 年创立,专注数据科学,机器学习竞赛的举办,是全球最大的数据科学社区和数据竞赛平台.笔者从 2013 年开始,陆续参加了多场 Kaggle上面举办的比赛 ...

  9. 【干货】Kaggle 数据挖掘比赛经验分享

    [干货]Kaggle 数据挖掘比赛经验分享 Kaggle 于 2010 年创立,专注数据科学,机器学习竞赛的举办,是全球最大的数据科学社区和数据竞赛平台.笔者从 2013 年开始,陆续参加了多场 Ka ...

最新文章

  1. R语言ggplot2可视化:ggplot2可视化使用labs函数为可视化图像添加(caption)图片说明文字、theme_bw中指定参数base_size来改变图片说明文字、轴标签等的大小
  2. 关于C#中用access做数据库,使用like语句的问题
  3. JSF的web.xml配置
  4. c语言char类型溢出,C语言中数据溢出的问题---以char类型为例
  5. .NETFramework-Web.Mvc:ViewResult
  6. virtualenv 的使用 —— PyCharm 与 Jupyter Notebook
  7. (转)从业10年,芝加哥交易员王辰解码高频交易
  8. 软考软件设计师考试总结(2018上半年)
  9. 7-7 六度空间 C语言
  10. phpmyadmin mysql配置_phpmyadmin配置方式
  11. 6-3近期工作总结、下一步工作安排及技术知识
  12. html-HR标签分割线
  13. 自动驾驶的“第三眼美女“什么时候才能出现?
  14. MariaDB的延迟开源模式及其BSL许可证介绍(一)
  15. MBA-day32 绝对值的几何意义
  16. Yocto创建自己的分区(基于STM32MP1)
  17. 低代码开发,染发界的白转黑|“低代码”系列(一)
  18. 软考信息系统项目管理师质量管理论文范例
  19. 电脑图片怎么识别成表格并导出?一键识别有方法
  20. 计算阶乘的另一些有趣的算法

热门文章

  1. 高防服务器维护,高防服务器是如何进行防御的?
  2. windows引导文件丢失解决办法
  3. jQuery获取指定ul下的li
  4. BAPI: 创建发票(MIRO)和预制发票(MIR7)
  5. Tomcat安装使用与部署Web项目的三种方法
  6. jmp指令流程图怎么写_策划新人分享——如何写策划案
  7. VUE定时器,用于登陆获取验证码倒计时
  8. JEECG微云快速开发平台相关资源下载
  9. 计算机学开发,Lazarus
  10. 囚徒逃生问题优化策略