数据挖掘是竞赛的核心模块之一,贯彻竞赛始终也是很多竞赛胜利的关键那么数据探索又是什么呢?可以解决哪些问题?首先应该明确3点,即如何确保自己准备好竞赛使用的算法模型如何为数据集选择最合适的算法如何定义可用于算法模型的特征变量

数据探索可以帮助回答以上这3点,并能够保证竞赛的最佳结果,它是一种总结,可视化和熟悉数据集中重要特征的方法。数据探索有利于我们发现数据的一些特征,数据之间的关联性有助于后续的特征构建

数据初探可以看做赛前数据探索主要包含分析思路,分析方法和目的通过系统化的探索,我们可以加深对数据的理解

在实际竞赛中,最好使用多种探索之路和方法来探索每个变量并比较结果在完全理解数据集后就可以进入数据预处理阶段和特征提取阶段的以便根据所期望的业务结果转化数据集此步骤的目的是确信数据集已准备好应用于机器学习算法

不单是针对每个变量,更是分析变量之间的联系,以及变量和标签的相关性并进行假设检验帮助我们提取有用特征

相关性分析只能比较数值特征,所以对于字母或字符串特征需要先进行编码并将其转化为数值,然后再看特征之间到底有什么关联,在实际竞赛中相关性分析可以很好的过滤掉与标签没有直接关系的特征并且这种方式在很多竞赛中均有很好的效果

数据探索的目的是帮助我们了解数据,并且构建有效特征

单变量分析太过单一不足以挖掘变量之间的内在联系获取更加细腻度的信息,所以多变量分析就变成了必须

分析特征变量与特征变量之间的关系有助于构建更好的特征,同时降低构件冗余特征的概率

学习曲线是机器学习中被广泛使用的效果评价工具能够反映训练集和验证集在训练迭代中分数的变化情况,帮助我们快速了解模型的学习效果

我们可以通过学习曲线来观察模型是否过拟合,通过判断拟合程度来确定如何改进模型

4.4.2分类模型评判指标(一) - 混淆矩阵(Confusion Matrix)_进击的橘子猫的博客-CSDN博客_混淆矩阵https://blog.csdn.net/Orange_Spotty_Cat/article/details/80520839

画混淆矩阵sklearn_爱学习的大白菜的博客-CSDN博客_画混淆矩阵https://blog.csdn.net/csdnliwenqi/article/details/120759519混淆矩阵Confusion Matrix - 知乎 (zhihu.com)https://zhuanlan.zhihu.com/p/111234566【知识】六种基本图表的特点和适用场合 - 腾讯云开发者社区-腾讯云 (tencent.com)https://cloud.tencent.com/developer/article/1044115统计图表的分类和各种图表的优势? - 知乎 (zhihu.com)https://www.zhihu.com/question/27875808817种数据可视化图表,有哪些适用场景和局限 - 知乎 (zhihu.com)https://zhuanlan.zhihu.com/p/54849856

机器学习算法竞赛实战--3,数据探索相关推荐

  1. 【新书推荐】机器学习算法竞赛实战,Kaggle Grandmaster倾力打造,涵盖Kaggle、天池等赛题...

    关注公众号,发现CV技术之美 随着互联网时代的到来,以及计算机硬件性能的提升,人工智能在近几年可以说是得到了爆发式的增长.互联网时代带来了大量的信息,这些信息是名副其实的大数据.另外,性能极佳的硬件也 ...

  2. 《机器学习算法竞赛实战》整理 | 八、实战案例:Elo Merchant Category Recommendation

    详情请参见原书 ​​​​​<机器学习算法竞赛实战(图灵出品)>(王贺,刘鹏,钱乾)[摘要 书评 试读]- 京东图书 前言 比赛链接: https://www.kaggle.com/comp ...

  3. 【粉丝福利】赠《机器学习算法竞赛实战》10 本书

    随着互联网时代的到来,以及计算机硬件性能的提升,人工智能在近几年可以说是得到了爆发式的增长.互联网时代带来了大量的信息,这些信息是名副其实的大数据.另外,性能极佳的硬件也使得计算机的计算能力大大增强, ...

  4. 《机器学习算法竞赛实战》笔记 - 第一部分 磨刀事半,砍柴功倍

    <机器学习算法竞赛实战>笔记 - 第一部分 磨刀事半,砍柴功倍 I. 图书豆瓣背景: II. 主要框架: 初见竞赛 问题建模 数据探索 特征工程 模型训练 模型融合 1. 初见竞赛: 竞赛 ...

  5. 《机器学习算法竞赛实战》-chapter4特征工程

    <机器学习算法竞赛实战>学习笔记,记录一下自己的学习过程,详细的内容请大家购买作者的书籍查阅. 特征工程 特征工程是算法竞赛中工作量最大,决定参赛者能否拿到较好名次的关键部分.吴恩达老师说 ...

  6. 《机器学习算法竞赛实战》学习笔记4.特征工程

    吴恩达老师有言:"机器学习在本质上还是特征工程,数据和特征决定了机器学习的上限,模型和算法只是逼近这个上限而已." 特征工程主要分为:数据预处理.特征变换.特征提取.特征选择四部分 ...

  7. 白话机器学习算法理论+实战番外篇之LightGBM

    1. 写在前面 如果想从事数据挖掘或者机器学习的工作,掌握常用的机器学习算法是非常有必要的,在这简单的先捋一捋, 常见的机器学习算法: 监督学习算法:逻辑回归,线性回归,决策树,朴素贝叶斯,K近邻,支 ...

  8. 白话机器学习算法理论+实战之PCA降维

    1. 写在前面 如果想从事数据挖掘或者机器学习的工作,掌握常用的机器学习算法是非常有必要的,比如我之前写过的一篇十大机器学习算法的小总结,在这简单的先捋一捋, 常见的机器学习算法: 监督学习算法:逻辑 ...

  9. 白话机器学习算法理论+实战之支持向量机(SVM)

    1. 写在前面 如果想从事数据挖掘或者机器学习的工作,掌握常用的机器学习算法是非常有必要的,比如我之前写过的一篇十大机器学习算法的小总结,在这简单的先捋一捋, 常见的机器学习算法: 监督学习算法:逻辑 ...

最新文章

  1. 计算机书籍-机器学习预测分析java神经网络算法与实现
  2. hdu-1029 Ignatius and the Princess IV
  3. (How to)Windows Live Writer使用技巧
  4. maccms V10后门
  5. $routeParams $route.current.params
  6. 数据挖掘实战项目-客户流失及客户行为偏好分析
  7. 卖肾换来一部iPhone后生活不能自理,那手机电商平台现在卖10块钱!
  8. 微软称 SolarWinds 黑客还在继续攻击 IT 企业
  9. linux及windows文件共享
  10. sql 注射 nbsi分析
  11. 【Python脚本进阶】2.4、conficker蠕虫(终)
  12. RS485电路及隔离技术(收藏)
  13. Monte Carlo(MC) Policy Evaluation 蒙特·卡罗尔策略评估
  14. 微信网页投诉php,【分享】买的thinkphp微信无投诉按钮源码
  15. Vue computed自动计算对象中的属性
  16. Golang底层原理学习笔记(一)
  17. multimedia教学设计计算机英语,高中英语教学设计案例
  18. iOS 最新版9.3 disk image
  19. linux设置打开终端快捷键
  20. cacti 监控mysql 无数据_cacti无图无数据等常见问题排查

热门文章

  1. python搞笑教程_python爬虫- 爬取幽默笑话网站,带你一起笑翻天
  2. python2、python3部分差异点
  3. oem7f7引起的启动问题及解决办法
  4. Windows gvim安装插件
  5. redis5.0 主从配置
  6. android 单行文本滚动,Android UI实现单行文本水平触摸滑动效果
  7. 基于支持向量机的Digits手写数字识别
  8. java 正则切分句子_Java开发笔记(三十七)利用正则串分割字符串
  9. 新手卖家必看,最新Lazada发货模式
  10. 运动蓝牙耳机怎么选、性价比高的蓝牙运动耳机