思维导图:零基础入门数据挖掘的学习路径

1. 写在前面

零基础入门数据挖掘是记录自己在Datawhale举办的数据挖掘专题学习中的所学和所想, 该系列笔记使用理论结合实践的方式,整理数据挖掘相关知识,提升在实际场景中的数据分析、数据清洗,特征工程、建模调参和模型融合等技能。所以这个系列笔记共五篇重点内容, 也分别从上面五方面进行整理学习, 既是希望能对知识从实战的角度串联回忆,加强动手能力的锻炼,也希望这五篇笔记能够帮助到更多喜欢数据挖掘的小伙伴,我们一起学习,一起交流吧。

既然是理论结合实践的方式,那么我们是从天池的一个二手车交易价格预测比赛出发进行学习,既可以学习到知识,又可以学习如何入门一个数据竞赛, 下面我们开始吧。

今天是本系列的第四篇文章特征工程部分,特征工程和数据清洗转换是比赛中至关重要的一块, 因为数据和特征决定了机器学习的上限,而算法和模型只是逼近这个上限而已,所以特征工程的好坏往往决定着最后的结果。 特征工程和数据清洗,我用了四天的进行整理总结,就是尝试把尽可能多的方法和技巧都尝试一下,当然可能有些细节在这个比赛中不一定适用, 但以全面为主,毕竟是为了学习知识。

特征工程一般包括特征构造, 特征选择, 降维等步骤, 但是它一般是和数据清洗转换放在一块,也有的把这两块统称为特征工程,因为两者联系实在是密切(你中有我,我中有你的景象), 如果看了我前面的零基础数据挖掘入门系列(三) - 数据清洗和转换技巧, 从数据分桶构造出的新特征也应当能够看出来,当然我这里分开来描述,因为我更多的是想围绕这个比赛整理一些知识和技巧,所以会有很多这两块的细节部分整理。

通过数据清洗和转换,我们能够更好地表示出潜在问题的特征,使得数据的表达清晰一些,比如处理异常值清除噪声,填充缺失值可以加入先验知识等。 而特征工程又进一步增强数据的表达能力,通过构造新特征,我们可以挖掘出数据的更多信息,使得数据的表达能力进一步放大,当然如果特征过多,又往往会造成冗余,这时候我们又得根据相关性等进行特征的选择和降维操作。 所以这就是特征工程这块的逻辑。

这次整理,首先从特征构造入手,整理不同类型的特征(数值型,类别型,时间型)在特征构造的时候用到的一些方法(肯定不全, 后面会跟着学习慢慢补充), 然后介绍一些特征筛选的方式(过滤式,包裹式,嵌入式),毕竟特征过多会造成冗余,影响模型判断, 最后会介绍降维的技术, 通过把特征进行某种加权组合,可以在保留尽可能多的信息熵把特征的维度进行缩减,当然缩减后的特征我们已不知其具体含义。

大纲如下:

  • 特征构造(这里会以这个比赛为背景,提供时间字段,类别字段和数值字段的特征构造方法)
  • 特征筛选(这里会对上面构造的特征进行筛选,去除冗余和相关,介绍过滤式,包裹式,嵌入式等筛选方法)
  • PCA降维技术
  • 对特征工程部分整理总结

Ok, Let’s go!

2. 特征构造

特征工程这块, 在特征构造的时候,我们需要借助一些背景知识,遵循的一般原则就是我们需要发挥想象力,尽可能多的创造特征,不用先考虑哪些特征可能好,可能不好,先弥补这个广度,而特征构造的时候数值特征,类别特征,时间特征又得分开处理

  • 对于数值特征,我们一般会尝试一些它们之间的加减组合(当然不要乱来,根据特征表达的含义)或者提取一些统计特征
  • 对于类别特征,我们一般会尝试之间的交叉组合,embedding也是一种思路
  • 对于时间特征,这一块又可以作为一个大专题来学习,在时间序列的预测中这一块非常重要,也会非常复杂,需要就尽可能多的挖掘时间信息,会有不同的方式技巧。 当然在这个比赛中涉及的实际序列数据有一点点,不会那么复杂。

好了,我们从这个比赛开始,看看这几种类型的特征如何进行构造新特征出来, 首先给出一份二手车的背景资料信息,这个感谢来自于Datawhale某大佬的分享整理, 这个在做特征工程的时候非常有用,试想如果连背景都不了解,连目标变量与哪些因素相关,我们怎么下手去做特征工程?

看完之后,我想我们应该能剖析出一些信息, 我这里只是给出一些构造思路(可能还有潜在的信息,如果你发现了也欢迎互相交流,互相帮助哈

零基础数据挖掘入门系列(四) - 特征工程相关推荐

  1. 零基础数据挖掘入门系列(三) - 数据清洗和转换技巧

    思维导图:零基础入门数据挖掘的学习路径 1. 写在前面 零基础入门数据挖掘是记录自己在Datawhale举办的数据挖掘专题学习中的所学和所想, 该系列笔记使用理论结合实践的方式,整理数据挖掘相关知识, ...

  2. 零基础数据挖掘入门系列(二) - 数据的探索性(EDA)分析

    思维导图:零基础入门数据挖掘的学习路径 1. 写在前面 零基础入门数据挖掘是记录自己在Datawhale举办的数据挖掘专题学习中的所学和所想, 该系列笔记使用理论结合实践的方式,整理数据挖掘相关知识, ...

  3. 零基础数据挖掘入门系列(一) - 赛题理解

    思维导图:零基础入门数据挖掘的学习路径 1. 写在前面 零基础入门数据挖掘系列是记录自己在Datawhale举办的数据挖掘专题学习中的所学和所想, 该系列笔记使用理论结合实践的方式,整理数据挖掘相关知 ...

  4. 零基础数据挖掘入门系列(五) - 模型建立与调参

    思维导图:零基础入门数据挖掘的学习路径 1. 写在前面 零基础入门数据挖掘是记录自己在Datawhale举办的数据挖掘专题学习中的所学和所想, 该系列笔记使用理论结合实践的方式,整理数据挖掘相关知识, ...

  5. 视频教程-零基础JS入门系列课程(2)之JS语法基础精讲-JavaScript

    零基础JS入门系列课程(2)之JS语法基础精讲 螺钉课堂讲师,擅长Vue.React.ReactNative.NodeJS等前端框架及技术 邓老师 ¥59.00 立即订阅 扫码下载「CSDN程序员学院 ...

  6. 【Python零基础快速入门系列 | 03】AI数据容器底层核心之Python列表

    • 这是机器未来的第7篇文章 原文首发地址:https://blog.csdn.net/RobotFutures/article/details/124957520 <Python零基础快速入门 ...

  7. 【Python零基础快速入门系列 | 07】浪漫的数据容器:成双成对之字典

    这是机器未来的第11篇文章 原文首发链接:https://blog.csdn.net/RobotFutures/article/details/125038890 <Python零基础快速入门系 ...

  8. python爬虫实践——零基础快速入门(四)爬取小猪租房信息

    上篇文章我们讲到python爬虫实践--零基础快速入门(三)爬取豆瓣电影 接下来我们爬取小猪短租租房信息.进入主页后选择深圳地区的位置.地址如下: http://sz.xiaozhu.com/ 一,标 ...

  9. 零基础前端入门系列(八)

    CSS精讲(二) CSS体系知识介绍 选择器优先级 为什么关注优先级 优先级处理原则 !important 和 内联样式 样式继承 一个继承的例子 继承属性和非继承属性 范例 选择器权重计算 范例1 ...

最新文章

  1. css设置元素继承父元素宽度_前端新手必知-5种新型的CSS长度单位
  2. NIO详解(三):IO多路复用模型之select、poll、epoll
  3. mysql sql乱码怎么解决_MYSQL数据库导入SQL文件出现乱码如何解决
  4. bundle传递对象与Serializable、Parcelable接口理解和思考
  5. 6月第2周回顾:雅虎收购案谈崩 中国***成焦点
  6. 我的世界java加入更多床_《我的世界》床的N种玩法,教你如何更快地入眠
  7. 本地储存数据_你的爬虫数据储存在哪?MongoDB入门篇
  8. 第五话 Asp.Net MVC 3.0【MVC实战项目の一】
  9. php配置了扩展为什么不生效,php安装扩展模块后,重启不生效的原因及解决办法...
  10. 五招查出想要知道的IP地址
  11. 物联网基础建设-园区智能微电网设计方案
  12. 关于 cdn、回源等问题一网打尽
  13. dw怎么保存HTML手机可以看,【dw网页制作】如何使用Dreamweaver制作网页?如何用Dreamweaver制作个人虚拟网站?dreamweaver如何制作手机网站?...
  14. 以神奇“三”为本的逻辑与指号学----皮尔斯逻辑之三
  15. 谷歌表格删除空白表格_带有Google表格的令人印象深刻的仪表板
  16. android查ip地址,安卓手机查看IP地址的两种方法,  二、进入手机状态
  17. bzoj-1031 字符加密Cipher
  18. HTML5另类塔防游戏 -『三国战线』发布
  19. 基于mysql+php071婚纱影楼管理系统
  20. 干货 | 免费GIS数据网站推荐

热门文章

  1. 一:测试小白进阶论(上)
  2. 红外光谱—专项文献阅读
  3. python string indices must be_Python解析json时提示“string indices must be integers”问题解决方法...
  4. 机器学习——线性回归
  5. @我的前任是个极品 微博分析
  6. 对于三千万攀登者来说,云是安全绳,是登山杖,是趋顶之路
  7. mongodb的几种启动方式以及关闭方式
  8. Webshell文件上传漏洞和文件上传攻击相关梳理
  9. 商城首页布局实现(HTML源码)
  10. 前端js判断字符串是否是数组