对话1:特征工程流程

竞赛小白

在参加结构化比赛时,做特征工程时候,是先筛选特征,还是先做特征编码呢?

鱼佬

可以先利用一些统计值筛选特征,比如缺失比例大于99%,或者信息量较少的特征。

然后再去做特征编码,在编码后也可以利用模型去筛选特征。

竞赛小白

那特征筛选是一定要做的吗?在训练模型之后做?

鱼佬

如果原始数据的特征足够有效,则可以不做特征筛选。

在做加特征的时候也要注意不要加无效的特征,否则也会增加筛选的难度。

竞赛小白

利用统计值筛选和利用模型筛选区别大吗?

鱼佬

利用统计值筛选,会更加靠谱一些。如果利用模型筛选,则是「嵌入式」的筛选方法。

对话2:类别编码方法

竞赛小白

对于类别字段,有OneHot、标签编码、频率编码和目标编码,都要做吗?

鱼佬

并不是都要做。首先看类别字段的取值空间,如果足够小,则可以考虑OneHot。

然后再去通过EDA分析一下频率编码和目标编码是不是足够有区分性。再去决定做不做。

竞赛小白

类别取值的空间会影响具体的编码操作?

鱼佬

这个肯定的。普通类别和高基数类别的操作是不一样的。

对话3:特征交叉

竞赛小白

如何根据特征A和特征B构造新的特征?

阿水

A+B、A-B、A*B

group(A)[B]等

竞赛小白

意思是都可以试试?

阿水

建议从EDA先分析,如果能分析新特征与标签存在相关性,则可以做。

对话4:特征筛选

竞赛小白

在比赛中,基于模型如何筛选特征?

阿水

我个人比较喜欢排列重要性、shap value、null importance。

竞赛小白

那如何筛选之后分数下降,怎么办?

阿水

那就可以考虑保留下来,好的筛选方法筛选结果一般不会对精度有很大影响。


往期精彩回顾适合初学者入门人工智能的路线及资料下载机器学习及深度学习笔记等资料打印机器学习在线手册深度学习笔记专辑《统计学习方法》的代码复现专辑
AI基础下载机器学习的数学基础专辑黄海广老师《机器学习课程》视频课
本站qq群851320808,加入微信群请扫码:

【数据科学】鱼水说竞赛:如何做好「特征工程」?相关推荐

  1. 「特征工程」与「表示学习」

    https://www.cnblogs.com/DicksonJYL/p/9626282.html 1.表示学习 当我们学习一个复杂概念时,总想有一条捷径可以化繁为简.机器学习模型也不例外,如果有经过 ...

  2. 数据科学和人工智能技术笔记 七、特征工程

    七.特征工程 作者:Chris Albon 译者:飞龙 协议:CC BY-NC-SA 4.0 稀疏特征矩阵上的降维 # 加载库 from sklearn.preprocessing import St ...

  3. 「特征工程」之零基础入门数据挖掘

    Datawhale 作者:吴忠强,Datawhale优秀学习者 摘要:对于数据挖掘项目,本文将学习应该从哪些角度做特征工程?从哪些角度做数据清洗,如何对特征进行增删,如何使用PCA降维技术等. 特征工 ...

  4. 如何利用微信高效地做好「时间管理」?

    如何利用微信做好「时间管理」? 前两天发的学习文章可能有点太干了,担心大家噎着,所以今天就不发太硬核的学习内容,聊一聊怎么用微信做好「时间管理」. 微信作为一款即时通讯工具,已经成了每个人手机上必装的 ...

  5. 哥大涉嫌数据造假,被U.S. NEWS「踢出」2022年最佳大学排名!

    来源:新智元 7月8日,U.S. News正式宣布,把哥伦比亚大学从「2022年最佳大学排名」中踢了出去! 想当年,这所常春藤盟校可是和哈佛.MIT平起平坐,排名并列第二的. 如今却-- 不过好消息是 ...

  6. 职场人如何做好「公开表达」,提升个人影响力?

    请把关好以下三点. 第一,撬平台. 即,选择一个适合你自己发声的平台. 什么叫「适合」? 既要有流量(目标用户),也要符合你个人表达的调性,比如文字.短视频.音频等等.评估自己,哪种表达方式最为舒服, ...

  7. 儿时便立志在清华读书,参与三国杀发明,被竞赛学子称为「楼教主」,在他身上还有怎样的传奇故事?

    以下文章来源于程序员小灰 作者玄空 有这样一位年轻人. 他获得过百度之星程序设计大赛冠军.谷歌编程挑战赛第三名. 他在"程序设计奥林匹克"之称的国际大学生程序设计竞赛(ACM/IC ...

  8. 编写脚本、篡改数据,90后百度程序员「挣外快」被判刑!

    [导读]百度一名92年的程序员,为了「挣点外快」,通过编写脚本.篡改数据等方式,在半年左右违规通过了735个媒体网站账号加入「百度联盟」的申请,使得公司损失 374 万元广告分成.然而,「破坏计算机信 ...

  9. 竞赛中如何做特征工程

    对话1:特征工程流程 竞赛小白 在参加结构化比赛时,做特征工程时候,是先筛选特征,还是先做特征编码呢? 鱼佬 可以先利用一些统计值筛选特征,比如缺失比例大于99%,或者信息量较少的特征. 然后再去做特 ...

最新文章

  1. linux yum命令详解
  2. cmd的rd命令简单解析
  3. ccf_201712-2
  4. mysql数据库的设计
  5. LeetCode 1626. 无矛盾的最佳球队(最大上升子序DP)
  6. hao123电脑版主页_建议Lenovo用户卸载监守自盗的联想电脑管家
  7. 第11课 尼克与强盗 《小学生C++趣味编程》
  8. python opencv3 —— findContours
  9. 精彩的javascript对象和数组混合相加
  10. 基于OpenCV的PHP图像人脸检测识别…
  11. 16种常用的数据分析方法-相关分析
  12. 【安全框架】Spring Security安全框架
  13. 一文详细理解计算机网络体系结构(考试和面试必备)
  14. java 100天是周几_编写一段程序。使用Java8的日期时间报打印当前日期的后100天是哪一天?星期几?然后,在...
  15. matlab中som结果,matlab神经网络工具箱中的som怎么使用
  16. python彩票分析_128期老李大乐透预测奖号:后区和值分析
  17. android+usb模拟点击,Android后台模拟点击探索(附源码)
  18. 【DS with Python】DataFrame的合并、分组聚合与数据透视表
  19. 从一个真实案例说起:我所亲历的传统行业数字化转型
  20. Oracle-分析函数之排序值rank()和dense_rank()

热门文章

  1. ElasticSearch logo 分布式搜索引擎 ElasticSearch
  2. 团队开发 个人工作总结01
  3. 求复变函数的 Taylor 展式与 Laurent 展式[华中师范大学2010年复变函数复试试题]...
  4. SurfaceView 拍照功能
  5. URAL 1427. SMS(DP+单调队列)
  6. Ubuntu下利用Mono,Jexus搭建Asp.Net(MVC) Web服务器
  7. Response.ContentType所有类型例举
  8. vista下安装vs2005
  9. 电子书下载:Pro Drupal 7 for Windows Developers
  10. FastThreadLocal