作者:王茂霖,华中科技大学,Datawhale成员
来源:Datawhale本文多图,建议阅读10+分钟本文作者与你分享数据挖掘的三把利器。

内容概括

数据挖掘提分三板斧:

1. 金斧-数据清洗和特征工程

2. 银斧-模型参数调节

3. 铜斧-模型集成

公众号(DatapiTHU)后台回复“20210420”获取完整PPT下载

视频地址:https://www.bilibili.com/video/BV1MU4y1h75G

Part 1 数据清洗和特征工程

一、关于数据清洗

1.缺失值处理:

2.异常值处理:

3.数据分桶:

4.数据标准化:在不同的问题中,标准化的意义不同

  • 在回归预测中,标准化是为了让特征值有均等的权重;

  • 在训练神经网络的过程中,通过将数据标准化,能够加速权重参数的收敛;

  • 主成分分析中,需要对数据进行标准化处理;默认指标间权重相等,不考虑指标间差异和相互影响。

数据清洗的示例:

二、关于特征工程

1.特征构造:

2.特征选择:

特征工程的示例:

Part 2 模型参数调节

一、关于建模调参

1. 理解模型

2. 性能验证

3. 模型调参

Part 3 模型集成

一、关于模型集成

1. 加权融合

2. Boosting/Bagging

3. Stacking/Blending

模型集成示例:

本文作者

王茂霖,Datawhale重要贡献成员,Datawhale&天池数据挖掘学习赛开源内容发起人,全网阅读超10w。

参赛30余次,获得BCIC-数字中国创新创业大赛亚军,全球城市计算AI挑战赛,Alibaba Cloud German AI Challenge等多项Top10。

访问下方地址或点击"阅读原文"查看分享:

https://tianchi.aliyun.com/specials/promotion/allcompetition

更多学习资源大家可以前往天池学习平台查看,完成从AI小白到AI新手、AI工程师和AI科学家的进阶学习。

学习地址:https://tianchi.aliyun.com/course

编辑:黄继彦

校对:王欣

王茂霖:数据挖掘提分三板斧!(附PPT下载)相关推荐

  1. 王茂霖:数据挖掘提分三板斧!

    ↑↑↑关注后"星标"Datawhale 每日干货 & 每月组队学习,不错过 Datawhale干货 作者:王茂霖,华中科技大学,Datawhale成员 内容概括 数据挖掘提 ...

  2. 数据挖掘提分三板斧!

    作者:王茂霖,华中科技大学,Datawhale成员 内容概括 数据挖掘提分三板斧: 1.金斧-数据清洗和特征工程 2.银斧-模型参数调节 3.铜斧-模型集成 PPT下载:后台回复"21040 ...

  3. 【直播】王茂霖:二手车交易价格预测 Baseline 提高(河北高校数据挖掘邀请赛)

    二手车交易价格预测 Baseline 提高 目前 河北高校数据挖掘邀请赛 正在如火如荼的进行中.为了大家更好的参赛,王茂霖分享了 从0梳理1场数据挖掘赛事!,完整梳理了从环境准备.数据读取.数据分析. ...

  4. 【直播】王茂霖:二手车交易价格预测-千变万化特征工程(河北高校数据挖掘邀请赛)

    二手车交易价格预测-千变万化特征工程 目前 河北高校数据挖掘邀请赛 正在如火如荼的进行中.为了大家更好的参赛,王茂霖分享了 从0梳理1场数据挖掘赛事!,完整梳理了从环境准备.数据读取.数据分析.特征工 ...

  5. 大连银行王丰辉:最大的浪、最大的坑、最大的未来(附 PPT 下载)

     以下内容,根据「神策 2020 数据驱动用户大会」特邀嘉宾大连银行网络金融部总经理王丰辉的演讲内容整理所得.(文末附 PPT 下载地址) 关于银行数字化转型的最小共识 在数字化转型方面,许多银行都是 ...

  6. 神策数据成林松:数据智能在业务场景下的应用(附 PPT 下载)

     在神策 2020 数据驱动用户大会「上海站」现场,神策数据业务咨询师成林松分享了<数据智能在业务场景下的应用>的演讲.(文末附 PPT 下载地址) 本文根据其演讲内容整理,数据均为虚拟. ...

  7. 述信科技创始人 CEO 彭圣才:传统行业如何实现数字化转型(附 PPT 下载)

     2020 年 10 月 13 日,在以"数字化 正当潮"为主题的「神策 2020 数据驱动用户大会」现场,述信科技创始人 & CEO 彭圣才基于"多部门视角下的 ...

  8. 一份很哇塞的产品经理述职报告(附PPT下载)

    述职报告怎么写,首先需要确定我们汇报的对象是谁. 我此次述职,面向的是公司内部与项目相关的所有人员,不仅有高层领导,还包括产品团队内部成员. 然后此次述职的背景为,我近期独立负责了一条新的产品线,大家 ...

  9. 独家 | 王海峰:百度大数据与人工智能(附PPT下载)

    1月28日上午,由中国工程院和清华大学联合主办的"长城工程科技会议"第四次会议工业大数据分会在清华大学信息科技大楼召开.中国工程院院士李伯虎.工业和信息化部信息化和软件服务业司副司 ...

最新文章

  1. mybatis入门(五)之Java API
  2. 如何在命令长度受限的情况下成功get到webshell(函数参数受限突破、mysql的骚操作)...
  3. 推荐两款工具给爱做实验的人
  4. mysql_install_db参数_MySQL初始化脚本mysql_install_db使用简介及选项参数
  5. 单点登陆(SSO)组件的设计与实现一 【转】
  6. 服务器上出现应用程序错误。此应用程序的当前自定义错误设置禁止远程查看应用程序错误的详细信息(出于安全原因)。...
  7. 学习CodeIgniter框架之旅(二)继承自定义类
  8. Sharding-JDBC简介_Sharding-Sphere,Sharding-JDBC分布式_分库分表工作笔记006
  9. Spring整合Struts2,Hibernate的xml方式
  10. 换手率:为什么美国人不爱频繁申赎基金?
  11. Python数据分析第二周总结
  12. 计算机考试office难还是c语言难,计算机二级考试c语言难不难
  13. pyhong爬虫——大众点评——用户信息
  14. 创建IRP的相关内容
  15. 减脂肪应该吃什么食物
  16. flash_back介绍
  17. in-place运算总结
  18. 品管七大手法-5控制图(转载)
  19. vscode markdown背景设置(深色模式/亮模式切换)
  20. 【考研真题408】2017年 数据结构

热门文章

  1. 求3*4数组的全部元素之和
  2. 下午花一小时整理的JVM运行时方法区
  3. vertica系列:时间相关函数
  4. Spring Boot 以 jar 包方式运行在后台
  5. 全世界最详细的图形化VMware中linux环境下oracle安装(三)【weber出品必属精品】...
  6. va_list和va_start和((A*)0)-a
  7. 用python解“12-24小时制”题
  8. getcoo php_PHP简单实现DES加密解密的方法
  9. pythonassertbug_还在 Bug 不断?不妨试试这 2 个装X技巧
  10. 一种新方法或让AI模型拥有“联想”力,或能识别从未见过的事物