↑↑↑关注后"星标"Datawhale

每日干货 & 每月组队学习,不错过

Datawhale干货

作者:王茂霖,华中科技大学,Datawhale成员

内容概括

数据挖掘提分三板斧:

1.金斧-数据清洗和特征工程

2.银斧-模型参数调节

3.铜斧-模型集成

PPT下载:后台回复“210406”可获取

视频地址:https://www.bilibili.com/video/BV1MU4y1h75G

数据清洗和特征工程

一、关于数据清洗

1.缺失值处理:

2.异常值处理:

数据清洗-数据分桶

3.数据分桶:

4.数据标准化:在不同的问题中,标准化的意义不同

(1)在回归预测中,标准化是为了让特征值有均等的权重;

(2)在训练神经网络的过程中,通过将数据标准化,能够加速权重参数的收敛;

(3)主成分分析中,需要对数据进行标准化处理;默认指标间权重相等,不考虑指标间差异和相互影响。

数据清洗的示例:

二、关于特征工程

1.特征构造:

2.特征选择:

特征工程的示例:

模型参数调节

一、关于建模调参

1.理解模型

2.性能验证

3.模型调参

模型集成

一、关于模型集成

1.加权融合

2.Boosting/Bagging

3.Stacking/Blending

模型集成示例:

本文作者

王茂霖,Datawhale重要贡献成员,Datawhale&天池数据挖掘学习赛开源内容发起人,全网阅读超10w。

参赛30余次,获得BCIC-数字中国创新创业大赛亚军,全球城市计算AI挑战赛,Alibaba Cloud German AI Challenge等多项Top10。

分享地址

  • 复制链接打开(或阅读原文)

  • https://www.bilibili.com/video/BV1MU4y1h75G

整理不易,三连

王茂霖:数据挖掘提分三板斧!相关推荐

  1. 王茂霖:数据挖掘提分三板斧!(附PPT下载)

    作者:王茂霖,华中科技大学,Datawhale成员 来源:Datawhale本文多图,建议阅读10+分钟本文作者与你分享数据挖掘的三把利器. 内容概括 数据挖掘提分三板斧: 1. 金斧-数据清洗和特征 ...

  2. 数据挖掘提分三板斧!

    作者:王茂霖,华中科技大学,Datawhale成员 内容概括 数据挖掘提分三板斧: 1.金斧-数据清洗和特征工程 2.银斧-模型参数调节 3.铜斧-模型集成 PPT下载:后台回复"21040 ...

  3. 【直播】王茂霖:二手车交易价格预测 Baseline 提高(河北高校数据挖掘邀请赛)

    二手车交易价格预测 Baseline 提高 目前 河北高校数据挖掘邀请赛 正在如火如荼的进行中.为了大家更好的参赛,王茂霖分享了 从0梳理1场数据挖掘赛事!,完整梳理了从环境准备.数据读取.数据分析. ...

  4. 【直播】王茂霖:二手车交易价格预测-千变万化特征工程(河北高校数据挖掘邀请赛)

    二手车交易价格预测-千变万化特征工程 目前 河北高校数据挖掘邀请赛 正在如火如荼的进行中.为了大家更好的参赛,王茂霖分享了 从0梳理1场数据挖掘赛事!,完整梳理了从环境准备.数据读取.数据分析.特征工 ...

  5. opencv怎么2个摄像头_最后2个月,怎么做能够快速提分?

    Hi 虫子们晚上好我是考虫考研萌酱♡ 最近在后台收到了很多大家的小烦恼 看得出来大家真的有很大的压力和负担 考研备考过程中的痛苦与压力不是所有人都懂 即使这样,大家提问的也大都是提分的问题 现在哭没有 ...

  6. 王茂斋拳架_王茂斋太极功(接近传奇,从读懂原著开始;吴式太极拳北派宗师王茂斋,门人杨禹廷、刘晚苍、王培生等名家辈出;《太极功源流支派论》《三十二目》)...

    王茂斋太极功(接近传奇,从读懂原著开始:吴式太极拳北派宗师王茂斋,门人杨禹廷.刘晚苍.王培生等名家辈出:<太极功源流支派论><三十二目>)电子书 ○披露杨禄躔以降之早年太极拳传 ...

  7. 1196: 数星星(二)(结构体专题)_福利:最新导数6大专题!高分段提分有困扰?听北大状元漫谈提分...

    这是一篇适合数学120分以上的高中生深度研读的随感.文末有福利! 振宇老师从教的十几年中,遇到高分段学生最大的困扰便是:130分以上每提一分便需要付出极大的努力.究其原因,便是思维不够严谨全面,无法拿 ...

  8. c语言将字母与数字分开存放,2017年计算机二级《C语言》考前提分试题及答案9...

    二.程序填空题(共18分). 下列给定程序中,函数flm的功能是:将s所指字符串中的所有数字字符移到所有非数字字符之后,并保持数字字符串和非数字字符串原有的次序. 例如,s所指的字符串为"d ...

  9. 斯坦德机器人收购_斯坦德机器人合伙人兼CMO王茂林:人是公司发展根本,多数企业都死于合伙人...

    [猎云网(微信:ilieyun)北京]12月7日报道 12月3日,在逆势生长-NFS2020年度CEO峰会暨猎云网创投颁奖盛典之"新基建新机遇新征程"专场上,由沣扬资本董事总经理甄 ...

最新文章

  1. Top 10 Mistakes Java Developers Make(转)
  2. Windows10下如何安装配置 perl 环境
  3. php数组指针什么用,php数组指针用法详解
  4. linux 系统调用分析
  5. JavaScript——分时问候
  6. 在基于nuxt的移动端页面中引用mint UI的popup组件之父子组件传值
  7. 中科大计算机是一流学科吗,安徽2017双一流学科排行榜:中国科技大学第一
  8. android 启动优化方案,Android 项目优化(五):应用启动优化
  9. SSH端口转发的理解(精华)
  10. block compressed sparse row (BSR) matrix format
  11. 「代码随想录」动态规划:关于完全背包,你该了解这些!
  12. DB2sql关键字——ALTER TABLE ....ACTIVATE NOT LOGGED INITIALLY WITH EMPTY TABLE
  13. HiJson工具 火狐浏览器中的jsonHandle插件(以及乱码问题的解决)--来转换json串的格式
  14. 戴尔笔记本重装系统硬盘加密怎么解除
  15. 给定某数字A(1≤A≤9)以及非负整数N(0≤N≤100000),求数列之和S=A+AA+AAA+⋯+AA⋯A(N个A)。例如A=1,N=3时,S=1+11+111=123。
  16. AVD Nexus_5X_API_P is already running. If that is not the case, delete the files at ...
  17. html图片长高如何设置,快速长高的方法 教你一个动作暴长10cm
  18. 第三方 Masonry约束的使用
  19. 移动直播进入下半场盈利为王,突破打赏模式成关键
  20. 已解决(Python读取xml文件报错)xmL.etree.ELementTree.ParseError:not well-formed (invalid token): Line

热门文章

  1. js学习总结----crm客户管理系统之项目开发流程和api接口文档
  2. js markdown chart flow
  3. 【2011-3】【旋转表格】
  4. win32的一个售票程序,收获有非常的多
  5. 技术图文:02 创建型设计模式(下)
  6. LSGO代码小组第16周复盘日志
  7. OTSU 二值化的实现
  8. AnimeGANv2 实现动漫风格迁移,简单操作
  9. 2021 IDEA大会开启AI思想盛宴,用“创业精神”做科研
  10. 预训练时代微调新范式,高性能加速2800%,NLPer赶紧看过来!