数据挖掘实战(一):Kaggle竞赛经典案例剖析
Load Lib
在这边提一下为什么要加
import warningswarnings.filterwarnings('ignore')
主要就是为了美观,如果不加的话,warning一堆堆的,不甚整洁。
Load data
和正常的套路一样,Id的没有什么卵用但是每个数据集都喜欢加的东西,因此我们弄死它就好了。
Data Statistics
Data Statistics是不能省略的部分,这部分能够首先让你对Data Science有个很基础的认知,也就是play with your data之前的know your data的部分。
在这里说一下,我在之前很简单粗暴的一上来就
dataset=df.iloc[:,1:]
把Id给删掉了,是不对的。正常的套路要先进行Data Statistics之后,才能进行对数据集的操作,否则误删了有价值的数据。。。就不大好了。。。
先看看数据集里有什么东西?
大家发现这个数据集很有趣的地方就是,他的数据类型全部都是int64的,这样Data cleaning的时候压力会小一点。
Data Cleaning
首先,我们来搞定一些没用的项目
We will dropped column ['Soil_Type7', 'Soil_Type15']
Nice,现在再来看一下:
我们现在来看一下偏离量:
这里要提一下,我之前如果没有执行删除'Soil_Type7', 'Soil_Type15'的内容的话,他们的偏离量为0,同样的,大家也可以通过这个方法来剃掉Soil_Type这个废柴。(本来就是用std剃掉的来着。。。)
为什么选Kaggle的数据集的原因又出现了,所有的Class都已经equal presence了,这就意味着不需要有一个re-balancing的过程了。
怎么说也是文化人,之前给大家的都不算什么有技术含量的,现在来个好玩的,也是Data Science的核心:Correlationship
首先要提一下,不是随便的啥啥啥数据都可以搞Correlationship的,至少要有continous才可以。
在Data Statistics的过程中,我们对数据有一个基本的认识了,因此,Wilderness_Area和Soil_Type我们不能用,谁教他是不是0就是1呢(一般我们叫它们binary)。
先做个准备
来正戏了,Pandas为什么那么多人用的原因之一就是,它将很多的东西都给工具化了,如果要手码的话。。。简直不寒而栗。。。
但是Pandas只要一句:
看着很烦对不对?是的,很多没有什么必要的信息也一股脑子的弄了出来。
所以我们设置一个threshold,threshold可以理解为阈值,低于threshold就屏蔽掉好了。一般0.5以上才能说有相关性,0.8以上高度相关。有兴趣的同学可以看下Reference的Wikipedia中Correlation的解释。
这样,我们得到七个比较有关联的数据。但是还是有人觉得,还是不大像人话。还有人说我没图你说个啥?这里我导入一下seaborn,无他,只是因为我觉得Matplotlib的默认视图做这个。。。是真的很难看啊。。。
在这里,我们移除了Soil_Type7和Soil_Type15,因为这两项的全是没变。
这里提一下,通过调试
dataset.std()
可以很简单直接的把值压根就没变化的废物给找出来,这个方法很常用。
由于Kaggle的数据集内容本身没有什么需要清理的需求,所以Data Cleaning做到这一步就差不多了。
在这里提一下,通过list将操作保存起来这个习惯很重要——要不然说翻车就翻车了,然后死活都找不到之前做了什么。。。
严谨的数据科学家是不会放过它滴。
原文发布时间为:2017-02-21本文作者:那只猫本文来自云栖社区合作伙伴“Python中文社区”,了解相关信息可以关注“Python中文社区”微信公众号
数据挖掘实战(一):Kaggle竞赛经典案例剖析相关推荐
- Algorithm之PrA:PrA之nLP非线性规划算法经典案例剖析+Matlab编程实现
Algorithm之PrA:PrA之nLP整数规划算法经典案例剖析+Matlab编程实现 目录 有约束非线性规划案例分析 1.投资决策问题 2.利用Matlab实现求解下列非线性规划 无约束极值问题 ...
- Algorithm之PrA:PrA之IP整数规划(包括0-1整数规划)算法经典案例剖析+Matlab编程实现
Algorithm之PrA:PrA之IP整数规划算法经典案例剖析+Matlab编程实现 目录 分枝定界法 整数规划例题 0-1整数规划实例 分枝定界法 对有约束条件的最优化问题(其可行解为有限数)的所 ...
- Algorithm之PrA:PrA之LP线性规划算法经典案例剖析+Matlab编程实现
Algorithm之PrA:PrA之LP线性规划算法经典案例剖析 目录 一.以例题分析步骤理解LP线性规划算法 二.Matlab编程实现 三.将问题可以转化为线性规划的问题 四.建模思路全过程 一.以 ...
- php mysql经典案例剖析陈军,【基于web的办公室自动化oa系统的设计与实现最终版材料】...
(基于web的办公室自动化(oa)系统的设计与实现)(最终版) <基于web的办公室自动化(oa)系统的设计与实现.doc>由会员分享,可免费在线阅读全文,更多与<(基于web的办公 ...
- 高并发和海量数据下的 9 个 Redis 经典案例剖析!
文章转载于:https://mp.weixin.qq.com/s?__biz=MzI1NDQ3MjQxNA==&mid=2247493368&idx=1&sn=3d6e44cb ...
- 数仓工具—Hive实战之full join 经典案例(13)
full join 经典案例 full join 增量数据同步更新 我们知道我们的数仓数据很大一部分是来自业务数据库的,那么这个时候我们数据同步的方式有两种一种是增量同步一种是全量同步,那么这个时候我 ...
- 数仓工具—Hive实战之自关联经典案例(11)
自关联经典案例 其实说到关联我相信很多人都知道,自关联其实是关联的一种,其实我们最常见的是两张不同的表之间的关联,但其实工作中我们能看到的其实还有一种关联,那就是一张表与它自己关联. 下面我们就通过几 ...
- 【推荐】 RAC 性能优化全攻略与经典案例剖析
ORACLE RAC凭借其卓越的容错能力和可扩展性以及对应用透明的切换能力引领了数据库高可用架构的潮流,但在实际的生产环境中,出现的性能问题非常多,对数据库的稳定性产生很大的影响,有一些甚至影响到了业 ...
- 【新书推荐】机器学习算法竞赛实战,Kaggle Grandmaster倾力打造,涵盖Kaggle、天池等赛题...
关注公众号,发现CV技术之美 随着互联网时代的到来,以及计算机硬件性能的提升,人工智能在近几年可以说是得到了爆发式的增长.互联网时代带来了大量的信息,这些信息是名副其实的大数据.另外,性能极佳的硬件也 ...
最新文章
- 支付方式(2)——支付宝集成及使用
- linux查看机器所有寄存器,linux系统下操作硬件寄存器
- SQL server 数据库危险存储过程删除与恢复
- Persist Security Info 参数的作用
- 第十六节:ES6新增的 Set 和 WeakSet 是什么东西?
- [原创]中秋随笔 祝大家中秋快乐
- C# 简单封装一个XML文件读取类
- 精仿blbl视频播放器源码 cms播放器 支持加视频LOGO
- 哈理工OJ 1983 Math(前缀和)
- 实战项目之后台管理系统
- 《嵌入式 – GD32开发实战指南》第11章 CPU的高级代理-DMA
- 十二首《临江仙》,说尽心中无限事
- 吴恩达机器学习课后作业——神经网络
- CI/CD---使用新版云效流水线自动部署Java项目
- 2018全美程序员薪资报告新鲜出炉!
- 【java校招你不知道的那些事儿】校招和社招的区别是什么?为什么不参加社招
- 自动化测试之 web - 基础篇
- 谷歌浏览器出现应用程序无法启动,因为应用程序的并行配置不正确....(亲测完美解决)
- 《自然语言处理(哈工大 关毅 64集视频)》学习笔记:第一章 自然语言处理概论
- 简述对new,virture 和override关键字的理解
热门文章
- 机器人滚边有波浪_汽车开启件机器人滚边缺陷分析与调整
- gridreport5.6如何设置打印3次_米家照片打印机1S:手机里的美好回忆不用网络仅一分钟即可留住...
- android培训内容明细,记录Android开发学习
- 量化延时法时间测量_「交易技术前沿」交易系统低延时测试与分析
- java 多线程经典例子——生产者与消费者的问题
- Android 四大组件之——Service(一)
- 大话存储pdf 百度网盘_学用系列亲身体验百度网盘内测在线文档,有遗憾也有期待...
- ai模仿声音软件_如何开发人工智能类的软件?人工智能让我们的生活更加便捷!...
- 一周一论文(翻译)——[SIGMOD 19] Elasticutor:Rapid Elasticity for Realtime Stateful Stream Processing
- Java基础:成员变量的继承与覆盖