ML之FE:Kaggle比赛之根据城市自行车共享系统数据进行FE+预测在某个时间段自行车被租出去的个数
Kaggle比赛之根据城市自行车共享系统数据预测在某个时间段自行车被租出去的个数
目录
一、FE整体设计思路
二、FE分步骤处理
相关代码
输出结果
一、FE整体设计思路
二、FE分步骤处理
相关代码
#先把数据读进来
import pandas as pd
data = pd.read_csv('F:/File_Python/Resources/data_csv_xls/kaggle_bike_competition_train.csv', header = 0, error_bad_lines=False)#查看数据字段
data.head()
#datetime小时计数、season季节、holiday是否假期、workingday工作日、weather天气、temp华氏温度、atemp、humidity湿度、windspeed风速、
#casual非注册租车人数、registered注册租车人数
输出结果
# 处理时间字段:把datetime域切成日期、时间两个字段。
temp = pd.DatetimeIndex(data['datetime'])
data['date'] = temp.date
data['time'] = temp.time
data.head()
#特征向量化
#打算用scikit-learn来建模。对于pandas的dataframe我们有方法/函数可以直接转成python中的dict
#还要对离散值和连续值特征区分一下了,以便之后分开做不同的特征处理。from sklearn.feature_extraction import DictVectorizer# 我们把连续值的属性放入一个dict中
featureConCols = ['temp','atemp','humidity','windspeed','dateDays','hour']
dataFeatureCon = dataRel[featureConCols]
dataFeatureCon = dataFeatureCon.fillna( 'NA' ) #in case I missed any
X_dictCon = dataFeatureCon.T.to_dict().values() # 把离散值的属性放到另外一个dict中
featureCatCols = ['season','holiday','workingday','weather','Saturday', 'Sunday']
dataFeatureCat = dataRel[featureCatCols]
dataFeatureCat = dataFeatureCat.fillna( 'NA' ) #in case I missed any
X_dictCat = dataFeatureCat.T.to_dict().values() # 向量化特征
vec = DictVectorizer(sparse = False)
X_vec_cat = vec.fit_transform(X_dictCat)
X_vec_con = vec.fit_transform(X_dictCon)
ML之FE:Kaggle比赛之根据城市自行车共享系统数据进行FE+预测在某个时间段自行车被租出去的个数相关推荐
- JAVAWEB项目:城市公交查询系统
基于ssm的城市公交查询系统设计分享 目录 基于ssm的城市公交查询系统设计分享 1.总体方案 2.系统特色与创新之处 3.需求分析 3.1.普通用户的需求分析 3.2 管理员用户的需求分析 4.角色 ...
- ML之FE:结合Kaggle比赛的某一案例细究特征工程(Feature Engineering)思路框架
ML之FE:结合Kaggle比赛的某一案例细究特征工程(Feature Engineering)思路框架 目录 Feature Engineering思路框架 1.结合Kaggle比赛的某一案例细究F ...
- ML之FE:利用FE特征工程(单个特征及其与标签关系的可视化)对RentListingInquries(Kaggle竞赛)数据集实现房屋感兴趣程度的多分类预测
ML之FE:利用FE特征工程(单个特征及其与标签关系的可视化)对RentListingInquries(Kaggle竞赛)数据集实现房屋感兴趣程度的多分类预测 目录 输出结果 设计思路 核心代码 输出 ...
- ML之RF:kaggle比赛之利用泰坦尼克号数据集建立RF模型对每个人进行获救是否预测
ML之RF:kaggle比赛之利用泰坦尼克号数据集建立RF模型对每个人进行获救是否预测 目录 输出结果 实现代码 输出结果 后期更新-- 实现代码 #预测模型选择的RF import numpy as ...
- 【干货】Kaggle 数据挖掘比赛经验分享(mark 专业的数据建模过程)
简介 Kaggle 于 2010 年创立,专注数据科学,机器学习竞赛的举办,是全球最大的数据科学社区和数据竞赛平台.笔者从 2013 年开始,陆续参加了多场 Kaggle上面举办的比赛,相继获得了 C ...
- ML之FE:对爬取的某平台二手房数据进行数据分析以及特征工程处理
ML之FE:对爬取的某平台二手房数据进行数据分析以及特征工程处理 目录 对爬取的某平台二手房数据进行数据分析以及特征工程处理 1.定义数据集 2.特征工程(数据分析+数据处理) 对爬取的某平台二手房数 ...
- kaggle比赛数据_表格数据二进制分类:来自5个Kaggle比赛的所有技巧和窍门
kaggle比赛数据 This article was originally written by Shahul ES and posted on the Neptune blog. 本文最初由 Sh ...
- 如何在Kaggle比赛上击败98%的对手?你需要一份七步秘笈
栗子 晓查 整理编译 量子位 报道 | 公众号 QbitAI 怎样才能在Kaggle举办的各式各样的比赛里,拿到骄人的成绩? 一位叫做Abhay Pawar的少年,在2600多支队伍参加的Instac ...
- 机器学习:03 Kaggle比赛 患者是否患糖尿病
文章目录 过拟合和欠拟合处理 模型融合方法(model ensemble) Bagging Stacking boost Adaboost Gradient Boosting Tree Bagging ...
最新文章
- 关于$ORACLE_HOME/bin/oracle文件属性
- 深入剖析机器学习中的统计思想
- Mysql while 嵌套 cursor 游标, 数据迁移
- 微信小程序开发--如何在swiper中显示两个item以及下一个item的部分内容
- crackme之018
- 元素类型为 “resultMap” 的内容必须匹配 “(constructor?,id*,result*,association*,collection*,discriminator?)”
- Pytorch(6)-设置随机种子,复现模型结果
- SQL存储过程和函数
- 0057-简单的累加
- 防火墙配置十大任务之五,有NAT的两个接口的配置
- 生活随记 - 2020国庆第八天
- 自定义字体需要css的,CSS 自定义字体
- 算法学习笔记(使用追赶法解三对角方程组)
- android log抓取工具,Android PC端用ADB抓取指定应用日志实现步骤
- [reading notes] css W3school reading notes
- 洛谷 T2691 桶哥的问题——送桶
- 音频线是什么 音频线如何连接
- 三维实景下的南极科考站是什么样子?
- 路径中 斜杠/和反斜杠\ 的区别
- Quartz定时器的时间设置