Kaggle Future Sales“”竞赛 XGB_model_final
介绍
“未来销售 "Future Sales"”竞赛是HSE莫斯科大学“高级机器学习”专业“如何赢得数据科学”课程的最终评估。目标是根据历史数据预测特定商店中商品的每月销售额。销售数量在 0 到 20 之间。
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.metrics import mean_squared_error
from sklearn.model_selection import train_test_split
from sklearn.base import clone
from sklearn.model_selection import GridSearchCV
sns.set(style="darkgrid")import os
for dirname, _, filenames in os.walk('/kaggle/input'):for filename in filenames:print(os.path.join(dirname, filename))
# load data
items=pd.read_csv("/kaggle/input/competitive-data-science-predict-future-sales/items.csv")
shops=pd.read_csv("/kaggle/input/competitive-data-science-predict-future-sales/shops.csv")
cats=pd.read_csv("/kaggle/input/competitive-data-science-predict-future-sales/item_categories.csv")
train=pd.read_csv("/kaggle/input/competitive-data-science-predict-future-sales/sales_train.csv")
test=pd.read_csv("/kaggle/input/competitive-data-science-predict-future-sales/test.csv")
数据清洗¶
去除原始数据清理异常值并添加变量
print(f'items.csv : {items.shape}')
items.info()
Remove Nan
train.isnull().sum()
去除异常值
plt.figure(figsize=(10, 4))
plt.xlim(-100, 3000)
flierprops = dict(marker='o', markerfacecolor='purple', markersize=6,linestyle='none', markeredgecolor='black')
sns.boxplot(x=train.item_cnt_day, flierprops=flierprops)plt.figure(figsize=(10, 4))
plt.xlim(train.item_price.min(), train.item_price.max()*1.1)
sns.boxplot(x=train.item_price, flierprops=flierprops)
我们将从数据集中删除明显的异常值 - 一天销售超过 1,000 件的商品和价格超过 300,000 件的商品。
train = train[(train.item_price < 300000) & (train.item_cnt_day < 1000)]
从train中删除项目价格为负的所有行。 对于可以退款的售出商品数量,我们会将小于 1 的值设为零以消除负值。
train = train[train.item_price > 0].reset_index(drop=True)
train.loc[train.item_cnt_day < 1, "item_cnt_day"] = 0
Kaggle Future Sales“”竞赛 XGB_model_final相关推荐
- Kaggle项目:Predict Future Sales(商品未来销量预测)
Predict Future Sales(商品未来销量预测) 1. 关于项目 1.1 背景介绍 1.2项目数据集说明 2. 目标 3. 数据预处理 3.1 项目数据集预处理 3.1.1 训练集和测试集 ...
- 【数据竞赛】2020 Kaggle 10大竞赛方案汇总
作者: 尘沙黑夜 2020 Kaggle 10大竞赛方案汇总 1 2020kaggle精选10大赛事汇总 1.1 2019 Data Science Bowl(3493只队伍) 1.2 Tens ...
- Transformer 实现 Kaggle 房价预测竞赛
Kaggle 房价预测竞赛是典型的机器学习中的回归问题,需要在训练集上对于房间的 N 个特征和房价之间的关系进行拟合,在测试集上,模型即可根据房间特征对房价作出预测.考虑到需要拟合多种特征之间的关系, ...
- 【Predict Future Sales】玩转销量预测 part2
本文是[Predict Future Sales]用深度学习玩转销量预测的续集,主要介绍另一个强大的机器学习算法–随机森林(Random Forest,下文简称RF)在销量预测实例中的应用.githu ...
- 【比赛经验】陈成龙博士Kaggle计算机编程竞赛数据挖掘经验分享
来源:腾讯广告算法大赛(ID:TSA-Contest) 作者简介 陈成龙, 2015 年博士毕业于中山大学,研究图像篡改检测,在图像领域顶级期刊IEEE TIP上发表论文2篇,Kaggle Crowd ...
- Kaggle 房价预测竞赛优胜方案:用 Python 进行全面数据探索
[导读]Kaggle 的房价预测竞赛从 2016 年 8 月开始,到 2017 年 2 月结束.这段时间内,超过 2000 多人参与比赛,选手采用高级回归技术,基于我们给出的 79 个特征,对房屋的售 ...
- 房价预测python_详解 Kaggle 房价预测竞赛优胜方案:用 Python 进行全面数据探索...
[导读]Kaggle 的房价预测竞赛从 2016 年 8 月开始,到 2017 年 2 月结束.这段时间内,超过 2000 多人参与比赛,选手采用高级回归技术,基于我们给出的 79 个特征,对房屋的售 ...
- kaggle自动驾驶竞赛铜牌总结:Peking University/Baidu - Autonomous Driving—(Part 1)
前言 前段时间打了kaggle上的"Peking University/Baidu - Autonomous Driving"比赛,竞赛时间为三个月,前期一直在银牌区域,但到了比赛 ...
- 【竞赛相关】Kaggle活跃竞赛(12月汇总)
圣诞节将至,为了方便大家顺利完成的竞赛.我们整理了现有Kaggle平台上的比赛信息,加油奥利给! Research赛题 HuBMAP: Hacking the Kidney 比赛链接:https:// ...
- 【竞赛相关】Kaggle活跃竞赛的最新汇总
双十一将至,为了方便大家顺利完成的竞赛.我们整理了现有Kaggle平台上的比赛信息,加油奥利给! Lyft Motion Prediction for Autonomous Vehicles 比赛链接 ...
最新文章
- 第21节 信息系统及其建设
- windows远程修改密码
- java勇者大冒险_勇者大冒险 第一集 开车时英文歌 什么名
- NOIP2018提高组模拟题(六)
- Android开发之虹软人脸识别活体检测基本步骤
- python的整数类型_Python int 数字整型类型 定义int()范围大小转换
- galaxy s8 android pc,手机秒变PC!三星Galaxy S8桌面模式曝光
- 根据元素相对位置来控制滚动条
- dnf加点模拟器最新版85级版
- AWS实例修改时区及数据库实例修改时区
- linux执行scp命令出错
- 《用图表说话》读后感
- nodeJS实现牛客网、赛码网在线编程输入输出
- linux i2c 端口 usb,做了一个电容屏的IIC接口转USB
- [UE5蓝图基础二]1.[1d混合空间] 走和跑的动画切换(shift切换)
- 顺义区服务器虚拟化,北京银行顺义数据中心私有云项目
- html中选择字体的元素,深入探讨CSS中字体元素
- 后面学习的东西认证考试
- 经典坦克大战设计模式版完结!
- 数控编程方法可以分为两类:一类是手工编程,另一类是自动编程