介绍
“未来销售 "Future Sales"”竞赛是HSE莫斯科大学“高级机器学习”专业“如何赢得数据科学”课程的最终评估。目标是根据历史数据预测特定商店中商品的每月销售额。销售数量在 0 到 20 之间。

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.metrics import mean_squared_error
from sklearn.model_selection import train_test_split
from sklearn.base import clone
from sklearn.model_selection import GridSearchCV
sns.set(style="darkgrid")import os
for dirname, _, filenames in os.walk('/kaggle/input'):for filename in filenames:print(os.path.join(dirname, filename))

# load data
items=pd.read_csv("/kaggle/input/competitive-data-science-predict-future-sales/items.csv")
shops=pd.read_csv("/kaggle/input/competitive-data-science-predict-future-sales/shops.csv")
cats=pd.read_csv("/kaggle/input/competitive-data-science-predict-future-sales/item_categories.csv")
train=pd.read_csv("/kaggle/input/competitive-data-science-predict-future-sales/sales_train.csv")
test=pd.read_csv("/kaggle/input/competitive-data-science-predict-future-sales/test.csv")

数据清洗¶

去除原始数据清理异常值并添加变量

print(f'items.csv : {items.shape}')
items.info()

Remove Nan

train.isnull().sum()

去除异常值

plt.figure(figsize=(10, 4))
plt.xlim(-100, 3000)
flierprops = dict(marker='o', markerfacecolor='purple', markersize=6,linestyle='none', markeredgecolor='black')
sns.boxplot(x=train.item_cnt_day, flierprops=flierprops)plt.figure(figsize=(10, 4))
plt.xlim(train.item_price.min(), train.item_price.max()*1.1)
sns.boxplot(x=train.item_price, flierprops=flierprops)

我们将从数据集中删除明显的异常值 - 一天销售超过 1,000 件的商品和价格超过 300,000 件的商品。

train = train[(train.item_price < 300000) & (train.item_cnt_day < 1000)]

从train中删除项目价格为负的所有行。 对于可以退款的售出商品数量,我们会将小于 1 的值设为零以消除负值。

train = train[train.item_price > 0].reset_index(drop=True)
train.loc[train.item_cnt_day < 1, "item_cnt_day"] = 0

Kaggle Future Sales“”竞赛 XGB_model_final相关推荐

  1. Kaggle项目:Predict Future Sales(商品未来销量预测)

    Predict Future Sales(商品未来销量预测) 1. 关于项目 1.1 背景介绍 1.2项目数据集说明 2. 目标 3. 数据预处理 3.1 项目数据集预处理 3.1.1 训练集和测试集 ...

  2. 【数据竞赛】2020 Kaggle 10大竞赛方案汇总

    作者: 尘沙黑夜 2020 Kaggle 10大竞赛方案汇总 1  2020kaggle精选10大赛事汇总 1.1  2019 Data Science Bowl(3493只队伍) 1.2  Tens ...

  3. Transformer 实现 Kaggle 房价预测竞赛

    Kaggle 房价预测竞赛是典型的机器学习中的回归问题,需要在训练集上对于房间的 N 个特征和房价之间的关系进行拟合,在测试集上,模型即可根据房间特征对房价作出预测.考虑到需要拟合多种特征之间的关系, ...

  4. 【Predict Future Sales】玩转销量预测 part2

    本文是[Predict Future Sales]用深度学习玩转销量预测的续集,主要介绍另一个强大的机器学习算法–随机森林(Random Forest,下文简称RF)在销量预测实例中的应用.githu ...

  5. 【比赛经验】陈成龙博士Kaggle计算机编程竞赛数据挖掘经验分享

    来源:腾讯广告算法大赛(ID:TSA-Contest) 作者简介 陈成龙, 2015 年博士毕业于中山大学,研究图像篡改检测,在图像领域顶级期刊IEEE TIP上发表论文2篇,Kaggle Crowd ...

  6. Kaggle 房价预测竞赛优胜方案:用 Python 进行全面数据探索

    [导读]Kaggle 的房价预测竞赛从 2016 年 8 月开始,到 2017 年 2 月结束.这段时间内,超过 2000 多人参与比赛,选手采用高级回归技术,基于我们给出的 79 个特征,对房屋的售 ...

  7. 房价预测python_详解 Kaggle 房价预测竞赛优胜方案:用 Python 进行全面数据探索...

    [导读]Kaggle 的房价预测竞赛从 2016 年 8 月开始,到 2017 年 2 月结束.这段时间内,超过 2000 多人参与比赛,选手采用高级回归技术,基于我们给出的 79 个特征,对房屋的售 ...

  8. kaggle自动驾驶竞赛铜牌总结:Peking University/Baidu - Autonomous Driving—(Part 1)

    前言 前段时间打了kaggle上的"Peking University/Baidu - Autonomous Driving"比赛,竞赛时间为三个月,前期一直在银牌区域,但到了比赛 ...

  9. 【竞赛相关】Kaggle活跃竞赛(12月汇总)

    圣诞节将至,为了方便大家顺利完成的竞赛.我们整理了现有Kaggle平台上的比赛信息,加油奥利给! Research赛题 HuBMAP: Hacking the Kidney 比赛链接:https:// ...

  10. 【竞赛相关】Kaggle活跃竞赛的最新汇总

    双十一将至,为了方便大家顺利完成的竞赛.我们整理了现有Kaggle平台上的比赛信息,加油奥利给! Lyft Motion Prediction for Autonomous Vehicles 比赛链接 ...

最新文章

  1. 第21节 信息系统及其建设
  2. windows远程修改密码
  3. java勇者大冒险_勇者大冒险 第一集 开车时英文歌 什么名
  4. NOIP2018提高组模拟题(六)
  5. Android开发之虹软人脸识别活体检测基本步骤
  6. python的整数类型_Python int 数字整型类型 定义int()范围大小转换
  7. galaxy s8 android pc,手机秒变PC!三星Galaxy S8桌面模式曝光
  8. 根据元素相对位置来控制滚动条
  9. dnf加点模拟器最新版85级版
  10. AWS实例修改时区及数据库实例修改时区
  11. linux执行scp命令出错
  12. 《用图表说话》读后感
  13. nodeJS实现牛客网、赛码网在线编程输入输出
  14. linux i2c 端口 usb,做了一个电容屏的IIC接口转USB
  15. [UE5蓝图基础二]1.[1d混合空间] 走和跑的动画切换(shift切换)
  16. 顺义区服务器虚拟化,北京银行顺义数据中心私有云项目
  17. html中选择字体的元素,深入探讨CSS中字体元素
  18. 后面学习的东西认证考试
  19. 经典坦克大战设计模式版完结!
  20. 数控编程方法可以分为两类:一类是手工编程,另一类是自动编程

热门文章

  1. CAS单点登录(SSO)
  2. spring-boot推送实时日志到前端页面显示
  3. Login控件在浏览器中打开时显示英文
  4. zabbix 自动发现 自动添加主机
  5. CountDownLatch 多线程使用示例
  6. Ruby Tip:定义索引操作符
  7. Golang、python中的一个异或加密算法,用来加密字符串。
  8. ARM给服务器厂商更多创新机会
  9. [Linux] 获取Shell脚本自身所在位置的绝对路径;
  10. Exchange邮箱数据库事务日志引起磁盘暴涨