前几天是小文人生中一个非常重要的纪念日,说不上里程碑,但也是非常值得纪念的一个日子,为此,小文骑着“hello bike”奔向庆祝的大道上。有人问,为什么要骑共享单车,那还用说吗?这是情(zhuang)调(bi)懂不懂…

那天之后,小文就想做一个关于共享单车的分析,上kaggle看见有一个数据集---bike sharing,那是美国华盛顿共享单车数据,也是非常适合练手的一个数据集。好,废话不多说,我们来分析一下共享单车的使用情况。

1.加载所需程序包

library(plyr)
library(dplyr)
library(caret)
library(rpart)
library(ggplot2)
library(Rmisc)
library(lubridate)
library(corrplot)
library(rpart.plot)
library(randomForest)

2. 数据探索

首先,读取数据,小文发现test数据集中只有9个变量,相对于train中的12个,缺少了registered,casual 还有count3个变量,因此小文先将这3个变量赋值为0,以便下面的数据处理。

利用lubridate包分解datetime变量,提取出年月日小时等新变量,因为数据集中包含季节变量,因此月就不单独提取出来。提取出来后,将年日小时季节以及天气变量转为因子以便接下来的分析。

而对于workingday和holiday变量,小文将其组合成新的变量day_type,分成三类,分别是工作日,节假日以及周末。

3. 描述性分析

  • season,weather,holiday,workingday VS count

由上图可知:

(1)春季相对于其他三个季节而言,共享单车的平均使用量有所下降,这也是小文没想到的,冬季那么冷,居然平均使用量跟炎热的夏季或者凉爽的秋季相当,甚至在早上上班高峰期时比其他三个季节还要高出一些;

(2)天气对共享单车的平均使用量随着天气的好坏而变化,天气越好,平均使用量越高。这也正常,小文相信狂风暴雨还骑着单车的人肯定不是一般的人;

(3)在工作日,共享单车的使用集中在早高峰与晚高峰,而在节假日则集中在11点到16点。

  • hour, day, year, day_type VS count

由上图可知:

(1)各个时间点对共享单车的使用量有一定的影响,大部分集中在白天,并且在早高峰与晚高峰出现峰值。小文相信半夜出来骑单车的人都是辛辛苦苦值夜班的劳动者,而不是睡不着出来吹吹风的夜猫子...

(2)随着平台上线时间的增长,使用共享单车的人也随着增多;

(3)共享单车的主要用途还是以上下班为主,因此周末,节假日的使用量则有所下降。

  • temp, atemp, humidity, windspeed VS count

corr <- cor(all[c(6:9,12)])

由上图可知:

(1)temp与atemp相关性高达0.99,小文估计atemp是由temp衍生而来的,因此可以删除atemp变量;

(2)count与humidity相关性为-0.24,呈负相关性,而windspeed与count相关性仅有0.07,相关性弱。

4. 建模预测

分析可知:season,weather,holiday,workingday,hour,day,year,day_type,temp,atemp, humidity, windspeed变量对共享单车的影响还是比较明显的,接下来将通过随机森林算法进行预测。在预测之前,需将所有的非因子变量转化为因子变量,不然会提示出错,另外temp, humidity, windspeed变量分组太多不利于下面的预测,所以先用决策树进行分类。

文章的最后,小文唠叨一句,共享单车的确改变了人们的出行习惯,但是使用时或者停放时还是要多多注意,给自己带来方便的同时也请不要造成别人的麻烦!

用数据分析看共享单车相关推荐

  1. Python数据分析之共享单车及建模探索(CLV建模、可视化)

    Python数据分析之共享单车及建模探索(CLV建模.可视化) 开发环境 4.3[开发平台及环境] Windons 10 教育版 Python 3.7 IntelliJ IDEA 2018.2.1 / ...

  2. 2018总结----对共享单车的思考

    这篇文章主要是对2018年的总结,其实也不是我个人的总结,只是对一些事情的看法. 回顾2018年,这其实是一个哭笑不得的一年,刚过完春节没多久,就看到小黄车又拿到了新一轮的融资,但与以往不同的是,这次 ...

  3. sql date类型_共享单车数据分析的SQL数据库设计

    SQL,发音为" sequel"(或SQL,如果愿意的话),是数据科学家的重要工具.实际上,它可以说是获取数据工作中最重要的语言.在共享单车数据分析的SQL设计中,我们将从入门者的 ...

  4. kaggle共享单车数据分析及预测(随机森林)

    文章目录 一.数据收集 1.1.项目说明 1.2.数据内容及变量说明 二.数据处理 2.1.导入数据 2.2.缺失值处理 2.3.Label数据(即count)异常值处理 2.4.其他数据异常值处理 ...

  5. python汽车租赁程序_python数据分析实例:共享单车租用影响因素探索

    kaggle网站(Bike Sharing Demand | Kaggle)提供了某城市的共享单车2011年到2012年的数据集.该数据集包括了租车日期,租车季节,租车天气,租车气温,租车空气湿度等数 ...

  6. kaggle 共享单车项目数据分析和单车租赁数预测

    项目背景 自行车共享系统是租用自行车的一种方式,在这里,通过遍布城市的信息亭网络,可以自动获得会员资格.租赁和自行车归还.使用这些系统,人们可以从一个地方租一辆自行车,并根据需要将其送回另一个地方.目 ...

  7. 共享单车数据分析的SQL数据库设计

    SQL,发音为" sequel"(或SQL,如果愿意的话),是数据科学家的重要工具.实际上,它可以说是获取数据工作中最重要的语言.在共享单车数据分析的SQL设计中,我们将从入门者的 ...

  8. 共享单车 芝加哥 数据分析_为什么311无法使用数据科学识别并解决芝加哥311明显的服务问题...

    共享单车 芝加哥 数据分析 Did you know that if you call 311, the City of Chicago can help you trim your trees an ...

  9. 周五话分析 | 共享单车起航,数据分析跟上

    盼望着,盼望着,单车来了,共享时代的脚步近了. 一切都像刚睡醒的样子,欣欣然张开了眼.车辆密集起来了,颜色多起来了,人行道的使用率高起来了. 产品们偷偷地从投资机构背后钻出来,充电宝,斯玛特(smar ...

  10. python共享单车案例分析_python分析数据分析项目:共享单车租用情况影响因素探索分析...

    python分析数据分析项目:共享单车租用情况影响因素探索分析

最新文章

  1. iptables使用方法
  2. 如何用纯 CSS 创作一个摇摇晃晃的 loader
  3. 数学基础学习随笔--序言
  4. fedora 15中使用evolution获取exchange邮件
  5. libevent源码深度剖析五
  6. eclipse 输入提示插件_【STM32】搭建基于Eclipse平台的STM32调试环境
  7. commons-beanutils实现java深度克隆
  8. 微信之微信支付(封装)--jsapi
  9. 为什么用于开关电源的开关管一般用MOS管而不是三极管
  10. 没有标准答案的GIS问题
  11. 新浪大赚,阿里吃亏------剖析阿里巴巴入股新浪微博
  12. MDA(模型驱动架构)
  13. 护航者,腾讯云: 2017年度游戏行业DDoS态势报告—回溯与前瞻
  14. FP-Tree的Python实现
  15. 深度学习中基本神经网络(二)
  16. 学数据结构与算法推荐的书
  17. 杰里之ANC mic电路 【篇】
  18. 我的歪哥们之不要赖赖叽叽 赔吧!
  19. happens-before中 volatile 原则详解
  20. 无法远程计算机怎么办,无法连接到远程计算机怎么办

热门文章

  1. 【雷达通信】雷达一维恒虚警检测CFARmatlab 含GUI
  2. excel数据分析 - 10个数据透视表的优化技巧
  3. 企业文件编号规则方法
  4. 今晚直播 | 手把手带你用 Three.js 实现粒子特效,走入 3D 世界!
  5. java wsimport 调用_webService----wsimport调用方式
  6. 如何快速记忆小鹤双拼键位图?
  7. 【解决方法】Socket服务端退出之后端口依旧被占用
  8. socket程序退出后端口依然被占用问题的解决
  9. Svn与Git的优缺点(最通俗的话)
  10. 《深度学习入门-基于Python的理论与实现》书籍介绍