本文详细介绍了共享单车数据挖掘,包括数据分析和模型开发。它包含以下步骤:

共享单车数据挖掘

数据集简介

关于共享单车数据集

自行车共享系统是传统自行车租赁的新一代,从注册会员、租赁到归还的整个过程都是自动化的。通过这些系统,用户可以很容易地从一个特定的位置租用自行车,并在另一个位置归还。目前,全球大约有500多个共享单车项目,这些项目由50多万辆自行车组成。今天,由于它们在交通、环境和健康问题上的重要作用,人们对这些系统产生了极大的兴趣。

除了自行车共享系统在现实世界的有趣应用之外,众多研究者们对这些系统所产生的数据产生浓厚的兴趣。与其他运输服务(如公共汽车或地铁)不同,共享自行车使用的持续时间、出发时间和到达位置都明确地记录在系统中。这一功能将自行车共享系统变成了一个虚拟传感器网络,可用于感知城市中的流动性。因此,通过监测这些数据,预计可以检测到城市中的大多数重要事件。

今天我们就运用这些数据集,挖掘出蕴含在其中的有效的信息。接下来从探索数据属性,清洗数据,到模型开发,一起来学习,共同进步。

注意,该数据集是国外共享单车数据集,并非国内的共享单车数据集。但不影响我们学习数据挖掘相关知识和技术。数据集获取可以联系原文作者云朵君(Mr_cloud_data)获取。

属性信息

hour.csv和 day.csv都有以下字段,day.csv中没有 hr 字段

  • instant:记录索引

  • dteday :日期

  • season :季节 (1:春天, 2:夏天, 3:秋天, 4:冬天)

  • yr :年份 (0:2011, 1:2012)

  • mnth:月份 ( 1 to 12)

  • hr:小时 (0 to 23)

  • holiday :是否是假期

  • weekday :星期几

  • workingday :工作日,如果日既不是周末也不是假日,则为1,否则为0。

  • weathersit

    • 1:晴,少云,部分云,无云

    • 2:薄雾+多云,薄雾+碎云,薄雾+少量云,薄雾

    • 3:小雪,小雨+雷暴+散云,小雨+散云

    • 4:大雨+冰板+雷暴+雾,雪+雾

  • temp:标准化温度数据,单位为摄氏度。这些值是通过(t-t_min)/(t_max-t_min, t_min=-8, t_max=+39(仅在小时范围内)得到的

  • atemp:以摄氏度为单位的正常体感温度。这些值是通过(t-t_min)/(t_max-t_min), t_min=-16, t_max=+50(仅在小时范围内)得到的

  • hum:标准化湿度。这些值被分割到100(最大值)

  • windspeed:归一化的风速数据。这些值被分割到 67 (最大值)

  • casual:注销用户数量

  • registered:已注册用户数量

  • cnt:出租自行车总数,包括注销和注册自行车

前期准备

导入模块

import seaborn as sns
import matplotlib.pyplot as plt
from prettytable import PrettyTable
import numpy as np
import pandas as pd
from sklearn.model_selection import RandomizedSearchCV
from sklearn.metrics import mean_squared_error, mean_absolute_error, mean_squared_log_error
from sklearn.linear_model import Lasso, ElasticNet, Ridge, SGDRegressor
from sklearn.svm import SVR, NuSVR
from sklearn.ensemble import BaggingRegressor, RandomForestRegressor
from sklearn.neighbors import KNeighborsClassifier
from sklearn.cluster import KMeans
from sklearn.ensemble import RandomForestClassifier
from sklearn.ensemble import GradientBoostingClassifier
from sklearn.linear_model import LinearRegression
import random
%matplotlib inlinerandom.seed(100)

定义数据获取函数

class Dataloader():'''自行车共享数据集数据加载器。'''def __init__(self, csv_path):''' 初始化自行车共享数据集数据加载器。param: csv_path {str} -- 自行车共享数据集CSV文件的路径。'''self.csv_path = csv_pathself.data = pd.read_csv(self.csv_path)# Shuffleself.data.sample(frac=1.0, replace=True, random_state=1)def getHeader(self):''' 获取共享单车CSV文件的列名。return: [list of str]--CSV文件的列名'''return list(self.data.columns.values)def getData(self):'''   划分训练、验证和测试集返回: pandas DataFrames-- 划分后的不同数据集pandas DataFrames'''# 将数据按60:20:20的比例划分为训练、验证和测试集split_train = int(60 / 100 * len(self.data)) split_val = int(80 / 100 * len(self.data)) train = self.data[:split_train]val = self.data[split_train:split_val]test = self.data[split_val:]return train, val,  testdef getFullData(self):''' 在一个DataFrames中获取所有数据。return: pandas DataFrames-- 完整的共享数据集数据'''return self.data

描述性分析

划分训练、验证和测试数据集

dataloader = Dataloader('../data/bike/hour.csv')
train, val, test = dataloader.getData()
fullData = dataloader.getFullData()category_features = ['season', 'holiday', 'mnth', 'hr',   'weekday', 'workingday', 'weathersit']
number_features = ['temp', 'atemp', 'hum', 'windspeed']features= category_features + number_features
target = ['cnt']
features
['season','holiday','mnth','hr','weekday','workingday','weathersit','temp','atemp','hum','windspeed']

获取DataFrame的列名:

print(list(fullData.columns))
['instant', 'dteday', 'season', 'yr', 'mnth',
'hr', 'holiday', 'weekday', 'workingday',
'weathersit', 'temp', 'atemp', 'hum',
'windspeed', 'casual', 'registered', 'cnt']

打印数据集的前五个示例来探索数据:

fullData.head(5)

获取每列的数据统计信息:

fullData[number_features].describe()

for col in category_features:fullData[col] = fullData[col].astype('category')
fullData[category_features].describe()

缺失值分析

缺失值分析可参见往期文章:缺失值处理,你真的会了吗?

检查数据中的NULL值:

print(fullData.isnull().any())
instant       False
dteday        False
season        False
yr            False
mnth          False
hr            False
holiday       False
weekday       False
workingday    False
weathersit    False
temp          False
atemp         False
hum           False
windspeed     False
casual        False
registered    False
cnt           False
dtype:bool

异常值分析

箱形图

sns.set(font_scale=1.0)
fig, axes = plt.subplots(nrows=3,ncols=2)
fig.set_size_inches(15, 15)
sns.boxplot(data=train,y="cnt",orient="v",ax=axes[0][0])
sns.boxplot(data=train,y="cnt",x="mnth",orient="v",ax=axes[0][1])
sns.boxplot(data=train,y="cnt",x="weathersit",orient="v",ax=axes[1][0])
sns.boxplot(data=train,y="cnt",x="workingday",orient="v",ax=axes[1][1])
sns.boxplot(data=train,y="cnt",x="hr",orient="v",ax=axes[2][0])
sns.boxplot(data=train,y="cnt",x="temp",orient="v",ax=axes[2][1])axes[0][0].set(ylabel='Count',title="Box Plot On Count")
axes[0][1].set(xlabel='Month', ylabel='Count',title="Box Plot On Count Across Months")
axes[1][0].set(xlabel='Weather Situation', ylabel='Count',title="Box Plot On Count Across Weather Situations")
axes[1][1].set(xlabel='Working Day', ylabel='Count',title="Box Plot On Count Across Working Day")
axes[2][0].set(xlabel='Hour Of The Day', ylabel='Count',title="Box Plot On Count Across Hour Of The Day")
axes[2][1].set(xlabel='Temperature', ylabel='Count',title="Box Plot On Count Across Temperature")for tick in axes[2][1].get_xticklabels():tick.set_rotation(90)

解析: 工作日和节假日箱形图表明,正常工作日出租的自行车比周末或节假日多。每小时的箱形图显示当地早上8点最大,下午5点最大,这表明大多数自行车租赁服务的用户使用自行车上班或上学。另一个重要因素似乎是温度:较高的温度导致自行车租赁数量增加,而较低的温度不仅降低了平均租赁数量,而且在数据中显示出更多的异常值。

从数据中去除异常值

sns.distplot(train[target[-1]]);

计数值的分布图显示,计数值不符合正态分布。我们将使用中位数和四分位区间(IQR)来识别和去除数据中的异常值。(另一种方法是将目标值转换为正态分布,并使用平均值和标准偏差。)

print("带有异常值的列车集合中的样本: {}".format(len(train)))
q1 = train.cnt.quantile(0.25)
q3 = train.cnt.quantile(0.75)
iqr = q3 - q1
lower_bound = q1 -(1.5 * iqr)
upper_bound = q3 +(1.5 * iqr)
train_preprocessed = train.loc[(train.cnt >= lower_bound) & (train.cnt <= upper_bound)]
print("没有异常值的训练样本集: {}".format(len(train_preprocessed)))
sns.distplot(train_preprocessed.cnt);
带有异常值的列车集合中的样本:10427
没有异常值的训练样本集:10151

相关分析

matrix = train[number_features + target].corr()
heat = np.array(matrix)
heat[np.tril_indices_from(heat)] = False
fig,ax= plt.subplots()
fig.set_size_inches(15,8)
sns.set(font_scale=1.0)
sns.heatmap(matrix, mask=heat,vmax=1.0, vmin=0.0, square=True,annot=True, cmap="Reds")

结论: 在描述性分析总结如下几点:

  • 变量"Casual"和"registered"包含关于共享自行车计数直接信息,而如果将这些信息用于预测(数据泄漏)。因此,它们不在特征集中考虑。

  • 变量"temp"和"atemp"是高度相关的。为了降低预测模型的维数,可以删除特征"atemp"。

  • 变量"hr"和"temp"似乎是预测自行车共享数量的贡献较大的特征。

features.remove('atemp')

评价指标概述

Mean Squared Error (MSE)

()

Root Mean Squared Logarithmic Error (RMSLE)

(()())

R^2 Score

()

模型选择

所呈现的问题的特点是:

  • 回归:目标变量是一个连续型数值。

  • 数据集小:小于100K的样本量。

  • 少数特征应该是重要的:相关矩阵表明少数特征包含预测目标变量的信息。

这些特点给予了岭回归、支持向量回归、集成回归、随机森林回归等方法大展身手的好机会。有关回归模型可参见往期文章

Python业务分析实战|共享单车数据挖掘相关推荐

  1. 地理空间数据项目实战——共享单车停车需求识别与地图匹配

    共享单车停车需求识别与地图匹配 在我们日常生活中,大家都骑过共享单车,现在的共享单车app里面都有这样一个功能:在地图上规划出了很多的单车停放栅栏(停放点),用户需要把单车停在停放栅栏内,否则就要扣钱 ...

  2. Python文本分析实战:《跨越星弧》TapTap玩家评论内容词云分析

    许久之前写了一篇<Python网络爬虫实战>的博客,里面讲了爬虫的过程,但是没有讲如何分析.这次讲述一下用如何通过词云分析,来从这些文本数据里面获得结论 首先,回顾一下分析背景 主要是看了 ...

  3. 【task02】共享单车数据挖掘赛

    目录 赛题要点 早高峰共享单车潮汐点优化 数据读取与理解 共享单车轨迹数据 共享单车停车点位(电子围栏)数据 共享单车订单数据 共享单车Top40定位 经纬度匹配 停车点处理 Geohash经纬度匹配 ...

  4. 用python写了个共享单车租借系统!

    最近为巩固知识,找了一个小的程序来写写,于是就有了这个简易的共享单车的出租系统,来看代码吧: class Bike:# 初始化方法 no代表车辆编号.age代表车辆年限.# state代表车辆状态,0 ...

  5. 共享单车运营分析及决策研究

    共享单车运营分析及决策研究 张红, 周迪新, 程传祺, 沙毓 兰州理工大学计算机与通信学院,甘肃 兰州 730050   摘要:针对共享单车运营过程中出现的分配不均衡和调度不合理的问题,基于某城市10 ...

  6. 共享单车涉足区块链前景待考

    文章转自:https://www.cyzone.cn/a/20180304/325477.html 共享单车涉足区块链前景待考 郭梦仪2018-03-04标签: 共享单车区块链 去年共享单车行业军备竞 ...

  7. 共享单车项目、mongodb集群

    需求分析 摩拜单车的重点是物联网大数据 车投放在什么地方,要根据数据来进行支撑,根据历史数据(骑行记录) 通过共享单车的骑行数据可以分析出个性城市 成都休闲之都:骑行的地方多为娱乐场所 上海敬业之城: ...

  8. 共享单车的分配与调度

    共享单车的分配与调度 摘要 随着共享经济的到来,共享单车发展迅速,已成为人们出行的重要交通工具.在共享单车迅速发展的同时也存在着资源配置的不合理性,本文通过研究共享单车的分配与调度模型,解决如何衡量在 ...

  9. 共享单车简史:曙光在何方

    一直沉寂的共享单车市场,最近又爆了大新闻. 5月19日消息,广州市交通局将启动新一轮互联网共享单车运营的招标.新闻内容显示,此次招标将比上一个轮次减少15万辆共享单车的投放,让广州全市共享单车运营控制 ...

最新文章

  1. php打印文件目录结构,php和java关于目录树(列出某一目录下文件结构)
  2. star rating
  3. 天津大学计算机在线作业答案,天大19秋《计算机应用基础》在线作业二【满分答案】...
  4. 7. SVM松弛变量
  5. txt mining 2(tf-idf)
  6. Linux 进程间通信 - 信号量
  7. 程序员,活得是本事:30 岁后的 20 条人生建议
  8. iPhone安装ipa的方法(iTunes,PP助手)
  9. ADS仿真设计AB类射频功率放大器
  10. win10电脑插入U盘提示文件或目录损坏了如何解决
  11. 系统集成项目管理工程师06《项目成本管理》
  12. linux安装db2数据库并设置开机自启动
  13. 某商店规定,某商品一次购买5件以上(包含5件)打九折,一次购买10件以上(包含10件)打八折,请根据单价和数量球总价
  14. html文档在word打开是乱码怎么解决,word打开是乱码怎么办?怎么解决
  15. 直击14号台风“灿都”最新消息!浙江多地停课停运,上海严阵以待!
  16. AM5728核心板出厂测试笔记
  17. python基础代码技巧_5行Python代码实现批量打水印技巧,值得收藏|python基础教程|python入门|python教程...
  18. java和vr联系_VR,AR,MR的区别与联系
  19. “国防七子”、“C9联盟”、“华东五虎”,中国最顶尖的大学都在这!
  20. 如何把PPT幻灯片压缩到最小

热门文章

  1. linux 初学体验 20155317 王新玮
  2. 20140328项目日志
  3. bzoj1190 [HNOI2007]梦幻岛宝珠 动态规划
  4. Unix/Linux操作系统中如何在sqlplus/rman中使用方向键
  5. 创建Node.js Express 项目
  6. CentOS中安装mysql
  7. hdu_2243_考研路茫茫——单词情结(AC自动机+矩阵)
  8. iOS音频的后台播放 锁屏
  9. java验证码识别--2
  10. android助手专业版,开发助手专业版 v5.6.1-cs for Android 直装付费专业版