基于R语言的数据分析报告

(很多同学私信反馈通过kaggle没办法下载数据集,我把数据集上传到百度云供大家取用,链接:https://pan.baidu.com/s/1S48WWmtK-BcgF3jkwMfivw 密码:3pd6,求点赞求关注!)

一、数据说明

本文进行数据分析所使用的数据是共享单车运营数据,记录了共享单车租赁的时间、地点、环境(包括季节,温度,湿度)等数据。该数据集来自 kaggle 上的开源项目:https://www.kaggle.com/c/bike-sharing-demand/data。

通过分析这份数据,我们能观察到共享单车被使用的一般规律,用户的使用习惯,环境对共享单车运营带来的影响等有用信息,能够更好地帮助共享单车运营方的管理和研究城市的流动性。

二、数据分析

1. 读取数据

首先指定 wd 的路径,将数据集 train.csv 的数据读取到 R 语言中,使用变量 data 存储;在 train.csv 中,数据格式如下,每一条记录包括了时间、季节、是否是周末、是否是工作日、天气、温度、最高温度、湿度、风速、损坏车辆、登记使用车辆、总租赁车辆数等信息:


在本数据分析报告中,我们关注温度、湿度、风速、总租赁车辆数这四项数据,数据的读取如下:

library(showtext)
showtext_auto()# 配置环境,读取数据
setwd("/Users/caitan/Desktop/方法论/rDataAnalysis")
data <- read.csv("train.csv", header = FALSE)# 从data中读取温度、湿度、风速、损坏使用数据、登记使用数据,租赁总数据
temperature <- as.numeric(data[,6])
humidity <- as.numeric(data[,8])
windspeed <- as.numeric(data[,9])
casual <- as.numeric(data[,10])
register <- as.numeric(data[,11])
total <- as.numeric(data[,12])

2. 温度、湿度、风速的均值、标准差

源代码如下:

# 温度的均值和标准差
print(mean(temperature, na.rm = T))
print(sd(temperature, na.rm = T))# 湿度的均值和标准差
print(mean(humidity, na.rm = T))
print(sd(humidity, na.rm = T))# 风速的均值和标准差
print(mean(windspeed, na.rm = T))
print(sd(windspeed, na.rm = T))

结果如下:

3. 温度与租赁量关系的散点图

源代码:

plot(x = temperature, y = total, xlab = "温度", ylab = "租赁量", main = "温度与租赁量关系图", cex = 1, pch = 1)

4. 正态分布的一致性检验

在本文中,我们选取温度这一项数据进行正态分布一致性检验,源代码如下:

shapiro.test(temperature[0:5000])

结果如下:

虽然 W 值接近于1,但是 p 值小于 0.05,不符合正态分布的一致性检验,说明温度这一项数据不符合正态分布

5. 车辆使用数据

根据字段 holiday 和 workingday,我们可以将车辆使用数据分为工作日和休息日,进行对比分析。在一天24个时段中,工作日和节假日的租赁数量分别为:

hours = c(1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21,22, 23, 24)count_workday = c(36.73225806451613, 16.003236245954692, 8.436065573770492, 4.892733564013841, 5.363636363636363, 24.529032258064515, 102.57741935483871, 290.69032258064516, 479.9451612903226, 242.29354838709676, 133.59677419354838, 157.0193548387097, 199.34726688102893, 197.16077170418006, 180.36655948553056, 198.62700964630224, 292.4662379421222, 529.2090032154341, 495.4855305466238, 349.2829581993569, 249.36334405144694, 184.85530546623795, 138.34405144694534, 88.9967845659164)
count_weekday = c(94.48965517241379, 71.9103448275862, 53.74825174825175, 25.53472222222222, 8.544827586206896, 9.373239436619718, 19.99310344827586, 47.26896551724138, 112.2551724137931, 177.9241379310345, 263.80689655172415, 325.3862068965517, 379.11034482758623, 387.82068965517243, 378.7310344827586, 373.70344827586206, 367.64827586206894, 339.1241379310345, 292.24827586206897, 242.3448275862069, 183.80689655172415, 148.73793103448276, 123.35172413793103, 90.60689655172413)

绘制图形的代码如下:

# 绘制租赁量和时刻的柱形图
barplot(height = count_workday, xlab = "时刻", ylab = "租赁量", main = "工作日使用情况", names.arg = hours)
barplot(height = count_weekday, xlab = "时刻", ylab = "租赁量", main = "休息日使用情况", names.arg = hours)# 绘制租赁量和时刻的散点图
pie(x = count_workday, labels = hours, main = "工作日使用情况", radius = 1)
pie(x = count_weekday, labels = hours, main = "休息日使用情况", radius = 1)

绘制柱形图:


绘制饼状图:


三、总结

  1. 由温度-租赁量散点图可知,当温度在15-25之间时,共享单车租赁量较高;当温度在15度以下时,温度越低,租赁量越低;当温度较高时,仍能保持一定的租赁量;
  2. 由工作日-时刻租赁柱状图/饼状图可知,工作日的共享单车使用高峰期集中在上午7-10点和下午18-20点,与上下班交通高峰期正好重合;
  3. 由休息日-时刻租赁柱状图/饼状图可知,休息日的共享单车使用集中在11-19点;

通过对共享单车运营数据的分析,我掌握了R语言的使用以及数据图的绘制过程,未来可以尝试使用这份数据进行预测性的工作。

基于R语言的数据分析报告相关推荐

  1. 《金融数据分析导论:基于R语言》习题答案(第一章)

     <金融数据分析导论:基于R语言>是芝加哥大学的教授Ruey S.Tsay所著,李洪成.尚秀芬.郝瑞丽翻译,机械工业出版社出版,是一本学习R语言和金融数据分析的很好的参考书籍. ** 注 ...

  2. 大学计算机课程报告python_基于python语言和数据分析的大学公共计算机课程方案...

    基于 python 语言和数据分析的大学公共计算机课程方案 云太真 [期刊名称] <电脑知识与技术> [年 ( 卷 ), 期] 2018(014)025 [摘要] 目前的大学公共计算机课程 ...

  3. 【R语言与数据分析实战】数据操作(一):基于向量的处理与外部数据处理

    目录 1.R中的常用数据集 2.读写CSV文件 (1) 读写CSV文件 (2) 读写对象文件 3.合并数据框的行与列 4.apply系数函数 (1) apply (2) lapply (3) sapp ...

  4. python对电影进行预测评分_基于R语言构建的电影评分预测模型

    原标题:基于R语言构建的电影评分预测模型 欢迎关注天善智能 hellobi.com,我们是专注于商业智能BI,大数据,数据分析领域的垂直社区,学习.问答.求职,一站式搞定! 对商业智能BI.大数据分析 ...

  5. R语言与数据分析练习:使用ARIMA模型预测网站访问量

    R语言与数据分析练习:使用ARIMA模型预测网站访问量 使用ARIMA模型预测网站访问量 一.实验背景: 随着流量的增大,某网站的数据信息量也在以一定的幅度增长 基于该网站2016年9月~2017年2 ...

  6. 基于R语言混合效应模型(mixed model)案例研究

    全文链接: http://tecdat.cn/?p=2596 在本文中,我们描述了灵活的竞争风险回归模型.回归模型被指定为转移概率,也就是竞争性风险设置中的累积发生率(点击文末"阅读原文&q ...

  7. R语言对数线性模型loglm函数_用R语言进行数据分析:常规和广义线性模型

    用R语言进行数据分析:常规和广义线性模型 线性模型 对于常规的多重模型(multiple model)拟合,最基本的函数是lm(). 下面是调用它的方式的一种改进版: >fitted.model ...

  8. 毕业论文知识点记录(六)——基于R语言优化maxent模型

    毕业论文知识点记录(六)--基于R语言优化maxent模型 第一步:R安装 这个网上都有很多详细的步骤,就不再详细介绍了. 第二步:R安装包 因为优化maxent模型需要用到kuenm程序包,但是官网 ...

  9. 2014全球软件技术峰会WOT:R语言金融数据分析

    跨界知识聚会系列文章,"知识是用来分享和传承的",各种会议.论坛.沙龙都是分享知识的绝佳场所.我也有幸作为演讲嘉宾参加了一些国内的大型会议,向大家展示我所做的一些成果.从听众到演讲 ...

  10. 基于R语言的Copula变量相关性分析及应用

    在工程.水文和金融等各学科的研究中,总是会遇到很多变量,研究这些相互纠缠的变量间的相关关系是各学科的研究的重点.虽然皮尔逊相关.秩相关等相关系数提供了变量间相关关系的粗略结果,但这些系数都存在着无法克 ...

最新文章

  1. Ubuntu 系统使用命令打开某个目录下的代码文件
  2. Asp.Net MVC CodeFirst模式数据库迁移步骤
  3. 防火墙--iptables
  4. Oracle中varchar,varchar2,nvarchar,nvarchar2的区别
  5. SAP 产品条码WMS结合 以及ABAP script的集成 BarCode
  6. Python多重继承(一分钟读懂)
  7. 运动会管理系统(JAVA,JSP,SERVLET,MYSQL)
  8. 数据管理之元数据管理
  9. 服务器如何用pe系统安装,pe下安装服务器系统安装教程
  10. 智能指针手表_反对智能手表
  11. HaaS EDU K1 快速搭建Python开发环境
  12. Linux终端分屏软件tmux工具基本快捷键
  13. EMU8086开发工具_微机原理
  14. Scaled-YOLOv4: Scaling Cross Stage Partial Network
  15. 安装ps时显示建议重启计算机,安装 photoshop cs6提示建议重新启动计算机的解决办法...
  16. 6.2 网络钓鱼攻击
  17. 屋面房顶白色外壁降温用凉凉胶隔热面漆 隔热性能十分优异
  18. python实现解数独程序代码
  19. 要变天了,谷歌新政策,真的对华为“不讲武德”吗?
  20. 路由器修改html加广告,openwrt利用Privoxy实现js广告植入

热门文章

  1. html 图标制作,icon小图标制作
  2. java 创建txt_JAVA读取TXT文件、新建TXT文件、写入TXT文件
  3. 自适应短视频源码php下载,php在线短视频解析下载API源码
  4. ThinkPHP自定义标签的使用总结
  5. 绘图工具java软件开发模板_仅适合程序员的uml绘图工具-plantuml
  6. 黑苹果教程 欸嘿嘿~
  7. Xshell 新手安装教程
  8. Android ASM插桩探索及实战
  9. nodejs mysql嵌套查询_nodejs+mysql嵌套查询的问题
  10. Excel直接跳过隐藏行,粘贴数据到可见单元格