某天没有数据能查出来0数量_用Excel对纽约市出租车费数据探索性分析
一、引言
背景:在纽约,游客们往往把自由女神象、帝国大厦、中央公园等视为纽约的象征, 但穿梭在人海中的出租车也是纽约靓丽的人文景观之一, 是其流动的风景线, 在纽约公共文化中别具魅力。本篇文章利用之前从kaggle上下载的数据train.csv,结合Excel对数据进行分析,数据量大约有(1048574行),因数据量比较大,有时加载过慢,下一步准备用python进行预测分析。二、数据分析
主要包括提出问题、理解数据、数据清洗、构建模型、数据可视化
1、提出问题
(1)出租车行业的业务指标有哪些?
A:出租车GPS原始数据
主要包括出租车的车机号、UTC时间、纬度、经度、行驶方向、速度和载客状态
B:基本运营数据:
运营时间: 出租车基本为全天候运营, 运营时间较长, 出租车司机劳动强度较高, 在其运营过程中, 需要进行交接班。
运行起点: 出租车无固定运行起点, 乘客可在任意位置打车, 具有较高的便利性;
运行终点: 出租车每次的运行终点为用户指定, 并且出租车对道路条件要求不高, 几乎可抵达城市的各个角落, 具有较高的可达性;
运行路线: 当出行起终点确定后, 司机会基于自身驾驶经验对出行路径进行选择, 具有较高的随机性和灵活性;
运行状态: 出租车在道路上的运行状态共有空载和重载两种, 其空驶时间取决于该区域内的乘客需求情况, 空载出租车会増加道路负担;
运行速度: 当出租车空载时,一般会减慢速度行驶, 方便出租车寻客;而当出租车重载时, 行驶速度便会加快, 且中途不会停车或上下客,便尽快将乘客送至目的地, 具有较高的快捷性;
载客量: 介于私人小巧车和常规公交之间, 每次搭载乘客最多为4 人,具有较高的舒适性;
付费行为: 出租车司机在将乘客送至指定目的地后, 由乘客根据出租车计费结果进行付费。
C:出租车上下客高峰期
工作日上下客高峰期:工作日各个时段的乘客上下车所占比例的变化情况
休息日上下客高峰期:休息日各个时段的乘客上下车所占比例的变化情况
D:出租车基本运营指标:
出租车运营数量:运营出租车数量指的就是某一天或某段时间内运营的出租车数量;
全天的载客次数:全天载客次数是指在某一天时间内每辆出租车的载客次数之和;
平均载客次数:平均载客次数是指在某天内平均每辆出租车的载客次数, 即为全天载客次数与运营出租车数量之商;
平均载客时长:指在某天内平均每辆出租车的载客时间;
平均空驶时间:指在某段时间内平均每辆出租车的空驶时间;
平均运营时间:指在某一天内平均每辆出租车的运营时间;
空驶率:是平均空驶时间与平均运营时间之商;
(2)分析思路
(3)本篇基于纽约出租车数据的基本指标,如截取的部分图片所示:
内容包括打出租车的费用,打出租的时间,出发点的经纬度,目的地的经纬度,乘客的人数
我们可以相应的提出所关注的问题?
A:每一天,不同时间的订单量如何?如果有高峰时段,是在哪个时间段?
B:纽约出租车不同时间的运价如何?夜晚的运价是否高于白天的运价?路程长短与运价之间是否有阶梯运价?
C:预测未来五年的不同时间的运价(python)
2、理解数据
(1)列名的名称要全部显示,采用自动换行功能,列宽调整为15
(2)观察数据类型
包括哪些数据类型,均为数字类型,可用于计算
3、数据清洗
(1)选择子集:根据出发点和到达点计算两点的公里数,可将出发点和到达点的经纬度信息、乘坐车的乘客的人数隐藏,
(2)列名重命名
将要研究的数据重新命名,对其原名称进行修改,并利用公式计算行驶公里数及运价数据。
(3)删除重复值
将数据中重复数据进行删除。
(4)缺失值处理
对缺失的数据进行处理,将为0的值进行删除。
重置有四种方法处理缺失值:
a:人工补全,适合比较少的数据
b:删除缺失的数据
c:用平均值代替缺失值
d:用统计模型计算出值代替缺失值
因为本例子中经纬度数据缺失,所以采取将为0的数据进行删除。
首先将为0的数据进行空白处理
或者用ctrl+"-",最终将缺失值进行删除
或者用筛选将0值选中,然后删除0值所在的行
(5)一致化处理
需看看目前所保留的数据是否有统一的标准或命名
将年、月、日、时间分别提取出来
选中十字号,将内容全部填充。
(6)数据排序
利用运价数据,应用到所有数据进行排序
(7)异常值处理
主要利用数据透视表的操作,看看是否有异常值数据。
进行排序处理,发现有异常值,由于异常值数量较少,将异常值进行删除处理。
4.构建模型
(1)对出租车的运价进行描述统计
(2)根据数据透视表的信息,从2009年-2015年(部分数据),纽约出租车的订单量是呈现上下波动的趋势,在2012年达到的峰值
除此之外,因为数据量过多,用Excel数据分析相对困难,接下来会用python进行分析。
5.模型可视化
可视化展示:
问题预留:
因数据量过大,在用Excel操作时明显感觉不太便捷,下一步需要研究的问题
1.对不同年份、不同时间段的订单量进行分析
2.对未来几年的纽约市出租车费进行预测。
三、出租车行业或出行行业的常见业务面试题有哪些?
(1)某某出行行业主要的用户是谁?包括哪些?是否能说出几项特征(用户画像)
(2)乘客最关心什么;司机最关心什么,怎么解决 ?
(3)如果想提高客户的订单量,您需要选择哪些指标进行分析?
某天没有数据能查出来0数量_用Excel对纽约市出租车费数据探索性分析相关推荐
- java cookie能存到服务器_Cookie技术用于将会话过程中的数据保存到( )中,从而使浏览器和服务器可以更好地进行数据交互。(5.0分)_学小易找答案...
[单选题]下列选项中,用于对超链接和form表单中的action属性中设置的URL进行重写的方法是(5.0分) [判断题]安装好Tomcat后,就可以直接启动运行了,并不要先安装JDK.(5.0分) ...
- datagrid如何获取一行数据中的某个字段值_或许是全网最全面关于数据库面试题...
原文: https://www.enmotech.com/web/detail/1/794/1.html 两万字全面论述数据库面试题(上) https://www.enmotech.com/web/d ...
- mongodb的数据怎么导入到hdfs上_如何成为一名合格的数据架构师?
"本文作者:奇点云高级数据架构专家 天启,奇点云高级数据架构专家,原海尔集团数据架构师.原阿里巴巴政务团队数据架构师.精通数据仓库建模理论及数据开发技术,具备零售.政务.医药.制造等多个领域 ...
- 几张表格怎么联动_在excel 中,怎样实现数据关联?:excel怎么把几个表格的数据联动...
在excel 中,怎样实现数据关联? Excel数据关联可以利用公式来. 软件版本:Office2007 举例说明如下: 1.Sheet1如下数据,设置Sheet2中对元格数据与之关联起来: 2.在S ...
- 数据查询和业务流分开_一文带你了解大数据管道
介绍 如果您从大数据开始,通常会被众多工具,框架和选项所困扰. 在本文中,我将尝试总结其成分和基本配方,以帮助您开始大数据之旅. 我的目标是对不同的工具进行分类,并试图解释每个工具的目的以及它如何适应 ...
- 数据上采样和下采样_采样不足以配置您的ml数据
数据上采样和下采样 By Isaac Backus and Bernease Herman 艾萨克·巴库斯(Isaac Backus)和伯尼瑟斯·赫曼(Bernease Herman) It's 20 ...
- 大数据之-Nifi-了解Nifi处理器_和Nifi的其他组件---大数据之Nifi工作笔记0003
然后我们来看nifi的处理器,可以看到左上角是用来添加处理器的, 拖过来就能添加 拖过来以后,会显示一个弹框,里面会显示各种处理器,有293个..常用的都够了 可以在右边搜索以后添加 看一下常用的处理 ...
- 小红旗图标在excel如何输入_通过Excel条件格式为指定数据送上“小红旗”,排行榜效果立现!...
上一篇文章<使用Excel数据条,可瞬间提高你的报表颜值,还不赶紧试试?>仅仅只是介绍了单元格图形格式中的"数据条".有了那个基础之后,再来学习"色阶&quo ...
- php 数据分别是怎么传的_四种php页面间传递数据方法
我们定义page01.php和page02.php两个php文件,将page01中的内容想办法传递到page02,然后供我们继续使用. 第一种: 使用客户端浏览器的cookie.cookie很容易理解 ...
最新文章
- Python类继承简单实现
- 使用KubeKey 离线环境部署 KubeSphere v3.0.0
- Nginx代理webSocket经常中断的解决方案, 如何保持长连接
- oracle 11g空表不能exp导出问题解决方案
- 设计模式学习之--Singleton(单例)模式
- 将字符转换成带有圆圈的字符
- mapguide 安装调试
- 图像去噪序列——BM3D图像去噪模型实现
- RJ45转COM线序关系
- 【数据分享】全国县市2000-2020年医疗卫生机构床位数数据(excel和shp格式)
- Android常用布局-01
- Android 自定义锁屏_开发自定义ROM提速:红米Note 6 Pro等Android Pie内核源代码上线...
- virt-install安装虚拟机
- unity3D多点测量、多边形面积测量
- php程序员的出路,php程序员有前途吗
- linux waitpid 用法,linux的fork(),waitpid()及wait()的用法
- 图像语义分割入门:FCN/U-Net网络解析
- 计算机正确的坐姿教案,小学信息技术第二册 正确坐姿和指法—基本键打字练习教案...
- C语言学习(十一)之字符输入/输出
- 复制公司代码后更改会计科目表(OB62),报错:更改会计科目表前重置公司码数据-OBR1/OBR2