一、引言
背景:在纽约,游客们往往把自由女神象、帝国大厦、中央公园等视为纽约的象征, 但穿梭在人海中的出租车也是纽约靓丽的人文景观之一, 是其流动的风景线, 在纽约公共文化中别具魅力。本篇文章利用之前从kaggle上下载的数据train.csv,结合Excel对数据进行分析,数据量大约有(1048574行),因数据量比较大,有时加载过慢,下一步准备用python进行预测分析。二、数据分析
主要包括提出问题、理解数据、数据清洗、构建模型、数据可视化
1、提出问题

(1)出租车行业的业务指标有哪些?

A:出租车GPS原始数据

主要包括出租车的车机号、UTC时间、纬度、经度、行驶方向、速度和载客状态

B:基本运营数据:

运营时间: 出租车基本为全天候运营, 运营时间较长, 出租车司机劳动强度较高, 在其运营过程中, 需要进行交接班。

运行起点: 出租车无固定运行起点, 乘客可在任意位置打车, 具有较高的便利性;

运行终点: 出租车每次的运行终点为用户指定, 并且出租车对道路条件要求不高, 几乎可抵达城市的各个角落, 具有较高的可达性;

运行路线: 当出行起终点确定后, 司机会基于自身驾驶经验对出行路径进行选择, 具有较高的随机性和灵活性;

运行状态: 出租车在道路上的运行状态共有空载和重载两种, 其空驶时间取决于该区域内的乘客需求情况, 空载出租车会増加道路负担;

运行速度: 当出租车空载时,一般会减慢速度行驶, 方便出租车寻客;而当出租车重载时, 行驶速度便会加快, 且中途不会停车或上下客,便尽快将乘客送至目的地, 具有较高的快捷性;

载客量: 介于私人小巧车和常规公交之间, 每次搭载乘客最多为4 人,具有较高的舒适性;

付费行为: 出租车司机在将乘客送至指定目的地后, 由乘客根据出租车计费结果进行付费。

C:出租车上下客高峰期

工作日上下客高峰期:工作日各个时段的乘客上下车所占比例的变化情况

休息日上下客高峰期:休息日各个时段的乘客上下车所占比例的变化情况

D:出租车基本运营指标:

出租车运营数量:运营出租车数量指的就是某一天或某段时间内运营的出租车数量;

全天的载客次数:全天载客次数是指在某一天时间内每辆出租车的载客次数之和;

平均载客次数:平均载客次数是指在某天内平均每辆出租车的载客次数, 即为全天载客次数与运营出租车数量之商;

平均载客时长:指在某天内平均每辆出租车的载客时间;

平均空驶时间:指在某段时间内平均每辆出租车的空驶时间;

平均运营时间:指在某一天内平均每辆出租车的运营时间;

空驶率:是平均空驶时间与平均运营时间之商;

(2)分析思路

(3)本篇基于纽约出租车数据的基本指标,如截取的部分图片所示:

内容包括打出租车的费用,打出租的时间,出发点的经纬度,目的地的经纬度,乘客的人数
我们可以相应的提出所关注的问题?
A:每一天,不同时间的订单量如何?如果有高峰时段,是在哪个时间段?
B:纽约出租车不同时间的运价如何?夜晚的运价是否高于白天的运价?路程长短与运价之间是否有阶梯运价?
C:预测未来五年的不同时间的运价(python)
2、理解数据
(1)列名的名称要全部显示,采用自动换行功能,列宽调整为15

(2)观察数据类型
包括哪些数据类型,均为数字类型,可用于计算
3、数据清洗
(1)选择子集:根据出发点和到达点计算两点的公里数,可将出发点和到达点的经纬度信息、乘坐车的乘客的人数隐藏,

(2)列名重命名
将要研究的数据重新命名,对其原名称进行修改,并利用公式计算行驶公里数及运价数据。

(3)删除重复值
将数据中重复数据进行删除。

(4)缺失值处理
对缺失的数据进行处理,将为0的值进行删除。
重置有四种方法处理缺失值:
a:人工补全,适合比较少的数据
b:删除缺失的数据
c:用平均值代替缺失值
d:用统计模型计算出值代替缺失值
因为本例子中经纬度数据缺失,所以采取将为0的数据进行删除。

首先将为0的数据进行空白处理

或者用ctrl+"-",最终将缺失值进行删除

或者用筛选将0值选中,然后删除0值所在的行

(5)一致化处理
需看看目前所保留的数据是否有统一的标准或命名

将年、月、日、时间分别提取出来

选中十字号,将内容全部填充。
(6)数据排序
利用运价数据,应用到所有数据进行排序

(7)异常值处理
主要利用数据透视表的操作,看看是否有异常值数据。

进行排序处理,发现有异常值,由于异常值数量较少,将异常值进行删除处理。
4.构建模型
(1)对出租车的运价进行描述统计

(2)根据数据透视表的信息,从2009年-2015年(部分数据),纽约出租车的订单量是呈现上下波动的趋势,在2012年达到的峰值

除此之外,因为数据量过多,用Excel数据分析相对困难,接下来会用python进行分析。

5.模型可视化

可视化展示:

问题预留:

因数据量过大,在用Excel操作时明显感觉不太便捷,下一步需要研究的问题

1.对不同年份、不同时间段的订单量进行分析

2.对未来几年的纽约市出租车费进行预测。

三、出租车行业或出行行业的常见业务面试题有哪些?

(1)某某出行行业主要的用户是谁?包括哪些?是否能说出几项特征(用户画像)

(2)乘客最关心什么;司机最关心什么,怎么解决 ?

(3)如果想提高客户的订单量,您需要选择哪些指标进行分析?

某天没有数据能查出来0数量_用Excel对纽约市出租车费数据探索性分析相关推荐

  1. java cookie能存到服务器_Cookie技术用于将会话过程中的数据保存到( )中,从而使浏览器和服务器可以更好地进行数据交互。(5.0分)_学小易找答案...

    [单选题]下列选项中,用于对超链接和form表单中的action属性中设置的URL进行重写的方法是(5.0分) [判断题]安装好Tomcat后,就可以直接启动运行了,并不要先安装JDK.(5.0分) ...

  2. datagrid如何获取一行数据中的某个字段值_或许是全网最全面关于数据库面试题...

    原文: https://www.enmotech.com/web/detail/1/794/1.html 两万字全面论述数据库面试题(上) https://www.enmotech.com/web/d ...

  3. mongodb的数据怎么导入到hdfs上_如何成为一名合格的数据架构师?

    "本文作者:奇点云高级数据架构专家 天启,奇点云高级数据架构专家,原海尔集团数据架构师.原阿里巴巴政务团队数据架构师.精通数据仓库建模理论及数据开发技术,具备零售.政务.医药.制造等多个领域 ...

  4. 几张表格怎么联动_在excel 中,怎样实现数据关联?:excel怎么把几个表格的数据联动...

    在excel 中,怎样实现数据关联? Excel数据关联可以利用公式来. 软件版本:Office2007 举例说明如下: 1.Sheet1如下数据,设置Sheet2中对元格数据与之关联起来: 2.在S ...

  5. 数据查询和业务流分开_一文带你了解大数据管道

    介绍 如果您从大数据开始,通常会被众多工具,框架和选项所困扰. 在本文中,我将尝试总结其成分和基本配方,以帮助您开始大数据之旅. 我的目标是对不同的工具进行分类,并试图解释每个工具的目的以及它如何适应 ...

  6. 数据上采样和下采样_采样不足以配置您的ml数据

    数据上采样和下采样 By Isaac Backus and Bernease Herman 艾萨克·巴库斯(Isaac Backus)和伯尼瑟斯·赫曼(Bernease Herman) It's 20 ...

  7. 大数据之-Nifi-了解Nifi处理器_和Nifi的其他组件---大数据之Nifi工作笔记0003

    然后我们来看nifi的处理器,可以看到左上角是用来添加处理器的, 拖过来就能添加 拖过来以后,会显示一个弹框,里面会显示各种处理器,有293个..常用的都够了 可以在右边搜索以后添加 看一下常用的处理 ...

  8. 小红旗图标在excel如何输入_通过Excel条件格式为指定数据送上“小红旗”,排行榜效果立现!...

    上一篇文章<使用Excel数据条,可瞬间提高你的报表颜值,还不赶紧试试?>仅仅只是介绍了单元格图形格式中的"数据条".有了那个基础之后,再来学习"色阶&quo ...

  9. php 数据分别是怎么传的_四种php页面间传递数据方法

    我们定义page01.php和page02.php两个php文件,将page01中的内容想办法传递到page02,然后供我们继续使用. 第一种: 使用客户端浏览器的cookie.cookie很容易理解 ...

最新文章

  1. Python类继承简单实现
  2. 使用KubeKey 离线环境部署 KubeSphere v3.0.0
  3. Nginx代理webSocket经常中断的解决方案, 如何保持长连接
  4. oracle 11g空表不能exp导出问题解决方案
  5. 设计模式学习之--Singleton(单例)模式
  6. 将字符转换成带有圆圈的字符
  7. mapguide 安装调试
  8. 图像去噪序列——BM3D图像去噪模型实现
  9. RJ45转COM线序关系
  10. 【数据分享】全国县市2000-2020年医疗卫生机构床位数数据(excel和shp格式)
  11. Android常用布局-01
  12. Android 自定义锁屏_开发自定义ROM提速:红米Note 6 Pro等Android Pie内核源代码上线...
  13. virt-install安装虚拟机
  14. unity3D多点测量、多边形面积测量
  15. php程序员的出路,php程序员有前途吗
  16. linux waitpid 用法,linux的fork(),waitpid()及wait()的用法
  17. 图像语义分割入门:FCN/U-Net网络解析
  18. 计算机正确的坐姿教案,小学信息技术第二册 正确坐姿和指法—基本键打字练习教案...
  19. C语言学习(十一)之字符输入/输出
  20. 复制公司代码后更改会计科目表(OB62),报错:更改会计科目表前重置公司码数据-OBR1/OBR2

热门文章

  1. 整理一周的Python资料,包含各阶段所需网站、项目,2020燥起来!
  2. 麻省理工深度学习基础公开课.ppt
  3. Gerapy分布式管理框架
  4. Serializer序列化使用
  5. Redis中集合set数据类型(增加(添加元素)、获取(获取所有元素)、删除(删除指定元素))
  6. selenium之作用和工作原理
  7. beautifulsoup以及正则表达式re之间的一些知识!
  8. 基于OpenCV的表格文本内容提取
  9. 从零开始一起学习SLAM | 理解图优化,一步步带你看懂g2o代码
  10. 如何使用 OpenCV 开发虚拟键盘