数据分析案例-航班准点分析
目录
加载数据
数据详细
数据探索和清洗
缺失值处理
重复值查看
起飞和到达延迟总体状况分析
机场飞机延迟数量分析
数据集为美国各州机场的航班信息,包含出发地,目的地,是否出 发延迟15分钟,是否到达延迟15分钟等。
加载数据
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
#支持中文显示
plt.rcParams['font.family']='Kaiti'
# 使用非unicode的负号,当使用中文时候要设置
plt.rcParams['axes.unicode_minus']=False
data = pd.read_csv('airport-ontime.csv')
数据详细
数据探索和清洗
data.info()
可以看到总共502617行、17列。其中DEP_DEL15(起飞是否延迟)非空 值是492974行,ARR_DEL15(到达是否延迟)非空值是490716 行,Unnamed这列全部为空值。
缺失值处理
#删除Unnamed列
data.dropna(axis=1,how='all',inplace=True)
data.info()
重复值查看
# 重复值查看
data.duplicated().any()
data.drop_duplicates(inplace=True)
data.info()
起飞和到达延迟总体状况分析
查询起飞是否延迟
data['DEP_DEL15'].head()
统计起飞延迟与不延迟,使用饼状图来显示
s = data['DEP_DEL15'].dropna()
delays = s.value_counts()
display(delays)
delays.name=''
delays.plot(kind='pie',labels=['起飞不延迟','起飞延迟'],autopct='%.2f',title='起飞延迟总体情况')
统计到达延迟与不延迟,使用饼状图显示
s = data['ARR_DEL15'].dropna()
delays = s.value_counts()
display(delays)
delays.name=''
delays.plot(kind='pie',labels=['到达不延迟','到达延迟'],autopct='%.2f',title='到达延迟总体情况')
机场飞机延迟数量分析
机场航班起飞延迟百分比=机场起飞延迟的航班数/机场航班总起飞 数。机场起飞延迟的航班数前面已经获取到变量 depart_delay_counts中,还需要获取机场总航班。
机场起飞延迟数
#针对机场延迟数量来分析,找出哪个机场延迟数量最多
# 缺失值处理
d =data[['ORIGIN_STATE_ABR','DEP_DEL15']].dropna()
depart_delay_couots =d.groupby('ORIGIN_STATE_ABR')
['DEP_DEL15'].sum()
# 设置画布大小 figsize=(a,b) a表示画布宽,b表示画布高,单位英寸
depart_delay_couots.sort_values(ascending=False).plot(kind='bar',figsize=(14,6))
机场到达延迟数
# 缺失值处理
d =data[['DEST_STATE_ABR','ARR_DEL15']].dropna()
arrive_delay_couots =d.groupby('DEST_STATE_ABR')
['ARR_DEL15'].sum()
# 设置画布大小 figsize=(a,b) a表示画布宽,b表示画布高,单位英寸
arrive_delay_couots.sort_values(ascending=False).plot(kind='bar',figsize=(14,6))
合并机场起飞和延迟状况
# 合并机场起飞和延迟状况
delay_df=pd.DataFrame([depart_delay_couots,arrive_delay_couots]).T
delay_df.columns=['起飞延迟','到达延迟']
delay_df.sort_values('起飞延迟',ascending=False).plot(kind='bar',figsize=(14,6),title='机场起飞到达延迟状况')
以下是心得体会:
通过这次Python项目实战,我学到了许多新的知识,这是一个让我把书本上的理论知识运用于实践中的好机会。原先,学的时候感叹学的资料太难懂,此刻想来,有些其实并不难,关键在于理解。
在这次实战中还锻炼了我其他方面的潜力,提高了我的综合素质。首先,它锻炼了我做项目的潜力,提高了独立思考问题、自我动手操作的潜力,在工作的过程中,复习了以前学习过的知识,并掌握了一些应用知识的技巧等
在此次实战中,我还学会了下面几点工作学习心态:
1)继续学习,不断提升理论涵养。在信息时代,学习是不断地汲取新信息,获得事业进步的动力。作为一名青年学子更就应把学习作为持续工作用心性的重要途径。走上工作岗位后,我会用心响应单位号召,结合工作实际,不断学习理论、业务知识和社会知识,用先进的理论武装头脑,用精良的业务知识提升潜力,以广博的社会知识拓展视野。
2)努力实践,自觉进行主角转化。只有将理论付诸于实践才能实现理论自身的价值,也只有将理论付诸于实践才能使理论得以检验。同样,一个人的价值也是透过实践活动来实现的,也只有透过实践才能锻炼人的品质,彰显人的意志。
3)提高工作用心性和主动性。实习,是开端也是结束。展此刻自我面前的是一片任自我驰骋的沃土,也分明感受到了沉甸甸的职责。在今后的工作和生活中,我将继续学习,深入实践,不断提升自我,努力创造业绩,继续创造更多的价值。
这次Python实战不仅仅使我学到了知识,丰富了经验。也帮忙我缩小了实践和理论的差距。在未来的工作中我会把学到的理论知识和实践经验不断的应用到实际工作中,为实现理想而努力。
数据分析案例-航班准点分析相关推荐
- 【案例】航班准点分析
文章目录 1. 数据集 2. 数据探索和清洗 3. 起飞以及到达延迟情况 4. 数据库样式 1. 数据集 数据集为美国各州机场的航班信息,包含出发地,目的地,是否出发延迟15分钟,是否到达延迟15分钟 ...
- Python数据分析案例-利用AB test分析转化率是否存在差异
1. AB test简介 AB测试是为Web或App界面或流程制作两个(A/B)或多个(A/B/n)版本,在同一时间维度,分别让组成成分相同(相似)的访客群组(目标人群)随机的访问这些版本,收集各群组 ...
- 数据分析案例-停车场数据可视化分析
数据集介绍 数据为某停车场信息表,具体字段信息如下表: 字段 含义 字段 含义 cn 车牌号 price 停车所交费用 timein 车辆进场时间 state 是否已经离场 timeout ...
- 数据分析案例--学生用户消费分析
1.导入相关python包 import pandas as pd import numpy as np import matplotlib.pyplot as plt %matplotlib inl ...
- 数据分析案例——IP归属地分析
根据用户上网数据,完成上网IP归属地分析统计,并进行相应排序. 简介 给定的access.log是电信运营商的用户上网数据,第一个字段是时间,第二个字段是ip地址,第三更字段是访问的网站,其他字段可以 ...
- 数据分析案例3----银行坏账率分析
import pandas as pd import numpy as np import matplotlib.pyplot as plt# 解决中文乱码问题 plt.rcParams['font. ...
- python数据分析案例-银行用户忠诚度分析
题目为2022年泰迪杯比赛 要求和数据http://xn--https-bl8js66z7n7i//pan.baidu.com/s/1jsaRwAjZUuMClxWOxG6F9Q%20%20%E6%8 ...
- 【数据分析案例】某瓣读书数据分析
前言说明 本文借用原文作者路人甲的爬取数据进行数据分析思路分享,如有侵犯相关版权信息,请联系本文作者删除文章 数据来源 数据源来自路人甲的公众号,可关注「路人甲 TM」公众号获取数据源 部分数据特征为 ...
- Pandas数据分析案例(盛华化工锅炉排放数据可视化分析)
Pandas数据分析案例(盛华化工锅炉排放数据可视化分析) 实验环境 数据集介绍 问题描述 实验步骤 一.数据导入与观察 二.数据转换 三.数据可视化分析 相关资源 实验环境 操作系统:Linux/W ...
- Python数据分析案例10——北向资金流入与沪深300涨跌幅分析
博主本科是学投资的,最近看了b站邢不行up主的一些量化策略视频,和自己本科毕业论文很像,便想自己也来做一下这个实操的项目. 案例背景 北向资金是从中国最南方--中国香港流入内陆的资金,大部分都是外资, ...
最新文章
- 李宏毅强化学习完整笔记!开源项目《LeeDeepRL-Notes》发布
- pdjango 连接mysql_Django连接MySQL
- 面向程序员的数据挖掘指南: 第二章 从推荐系统开始
- DB-Engines:Snowflake荣获2021年的年度DBMS
- zend studio如何更改字符集
- 数据挖掘:模型状态评估
- python程序初学者计算器界面_Python初学者,一个简单的计算器程序的数学函数
- NLog.config
- HadoopLearning
- 【元胞自动机】基于matlab元胞自动机短消息网络病毒传播仿真【含Matlab源码 1289期】
- 不需要appuploader破解版,也能上架
- MOV格式视频转MP4
- 文章快速伪原创(怎么快速得到伪原创文章)
- 10大渗透神器,渗透测试必备
- R语言并行计算 deviation of null beta diversity(beta多样性零偏差)
- 你想要的宏基因组-微生物组知识全在这(1906)
- 谁是滕尚华?两获哥德尔奖,上交大校友,喜欢「躺平式」科研
- 启动kafka报错 count not reserve enough space for 1048576KB object heap
- springboot 2.X jdbc 实现session共享mysql
- Java设计模式之工厂模式篇 (转)
热门文章
- SSD接口类型小知识
- matlab randn 范围,matlab randn 范围
- torch.randn 方法
- gazebo plugins
- 极简短网址链接生成系统网站源码
- 关于Base64编码(Encode)与解码(Decode)的几种方式,这里面有道道
- android七牛短视频sdk源码,使用七牛开发短视频
- 掌握Android图像显示原理(上)
- OA系统是什么?分分钟使用Java开发出来!!
- C语言如何编程换算小时秒,小时分钟秒的换算(c语言把时间转换成秒)