数据科学入门与实战:玩转pandas实战项目分析航班晚点情况
引入相关包
import numpy as np
import pandas as pd
from pandas import DataFrame,Series
读取数据文件
df = pd.read_csv('usa_flights.csv')
看看数据个数
print(df.size)#计算总数
print(df.shape)#计算矩阵行列大小
查看数据
print(df.head())#一个月的数据..
#主要看看arr_delay才知道是否延误
数据情况,包含航班日期,航空公司,航班号,数据源,目的地,到达延迟时间,取消,距离,carrier_delay weather_delay late_aircraft_delay nas_delay security_delay actual_elapsed_time
按照到达目的延迟时间从小到大排序,-74说明早到达74分钟
#排序。。
#按照航班延误时间从小到大排序
print(df.sort_values('arr_delay'))
最长延误时间TOP十
#最长延误时间Top Ten
print(df.sort_values('arr_delay',ascending=False)[:10])
计算延误航班和没有延误航班的比例
#计算延误和没有延误航班的比例
print(df['cancelled'])
就算延误和没有延误航班的个数分别为
print(df['cancelled'].value_counts())
生成一列新的数据delay,通过applay吧arr_delay转否delay的标志
df['delayed'] = df['arr_delay'].apply(lambda x:x > 0)
print(df.head())
计算一下delayed False和True的值的数量
delay_data = df['delayed'].value_counts()#引用delay_data时候就直接delay_data[0]...即可
print(delay_data)
print(type(delay_data))
计算延误比例
#延误比率
print(delay_data[1] / (delay_data[0] + delay_data[1]) )
每个公司的延误情况如何?通过groupby分组
#每个公司延误的情况,两级索引:'unique_carrier','delayed'
delay_group = df.groupby(['unique_carrier','delayed'])
print(delay_group)
print(delay_group.size())
不要堆叠
df_delay = delay_group.size().unstack()#不要堆叠
print(df_delay)
画图
import matplotlib.pyplot as plt
df_delay.plot()
df_delay.plot(kind = 'barh',stacked = True, figsize = [16,6],colormap = 'winter')
数据科学入门与实战:玩转pandas实战项目分析航班晚点情况相关推荐
- python3数据科学入门与实战_Python3学习之Python3数据科学入门与实战视频教程
Python3学习之Python3数据科学入门与实战视频教程 Python3数据科学入门与实战 这是一个数据驱动的时代,想要从事机器学习.人工智能.数据挖掘等前沿技术,都离不开数据跟踪,本课程通过Nu ...
- 大数据入门课程_我根据数千个数据点对互联网上的每门数据科学入门课程进行了排名...
大数据入门课程 by David Venturi 大卫·文图里(David Venturi) A year ago, I dropped out of one of the best computer ...
- Python 数据科学入门教程:机器学习:回归
Python 数据科学入门教程:机器学习:回归 原文:Regression - Intro and Data 译者:飞龙 协议:CC BY-NC-SA 4.0 引言和数据 欢迎阅读 Python 机器 ...
- 干货满满 | 不容错过的数据科学入门数学指南
作者 | Randall Hall 来源 | 机器之心 想要入行数据科学而又不知如何开始吗?先看看这篇使用的数据科学入门数学指南吧! 数学就像一个章鱼:它的「触手」可以触及到几乎所有学科.虽然有些学科 ...
- 《Python数据科学入门》之阅读笔记(第2章)
Python数据科学入门 Dmitry Zinoviev著 熊子源 译 第二章 数据科学的Python核心 第4单元 理解基本的字符串函数 大小写转换函数: lower() 将所有字符转换为小写 up ...
- 《Python数据科学入门》之数据库的使用(第4章)
Python数据科学入门 Dmitry Zinoviev著 熊子源 译 第四章 使用数据库 本章介绍了数据库的使用.之前那本<Python爬虫>中有谈到数据库的使用,这里就不再详细介绍.仅 ...
- 有前途的人工智能大数据分析相关职业:Python数据科学入门之路
2019独角兽企业重金招聘Python工程师标准>>> 为什么学习Python数据科学? Python是数据科学职业所需的宝贵技能之一.Python是数据科学的首选编程语言. 201 ...
- 独家 | 数据科学入门指南:新手如何步入数据科学领域?
作者:Sangeet Aggarwal 翻译:陈之炎 校对:冯羽 本文长度为2900字,建议阅读6分钟 本文将带大家讨论如何从零开始数据科学之旅. 标签:数据科学,机器学习 数据科学,据说是本世纪最吸 ...
- Github标星3.7k:微软出的数据科学入门课程(附下载)
推荐微软开源的一个非常棒的课程:面向初学者的数据科学. 目前收到了 3.7K 个Stars,可见数据科学初学者对微软的认可! 课程介绍 这个课程有10次周,共20节课.每节课包括课前和课后测验.完成课 ...
最新文章
- Unity 游戏开发技巧集锦之创建自发光材质
- 少儿python编程培训-全国少儿人工智能Python编程兴趣班
- SQL分组取每组前一(或几)条记录(排名)
- mysql 传统数据恢复_mysql 数据恢复实例
- [数分提高]2014-2015-2第7教学周第1次课 (2015-04-14)
- 数据库异常---ORA-01436: 用户数据中的 CONNECT BY loop in user data 循环
- GPS NMEA-0183标准数据介绍
- python骗局-我终于在生活中用到Python了!!!——用爬虫来揭露骗局真相
- flume流程之SpoolDir-memory-hdfs
- RHEL6与Oracle 11G R2之开篇:安装
- 宋宝华:公元1024年Linux内核的尘封往事
- codeforces 1077E Thematic Contests
- Python 与金融科技6|上证50的收盘价汇总
- C++学习笔记12:编程练习二
- 联想y7000电脑未正确启动_联想拯救者Y7000P装win7系统蓝屏|联想Y7000P重装系统蓝屏怎么解决...
- 北航991——设备管理(重点)
- Java第十天:多态 异常处理
- drawLine(self, Union[QPointF, QPoint], Union[QPointF, QPoint]): argument 1 has unexpected type ‘floa
- 分部积分法(integration by parts)
- 轻松同时使用或切换多个搜索引擎
热门文章
- 数据库笔记10:创建与管理视图
- 【BZOJ1051】受欢迎的牛,tarjan缩点重构图
- 【BZOJ1901】Dynamic Rankings,树状数组套主席树
- 【BZOJ1196】公路修建问题,二分+最小生成树
- There is 和 There are的使用_28
- python自动复制,Python数组自动相互复制
- 【Level 08】U06 Good Feeling L1 End-of-season game
- 【JAVA核心知识】6.1: JAVA IO基础
- 2021抚顺高考成绩查询,2021年抚顺高考成绩排名及成绩公布时间什么时候出来
- python 运行时 变量_python运行过程,变量,符号