统计

import pandas as pd
import datetime
import pandas as pd
path6 = "E:/kaggle数据/exercise_data/wind.data"
# 将数据作存储并且设置前三列为合适的索引
df6 = pd.read_table(path6, sep = "\s+", parse_dates = [[0,1,2]])
df6.head()

#Yr_Mo_Dy列出现了2061年,不合理,x,需要修正
def fix_century(x):year = x.year-100 if x.year > 1989 else x.yearreturn datetime.date(year,x.month,x.day)
df6['Yr_Mo_Dy'] = df6['Yr_Mo_Dy'].apply(fix_century)
df6.head()#将Yr_Mo_Dy列设置为datetime64类型,且设为索引列
df['Yr_Mo_Dy'] = pd.to_datetime(df6['Yr_Mo_Dy'])
df6 = df6.set_index('Yr_Mo_Dy')
df6.head()#求每列的缺失数据量
df6.isnull().sum()#求每列的非缺失数据量
df6.shape[0] - df6.isnull().sum()#总体平均值
df6.mean().mean()  #df6.mean()输出每列均值,df6.mean().mean()输出均值的均值#创建一个名为loc_stats的数据框去计算并存储每个location的风速最小值,最大值,平均值和标准差
loc_stats = pd.DataFrame()
loc_stats['min'] = df6.min()  #每列的最小值
loc_stats['max'] = df6.max()
loc_stats['mean'] = df6.mean()
loc_stats['std'] = df6.std()
loc_stats#对于每一个location,计算一月份的平均风速,不同年的一月是不同的
#Yr_Mo_Dy列的 是1961-01-01形式,要提出年月,新加年,月,日列
df6['date'] = df6.index
df6['month'] = df6['date'].apply(lambda date:date.month)
df6['year'] = df6['date'].apply(lambda date:date.year)
df6['day'] = df6['date'].apply(lambda date:date.day)
january_winds = df6.query('month == 1') #筛选出来1月的行
january_winds.loc[:,'RPT':"MAL"].mean()

.query()函数对数据框进行(挑选行)的操作
df6.query(‘day == 1’) #筛选出day=1的列

可视化

import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import numpy as np
%matplotlib inline
path7 = "E:/kaggle数据/exercise_data/train.csv"
# 将数据作存储并且设置前三列为合适的索引
df7 = pd.read_table(path7)
df7.head()#将PassengerId设置为索引
df7.set_index('PassengerId').head()

#绘制一个展示男女乘客比例的扇形图
males = (df7['Sex'] == 'male').sum() #计算行数
females = (df7['Sex'] == 'female').sum()
proportions = [males,females]
plt.pie(
proportions,
labels = ['Males', 'Females'],
shadow = False,
colors = ['blue','red'],
startangle = 90,
autopct = '%1.1f%%')
plt.axis('equal')
plt.title('Sex Proportion')
plt.tight_layout()
plt.show()

#绘制一个展示船票Fare, 与乘客年龄和性别的散点图
lm = sns.lmplot(x='Age',y= 'Fare',data = df7, hue = 'Sex', fit_reg=False)
lm.set(title = 'Fare x Age')
axes = lm.axes
axes[0,0].set_ylim(-5)
axes[0,0].set_xlim(-5,85)

#有多少人生还?
df7.Survived.sum()#绘制一个展示船票价格的直方图
df = df7.Fare.sort_values(ascending = False)
dfbinsVal = np.arange(0,600,10)
binsVal
plt.hist(df, bins = binsVal)
plt.xlabel('Fare')
plt.ylabel('Frequency')
plt.title('Fare Payed Histrogram')
plt.show()

创建数据框

import pandas as pd
raw_data = {"name": ['Bulbasaur', 'Charmander','Squirtle','Caterpie'],"evolution": ['Ivysaur','Charmeleon','Wartortle','Metapod'],"type": ['grass', 'fire', 'water', 'bug'],"hp": [45, 39, 44, 45],"pokedex": ['yes', 'no','yes','no']                        }#将数据字典存为一个名叫pokemon的数据框中
pokemon = pd.DataFrame(raw_data)
pokemon.head()#修改列的顺序
pokemon = pokemon[['name', 'type', 'hp', 'evolution','pokedex']]
pokemon#添加一个列place
pokemon['place'] = ['park','street','lake','forest']
pokemonpokemon.dtypes #看数据类型

时间序列

import pandas as pd
import numpy as np
# visualization
import matplotlib.pyplot as plt
%matplotlib inline
path7 = "E:/kaggle数据/exercise_data/Apple_stock.csv"
df7 = pd.read_csv(path9)
df7.head()#将Date这个列转换为datetime类型
df7.Date = pd.to_datetime(apple.Date)
df7['Date'].head()
df7 = df7.set_index('Date') #将Date设置为索引
df7.head()#索引列是否有重复日期
df7.index.is_unique#将index设置为升序
df7.sort_index(ascending = True).head()#数据集中最早的日期和最晚的日期相差多少天
(df7.index.max() - df7.index.min()).days#在数据中一共有多少个月?
df7_months = df7.resample('BM').mean()
len(df7_months.index)#按照时间顺序可视化Adj Close值
appl_open = df7['Adj Close'].plot(title = "Apple Stock")
fig = appl_open.get_figure()
fig.set_size_inches(13.5, 9)

删除数据

import pandas as pd
path10 = "E:/kaggle数据/exercise_data/iris.csv"
df10 = pd.read_csv(path10)
df10.head()
iris = pd.read_csv(path10,names = ['sepal_length','sepal_width', 'petal_length', 'petal_width', 'class'])
iris.head()pd.isnull(iris).sum() #每列缺失值个数
#将列petal_length的第10到19行设置为缺失值
iris.iloc[10:20,2:3] = np.nan#将缺失值全部替换为1.0
iris.petal_length.fillna(1, inplace = True)  #数据名.列名.fillna(填充值)#删除有缺失值的行
iris = iris.dropna(how='any')
iris.head()

Pandas数据分析3-统计、可视化、创建数据框、时间序列、删除数据相关推荐

  1. Python数据框DataFrame的数据筛选

    [小白从小学Python.C.Java] [Python全国计算机等级考试] [Python数据分析考试必会题] ● 标题与摘要 Python数据框DataFrame的 数据筛选 ● 选择题 关于数据 ...

  2. sqlite数据类型、关键词及创建、修改、删除数据表

    //摘自:http://www.cnblogs.com/caizhimin816/articles/1885290.html 谢谢! sqlite数据类型.关键词及创建.修改.删除数据表 Posted ...

  3. xampp mysql创建表_xampp怎样创建数据表和删除数据表 来学习吧

    xampp新建好数据库之后,怎样新建数据表呢?今天咪咪我就来讲解一下xampp中怎样创建数据表和删除数据表. 工具/材料 电脑 电脑 xampp 操作方法 01 如图,单击选中已经创建好的数据库. 0 ...

  4. 数据库实验2 创建数据表修改数据表和删除数据表

    实验2 创建数据表修改数据表和删除数据表 实验类型:●验证性实验  ○综合性实验  ○设计性实验 实验目的:     (1)了解数据表的结构特点. (2)掌握表中列定义时所用到的各种数据类型. (3) ...

  5. 从0开始弄一个面向OC数据库(三)--数据库升级,数据迁移,删除数据

    前言 首先,在上一篇文章从0开始弄一个面向OC数据库(二),讲解了如何向数据库保存或更新一个模型.如何查询数据库里面的数据.其次,本篇要说的内容有: 数据库更新.数据迁移. 删除数据 使用场景: 随着 ...

  6. oracle 删除原有的数据,oracle数据库删除数据的两种方式

    当表中的数据不需要是,则应该删除该数据,并释放所占用的空间; 删除表中的数据有delete和truncate两种方式,下面分别介绍: 一.delete语句 (1)有条件删除 语法格式:delete [ ...

  7. pandas数据分析和pyecharts可视化周杰伦MV弹幕(多图长文)

    周杰伦MV弹幕 数据来源:B站爬虫 导入模块包 1. 中文分词库 jieba 2. 数据分析包 pandas 3. 可视化包 matplotlib 4. 交互可视化包 pyecharts 5. 正则表 ...

  8. pandas数据分析,matplotlib绘图(折线图),图片和数据批量写入excel

    pandas数据分析,matplotlib绘图并解决中文乱码问题 批量将数据写入多个sheet的excel表,并将图片和数据写入同一个sheet,查了不少api,希望对大家有帮助 代码就不一一解释了, ...

  9. 【python 数据框apply】数据框多列计算调用apply函数

    自行创建文本文件score.txt,其中存储了如下所示若干学生的姓名.学号和3门考试课的成绩.编程将所有两门以上(含两门)课程不及格的学生信息输出到文件 fail.txt.其他学生信息输出到pass. ...

  10. python excel数据框_python – 熊猫数据框到Excel表

    根据您的上述需求,您将需要使用 Python(导出熊猫数据框)和VBA(删除现有工作表内容并复制/粘贴外部数据). 使用Python:使用to_csv或to_excel方法.我推荐使用更大的数据集更好 ...

最新文章

  1. 3D点云重建原理及Pytorch实现
  2. Nacos更新配置参数不生效
  3. 移动端效果之Picker
  4. 3d翻转 ios_iOS自定义转场详解04——实现3D翻转效果
  5. 全球通吃的九大黄金专业
  6. 实验二:线性时间选择
  7. koolproxy无法下载https证书的解决方法
  8. 防火墙OPNsense安装
  9. 微型计算机系统有三类总线它们是,《微机原理、汇编语言与接口技术》韩晓茹(习题解答全套...
  10. 任鸟飞FPS类型游戏绘制,骨骼,u3d,UE4和游戏安全,反外挂研究 (三)
  11. 【cocos精品】《梦幻西游》全面制霸苹果榜单 四榜登顶
  12. python数据分析之Pandas-3
  13. LearnOpenGL学习笔记—PBR:IBL
  14. 欧几里得、扩展的欧几里得算法
  15. xbap中如何将3D动画发布到web浏览器
  16. 2021届 美的笔试 C++开发工程师
  17. [Matlab]糖葫芦代码实现
  18. python视频网站项目_价值2400元的python全栈开发系列Flask Python Web 网站编程视频
  19. socket.read()的阻塞问题
  20. Pyhive安装(python连接有Kerberos的hive数据库)

热门文章

  1. python学习-02(数据类型、字符串、列表、元祖、字典)
  2. python 打开网页并截图_python实现自动网页截图并裁剪图片
  3. 什么是网站的样本设计
  4. 网站建设经验分享:如何设计及运营网站
  5. C 修改内存制作外挂
  6. CAD图纸被设置成只读格式,如何取消?
  7. 正则表达式匹配经纬度
  8. 华为防火墙查看日志命令_华为USG防火墙运维命令大全
  9. 天宇优配|医药股反弹受阻 公募乐观态度不改
  10. [Math] 二阶行列式和三阶行列式的几何意义的证明