pandas 是基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建的。
Pandas 纳入了大量库和一些标准的数据模型,提供了高效地操作大型数据集所需的工具。pandas提供了大量能使我们快速便捷地处理数据的函数和方法。
Pandas是python的一个数据分析包,最初由AQR Capital Management于2008年4月开发,并于2009年底开源出来,目前由专注于Python数据包开发的PyData开发team继续开发和维护,属于PyData项目的一部分。
Pandas最初被作为金融数据分析工具而开发出来,因此,pandas为时间序列分析提供了很好的支持。 
Pandas的名称来自于面板数据(panel data)和python数据分析(data analysis)。panel data是经济学中关于多维数据集的一个术语,在Pandas中也提供了panel的数据类型。

主要数据结构为两个类:DataFrame和Series
Series:一维数组,与Numpy中的一维array类似。二者与Python基本的数据结构List也很相近。Series如今能保存不同种数据类型,字符串、boolean值、数字等都能保存在Series中。
Time- Series:以时间为索引的Series。
DataFrame:二维的表格型数据结构。很多功能与R中的data.frame类似。可以将DataFrame理解为Series的容器。
Panel :三维的数组,可以理解为DataFrame的容器。
Panel4D:是像Panel一样的4维数据容器。
PanelND:拥有factory集合,可以创建像Panel4D一样N维命名容器的模块。

# -*- coding: utf-8 -*-
'''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''
#作者:cacho_37967865
#博客:https://blog.csdn.net/sinat_37967865
#文件:pandas_model.py
#日期:2019-09-06
#备注:pandas 是基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建的,主要数据结构为两个类:
DataFrame: 可以理解为表格,类似于Excel的表格 pandas.core.frame.DataFrame
Series: 表示单列。DataFrame包含多个列,即多个Series,每个Series都有名称。pandas.core.series.Series
'''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''import numpy as np
import pandas as pd# 创建一个pandas对象
def pandas_create():df = pd.DataFrame({"id": [1001, 1002, 1003, 1004, 1005, 1006],"date": pd.date_range('20130102', periods=6),"city": ['Beijing ', 'SH', ' guangzhou ', 'Shenzhen', 'shanghai', 'BEIJING '],"age": [23, 44, 54, 32, 34, 32],"category": ['100-A', '100-B', '110-A', '110-C', '210-A', '130-F'],"price": [1200, np.nan, 2133, 5433, np.nan, 4432]},columns=['id', 'date', 'city', 'category', 'age', 'price'])#print(df,'\n')return df# 查看信息
def pandas_show(df):print(type(df))print('查看数据表基本信息:',type(df.info),'\n',df.info)print('查看维度元组tuple(行数、列数):',df.shape)print('查看每一列数据的格式:',type(df.dtypes),'\n',df.dtypes)print('查看某一列值和数据类型:','\n',df['price'])print('查看数据表的值:',type(df.values),'\n',df.values)print('查看默认前5行数据:','\n',df.head(10))print('查看默认后5行数据:','\n',df.tail())print('查看id列中最大值对应的索引:', '\n', df.id.idxmax(0))       # 只针对数值类型#print('显示所有列最大值所对应的索引:', '\n', df.idxmax(0))print('统计信息展示:','\n',df.describe())print('统计每一列有多少缺失值:', '\n', df.isnull().sum())print('统计每一列非空个数:', '\n', df.count())print('统计某列是否有重复数据:', '\n', df.age.is_unique)          # false有重复数据print('按列的值排序:', '\n', df.sort_values(by='age'))print('按顺序进行多列降序排序:', '\n', df.sort_values(['age','category'],ascending=False))print('选择多列数据:', '\n', df[['id','price']])print('选择行数据通过切片获取:', '\n', df[0:3])print('选择行数据通过一个单独列的值来筛选:', '\n', df[df.age > 32])print('行和列转置:', '\n', df.T)print('统计每一列(数字类型)平均值:', '\n', df.mean())print('统计每一列(数字类型)平均值取整:', '\n', round(df.mean()))print('统计每一行(数字类型)平均值:', '\n', df.mean(1))# inplace = True时会改变旧的DataFrame
def pandas_deal(df):#print('删除列改变原来数据:','\n',df.drop('price', axis = 1, inplace = True))print('删除列不改变原来数据:','\n',df.drop('price', axis = 1))print('删除所有均为空值的行:', '\n', df.dropna(how='all'))print('删除包含缺失值的行:','\n',df.dropna())print('填充所有空值(NaN)用数字0:','\n',df.fillna(value=0))print('填充某一列空值(NaN)用数字0:','\n',df.price.fillna(value=0))print('填充某一列空值(NaN)用price均值:','\n',df['price'].fillna(df['price'].mean(),inplace = True))print('修改某个字段的值替换:','\n',df['city'].replace('SH', 'shanghai',inplace = True))print('修改某个字段的值大小写转换','\n',df['city'].str.lower())print('修改某一列的数据格式:','\n',df['age'].astype(float))print('表格值:','\n',df)

【Python】pandas模块操作大型数据集相关推荐

  1. Python Pandas模块教程

    Python Pandas模块 (Python Pandas Module) Pandas is an open source library in Python. It provides ready ...

  2. Python——pandas模块—Series数据结构

    Python--pandas模块-Series数据结构 Python--pandas模块-Series数据结构 pandas Series 创建Series 没有指定索引列时,自动创建:0~~(N-1 ...

  3. python读写excel模块pandas_Windows下Python使用Pandas模块操作Excel文件的教程

    安装Python环境ANACONDA是一个Python的发行版本,包含了400多个Python最常用的库,其中就包括了数据分析中需要经常使用到的Numpy和Pandas等.更重要的是,不论在哪个平台上 ...

  4. Python pandas模块输出每行中间省略号问题

    关于Python数据分析中pandas模块在输出的时候,每行的中间会有省略号出现,和行与行中间的省略号....问题,其他的站点(百度)中的大部分都是瞎写,根本就是复制黏贴以前的版本,你要想知道其他问题 ...

  5. python pandas模块_Python3.5 Pandas模块中Series用法详解

    Python3.5 Pandas模块中Series用法实例 本文实例讲述了Python3.5 Pandas模块之Series用法.分享给大家供大家参考,具体如下: 1.Pandas模块引入与基本数据结 ...

  6. Python pandas模块

    1 pandas数据读取 Pandas需要先读取表格类型的数据,然后进行分析 1.1 读取文件和基础语句: 读取csv文件数据: import pandas as pd filepatch=r&quo ...

  7. 【python pandas excel操作】

    目录 1.打开Excel,获取不同sheet的名称 2.获取不同sheet的内容 3. 获取行数以及表头 4.对某一列的信息进行筛选 5.根据列号和索引号提取一行或者一列的数据 6.其他panda对E ...

  8. [python]python pandas 模块

    一个开源数据分析的库,它提供的数据结构DataFrame极大的简化了数据分析过程中一些繁琐操作. Pandas所支持的数据类型: 1. float 2. int 3. bool 4. datetime ...

  9. python ox_Oracle 模块操作Oracle

    操作流程如下: ①.引用模块cx_Oracle ②.连接数据库 ③.获取cursor ④.使用cursor进行各种操作 ⑤.关闭cursor ⑥.关闭连接 打开oracle配置文件tnsnames.o ...

最新文章

  1. 十四:桥接者模式(发送各类短信案例)
  2. [Angular 2] @ngrx/devtools demo
  3. python wing 免费下载安装
  4. Java多线程编程笔记之Condition
  5. linux构建web主机
  6. 有特殊步长适应的自适应差分脉码调制语音编码系统
  7. vs2010 失效后的解决办法
  8. spring boot filter配置方式
  9. 每天一道LeetCode-----将间隔集中有重叠的间隔合并
  10. Excel VBA 学习总结 - 数据验证与正则表达式
  11. 半个小时用计算机怎么算,CPA机考计算器操作指南,掌握这些快捷键,考试“延长”半小时!...
  12. 友价虚拟商城实物商城PC端模板18套+手机模板两套
  13. HDU-1253-胜利大逃亡(bfs)
  14. 【影像学基本知识】Slice gap and slice thickness and cross-talk
  15. 人力资源HR管理系统源码
  16. 记七彩虹刷bios问题
  17. css 图片反色,颜色反色,高斯模糊
  18. jwt java案例_JWT(二):使用 Java 实现 JWT
  19. 通过镜像安装torch,torchvision
  20. 程序员的读书方法和反思方法!!:我们该如何学习知识?反思总结?

热门文章

  1. bloomberg用法 固定收益_内部收益率的用法浅谈某保险的真实收益率
  2. matlab信号内插,基于VC++和Matlab的数字信号内插处理系统
  3. mysql类似的数据库_MemSQL学习笔记-类似MySQL的数据库
  4. XML学习(一)————XML简介
  5. java url后面带sessionid_Spring Mvc boot解决静态url带jsessionid问题
  6. # 解析bt文件_BT、磁力链这些词语是什么意思?
  7. 打靶法matlab求边值问题代码,数学实验“微分方程组边值问题数值算法(打靶法,有限差分法)”实验报告(内含matlab程序)...
  8. chcon和semanage fcontext的坑
  9. matlab 当已知两个矩阵满足分别一定条件时_程序继续执行,MATLAB程序设计基础
  10. IDEA:vue中缺少vue-quill-editor富文本插件