前言

Python作为一门数据可视化很好的语言,可以使用像matplotlib等库画出图形,处理数据主要使用pandas
这里主要讨论Pandas

初识pandas

大多数人只要提及pandas,基本都知道,只要是学习python的人
Pandas 是 Python 语言的一个扩展程序库,用于数据分析。
Pandas 是一个开放源码、BSD 许可的库,提供高性能、易于使用的数据结构和数据分析工具。
Pandas 名字衍生自术语 “panel data”(面板数据)和 “Python data analysis”(Python 数据分析)。
Pandas 一个强大的分析结构化数据的工具集,基础是 Numpy(提供高性能的矩阵运算),其次数series,还有一个DataFrame,这三个比较常用。
Pandas 可以从各种文件格式比如 CSV、JSON、SQL、Microsoft Excel 导入数据。
Pandas 可以对各种数据进行运算操作,比如归并、再成形、选择,还有数据清洗和数据加工特征。
Pandas 广泛应用在学术、金融、统计学等各个数据分析领域。

Pandas的主体

Pandas 的主要数据结构是 Series (一维数据)与 DataFrame(二维数据),这两种数据结构足以处理金融、统计、社会科学、工程等领域里的大多数典型用例。

Series:带标签的一维同构数组,一种类似于一维数组的对象,它由一组数据(各种Numpy数据类型)以及一组与之相关的数据标签(即索引)组成。

DataFrame:带标签,大小可变,二维异构表格。一个表格型的数据结构,它含有一组有序的列,每列可以是不同的值类型(数值、字符串、布尔型值)。DataFrame 既有行索引也有列索引,它可以被看做由 Series 组成的字典(共同用一个索引)。

Pandas的安装

一般情况下只要电脑上安装Python后,并将python环境布置入path之中,pandas安装可以在CMD中或者在Anaconda终端进行安装
安装命令

pip install pandas

Pandas的应用

  1. 导入pandas库
# 导入pandas库
import pandas as pd
  1. pandas之series
    Pandas Series类似表格中的一个列(column),类似于一堆数组,可以保存为任何数据类型Series由索引(index)和列组成,函数如下:
pandas.Series(data, index, dtype, name, copy)

参数说明:
data:一组数据(ndarray 类型)。

index:数据索引标签,如果不指定,默认从 0 开始。

dtype:数据类型,默认会自己判断。

name:设置名称。

copy:拷贝数据,默认为 False。
Demo:

import pandas as pd
a = ["ID", "name", "salary"]
salary_series = pd.Series(a)
print(salary_series)
print(type(salary_series)

代码结果:

index参数
索引是可以修改的
索引只上图的最左边(0,1,2)

import pandas as pdcolumns = ['ID', 'Name', 'Salary']
salary_series = pd.Series(columns, index=['x','y','z'])
print(salary_series)


使用字典, key/value对象, 创建Series

import pandas as pd
a = {1:'Name',2:'salary'}
series = pd.Series(a)
print(series)


可以通过索引的指定来取值

import pandas as pda = {1:'Id', 2:'Name', 3:'Salary'}
series = pd.Series(a,index=[1,2])
print(series)

  1. pandas之DataFrame
    DataFrame 是一个表格型的数据结构,它含有一组有序的列,每列可以是不同的值类型(数值、字符串、布尔型值)。DataFrame既有行索引也有列索引,它可以被看做由 多个Series 组成的字典(共同用一个索引)。

    DataFrame构造方法如下:
pandas.DataFrame(data, index, column, dtype)

data:一组数据(ndarray、series, map, lists, dict 等类型)。

index:索引值,或者可以称为行标签。

columns:列标签,默认为 RangeIndex (0, 1, 2, …, n) 。

dtype:数据类型。
Demo

  1. 指定列表
import pandas as pd
data = [["one", "ID"], ["two", "Name"], ["three", "Salary"]]
df = pd.DataFrame(data, columns=['first','second'])
print(df)

  1. 通过字典形式创建,列分开插入
import pandas as pd
data = {'Name': ['Dante', 'Vergil', 'Nero'],'Salary': [555, 666, 777]}
df = pd.DataFrame(data)
print(df)

  1. 使用字典 key/value,其中字典的key就是列名
import pandas as pd
data = [{'a':1, 'b':2}, {'a':5, 'b':10, 'c':20}]
df = pd.DataFrame(data)
print(df)

  1. 讲下取值使用的函数iloc和loc
import numpy as np
import pandas as pd
#创建一个Dataframe
data=pd.DataFrame(np.arange(16).reshape(4,4),index=list('abcd'),columns=list('ABCD'))
print(data)
print('==============================')
# 取第一行
# loc[]括号里跟索引,这里索引是a 所以用a
print('loc取值:\n', data.loc['a'])
print('==============================')
print('iloc取值: \n',df.iloc[0])

  1. 返回多行数据使用iloc或loc,使用[[:]]格式,以逗号隔开
import numpy as np
import pandas as pd
#创建一个Dataframe
data=pd.DataFrame(np.arange(16).reshape(4,4),index=list('abcd'),columns=list('ABCD'))
print(data)
print('===========================')
print('使用loc方法\n')
print(data.loc[:,['A']],'\n')
#取'A'列所有行,多取几列格式为
print(data.loc[:,['A','B']],'\n')
data.loc[['a','b'],['A','B']]
#提取index为'a','b',列名为'A','B'中的数据
print('============================')
print('使用iloc方法\n')
#提取第0、1行,第0、1列中的数据
print(data.iloc[[0,1],[0,1]])
print('============================')
print('使用loc函数,根据某个数据来提取数据所在的行的全部数据')
print(data.loc[data['A']==0]

目前更新这些,希望对你有用

python 数据分析核心--pandas相关推荐

  1. python 数据分析day4 Pandas 之 DataFrame

    DataFrame 一. 创建DataFrame 1. 二维数组创建 2. 字典创建 3. JSON创建 4. 读取Excel或CSV文件创建 5. 读数据库(MySQL)创建 二. 常用属性 三. ...

  2. python常用命令汇总-python数据分析之pandas常用命令整理

    原标题:python数据分析之pandas常用命令整理 pandas 是基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建的.Pandas 纳入了大量库和一些标准的数据模型 ,提供了高效地 ...

  3. Python数据分析之Pandas库

    Python数据分析之Pandas库 一.Pandas简介 二.Pandas库的安装 三.Pandas的数据结构 四.Series 和 DataFrame 数据结构的使用 五.其他可以参考的网站 一. ...

  4. python怎么筛选excel数据_懂Excel也能轻松入门Python数据分析包pandas(二):高级筛选(上)-excel筛选...

    转发本文并私信我"python",即可获得Python资料以及各种心得(持续更新的) 系列文章: 前言 经常听别人说 Python 在数据领域有多厉害,结果学了很长时间,连数据处理 ...

  5. pandas 排序 给excel_懂Excel轻松入门Python数据分析包pandas(二十五):循环序列分组...

    此系列文章收录在公众号中:数据大宇宙 > 数据处理 >E-pd 转发本文并私信我"python",即可获得Python资料以及更多系列文章(持续更新的) 经常听别人说 ...

  6. pandas 排序_懂Excel就能轻松入门Python数据分析包pandas(六):排序

    转发本文并私信我"python",即可获得Python资料以及各种心得(持续更新的) 经常听别人说 Python 在数据领域有多厉害,结果学了很长时间,连数据处理都麻烦得要死.后来 ...

  7. (转载)Python数据分析之pandas学习

    转载地址:http://www.cnblogs.com/nxld/p/6058591.html Python中的pandas模块进行数据分析. 接下来pandas介绍中将学习到如下8块内容: 1.数据 ...

  8. c++控制台应用每一列数据如何对齐_懂Excel就能轻松入门Python数据分析包pandas(十六):合并数据...

    此系列文章收录在公众号中:数据大宇宙 > 数据处理 >E-pd 转发本文并私信我"python",即可获得Python资料以及更多系列文章(持续更新的) 经常听别人说 ...

  9. pandas 更改单元格的值_懂Excel轻松入门Python数据分析包pandas(二十四):连续区域...

    此系列文章收录在公众号中:数据大宇宙 > 数据处理 >E-pd 转发本文并私信我"python",即可获得Python资料以及更多系列文章(持续更新的) 经常听别人说 ...

最新文章

  1. 用c++写一个猜数字的小游戏
  2. mysql通过参数文件启动_mysql启动的时参数文件中的[mysql]下的参数没有生效
  3. 央视在世界杯高清直播中占了C位 它是怎么做到的?
  4. 如何在MyEclipse中将项目部署Tomcat
  5. 导致溢出_1篇文章搞清楚8种JVM内存溢出(OOM)的原因和解决方法
  6. 蓝桥杯单片机:12届省赛
  7. 聚焦数智技术助力乡村振兴 京东云为乡村振兴注入“数智”力量
  8. 网络之NSURLConnection
  9. matplotlib3d柱状图_Matplotlib——画图(散点图、柱状图、等高线图、3D图)
  10. 2017年网易游戏数据挖掘/机器学习实习生笔试
  11. mysql 拼音首字母排序
  12. CEEMDAN算法及其应用
  13. 算法学习(十九)——A3C
  14. 数字信号处理C语言——离散傅里叶变换DFT/离散傅里叶反变换IDFT
  15. fg-bg Assignment Imbalance problem
  16. iOS打包ipa文件
  17. 概率论中的矩母函数(MGF)
  18. pdf文件转为md文件
  19. P2655 2038年问题
  20. java12.0.1版本环境变量设置,2019年5月16,小白笔记

热门文章

  1. Android apk安装过程
  2. Python批量处理Excel办公自动化
  3. SaaS订阅收费模式的精髓是:预充值
  4. java基于ssm+vue+elementui楼盘房屋销售系统 前后端分离
  5. Application Server was not connected Unable to ping server at localhost:1099
  6. 用 Python 自动玩王者荣耀,有点意思!
  7. 扑克牌(ArrayList)
  8. IO流总结(基础知识)
  9. C++中的decltype
  10. 这个微信小程序开源!