7.3 Pandas 数据操作

原文:Data Manipulation with Pandas

译者:飞龙

协议:CC BY-NC-SA 4.0

本节是《Python 数据科学手册》(Python Data Science Handbook)的摘录。

在前一章中,我们详细介绍了 NumPy 及其ndarray对象,它在 Python 中提供了密集类型数组的高效存储和操作。在这里,通过详细了解 Pandas 库提供的数据结构,我们将构建这些知识。

Pandas 是一个基于 NumPy 构建的新软件包,它提供了高效的DataFrame实现。DataFrame本质上是多维数组,带有附加的行和列标签,通常具有异构类型和/或缺失数据。除了为标记数据提供方便的存储接口外,Pandas 还实现了许多强大数据操作,数据库框架和电子表格程序用户都熟悉它们。

正如我们所看到的,NumPy 的ndarray数据结构为干净,组织良好的数据类型提供了必要的功能,它们通常出现在数值计算任务中。虽然它很好地服务于此目的,但当我们需要更多的灵活性(例如,将标签附加到数据,处理缺失数据等),以及尝试一些操作,它们不能很好地映射到逐元素广播时(例如, 分组,透视等),它的局限性就很明显了。每一项都是分析非结构化数据的重要部分,它以许多形式存在于我们周围的世界中。

Pandas,特别是它的SeriesDataFrame对象,建立在 NumPy 数组结构之上,可以高效访问这些占据数据科学家许多时间的“数据整理”任务。

在本章中,我们将重点介绍有效使用SeriesDataFrame和相关结构的机制。我们将在适当的地方使用从真实数据集中提取的示例,但这些示例不一定是重点。

安装和使用 Pandas

在系统上安装 Pandas 需要安装 NumPy,如果从源代码构建库,则需要使用适当的工具,来编译 C 和 Cython 源,Pandas 构建在它上面。安装的详细信息,请参见 Pandas 文档。如果你遵循了“前言”中所述的建议,并使用 Anaconda 栈,则你已经安装了 Pandas。

安装 Pandas 后,你可以导入它并检查版本:

import pandas
pandas.__version__# '0.18.1'

正如我们通常在别名np下导入 NumPy 一样,我们将在别名pd下导入 Pandas:

import pandas as pd

此导入约定将在本书的其余部分中使用。

关于内置文档的提示

在阅读本章时,不要忘记 IPython 使你能够快速浏览包的内容(通过使用制表符补全功能)以及各种函数的文档(使用? 字符)。(如果你需要回顾这个,请参阅“IPython 中的帮助和文档”。)

例如,要显示 pandas 命名空间的所有内容,可以键入:

In [3]: pd.<TAB>

要显示 Pandas 的内置文档,你可以使用:

In [4]: pd?

可以在 http://pandas.pydata.org/ 找到更详细的文档以及教程和其他资源。

数据科学 IPython 笔记本 7.3 Pandas 数据操作相关推荐

  1. 数据科学 IPython 笔记本 7.6 Pandas 中的数据操作

    7.6 Pandas 中的数据操作 原文:Operating on Data in Pandas 译者:飞龙 协议:CC BY-NC-SA 4.0 本节是<Python 数据科学手册>(P ...

  2. 数据科学 IPython 笔记本 7.4 Pandas 对象介绍

    7.4 Pandas 对象介绍 原文:Introducing Pandas Objects 译者:飞龙 协议:CC BY-NC-SA 4.0 本节是<Python 数据科学手册>(Pyth ...

  3. 数据科学 IPython 笔记本 7.13 向量化字符串操作

    7.13 向量化字符串操作 原文:Vectorized String Operations 译者:飞龙 协议:CC BY-NC-SA 4.0 本节是<Python 数据科学手册>(Pyth ...

  4. 数据科学 IPython 笔记本 7.1 Pandas

    7.1 Pandas 原文:Pandas 译者:飞龙 协议:CC BY-NC-SA 4.0 致谢:这个笔记摘自 Wes McKinney 的著作 <Python 数据分析>(Python ...

  5. 数据科学 IPython 笔记本 翻译完成

    原文:donnemartin/data-science-ipython-notebooks 译者:飞龙 协议:CC BY-NC-SA 4.0 欢迎任何人参与和完善:一个人可以走的很快,但是一群人却可以 ...

  6. 数据科学 IPython 笔记本 7.15 高性能 Pandas

    # 7.15 高性能 Pandas:eval()和query() 原文:High-Performance Pandas: eval() and query() 译者:飞龙 协议:CC BY-NC-SA ...

  7. 数据科学 IPython 笔记本 8.9 自定义图例

    8.9 自定义图例 原文:Customizing Plot Legends 译者:飞龙 协议:CC BY-NC-SA 4.0 本节是<Python 数据科学手册>(Python Data ...

  8. 数据科学 IPython 笔记本 8.3 Matplotlib 可视化

    8.3 Matplotlib 可视化 原文:Visualization with Matplotlib 译者:飞龙 协议:CC BY-NC-SA 4.0 本节是<Python 数据科学手册> ...

  9. 数据科学 IPython 笔记本 8.12 文本和注解

    8.12 文本和注解 原文:Text and Annotation 译者:飞龙 协议:CC BY-NC-SA 4.0 本节是<Python 数据科学手册>(Python Data Scie ...

最新文章

  1. IE8下 Select文字垂直居中的办法
  2. 深度学习(四)——RNN, LSTM, 神经元激活函数进阶
  3. Java基础----JAVA语言的概述和开发环境的搭配
  4. typeof---JavaScript
  5. 驳文不看文,实在可怕
  6. Oracle 安装教程
  7. plc控制伺服电机的工程案例程序,包含伺服电机接线图
  8. C# 字节(数组)与位之间的计算
  9. 计算机程序班搞笑口号,二班班级霸气押韵口号(精选50句)
  10. Unity鼠标控制相机上下左右环视360度旋转(Quaternion.AngleAxis)
  11. Android 更改头像(图片)并上传服务器功能Demo详解
  12. 科创人·奇点云CEO张金银:数据赋能始于场景终于价值,深山出不了武林高手
  13. Apache apollo 配置说明及用户名和密码管理
  14. revit 二次开发之创建图纸和放置视图
  15. python 列表排序_python列表排序有哪些
  16. 有没有能够在待办事项完成后标记任务已完成的每日计划APP?
  17. hi3516dv300是几核处理器_HI3516DRBCV300-HI3516DRBCV300,hi3516DV300,HI3516-HI3516DRBCV300-香港科威芯电子有限公司...
  18. 关于图像处理中的位图切割(Bit-pane Slicing)原理的自我见解
  19. java计算机毕业设计问卷调查系统源码+数据库+系统+lw文档+mybatis+运行部署
  20. 关于利率的c语言程序,【c语言】储蓄利息的计算

热门文章

  1. (69)信号发生器DDS正弦波设计(一)(第14天)
  2. 阿狸心形表白html,2013qq情侣分组心形一对 心心相印的地久天长
  3. linux文档查看器翻译,mdv – Linux终端下的 Markdown 文档查看器
  4. java enum 泛型,Java Enum作为Enum中的泛型类型
  5. 嘉立创显示板子没有发现外型数据
  6. STM32 SDIO详解
  7. 上下相机贴合对位计算公式_深圳贴合机生产家介绍;真空贴合机这些产品功能你了解多少...
  8. I2C总线串行串行输入输出结构
  9. 7大排序算法详解+java实现
  10. 关于quick-cocos2d-x