导读:对于那些对Python数据生态系统不太熟悉的人士,我将简要地介绍一部分重要的库。

作者:韦斯·麦金尼(Wes McKinney)

译者:徐敬一

来源:大数据DT(ID:hzdashuju)

01 NumPy

http://numpy.org

NumPy是Numerical Python的简写,是Python数值计算的基石。它提供多种数据结构、算法以及大部分涉及Python数值计算所需的接口。NumPy还包括其他内容:

  • 快速、高效的多维数组对象ndarray

  • 基于元素的数组计算或数组间数学操作函数

  • 用于读写硬盘中基于数组的数据集的工具

  • 线性代数操作、傅里叶变换以及随机数生成

成熟的C语言API,允许Python拓展和本地的C或C++代码访问NumPy的数据结构和计算设施。

除了NumPy赋予Python的快速数组处理能力之外,NumPy的另一个主要用途是在算法和库之间作为数据传递的数据容器。对于数值数据,NumPy数组能够比Python内建数据结构更为高效地存储和操作数据。

此外,用底层语言编写的库,例如用C或Fortran编写的库,可以在NumPy数组存储的数据上直接操作,而无须将数据复制到其他内存中后再操作。因此,许多Python的数值计算工具将NumPy数组作为基础数据结构,或与NumPy进行无缝互操作。

02 pandas

http://pandas.pydata.org

pandas提供了高级数据结构和函数,这些数据结构和函数的设计使得利用结构化、表格化数据的工作快速、简单、有表现力。它出现于2010年,帮助Python成为强大、高效的数据分析环境。常用的pandas对象是DataFrame,它是用于实现表格化、面向列、使用行列标签的数据结构;以及Series,一种一维标签数组对象。

pandas将表格和关系型数据库(例如SQL)的灵活数据操作能力与NumPy的高性能数组计算的理念相结合。它提供复杂的索引函数,使得数据的重组、切块、切片、聚合、子集选择更为简单。由于数据操作、预处理、清洗在数据分析中是重要的技能,pandas将是重要主题。

介绍一点背景知识,早在2008年,我在一家量化投资企业——AQR资本管理公司供职时,便开始了pandas的开发。那时候,我有一些独特的需求是工具清单上任何单个工具无法满足的:

  • 带有标签轴,支持自动化或显式数据对齐功能的数据结构——这可以防止未对齐数据和不同数据源的不同索引数据所引起的常见错误

  • 集成时间序列函数功能

  • 能够同时处理时间序列数据和非时间序列数据的统一数据结构

  • 可以保存元数据的算术操作和简化

  • 灵活处理缺失数据

  • 流行数据库(例如基于SQL的数据库)中的合并等关系型操作

我想将以上的工作在同一个地方完成,最好还能在一个拥有通用软件开发能力的语言中实现。Python就是一个很好的备选项,但是那时候并没有这类数据结构的整合集,也没有能提供相关功能的工具。结果就是pandas最初被开发出来用于解决金融和商业分析问题,pandas尤其擅长深度时间序列和处理商业进程中产生的时间索引数据。

使用R语言进行统计计算的用户对DataFrame的名称会非常熟悉,因为这个对象是根据相似的R data.frame对象进行命名的。与Python不同的是,数据框在R语言中是标准库中的内容。因此,pandas中的很多特征通常与R核心的实现或者R的附加库提供的功能一致。

pandas的名字的来源是panel data,这是计量经济学中针对多维结构化数据集的术语。pandas也是Python data analysis(Python数据分析)自身的简写短语。

03 matplotlib

http://matplotlib.org

matplotlib是最流行的用于制图及其他二维数据可视化的Python库。它由John D. Hunter创建,目前由一个大型开发者团队维护。matplotlib被设计为适合出版的制图工具。

对于Python编程者来说也有其他可视化库,但matplotlib依然使用最为广泛,并且与生态系统的其他库良好整合。我认为将它作为默认可视化工具是一个安全的选择。

关于matplotlib更详细讲解,请戳:纯干货:手把手教你用Python做数据可视化(附代码)

04 IPython与Jupyter

http://ipython.org

http://jupyter.org

IPython项目开始于2001年,由Fernando Pérez发起,旨在开发一个更具交互性的Python解释器。在过去的16年中,它成为Python数据技术栈中最重要的工具之一。

尽管它本身并不提供任何计算或数据分析工具,它的设计侧重于在交互计算和软件开发两方面将生产力最大化。它使用了一种执行-探索工作流来替代其他语言中典型的编辑-编译-运行工作流。它还提供针对操作系统命令行和文件系统的易用接口。由于数据分析编码工作包含大量的探索、试验、试错和遍历,IPython可以使你更快速地完成工作。

2014年,Fernando和IPython团队发布了Jupyter项目。Jupyter项目旨在设计一个适用于更多语言的交互式计算工具。IPython web notebook 则成为Jupyter notebook,可以支持超过40种编程语言。IPython系统目前可以作为一个内核(一种编程语言模式)用于在 Jupyter 中使用Python。

IPython自身已成为 Jupyter开源项目中的一个组件,后者提供交互性、探索性的高效环境。IPtyhon最古老、最简单的“模式”就是一个加强版的Python命令行,用于提高编写、测试、调试Python代码的速度。

你也可以通过基于Web、支持多语言的代码“笔记本”——Jupyter Notebook来使用IPython系统。IPython命令行和 Jupyter notebook对于数据探索和可视化非常有用。

Jupyter notebook系统允许你使用Markdown和HTML创建包含代码和文本的富文档。其他编程语言也针对Jupyter实现了内核,允许你在Jupyter中使用多种语言而不仅仅是Python。

对我个人来说,IPython涉及我工作的大部分内容,包括运行、调试、测试代码。

05 SciPy

http://scipy.org

SciPy是科学计算领域针对不同标准问题域的包集合。以下是SciPy中包含的一些包:

  • scipy.integrate

    数值积分例程和微分方程求解器

  • scipy.linalg

    线性代数例程和基于numpy.linalg的矩阵分解

  • scipy.optimize

    函数优化器(最小化器)和求根算法

  • scipy.signal

    信号处理工具

  • scipy.sparse

    稀疏矩阵与稀疏线性系统求解器

  • scipy.special

    SPECFUN的包装器。SPECFUN是Fortran语言下实现通用数据函数的包,例如gamma函数。

  • scipy.stats

    标准的连续和离散概率分布(密度函数、采样器、连续分布函数)、各类统计测试、各类描述性统计。

SciPy与NumPy一起为很多传统科学计算应用提供了一个合理、完整、成熟的计算基础。

06 scikit-learn

http://scikit-learn.org

scikit-learn项目诞生于2010年,目前已成为Python编程者首选的机器学习工具包。仅仅七年,scikit-learn就拥有了全世界1 500位代码贡献者。其中包含以下子模块。

  • 分类:SVM、最近邻、随机森林、逻辑回归等

  • 回归:Lasso、岭回归等

  • 聚类:k-means、谱聚类等

  • 降维:PCA、特征选择、矩阵分解等

  • 模型选择:网格搜索、交叉验证、指标矩阵

  • 预处理:特征提取、正态化

scikit-learn与pandas、statsmodels、IPython一起使Python成了高效的数据科学编程语言。

07 statsmodels

http://statsmodels.org

statsmodels是一个统计分析包。它源自斯坦福大学统计学教授Jonathan Taylor 利用R语言实现的各类分析模型。Skipper Seabold 和 Josef Perktold早在2010年便创建了新的statsmodels项目。自那之后该项目迅速成长,拥有大量活跃用户和贡献者者。

Nathaniel Smith 开发了Patsy项目,为R语言公式系统所驱动的statsmodels包提供公式、模型规范框架。

与scikit-learn相比,statsmodels包含经典的(高频词汇)统计学、经济学算法。它所包含的模型如下。

  • 回归模型:线性回归、通用线性模型、鲁棒线性模型、线性混合效应模型等

  • 方差分析(ANOVA )

  • 时间序列分析:AR、ARMA、ARIMA、VAR等模型

  • 非参数方法:核密度估计、核回归

  • 统计模型结果可视化

statsmodels更专注于统计推理,提供不确定性评价和p值参数。相反,scikit-learn更专注于预测。

关于作者:韦斯·麦金尼(Wes McKinney)是流行的Python开源数据分析库pandas的创始人。他是一名活跃的演讲者,也是Python数据社区和Apache软件基金会的Python/C++开源开发者。目前他在纽约从事软件架构师工作。

本文摘编自《利用Python进行数据分析》(原书第2版),经出版方授权发布。

延伸阅读《利用Python进行数据分析》

点击上图了解及购买

转载请联系微信:DoctorData

推荐语:Python数据分析经典畅销书全新升级,第1版中文版累计销售100000册。针对Python 3.6进行全面修订和更新,涵盖新版的pandas、NumPy、IPython和Jupyter。

划重点????

干货直达????

  • 手把手教你用ECharts画饼图和环形图

  • 终于有人把智能语音处理讲明白了

  • 终于有人把5G+人工智能讲明白了

  • 终于有人把条件概率和贝叶斯公式讲明白了

更多精彩????

在公众号对话框输入以下关键词

查看更多优质内容!

PPT | 读书 | 书单 | 硬核 | 干货 讲明白 | 神操作

大数据 | 云计算 | 数据库 | Python | 可视化

AI | 人工智能 | 机器学习 | 深度学习 | NLP

5G | 中台 | 用户画像 1024 | 数学 | 算法 数字孪生

据统计,99%的大咖都完成了这个神操作

????

盘点最重要的7个Python库相关推荐

  1. python数据展示库_收藏!盘点很实用的数据科学Python库

    数据科学是一门研究数据并从中挖掘信息的学科.它不要求自创或学习新的算法,只需要知道怎么样研究数据并解决问题.这一过程的关键点之一就在于使用合适的库.本文概述了数据科学中常用的.并且有一定重要性的库.在 ...

  2. 【Python】盘点全网下载量Top100的Python库

    Top1: boto3 下载量:522,502,943 https://pypi.org/project/boto3 Amazon Web Services(AWS)SDK Top2: urllib3 ...

  3. 盘点8个数据分析相关的Python库(实例+代码)

    导读:Python中常会用到一些专门的库,如NumPy.SciPy.Pandas和Matplotlib.数据处理常用到NumPy.SciPy和Pandas,数据分析常用到Pandas和Scikit-L ...

  4. python 统计组合用什么库_盘点2018年热门Python库|TOP20

    来源:CDA数据分析师 在解决数据科学任务和挑战方面,Python继续处于领先地位.去年,我对当时热门的Python库进行了总结.今年,我在当中加入新的库,重新对2018年热门Python库进行全面盘 ...

  5. 一文盘点三大顶级Python库(附代码)

    来源:开源最前线 本文约1500字,建议阅读5分钟. 本文为你分享最受数据科学青睐的3个顶级的Python库. Python在许多方面有着强大的吸引力 - 例如效率.代码可读性和速度方面,也正因为如此 ...

  6. 盘点数据科学20个最好的Python库(附链接)

    来源:网络大数据 本文约3000字,建议阅读6分钟. 本文将给大家介绍数据科学领域20个最好的Python库. Python 在解决数据科学任务和挑战方面继续处于领先地位.去年,我们曾发表一篇博客文章 ...

  7. 盘点20个最好的数据科学Python库(附链接)

    导读:本文将给大家介绍数据科学领域20个最好的Python库. Python 在解决数据科学任务和挑战方面继续处于领先地位.我们的选择实际上包含了 20 多个库,因为其中一些库是相互替代的,可以解决相 ...

  8. 盘点27个机器学习、深度学习库最频繁使用的 Python 工具包(内含大量示例,建议收藏)

    目前,随着人工智能的大热,吸引了诸多行业对于人工智能的关注,同时也迎来了一波又一波的人工智能学习的热潮,虽然人工智能背后的原理并不能通过短短一文给予详细介绍,但是像所有学科一样,我们并不需要从头开始& ...

  9. 盘点一个小小明大佬开发的Python库,4个超赞功能

    点击上方"Python爬虫与数据挖掘",进行关注 回复"书籍"即可获赠Python从入门到进阶共10本电子书 今 日 鸡 汤 知命者不怨天,知己者不怨人. 大家 ...

最新文章

  1. 大写的服!中科大博士20万字论文:如何给女朋友送礼物
  2. Codeforces Gym 100418K Cards 暴力打表
  3. 2015 Multi-University Training Contest 1 - 10010 Y sequence
  4. notepad++ 换行技巧 log换行
  5. JAVA之关于This的用法
  6. APUE读书笔记-第15章-进程间通信
  7. 数据在市场运营中的应用
  8. 流程管理无效的几个判定标准?
  9. [PSP3000完美破~解]5.03彻底告别刷机!让3K和V3可关机
  10. ua获取手机型号_JavaScript获取移动设备型号的实现代码(JS获取手机型号和系统)...
  11. html5版本过低,你的浏览器版本过低【解决步骤】
  12. 【UE4学习】01——UE4下载与安装
  13. CST软件基本操作 —2
  14. So Easy! HDU - 4565(构造共轭+矩阵快速幂)
  15. lol java_浅谈设计模式(java)——从lol来看观察者模式
  16. 【某deed网测题】D - Yakiniku
  17. 笔记本电脑wifi怎么连接
  18. 23微分方程和exp(At)
  19. 市值一夜间蒸发千亿,拼多多离不开黄峥?
  20. www.365j.com 主页被修改的修复方法

热门文章

  1. Qt文档阅读笔记-QWebEngineView及QML WebEngineView
  2. 计算机组成原理个人笔记(三)
  3. Qt creator5.7 OpenCV249之图片灰度处理(含源码下载)
  4. mysql8.0.21.0 安装
  5. mysql 外键_为什么大多数互联网公司不用外键约束
  6. BOE(京东方)与吉利控股集团签订战略合作协议
  7. 数据加密_2021年数据加密的六大趋势
  8. 题目1002:Grading
  9. 数据结构之查找算法:散列查找
  10. (软件工程复习核心重点)第四章总体设计-第一节:总体设计基本概念和设计过程