导读:我们都着眼于如何使用现有的库来避免重复工作,从而使程序开发工作事半功倍。通常,开发大量原始代码是一个费时费力的工作,为了避免这种情况,我们会尽可能多地使用库中已有的类来创建对象,通常仅需要一行代码。因此,库能够帮助我们使用适量的代码执行重要的任务。

本文介绍数据科学中会经常使用多种Python标准库、数据科学库和第三方库。

作者:保罗·戴特尔(Paul Deitel)、哈维·戴特尔(Harvey Deitel)

来源:大数据DT(ID:hzdashuju)

01 Python标准库

  • 16 / 29

Python标准库提供了丰富的功能,包括文本/二进制数据处理、数学运算、函数式编程、文件/目录访问、数据持久化、数据压缩/归档、加密、操作系统服务、并发编程、进程间通信、网络协议、JSON / XML /其他Internet数据格式、多媒体、国际化、GUI、调试、分析等。下面列出了一部分Python标准库模块。

  1. collections:建立在列表、元组、字典和集合基础上的加强版数据结构。

  2. csv:处理用逗号分隔值的文件。

  3. datetime, time:日期和时间操作。

  4. decimal:定点或浮点运算,包括货币计算。

  5. doctest:通过验证测试或嵌入在docstring中的预期结果进行简单的单元测试。

  6. json:处理用于Web服务和NoSQL文档数据库的JSON(JavaScript Object Notation)数据。

  7. math:常见的数学常量和运算。

  8. os:与操作系统进行交互。

  9. queue:一种先进先出的数据结构。

  10. random:伪随机数操作。

  11. re:用于模式匹配的正则表达式。

  12. sqlite3:SQLite关系数据库访问。

  13. statistics:数理统计函数,如均值、中值、众数和方差等。

  14. string:字符串操作。

  15. sys:—命令行参数处理,如标准输入流、输出流和错误流。

  16. timeit:性能分析。

Python拥有一个庞大且仍在快速增长的开源社区,社区中的开发者来自许多不同的领域。该社区中有大量的开源库是Python受欢迎的最重要的原因之一。

许多任务只需要几行Python代码就可以完成,这会令人感到很神奇。下面列出了一些流行的数据科学库。

02 科学计算与统计

  • 3 / 29

  1. NumPy(Numerical Python):Python没有内置的数组数据结构。它提供的列表类型虽然使用起来更方便,但是处理速度较慢。NumPy提供了高性能的ndarray数据结构来表示列表和矩阵,同时还提供了处理这些数据结构的操作。详细教程请戳????高能!8段代码演示Numpy数据运算的神操作

  2. SciPy(Scientific Python):SciPy基于NumPy开发,增加了用于科学处理的程序,例如积分、微分方程、额外的矩阵处理等。scipy.org负责管理SciPy和NumPy。详细教程请戳????3段极简代码带你入门Python科学计算库SciPy

  3. StatsModels:为统计模型评估、统计测试和统计数据研究提供支持。

03 数据处理与分析

  • 1 / 29

  1. pandas:一个非常流行的数据处理库。pandas充分利用了NumPy的ndarray类型,它的两个关键数据结构是Series(一维)和DataFrame(二维)。详细教程请戳????Pandas最详细教程来了!

04 可视化

  • 2 / 29

  1. Matplotlib:可高度定制的可视化和绘图库。Matplotlib可以绘制正规图、散点图、柱状图、等高线图、饼图、矢量场图、网格图、极坐标图、3D图以及添加文字说明等。详细教程请戳????Python实操:手把手教你用Matplotlib把数据画出来

  2. Seaborn:基于Matplotlib构建的更高级别的可视化库。与Matplotlib相比,Seaborn改进了外观,增加了可视化的方法,并且可以使用更少的代码创建可视化。详细教程请戳????数据可视化干货:使用pandas和seaborn制作炫酷图表(附代码)

05 机器学习、深度学习和强化学习

  • 4 / 29

  1. scikit-learn:一个顶级的机器学习库。机器学习是AI的一个子集,深度学习则是机器学习的一个子集,专注于神经网络。

  2. Keras:最易于使用的深度学习库之一。Keras运行在TensorFlow(谷歌)、CNTK(微软的深度学习认知工具包)或Theano(蒙特利尔大学)之上。

  3. TensorFlow:由谷歌开发,是使用最广泛的深度学习库。TensorFlow与GPU(图形处理单元)或谷歌的定制TPU(Tensor处理单元)配合使用可以获得最佳的性能。TensorFlow在人工智能和大数据分析中有非常重要的地位,因为人工智能和大数据对数据处理的需求非常巨大。本书使用TensorFlow内置的Keras版本。详细教程请戳????TensorFlow是什么?怎么用?终于有人讲明白了

  4. OpenAI Gym:用于开发、测试和比较强化学习算法的库和开发环境。

06 自然语言处理

  • 3 / 29

  1. NLTK(Natural Language Toolkit):用于完成自然语言处理(NLP)任务。

  2. TextBlob:一个面向对象的NLP文本处理库,基于NLTK和模式NLP库构建,简化了许多NLP任务。

  3. Gensim:功能与NLTK类似。通常用于为文档合集构建索引,然后确定另一个文档与索引中每个文档的相似程度。

关于作者:保罗·戴特尔,Deitel&Associates公司首席执行官兼首席技术官,毕业于麻省理工学院,拥有38年的计算经验。保罗是世界上最有经验的编程语言培训师之一,自1992年以来一直针对软件开发人员教授专业课程。他服务过的国际客户包括思科、IBM、西门子、Oracle、戴尔、富达、美国国家航空航天局肯尼迪航天中心等。

本文摘编自《Python程序设计:人工智能案例实践》,经出版方授权发布。

延伸阅读《Python程序设计:人工智能案例实践》

点击上图了解及购买

转载请联系微信:DoctorData

推荐语:极简入门Python和AI,读这一本就够了!538个实例帮你掌握交互式IPython解释器和JupyterNotebook并应用Python实践人工智能项目。

划重点????

干货直达????

  • 硅谷企业的大数据平台架构什么样?看看Twitter、Airbnb、Uber的实践

  • 终于有人把p值讲明白了

  • 超详细!17 步全解四象限导图的使用方法

  • 终于有人把大数据架构讲明白了

更多精彩????

在公众号对话框输入以下关键词

查看更多优质内容!

PPT | 读书 | 书单 | 硬核 | 干货 讲明白 | 神操作

大数据 | 云计算 | 数据库 | Python | 爬虫 | 可视化

AI | 人工智能 | 机器学习 | 深度学习 | NLP

5G | 中台 | 用户画像 1024 | 数学 | 算法 数字孪生

据统计,99%的大咖都关注了这个公众号

????

盘点数据科学最流行的29个Python库相关推荐

  1. 常用构建数据科学应用程序的七个Python库

    当我开始学习数据科学的旅程时,这些都是我脑海中一直存在的问题.我学数据科学的目的不仅仅是为了开发模型或清理数据,我想制作人们可以使用的应用程序,我正在寻找一种快速的方法来制作MVP(最小可行产品)来测 ...

  2. 提高数据科学工作效率的 8 个Python库!

    来源丨数据STUDIO 在进行数据科学时,可能会浪费大量时间编码并等待计算机运行某些东西.所以我选择了一些 Python 库,可以帮助你节省宝贵的时间. 1.Optuna Optuna 是一个开源的超 ...

  3. 盘点数据科学20个最好的Python库(附链接)

    来源:网络大数据 本文约3000字,建议阅读6分钟. 本文将给大家介绍数据科学领域20个最好的Python库. Python 在解决数据科学任务和挑战方面继续处于领先地位.去年,我们曾发表一篇博客文章 ...

  4. chatgpt赋能python:Python是一门非常流行的编程语言,它被广泛应用于不同领域的软件开发中,包括Web开发、数据科学、人工智能等。虽然Python本身非常强大和灵活,但是要让自己的Pyt

    Python是一门非常流行的编程语言,它被广泛应用于不同领域的软件开发中,包括Web开发.数据科学.人工智能等.虽然Python本身非常强大和灵活,但是要让自己的Python代码在互联网上被搜索引擎优 ...

  5. python数据科学指南是什么_《Python数据科学指南》——导读

    前 言 如今,我们生活在一个万物互联的世界,每天都在产生海量数据,不可能依靠人力去分析产生的所有数据并做出决策.人类的决策越来越多地被计算机辅助决策所取代,这也得益于数据科学的发展.数据科学已经深入到 ...

  6. 迈向数据科学的第一步:在Python中支持向量回归

    什么是支持向量回归? (What is Support Vector Regression?) Support vector regression is a special kind of regre ...

  7. 【Python数据科学】第一章 IPython 超越Python

    1.IPythonde 的帮助和文档 1.1.用符号 ?获取文档 help(len) Help on built-in function len in module builtins:len(obj, ...

  8. 数据科学 IPython 笔记本 9.3 理解 Python 中的数据类型

    9.3 理解 Python 中的数据类型 本节是<Python 数据科学手册>(Python Data Science Handbook)的摘录. 译者:飞龙 协议:CC BY-NC-SA ...

  9. Python---(9)数据科学领域常用的15个Python包

    由于近年来Python已经在数据科学领域引起了很大的关注,我想根据最近的经验,为数据科学家和工程师列出一些最有用的库. 由于所有的库都是开源的,我们增加了来自Github的提交,贡献者,计数和其他指标 ...

最新文章

  1. TVM vs TensorRT比较
  2. 【Python】Scrapy爬虫实战(豆瓣电影 Top 250)
  3. R语言ggplot2可视化箱图(boxplot)时忽视异常值(outlier)并重新分配坐标轴的范围是的可视化的箱图可以有效显示箱体实战
  4. CSS设计指南(读书笔记 - 选择器)
  5. python while循环语句-python while循环控制流语句结构与用法
  6. 【CyberSecurityLearning 40】网络地址配置(Kali/CentOS)
  7. Effective Java之请不要在新代码中使用原生态类型(二十三)
  8. php读取操作大文件
  9. vue-router模块划分
  10. 软件项目开发报价指南
  11. PS CC 2018安装插件imagemotion
  12. 松下服务器报警13参数修改,新版松下伺服发生故障报警代码一览及对策.doc
  13. Java的8 大基本类型的包装类和美女选妃案例的两种写法
  14. matlab图例显示均值方差,MATLAB中均值、方差、均方差的计算方法
  15. 大中型 UGC 平台的反垃圾(anti-spam)工作
  16. userland免root运行linux,UserLAnd(GNU/Linux安装)
  17. ​【NeurIPS 2022】IPMT:用于小样本语义分割的中间原型挖掘Transformer
  18. Cocos Creator 3D麻将 v2.1.1
  19. 5G LTE窄带物联网(NB-IoT) 9
  20. GNU开发工具——WireShark网络分析工具

热门文章

  1. Qt文档阅读笔记-Qt对象模型及deleteLater()杂记
  2. 系统架构师学习笔记-操作系统(二)
  3. Java基础入门笔记-添加包
  4. 如何在Ubuntu 20.04 上安装 Xrdp 服务器(远程桌面)
  5. Python实现HTTP服务器(一)
  6. 十五、java的基本数据类型
  7. 操作系统之I/O管理:2、I/O软件层次结构
  8. (软件工程复习核心重点)第四章总体设计-第四节:描绘软件结构的图形工具
  9. thrift使用小记
  10. DUMP文件分析4:栈溢出