Python 是一个很棒的语言。它是世界上发展最快的编程语言之一。它一次又一次地证明了在开发人员职位中和跨行业的数据科学职位中的实用性。整个 Python 及其库的生态系统使它成为全世界用户(初学者和高级用户)的合适选择。它的成功和流行的原因之一是它强大的第三方库的集合,这些库使它可以保持活力和高效。

在本文中,我们会研究一些用于数据科学任务的 Python 库,而不是常见的比如 panda、scikit-learn 和 matplotlib 等的库。尽管像 panda 和 scikit-learn 这样的库,是在机器学习任务中经常出现的,但是了解这个领域中的其它 Python 产品总是很有好处的。

从网络上提取数据是数据科学家的重要任务之一。Wget 是一个免费的实用程序,可以用于从网络上下载非交互式的文件。它支持 HTTP、HTTPS 和 FTP 协议,以及通过 HTTP 的代理进行文件检索。由于它是非交互式的,即使用户没有登录,它也可以在后台工作。所以下次当你想要下载一个网站或者一个页面上的所有图片时,wget 可以帮助你。

安装:

$ pip install wget

复制代码

例子:

import wget

url = 'http://www.futurecrew.com/skaven/song_files/mp3/razorback.mp3'

filename = wget.download(url)

100% [................................................] 3841532 / 3841532

filename

'razorback.mp3'

复制代码

对于那些在 python 中处理日期时间时会感到沮丧的人来说,Pendulum 很适合你。它是一个简化日期时间操作的 Python 包。它是 Python 原生类的简易替代。请参阅文档深入学习。

安装:

$ pip install pendulum

复制代码

例子:

import pendulum

dt_toronto = pendulum.datetime(2012, 1, 1, tz='America/Toronto')

dt_vancouver = pendulum.datetime(2012, 1, 1, tz='America/Vancouver')

print(dt_vancouver.diff(dt_toronto).in_hours())

3

复制代码

可以看出,当每个类的样本数量基本相同时,大多数分类算法的效果是最好的,即需要保持数据平衡。但现实案例中大多是不平衡的数据集,这些数据集对机器学习算法的学习阶段和后续预测都有很大影响。幸运的是,这个库就是用来解决此问题的。它与 scikit-learn 兼容,是 scikit-lear-contrib 项目的一部分。下次当你遇到不平衡的数据集时,请尝试使用它。

安装:

pip install -U imbalanced-learn

# 或者

conda install -c conda-forge imbalanced-learn

复制代码

例子:

使用方法和例子请参考文档。

在 NLP 任务中,清理文本数据往往需要替换句子中的关键字或从句子中提取关键字。通常,这种操作可以使用正则表达式来完成,但是如果要搜索的术语数量达到数千个,这就会变得很麻烦。Python 的 FlashText 模块是基于 FlashText 算法为这种情况提供了一个合适的替代方案。FlashText 最棒的一点是,不管搜索词的数量如何,运行时间都是相同的。你可以在这里了解更多内容。

安装:

$ pip install flashtext

复制代码

例子:

提取关键字

from flashtext import KeywordProcessor

keyword_processor = KeywordProcessor()

# keyword_processor.add_keyword(, )

keyword_processor.add_keyword('Big Apple', 'New York')

keyword_processor.add_keyword('Bay Area')

keywords_found = keyword_processor.extract_keywords('I love Big Apple and Bay Area.')

keywords_found

['New York', 'Bay Area']

复制代码

替换关键字

keyword_processor.add_keyword('New Delhi', 'NCR region')

new_sentence = keyword_processor.replace_keywords('I love Big Apple and new delhi.')

new_sentence

'I love New York and NCR region.'

复制代码

更多实用案例,请参考官方文档。

这个库的名字听起来很奇怪,但是在字符串匹配方面,fuzzywuzzy 是一个非常有用的库。可以很方便地实现计算字符串匹配度、令牌匹配度等操作,也可以很方便地匹配保存在不同数据库中的记录。

安装:

$ pip install fuzzywuzzy

复制代码

例子:

from fuzzywuzzy import fuzz

from fuzzywuzzy import process

# 简单匹配度

fuzz.ratio("this is a test", "this is a test!")

97

# 模糊匹配度

fuzz.partial_ratio("this is a test", "this is a test!")

100

复制代码

更多有趣例子可以在 GitHub 仓库找到。

时间序列分析是机器学习领域中最常见的问题之一。PyFlux 是 Python 中的一个开源库,它是为处理时间序列问题而构建的。该库拥有一系列优秀的现代时间序列模型,包括但不限于 ARIMA、GARCH 和 VAR 模型。简而言之,PyFlux 为时间序列建模提供了一种概率方法。值得尝试一下。

安装

pip install pyflux

复制代码

例子

详细用法和例子请参考官方文档。

结果展示也是数据科学中的一个重要方面。能够将结果进行可视化将具有很大优势。IPyvolume 是一个可以在 Jupyter notebook 中可视化三维体和图形(例如三维散点图等)的 Python 库,并且只需要少量配置。但它目前还是 1.0 之前的版本阶段。用一个比较恰当的比喻来解释就是:IPyvolume 的 volshow 对于三维数组就像 matplotlib 的 imshow 对于二维数组一样好用。可以在这里获取更多。

使用 pip

$ pip install ipyvolume

使用 Conda/Anaconda

$ conda install -c conda-forge ipyvolume

复制代码

例子

动画

体绘制

Dash 是一个高效的用于构建 web 应用程序的 Python 框架。它是在 Flask、Plotly.js 和 React.js 基础上设计而成的,绑定了很多比如下拉框、滑动条和图表的现代 UI 元素,你可以直接使用 Python 代码来写相关分析,而无需再使用 javascript。Dash 非常适合构建数据可视化应用程序。然后,这些应用程序可以在 web 浏览器中呈现。用户指南可以在这里获取。

安装

pip install dash==0.29.0 # 核心 dash 后端

pip install dash-html-components==0.13.2 # HTML 组件

pip install dash-core-components==0.36.0 # 增强组件

pip install dash-table==3.1.3 # 交互式 DataTable 组件(最新!)

复制代码

例子

下面的例子展示了一个具有下拉功能的高度交互式图表。当用户在下拉菜单中选择一个值时,应用程序代码将动态地将数据从 Google Finance 导出到 panda DataFrame。源码在这里

OpenAI 的 Gym 是一款用于增强学习算法的开发和比较工具包。它兼容任何数值计算库,如 TensorFlow 或 Theano。Gym 库是测试问题集合的必备工具,这个集合也称为环境 —— 你可以用它来开发你的强化学习算法。这些环境有一个共享接口,允许你进行通用算法的编写。

安装

pip install gym

复制代码

例子

这个例子会运行 CartPole-v0 环境中的一个实例,它的时间步数为 1000,每一步都会渲染整个场景。

你可以在这里获取其它环境的相关资料。

总结

以上这些有用的数据科学 Python 库都是我精心挑选出来的,不是常见的如 numpy 和 pandas 等库。如果你知道其它库,可以添加到列表中来,请在下面的评论中提一下。另外别忘了先尝试运行一下它们。

如果发现译文存在错误或其他需要改进的地方,欢迎到 掘金翻译计划 对译文进行修改并 PR,也可获得相应奖励积分。文章开头的 本文永久链接 即为本文在 GitHub 上的 MarkDown 链接。

掘金翻译计划 是一个翻译优质互联网技术文章的社区,文章来源为 掘金 上的英文分享文章。内容覆盖 Android、iOS、前端、后端、区块链、产品、设计、人工智能等领域,想要查看更多优质译文请持续关注 掘金翻译计划、官方微博、知乎专栏。

python翻译库_[译] 鲜为人知的数据科学 Python 库相关推荐

  1. python eel 多线程_使用EEL将数据从Python发送到Javascript - javascript

    我正在尝试使用EEL及其文档将数据从python发送到Javascript,但它似乎不起作用...我的html / js页面中一直保持null. 这就是我所拥有的.基本上,我想获取BING壁纸的链接并 ...

  2. python 特征工程_[译] 基于时序数据的特征工程 --- Python实现

    基于时序数据的回归预测问题,在工作中经常遇到的.它与一般的监督学习的回归模型的区别在于数据本身是基于时序的.而常用的时序预测模型,比如arima等,添加其他特征时又不方便,不得不求助于经典的监督学习预 ...

  3. mysql将数据拟合曲线_强大的matlab数据科学拟合库cftool——直接导入数据进行拟合...

    (转载作者请注明出处) 废话不多说,直接上货.... 对于使用过matlab做数据处理的人来说,拟合是将平面上一系列的点,用一条光滑的曲线连接起来.因为这条曲线有无数种可能,从而有各种拟合方法.拟合的 ...

  4. python 获取国内期货_获取和讯期货数据(Python版本).md

    > 策略名称 获取和讯期货数据(Python版本) > 策略作者 edwardgyw > 策略描述 数狂很早之前写了个js版本的第三方数据获取,我照着他的改写了个python版本的, ...

  5. python数据展示库_收藏!盘点很实用的数据科学Python库

    数据科学是一门研究数据并从中挖掘信息的学科.它不要求自创或学习新的算法,只需要知道怎么样研究数据并解决问题.这一过程的关键点之一就在于使用合适的库.本文概述了数据科学中常用的.并且有一定重要性的库.在 ...

  6. python 生成空白矩阵_3个用于数据科学的顶级Python库

    用这些库把Python变成一个科学数据分析和建模工具. image by Opensource.com Python许多吸引人的特点如效率.代码可读性和速度使它成为数据科学爱好者的首选编程语言.对于希 ...

  7. python包 wget_Python数据科学“冷门”库

    原标题 | Lesser Known Python Libraries for Data Science 作者 | Parul Pandey 译者 | CONFIDANT(福建师范大学).Seabis ...

  8. 微软python在线学习_微软再推免费在线 Python 教程,面向数据科学和机器学习初学者...

    去年九月,微软曾面向 Python 初学者,推出了一套免费的教程视频.从基本介绍和 VS Code 的配置讲起,循序渐进语法概念等基础内容讲解.目前为止,该系列视频播放量已达到将近 180 万次. 近 ...

  9. 2017 年最流行的 15 个数据科学 Python 库

    转自http://www.codeceo.com/article/15-data-science-python-libraries.html 2017 年最流行的 15 个数据科学 Python 库 ...

最新文章

  1. 全栈工程师就是一棵歪脖子树
  2. UIExtendedEdge
  3. Halcon中数据的四舍五入、取整、有效数字以及和字符串之间的转换
  4. Python中如何写控制台进度条的整理
  5. 《0bug-C/C++商用工程之道》节选00--内存管理的基本要求
  6. 数据分析学习笔记—python简单操作EXCEL
  7. TensorFlow 中 tf.app.flags.FLAGS 的用法介绍
  8. 【参数辨识】六关节机械臂动力学参数辨识(上)
  9. 大量字段表单在PHP便捷处理分享
  10. linux c多线程进度条,Ubuntu 13.04,g++4.7,Pthread实现多线程模拟实现下载进度条
  11. The file is absent or does not have execute permission This file is needed to run this program
  12. 【线段树入门题目集】
  13. Linux(一)之Ubuntu上安装nginx、nginx-rtmp-modeule、libx264、FFmpeg(巨详细)
  14. LateX各种命令符号
  15. 到底该怎么学python啊?
  16. 计算机毕业设计ssm校园竞赛管理系统设计与实现hyr9b系统+程序+源码+lw+远程部署
  17. Word控件Spire.Doc 转换教程(十二):如何将 Word 转换为 EPub、XPS、Emf
  18. 微服务商城系统(一)框架搭建、商品微服务搭建
  19. h5解决外置浏览器和小程序跨域问题
  20. 牛客练习赛43 c Tachibana Kanade Loves Review

热门文章

  1. python 爬取电子书_利用Python3爬取下载bookset网站的kindle电子书
  2. Unity3d开发——保卫萝卜学习笔记一地图编辑器开发
  3. java-如何使用Apache POI移动特定的单元格?
  4. 证券行业信息化16_我的香港游记2_IT部的技术财务部和基础设施部都干些什么?
  5. 指向const的指针和const指针
  6. Windows 10的便签在哪里
  7. 【目标跟踪】|atom
  8. 2021年了,怀念从销售到Java开发的心路历程,非推广文
  9. 【tensorboard可视化-使用+虚线去除+数据点显示不全】
  10. 魏文王问扁鹊的注释_魏文王问扁鹊出处是什么