WGET

提取数据,特别是从网络中提取数据是数据科学家的重要任务之一。Wget 是一个免费的工具,用于以非交互式方式从 Web 上下载文件。它支持 HTTP、HTTPS 和 FTP 协议,通过 HTTP 代理进行检索。由于它是非交互式的,即使用户没有登录,它也可以在后台工作。所以,如果你想下载一个网站或一个页面上的所有图片,wget 会帮助你。

安装:$ pip install wget

示例:import wget

url = 'http://www.futurecrew.com/skaven/song_files/mp3/razorback.mp3'

filename = wget.download(url)

100% [................................................] 3841532 / 3841532

filename

'razorback.mp3'

Pendulum

对于那些在 python 中被处理 datetimes 困扰的人来说,Pendulum 是个好选择。它是一个 Python 包,用于简化 datetimes 操作。它是 Python「本机」类(native class)的代替。更多内容,请参阅文档:https://um.eustace.io/docs/# installation。

安装:$ pip install pendulum

示例:import pendulum

dt_toronto = pendulum.datetime(2012, 1, 1, tz='America/Toronto')

dt_vancouver = pendulum.datetime(2012, 1, 1, tz='America/Vancouver')

print(dt_vancouver.diff(dt_toronto).in_hours())

3

IMBALANCED-LEARN

可以看出,当每个类的样本数量相等即平衡时,大多数分类算法的工作效果最好。但现实生活中充满了不平衡的数据集,这些数据集对机器学习的学习阶段和后续预测都有影响。创建这个库是为了解决这个问题。它与 scikit-learn 兼容,并且是 scikit-learn-contrib 项目的一部分。下次遇到不平衡的数据集时,可以尝试一下。

安装:pip install -U imbalanced-learn

# or

conda install -c conda-forge imbalanced-learn

示例:

有关用法和示例,请参考:http://imbalancedlearn.org/en/stable/api.html。

FLASHTEXT

在 NLP 任务中,清理文本数据通常需要替换句子中的关键词或从句子中提取关键词。通常,这样的操作可以用正则表达式来完成,但是如果要搜索的词汇量过大,操作就会变得麻烦。Python 中基于 FlashText 算法的 FlashText 模块,为这种情况提供了一个合适的替代方案。FlashText 最大的优点是搜索词数量不影响运行时长。更多相关信息请见:https://flashtext.readthedocs.io/en/latest/#。(https://flashtext.readthedocs.io/en/latest/#%E3%80%82)

安装:$ pip install flashtext

示例

提取关键词:from flashtext import KeywordProcessor

keyword_processor = KeywordProcessor()

# keyword_processor.add_keyword(, )

keyword_processor.add_keyword('Big Apple', 'New York')

keyword_processor.add_keyword('Bay Area')

keywords_found = keyword_processor.extract_keywords('I love Big Apple and Bay Area.')

keywords_found

['New York', 'Bay Area']

替换关键词:keyword_processor.add_keyword('New Delhi', 'NCR region')

new_sentence = keyword_processor.replace_keywords('I love Big Apple and new delhi.')

new_sentence

'I love New York and NCR region.'

更多使用示例,请参阅官方文档。

FUZZYWUZZY

虽然名字听起来很奇怪,但涉及到字符串匹配时,fuzzywuzzy 是一个非常有用的库,可以很容易地实现诸如字符串比较比率、token 比率等操作。对于匹配不同数据库中的记录也很方便。

安装:$ pip install fuzzywuzzy

示例:from fuzzywuzzy import fuzz

from fuzzywuzzy import process

# Simple Ratio

fuzz.ratio("this is a test", "this is a test!")

97

# Partial Ratio

fuzz.partial_ratio("this is a test", "this is a test!")

100

更多有趣的例子可以在 GitHub 上找到:https://github.com/seatgeek/fuzzywuzzy。

PYFLUX

时间序列分析是机器学习领域最常见的问题之一。PyFlux 是 Python 中为处理时间序列问题而创建的开源库。该库有一系列极好的时间序列模型,包括但不限于 ARIMA、 GARCH 和 VAR 模型。简而言之,PyFlux 提供了一个时间序列建模的概率方法。值得尝试。

安装:pip install pyflux

示例:

有关用法和示例,请参考:https://pyflux.readthedocs.io/en/latest/index.html。

IPYVOLUME

交流结果是数据科学的一个基本方面。能够将结果可视化是一个很大的优势。IPyvolume 是一个用于在Jupyter notebook 中可视化 3d 体积和字形(如 3d 散点图)的 Python 库,只需少量配置即可。然而,它目前还处于前 1.0 版。IPyvolume 的 volshow 之于 3d 数组,就像 matplotlib 的 imshow 之于 2d 数组一样。更多相关信息请见:https://ipyvolume.readthedocs.io/en/latest/?badge=latest。

安装:Using pip

$ pip install ipyvolume

Conda/Anaconda

$ conda install -c conda-forge ipyvolume

DASH

Dash 是一个用于构建 web 应用程序的高效 Python 框架。它写在 Flask、Plotly.js 和 React.js 之上,将下拉列表、滑块和图形等 UI 元素与你的分析性 Python 代码直接相连,无需 javascript。Dash 非常适合构建数据可视化应用程序。然后这些应用程序可以在 web 浏览器中进行渲染。用户指南请见:https://dash.plot.ly/。

安装:pip install dash==0.29.0 # The core dash backend

pip install dash-html-components==0.13.2 # HTML components

pip install dash-core-components==0.36.0 # Supercharged components

pip install dash-table==3.1.3 # Interactive DataTable component (new!)

示例:

下图示例显示了具有下拉功能的高度交互图。当用户在下拉列表中选择一个值时,应用程序代码会动态地将 Google Finance 的数据导出为 Pandas DataFrame。资源:https://gist.github.com/chriddyp/3d2454905d8f01886d651f207e2419f0。

GYM

来自 OpenAI的 Gym 是一个开发和对比强化学习算法的工具包。它兼容于任何数值计算库,如 TensorFlow 或 Theano。Gym 库是一个测试问题的集合,也被称为环境——可以用它来计算你的强化学习算法。这些环境有一个共享的接口,允许你写通用算法。

安装:pip install gym

示例:

运行环境 CartPole-v0 的 1000 个时间步骤实例,在每个步骤渲染环境。

阅读其他环境请见:https://gym.openai.com/。

结论

这些是作者为数据科学挑选的实用 python 库,而非常见的 numpy、panda 等。值得一试。

原文链接:https://medium.com/analytics-vidhya/python-libraries-for-data-science-other-than-pandas-and-numpy-95da30568fad

python dash库_让你事半功倍的小众 Python 库相关推荐

  1. Python灰帽子_黑客与逆向工程师的Python编程之道

    收藏自用 链接:Python灰帽子_黑客与逆向工程师的Python编程之道

  2. 让你事半功倍的小众 Python库

    在本文中,我们会研究一些用于数据科学任务的 Python 库,而不是常见的比如 panda.scikit-learn 和 matplotlib 等的库. 尽管像 panda 和 scikit-lear ...

  3. python翻译库_[译] 鲜为人知的数据科学 Python 库

    Python 是一个很棒的语言.它是世界上发展最快的编程语言之一.它一次又一次地证明了在开发人员职位中和跨行业的数据科学职位中的实用性.整个 Python 及其库的生态系统使它成为全世界用户(初学者和 ...

  4. python 路径格式化_吐血整理!140种Python标准库、第三方库和外部工具都有了!...

    导读: Python数据工具箱涵盖从数据源到数据可视化的完整流程中涉及到的常用库.函数和外部工具.其中既有Python内置函数和标准库,又有第三方库和工具. 这些库可用于文件读写.网络抓取和解析.数据 ...

  5. vscode怎么安装python库_如何在vscode中安装python库的方法步骤

    免费资源网 - https://freexyz.cn/ vscode安装python库 1.已经在vscode中装了python并配置好python运行环境. 检查是否正确配置好运行环境,按Windo ...

  6. 45个python入门案例_几个好玩有趣的Python入门实例

    几个好玩有趣的Python入门实例 几个简单的Python实例,好玩有趣,基础语法. turtle库开始自己的绘画 写一个属于自己的文本进度条 蒙特卡洛方法计算π 分形几何,Koch雪花曲线 输入一组 ...

  7. python老师武_跟着廖雪峰老师学python (5)

    若想技术精进,当然得把基础知识打得牢牢的. 廖雪峰的官方网站  python3教程,该网站提供的教程浅显易懂,还附带了讲学视频,非常适合初学者正规入门. 以下是通过廖雪峰python官方网站学习的个人 ...

  8. python图像识别步骤_利用百度智能云结合Python体验图像识别(转载来自qylruirui)

    利用百度智能云结合Python体验图像识别 只要注册了百度账号就可以轻松体验百度智能云中图像识别功能的魅力! 1. 所需要的工具 一个百度账号(大家都有哈) 一个可以运行python代码的编译器(Py ...

  9. python新手程序_推荐:一个适合于Python新手的入门练手项目

    随着人工智能的兴起,国内掀起了一股Python学习热潮,入门级编程语言,大多选择Python,有经验的程序员,也开始学习Python,正所谓是人生苦短,我用Python 有个Python入门练手项目, ...

最新文章

  1. 利用pmap查看进程的地址空间
  2. 线上比赛投诉:同一赛点两支队伍比赛车模是否相同?
  3. 隔离公司各个部门--虚拟路由器(RIP)
  4. mongodb中的副本集搭建实践(转自:http://www.cnblogs.com/visionwang/p/3290435.html)
  5. 开源的ESB产品列表信息
  6. Pixhawk的传感器数据(陀螺、加计等)流程
  7. SAP Fiori Elements - How complex binding defined in XML view is parsed
  8. mysql数据库的函数_详解数据库_MySQL: mysql函数
  9. 微课系列(四):Python中map对象的几种用法和注意事项
  10. url 获取 geoserver 中对应的style
  11. python爬虫爬取网易云音乐歌曲_如何用Python网络爬虫爬取网易云音乐歌曲
  12. 《统计学》第八版贾俊平第三章课后答案Excel
  13. python输入一个三位数输出百位十位个位_“任意输入一个三位数,输出这个三位数的百位、十位和个位,并且计算十位百位个位的和。”c语言程序...
  14. Linux不是Windows
  15. 解读Android12 CDD中针对隔离环境(TEE)的要求
  16. 绝对干货丨最值钱的20个管理工具,会用一半的已年薪百万
  17. html 屏幕旋转,屏幕旋转与Transform
  18. 修改计算机配置参数,男子买二手电脑重装系统后才知参数被修改
  19. Google Guava 的 5 个鲜为人知的特性
  20. python setup.py bdist_wheel生成wheel文件,示例:安装webrtcvad

热门文章

  1. 写程序时如何使用日志
  2. 新闻网大数据实时分析可视化系统项目——14、Spark2.X环境准备、编译部署及运行...
  3. js检测数据类型的方法你都掌握了几个?
  4. 学习笔记——XSLT转换器的使用(Xalan和Saxon) .(转)
  5. HTML5对音频的支持
  6. 自动登录DISCUZ,发帖的代码(部分)
  7. 133.保护频带 134.流量控制在哪些层实现
  8. IBM发布IBM Watson创新功能,旨在帮助企业扩展AI使用
  9. 智能算法把奥巴马识别成白人,AI也学会歧视了?
  10. OpenCV 4.2.0 发布,Intel 开源的计算机视觉库