Python 爬虫的工具列表大全,再不收藏下次就找不到了(第二篇)
本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理
以下文章来源于腾讯云 作者:沈唁
( 想要学习Python?Python学习交流群:1039649593,满足你的需求,资料都已经上传群文件流,可以自行下载!还有海量最新2020python学习资料。 )
队列
- celery – 基于分布式消息传递的异步任务队列/作业队列。
- huey – 小型多线程任务队列。
- mrq – Mr. Queue – 使用 redis & Gevent 的 Python 分布式工作任务队列。
- RQ – 基于 Redis 的轻量级任务队列管理器。
- simpleq – 一个简单的,可无限扩展,基于 Amazon SQS 的队列。
- python-gearman – Gearman 的 Python API。
云计算
- picloud – 云端执行 Python 代码。
- dominoup.com – 云端执行 R,Python 和 matlab 代码。
电子邮件
电子邮件解析库
- flanker – 电子邮件地址和 Mime 解析库。
- Talon – Mailgun 库用于提取消息的报价和签名。
网址和网络地址操作
解析/修改网址和网络地址库。
- URL
- furl – 一个小的 Python 库,使得操纵 URL 简单化。
- purl – 一个简单的不可改变的 URL 以及一个干净的用于调试和操作的 API。
- urllib.parse – 用于打破统一资源定位器(URL)的字符串在组件(寻址方案,网络位置,路径等)之间的隔断,为了结合组件到一个 URL 字符串,并将“相对 URL”转化为一个绝对 URL,称之为“基本 URL”。
- tldextract – 从 URL 的注册域和子域中准确分离 TLD,使用公共后缀列表。
- 网络地址
- netaddr – 用于显示和操纵网络地址的 Python 库。
网页内容提取
提取网页内容的库。
- HTML 页面的文本和元数据
- newspaper – 用 Python 进行新闻提取、文章提取和内容策展。
- html2text – 将 HTML 转为 Markdown 格式文本。
- python-goose – HTML 内容/文章提取器。
- lassie – 人性化的网页内容检索工具
- micawber – 一个从网址中提取丰富内容的小库。
- sumy -一个自动汇总文本文件和 HTML 网页的模块
- Haul – 一个可扩展的图像爬虫。
- python-readability – arc90 readability 工具的快速 Python 接口。
- scrapely – 从 HTML 网页中提取结构化数据的库。给出了一些 Web 页面和数据提取的示例,scrapely 为所有类似的网页构建一个分析器。
视频
- youtube-dl – 一个从 YouTube 下载视频的小命令行程序。
- you-get – Python3 的 YouTube、优酷/ Niconico 视频下载器。
维基
- WikiTeam – 下载和保存 wikis 的工具。
WebSocket
用于 WebSocket 的库。
- Crossbar – 开源的应用消息传递路由器(Python 实现的用于 Autobahn 的 WebSocket 和 WAMP)。
- AutobahnPython – 提供了 WebSocket 协议和 WAMP 协议的 Python 实现并且开源。
- WebSocket-for-Python – Python 2 和 3 以及 PyPy 的 WebSocket 客户端和服务器库。
DNS 解析
- dnsyo – 在全球超过 1500 个的 DNS 服务器上检查你的 DNS。
- pycares – c-ares 的接口。c-ares 是进行 DNS 请求和异步名称决议的 C 语言库。
计算机视觉
- OpenCV – 开源计算机视觉库。
- SimpleCV – 用于照相机、图像处理、特征提取、格式转换的简介,可读性强的接口(基于 OpenCV)。
- mahotas – 快速计算机图像处理算法(完全使用 C++ 实现),完全基于 numpy 的数组作为它的数据类型。
其他 Python 工具列表
- awesome-python
- pycrumbs
- python-github-projects
- python_reference
- pythonidae
Python 爬虫的工具列表大全,再不收藏下次就找不到了(第二篇)相关推荐
- Python 爬虫的工具列表( 附Github代码下载链接)
Python 爬虫的工具列表( 附Github代码下载链接) 这个列表包含与网页抓取和数据处理的Python库 网络 通用 urllib -网络库(stdlib). requests -网络库. gr ...
- [转] Python 爬虫的工具列表 附Github代码下载链接
转自http://www.36dsj.com/archives/36417 这个列表包含与网页抓取和数据处理的Python库 网络 通用 urllib -网络库(stdlib). requests - ...
- Python 爬虫的工具列表
2019独角兽企业重金招聘Python工程师标准>>> 这个列表包含与网页抓取和数据处理的Python库 网络 通用 urllib -网络库(stdlib). requests -网 ...
- Python 爬虫的工具列表 附Github代码下载链接
这个列表包含与网页抓取和数据处理的Python库 网络 通用 urllib -网络库(stdlib). requests -网络库. grab – 网络库(基于pycurl). pycurl – 网络 ...
- 转] Python 爬虫的工具列表 附Github代码下载链接
转自http://www.36dsj.com/archives/36417 这个列表包含与网页抓取和数据处理的Python库 网络 通用 urllib -网络库(stdlib). requests - ...
- Python爬虫的工具列表
这个列表包含与网页抓取和数据处理的Python库 网络 通用 urllib -网络库(stdlib). requests -网络库. grab - 网络库(基于pycurl). pycurl - 网络 ...
- python爬虫作用小工具_【python小课堂|史上最全的Python爬虫工具列表大全】- 环球网校...
[摘要]在这个科学技术高速发展的时代,越来越多的人都开始选择学习编程软件,那么首先被大家选择的编程软件就是python,也用在各行各业之中,并被大家所熟知,所以也有python学习者关注Python爬 ...
- 测试管理工具列表大全
ID Name Notes 1 TestDirector/Quality Center 业界第一个基于Web的测试管理系统,它可以在您公司组织内进行全球范围内测试的协调.通过在一个整体的应用系统中提供 ...
- 史上最全 Python 爬虫工具列表大全,赶快收藏一波
这个列表包含与网页抓取和数据处理的Python库. 网络 通用 urllib -网络库(stdlib). requests -网络库. grab – 网络库(基于pycurl). pycurl – 网 ...
最新文章
- 用递归来判断输入的字符串是否是回文
- 别再纠结线程池大小/线程数量了,没有固定公式的
- ICC_lab总结——ICC_lab4:时钟树综合
- 转]Window, Linux动态链接库的分析对比
- 电费结算(electric)
- 1.RTMP流媒体服务器搭建
- lcd取模如何取16位_两种方式实现取16位变量的高低8位, 不严谨对比
- 如何彻底搞懂 Java 数据结构?|CSDN 博文精选
- Data source rejected establishment of connection, message from server: Too many connections
- JavaAPI之Runtime类以及bat文件开启应用程序
- 【第三方互联】6、分享至微信(WeChat)
- c语言环比,同比、环比的区别及计算公式
- 游戏史上最伟大的10位制作人
- 计算机硬盘中有许多碎片,电脑磁盘碎片整理有什么用(需要经常清理吗)
- 新学习的语言Groovy
- 方向gravity_逆转重力方向,更加自由翱翔——GNZ48 - 《gravity》
- 信号量哲学家问题java_利用AND信号量机制解决哲学家进餐问题
- 2021年秋招【凯捷咨询笔试题】
- 番茄的随笔2-准PR控制传递函数离散化
- 互联网开发模式的经验之谈