python网络爬虫工具库集合
经常逛 GitHub 的同学可能会听说过大名鼎鼎的 awesome 仓库,没错,就是这个:https://github.com/sindresorhus/awesome。
这个库可谓是一个极大的宝藏,囊括了有关技术的几乎所有领域的资料、工具和库,比如平台、编程语言、前端开发、后端开发、大数据、数据科学、数据库、安全、硬件、DevOps 等等等,几乎想到的全都有。
就拿 Platform 这个平台这个分支来讲吧,里面又有进一步的细分,比如 iOS、Android、Linux、macOS、JVM 等等,然后每一个又是一个新的以 awesome 开头的仓库,比如:
awesome-linux:https://github.com/inputsh/awesome-linux
awesome-android:https://github.com/JStumpp/awesome-android
awesome-macOS:https://github.com/iCHAIT/awesome-macOS
是的,每一个子仓库里面都收集了关于这个领域的几乎所有的资料、工具、库等等。
也就是说,awesome (https://github.com/sindresorhus/awesome)这个库是根,然后衍生出来了各个领域和方向的 awesome 子仓库来收集对应领域的资料、工具库,由全世界的程序员一起维护和贡献。
真的全是宝藏!
有朋友这会就好奇了,有没有有关爬虫的 awesome 库呢?有!
awesome-web-scraping
就是这个:https://github.com/lorien/awesome-web-scraping
这里面收集了有关网络爬虫的各种资料、工具库的列表,不仅仅是 Python,还有 Go、Ruby、JavaScript、PHP 等等,首页如下:
另外还有一些爬虫商业服务、控制台工具、无头浏览器、验证码破解网站等等。
比如我们看看 Python 的,里面就收集了各种请求库、解析库、数据处理库等等:
这里就不一一放了,是不是又大又全?
awesome-web-scraping 中文版
是的,awesome 系列仓库还有更小的分支,那就是根据语言划分的分支,比如说中文版、日文版、俄文版等等,比如说 awesome-windows 上面就分了中文:https://github.com/Awesome-Windows/Awesome,
其他的很多 awesome 仓库也有中文,比如:
awesome-anrdoid 中文:https://github.com/jobbole/awesome-android-cn
awesome-ios 中文:https://github.com/jobbole/awesome-ios-cn
awesome-web-scraping 中文版本的仓库:https://github.com/Germey/AwesomeWebScraping。
其实就是对原仓库进行了一次翻译,也是区分了各种语言,比如 Python、JavaScript 等各个语言的工具库全在这里面了!另外每个语言都有很多分类,像请求库、爬取框架、解析库、自然语言处理、消息队列等等,都在这里了:
比如部分的内容大致如下:
附上github:
https://github.com/Germey/AwesomeWebScraping
python网络爬虫工具库集合相关推荐
- Python 网络爬虫工具:httpx 和 parsel(对比测评)
Python 网络爬虫领域两个最新的比较火的工具莫过于 httpx 和 parsel 了. httpx 号称下一代的新一代的网络请求库,不仅支持 requests 库的所有操作,还能发送异步请求,为编 ...
- Python网络爬虫--BeautifulSoup库的基本元素
requests requests库可以看看这篇文章 http://blog.csdn.net/shanzhizi/article/details/50903748 最近在学习嵩天老师的Python网 ...
- python网络爬虫第三方库_Python常用第三方库大盘点
Python语言有超过12万个第三方库,覆盖信息技术几乎所有领域.下面简单介绍下网络爬虫.自动化.数据分析与可视化.WEB开发.机器学习和其他常用的一些第三方库,如果有你感兴趣的库,不妨去试试它的功能 ...
- python网络爬虫系列教程——python中pyquery库应用全解
全栈工程师开发手册 (作者:栾鹏) python教程全解 python网络爬虫lxml库的应用全解. 在线安装方法:cmd中输入"pip install pyquery" 离线安装 ...
- python网络爬虫系列教程——python中lxml库应用全解(xpath表达式)
全栈工程师开发手册 (作者:栾鹏) python教程全解 python网络爬虫lxml库的应用全解. 在线安装方法:cmd中输入"pip install lxml" 离线安装,下载 ...
- Python网络爬虫简介与环境配置
第一章 Python网络爬虫简介与环境配置 1.1 网络爬虫简介 随着互联网的快速发展越来越多的信息被发布到互联网上,这些信息被嵌入到各种各样的网页结构及样式中.虽然搜索引擎可以辅助用户搜索这些网页信 ...
- 爬虫书籍-Python网络爬虫权威指南OCR库 NLTK 数据清洗 BeautifulSoup Lambda表达式 Scrapy 马尔可夫模型
Python网络爬虫权威指南 编辑推荐 适读人群 :需要抓取Web 数据的相关软件开发人员和研究人员 作为一种采集和理解网络上海量信息的方式,网页抓取技术变得越来越重要.而编写简单的自动化程序(网络爬 ...
- 156个Python网络爬虫资源,GitHub上awesome系列之Python爬虫工具
项目地址:lorien/awesome-web-scraping GitHub上awesome系列之Python的爬虫工具. 本列表包含Python网页抓取和数据处理相关的库. 网络相关 通用 url ...
- Python 网络爬虫笔记5 -- Beautiful Soup库实战
Python 网络爬虫笔记5 – Beautiful Soup库实战 Python 网络爬虫系列笔记是笔者在学习嵩天老师的<Python网络爬虫与信息提取>课程及笔者实践网络爬虫的笔记. ...
最新文章
- 一键安装lamp之php插件
- java return用法_Java枚举的高级用法之多键值的映射使用
- php源码编译常见错误解决方案大全
- 直播回顾 | 数据驱动「产品迭代」的三大场景详解
- Maven 连接私服资源库配置
- FlashFXP使用教程
- 操作系统中的死锁问题
- 质因数分解(信息学奥赛一本通-T1098)
- java 线程强制退出程序_Java程序在线程完成之前退出。我如何让Cucumber-JVM等待线程退出?...
- python数组初始化_Python科学计算库Numpy数组的初始化和基本操作
- SSD固态硬盘4K对齐一键分区
- 读书笔记 - 简约之美:软件设计之道
- 【菜鸟学Java】1:Java语言简介
- CB推荐的AP统计学课程在线学习资源网站汇总
- Windows系统 卸载 flash助手推荐弹窗
- python制作日历并保存成excel_[python]获取一年日历数据并写入excel表格中
- [高通SDM450][Android9.0]CTA认证--蓝牙、WIFI申请权限
- 利用毒株的accession号,批量下载fasta格式的文件
- 暴雪中国:《魔兽世界》团队正与国服地区新的潜在发行合作伙伴进行洽谈
- google不能用解决方法