经常逛 GitHub 的同学可能会听说过大名鼎鼎的 awesome 仓库,没错,就是这个:https://github.com/sindresorhus/awesome。

这个库可谓是一个极大的宝藏,囊括了有关技术的几乎所有领域的资料、工具和库,比如平台、编程语言、前端开发、后端开发、大数据、数据科学、数据库、安全、硬件、DevOps 等等等,几乎想到的全都有。

就拿 Platform 这个平台这个分支来讲吧,里面又有进一步的细分,比如 iOS、Android、Linux、macOS、JVM 等等,然后每一个又是一个新的以 awesome 开头的仓库,比如:

  • awesome-linux:https://github.com/inputsh/awesome-linux

  • awesome-android:https://github.com/JStumpp/awesome-android

  • awesome-macOS:https://github.com/iCHAIT/awesome-macOS

是的,每一个子仓库里面都收集了关于这个领域的几乎所有的资料、工具、库等等。

也就是说,awesome (https://github.com/sindresorhus/awesome)这个库是根,然后衍生出来了各个领域和方向的 awesome 子仓库来收集对应领域的资料、工具库,由全世界的程序员一起维护和贡献。

真的全是宝藏!

有朋友这会就好奇了,有没有有关爬虫的 awesome 库呢?有!

awesome-web-scraping

就是这个:https://github.com/lorien/awesome-web-scraping

这里面收集了有关网络爬虫的各种资料、工具库的列表,不仅仅是 Python,还有 Go、Ruby、JavaScript、PHP 等等,首页如下:

另外还有一些爬虫商业服务、控制台工具、无头浏览器、验证码破解网站等等。

比如我们看看 Python 的,里面就收集了各种请求库、解析库、数据处理库等等:

这里就不一一放了,是不是又大又全?

awesome-web-scraping 中文版

是的,awesome 系列仓库还有更小的分支,那就是根据语言划分的分支,比如说中文版、日文版、俄文版等等,比如说 awesome-windows 上面就分了中文:https://github.com/Awesome-Windows/Awesome,

其他的很多 awesome 仓库也有中文,比如:

  • awesome-anrdoid 中文:https://github.com/jobbole/awesome-android-cn

  • awesome-ios 中文:https://github.com/jobbole/awesome-ios-cn

awesome-web-scraping 中文版本的仓库:https://github.com/Germey/AwesomeWebScraping。

其实就是对原仓库进行了一次翻译,也是区分了各种语言,比如 Python、JavaScript 等各个语言的工具库全在这里面了!另外每个语言都有很多分类,像请求库、爬取框架、解析库、自然语言处理、消息队列等等,都在这里了:

比如部分的内容大致如下:

附上github:

https://github.com/Germey/AwesomeWebScraping

python网络爬虫工具库集合相关推荐

  1. Python 网络爬虫工具:httpx 和 parsel(对比测评)

    Python 网络爬虫领域两个最新的比较火的工具莫过于 httpx 和 parsel 了. httpx 号称下一代的新一代的网络请求库,不仅支持 requests 库的所有操作,还能发送异步请求,为编 ...

  2. Python网络爬虫--BeautifulSoup库的基本元素

    requests requests库可以看看这篇文章 http://blog.csdn.net/shanzhizi/article/details/50903748 最近在学习嵩天老师的Python网 ...

  3. python网络爬虫第三方库_Python常用第三方库大盘点

    Python语言有超过12万个第三方库,覆盖信息技术几乎所有领域.下面简单介绍下网络爬虫.自动化.数据分析与可视化.WEB开发.机器学习和其他常用的一些第三方库,如果有你感兴趣的库,不妨去试试它的功能 ...

  4. python网络爬虫系列教程——python中pyquery库应用全解

    全栈工程师开发手册 (作者:栾鹏) python教程全解 python网络爬虫lxml库的应用全解. 在线安装方法:cmd中输入"pip install pyquery" 离线安装 ...

  5. python网络爬虫系列教程——python中lxml库应用全解(xpath表达式)

    全栈工程师开发手册 (作者:栾鹏) python教程全解 python网络爬虫lxml库的应用全解. 在线安装方法:cmd中输入"pip install lxml" 离线安装,下载 ...

  6. Python网络爬虫简介与环境配置

    第一章 Python网络爬虫简介与环境配置 1.1 网络爬虫简介 随着互联网的快速发展越来越多的信息被发布到互联网上,这些信息被嵌入到各种各样的网页结构及样式中.虽然搜索引擎可以辅助用户搜索这些网页信 ...

  7. 爬虫书籍-Python网络爬虫权威指南OCR库 NLTK 数据清洗 BeautifulSoup Lambda表达式 Scrapy 马尔可夫模型

    Python网络爬虫权威指南 编辑推荐 适读人群 :需要抓取Web 数据的相关软件开发人员和研究人员 作为一种采集和理解网络上海量信息的方式,网页抓取技术变得越来越重要.而编写简单的自动化程序(网络爬 ...

  8. 156个Python网络爬虫资源,GitHub上awesome系列之Python爬虫工具

    项目地址:lorien/awesome-web-scraping GitHub上awesome系列之Python的爬虫工具. 本列表包含Python网页抓取和数据处理相关的库. 网络相关 通用 url ...

  9. Python 网络爬虫笔记5 -- Beautiful Soup库实战

    Python 网络爬虫笔记5 – Beautiful Soup库实战 Python 网络爬虫系列笔记是笔者在学习嵩天老师的<Python网络爬虫与信息提取>课程及笔者实践网络爬虫的笔记. ...

最新文章

  1. 一键安装lamp之php插件
  2. java return用法_Java枚举的高级用法之多键值的映射使用
  3. php源码编译常见错误解决方案大全
  4. 直播回顾 | 数据驱动「产品迭代」的三大场景详解
  5. Maven 连接私服资源库配置
  6. FlashFXP使用教程
  7. 操作系统中的死锁问题
  8. 质因数分解(信息学奥赛一本通-T1098)
  9. java 线程强制退出程序_Java程序在线程完成之前退出。我如何让Cucumber-JVM等待线程退出?...
  10. python数组初始化_Python科学计算库Numpy数组的初始化和基本操作
  11. SSD固态硬盘4K对齐一键分区
  12. 读书笔记 - 简约之美:软件设计之道
  13. 【菜鸟学Java】1:Java语言简介
  14. CB推荐的AP统计学课程在线学习资源网站汇总
  15. Windows系统 卸载 flash助手推荐弹窗
  16. python制作日历并保存成excel_[python]获取一年日历数据并写入excel表格中
  17. [高通SDM450][Android9.0]CTA认证--蓝牙、WIFI申请权限
  18. 利用毒株的accession号,批量下载fasta格式的文件
  19. 暴雪中国:《魔兽世界》团队正与国服地区新的潜在发行合作伙伴进行洽谈
  20. google不能用解决方法

热门文章

  1. 债券抛盘严重收益率全线上涨
  2. 21迈巴赫S480升级钢琴黑条纹桃木,奢华而不张扬
  3. 1263:【例9.7】友好城市
  4. python 描述符
  5. html5 汽车广告,汽车经典广告语
  6. MobileSubstrate 介绍
  7. 大鸟的QQ快报060608期(转)
  8. 微信小程序打星评分功能
  9. 版权登记版权登记有何作用?
  10. Redhat 安装squirrelmail