GitHub 上有哪些好用的爬虫?

在开发实际项目的时候,你经常没有足够多的数据,需要自己去想办法获取,这个时候常常需要用到爬虫。然而找来找去,很可能找了很久都找不到既免费又好用的爬虫,今天就从好的爬虫开始说起,这很可能是项目成功的开始。

综述类项目与学习资料

首先给大家介绍一些非常优秀的综述和学习类项目,方便大家快速索引找到所需要的资源。

1、awesome-spider

地址:https://github.com/facert/awesome-spider

这是 ID 为 facert 的一个知乎工程师开源的,Star 6000+,内容如下:

这一款爬虫,里面搜集了几乎所有可以爬取的中文网址,从知乎豆瓣到知网,抖音微博到 QQ,还有很多的不可描述的网站,你懂的。

2、Nyspider

地址:https://github.com/Nyloner/Nyspider

这是 ID 为 Nyloner 的一个今日头条的工程师弄的,Star 1000+,风格与上面的项目大有不同。

可以看出,都是各类网址。这很头条,跟这位小哥哥的工作内容估计有关系。

3、awesome-python-login-model

地址:https://github.com/CriseLYJ/awesome-python-login-model

这是 ID 为 CriseLYJ (职业不详) 的用户,这个项目用于模拟各种网址登陆,也包含一些简单的爬虫,Star 6000+。

先从这个项目开始分析各大网站的登录方式,非常有用,可谓摸清对手再动手。

4、python-spider

地址:https://github.com/Jack-Cherish/python-spider

这是 ID 为 Jack-Cherish 的东北大学的一个学生整理的学习 python 爬虫的资料,Star 6000+,包含不少的实战项目,非常适合想学习的朋友。

其他还有一些项目,不再一一介绍。

https://github.com/jhao104/proxy_poolhttps://github.com/Ehco1996/Python-crawler

优秀图片 / 视频项目

笔者的精力多在图像和视频,所以下面各自介绍一个功能强大,简单好用的图片和视频爬虫。

工具亲测长期有效,省去了很多找爬虫工具的时间,早用早好。

1、Google,Baidu,Bing 三大搜素引擎图片爬虫

地址:https://github.com/sczhengyabin/Image-Downloader

这个爬虫由 ID 为 sczhengyabin 的用户整理,可以按要求爬取百度、Bing、Google 上的图片,我已经用了几年了,提供了非常人性化的 GUI 方便操作,使用方法如下:

使用 python image_downloader_gui.py 调用 GUI 界面,配置好参数 (关键词,路径,爬取数目等),关键词可以直接在这里输入也可以选择从 txt 文件中选择。

可以配置需要爬取的样本数目,这里一次爬了 2000 张,妥妥的 3 分钟搞定。

这个爬虫足够满足小型项目初始数据集的积累 (爬几千张高质量图片妥妥的),结果命名也非常整齐规范, 最大的优势就是稳定啊,不会三天两天不能用了。

2、各大视频网站爬虫

地址:https://github.com/iawia002/annie

由 ID 为 iawia002 的用户整理,Annie 是一款以 go 语言编码的视频下载工具,使用便捷并支持 youtube,腾讯视频,抖音等多个网站视频和图像的下载,收录站点如下,可以说是该有的都有的:

虽然这个项目可以下载图片,但是我们还是来用它下载视频吧,使用方法很简单:

annie [可选参数]http://…  (视频网址)

视频会下载到当前目录,至于那些可选参数,赶紧去摸索吧。

GitHub 上有哪些好用的爬虫?相关推荐

  1. 【杂谈】GitHub上有哪些好用的爬虫(从Google百度,腾讯视频抖音,豆瓣知乎到不可描述)

    在开发实际项目的时候,你经常没有足够多的数据,需要自己去想办法获取,这个时候常常需要用到爬虫.然而找来找去,很可能找了很久都找不到既免费又好用的爬虫,今天就从好的爬虫开始说起,这很可能是项目成功的开始 ...

  2. python爬虫案例_推荐上百个github上Python爬虫案例

    现在学生都对爬虫感兴趣,这里发现一些好的github开源的代码,分享给各位 1.awesome-spider 该网站提供了近上百个爬虫案例代码,这是ID为facert的一个知乎工程师开源的,star6 ...

  3. 156个Python网络爬虫资源,GitHub上awesome系列之Python爬虫工具

    项目地址:lorien/awesome-web-scraping GitHub上awesome系列之Python的爬虫工具. 本列表包含Python网页抓取和数据处理相关的库. 网络相关 通用 url ...

  4. 程序员的选房神技,GitHub上的房源爬虫

    买房,在中国是任何一个年轻人都绕不开都话题.特别是在当下限购摇号等多重政策打压的情况,要选到一个自己心仪的房子可谓难度不小. 而且,伴随着房价上涨的还有房租.买不起房的,想要租个合适的小窝也不容易啊! ...

  5. github上的python爬虫_python爬虫入门(2):让你的github项目火起来

    最近闲的比较无聊,于是想做一个自动star你的项目的爬虫玩玩.不然star数太低了,也比较难看.思路是准备注册成批的github帐号,然后挨个给你点star. STEP.1 工具准备 我用的是pyth ...

  6. GitHub上有哪些优秀的爬虫项目?

    1 写在前面的话 今天JAP君给大家安利一波福利!GitHub上优秀的爬虫项目大集合!!!大家赶快收藏一波! 2 福利开始喽! 1. Anti-Anti-Spider 地址:https://githu ...

  7. 蘑菇租房java,程序员的选房神技,GitHub上的房源爬虫

    买房,在中国是任何一个年轻人都绕不开都话题.特别是在当下限购摇号等多重政策打压的情况,要选到一个自己心仪的房子可谓难度不小. 而且,伴随着房价上涨的还有房租.买不起房的,想要租个合适的小窝也不容易啊! ...

  8. GitHub上整理的一些工具【转载】

    技术站点Hacker News:非常棒的针对编程的链接聚合网站Programming reddit:同上MSDN:微软相关的官方技术集中地,主要是文档类infoq:企业级应用,关注软件开发领域OSCh ...

  9. GitHub上7000+ Star的Python常用代码合集

    作者 | 二胖并不胖 来源 | 大数据前沿(ID:bigdataqianyan) 今天二胖给大家介绍一个由一个国外小哥用好几年时间维护的Python代码合集.简单来说就是,这个程序员小哥在几年前开始保 ...

最新文章

  1. BS-GX-016基于SSM实现教材管理系统
  2. 大楼通信综合布线系统_系统梳理一下综合布线系统的方方面面
  3. 大家好!欢迎来到我的博客!
  4. 第七节:语法总结(1)(自动属性、out参数、对象初始化器、var和dynamic等)
  5. mysql 数据库 文件夹_mysql 数据库 文件夹
  6. 几时几分几秒怎么写_泼尿 涂油漆 写威胁语 业主莫名被骚扰
  7. python的模块(module)和包(package)
  8. 10.15 iptables filter表小案例;10.16—10.18 iptables nat
  9. MapXtreme2004的Web选择控件(三)
  10. 图书馆管理系统用例图
  11. 软件测试基础学习笔记
  12. 安装VMware时勾选增强型键盘驱动程序有什么用?
  13. NB-LOT 常用AT指令集简介
  14. linux系统怎么修改数据库密码,Linux系统修改数据库密码相关
  15. springcloud2.2.1 oauth2实现用户认证授权及sso
  16. wordpress企业网站主题仿制02-wordpress企业网站首页的仿制
  17. 那些年啊,那些事——一个程序员的奋斗史 ——127
  18. GAT 算法原理介绍与源码分析
  19. docker安装过程 和部署2048小游戏
  20. python基础篇1(print函数,转义字符,保留字和标识符,变量,数据类型和数据类型转换)

热门文章

  1. 使用VC 2010制作和使用静态库
  2. Linux中目录结构
  3. html如何添加关闭按钮,大神你好,请问怎么在以下代码的div中添加一个关闭按钮?...
  4. java语言修饰符$_Java语言中的修饰符
  5. Android 9.0 内核编译实战(以一加6为例)
  6. java char 初始化为空格_java中char的初始值此代码运行后,char的初始值为空?为 爱问知识人...
  7. pipfile和pipfile.lock、virtualenv、pipenv、pip
  8. pandas DataFrame 索引(二)
  9. linux怎么打开云硬盘,Linux系统云服务器如何挂在磁盘
  10. java post 打开新页面_JAVA后台POST/GET访问方法