【杂谈】GitHub上有哪些好用的爬虫(从Google百度,腾讯视频抖音,豆瓣知乎到不可描述)
在开发实际项目的时候,你经常没有足够多的数据,需要自己去想办法获取,这个时候常常需要用到爬虫。然而找来找去,很可能找了很久都找不到既免费又好用的爬虫,今天就从好的爬虫开始说起,这很可能是项目成功的开始。
作者&编辑 | 言有三
1 综述类项目与学习资料
首先给大家介绍一些非常优秀的综述和学习类项目,方便大家快速索引找到所需要的资源。
1.1、awesome-spider
地址:https://github.com/facert/awesome-spider
这是ID为facert的一个知乎工程师开源的,star6000+,内容如下:
这一款爬虫,里面搜集了几乎所有可以爬取的中文网址,从知乎豆瓣到知网,抖音微博到QQ,还有很多的不可描述的网站,你懂的。
1.2、Nyspider
地址:https://github.com/Nyloner/Nyspider
这是ID为Nyloner的一个今日头条的工程师弄的,star1000+,风格与上面的项目大有不同。
可以看出,都是各类网址。这很头条,跟这位小哥哥的工作内容估计有关系。
3、awesome-python-login-model
地址:https://github.com/CriseLYJ/awesome-python-login-model
这是ID为CriseLYJ(职业不详)的用户,这个项目用于模拟各种网址登陆,也包含一些简单的爬虫,star6000+。
先从这个项目开始分析各大网站的登录方式,非常有用,可谓摸清对手再动手。
4、python-spider
地址:https://github.com/Jack-Cherish/python-spider
这是ID为Jack-Cherish的东北大学的一个学生整理的学习python爬虫的资料,star6000+,包含不少的实战项目,非常适合想学习的朋友。
其他还有一些项目,不再一一介绍。
https://github.com/jhao104/proxy_pool
https://github.com/Ehco1996/Python-crawler
2 优秀图片/视频项目
笔者的精力多在图像和视频,所以下面各自介绍一个功能强大,简单好用的图片和视频爬虫。
工具亲测长期有效,省去了很多找爬虫工具的时间,早用早好。
2.1、Google,Baidu,Bing三大搜素引擎图片爬虫
地址:https://github.com/sczhengyabin/Image-Downloader
这个爬虫由ID为sczhengyabin的用户整理,可以按要求爬取百度、Bing、Google上的图片,我已经用了几年了,提供了非常人性化的GUI方便操作,使用方法如下:
使用python image_downloader_gui.py调用GUI界面,配置好参数(关键词,路径,爬取数目等),关键词可以直接在这里输入也可以选择从txt文件中选择。
可以配置需要爬取的样本数目,这里一次爬了2000张,妥妥的3分钟搞定。
这个爬虫足够满足小型项目初始数据集的积累(爬几千张高质量图片妥妥的),结果命名也非常整齐规范,最大的优势就是稳定啊,不会三天两天不能用了。
2、各大视频网站爬虫
地址:https://github.com/iawia002/annie
由ID为iawia002的用户整理,Annie是一款以go语言编码的视频下载工具,使用便捷并支持youtube,腾讯视频,抖音等多个网站视频和图像的下载,收录站点如下,可以说是该有的都有的:
虽然这个项目可以下载图片,但是我们还是来用它下载视频吧,使用方法很简单:
annie [可选参数]http://… (视频网址)
视频会下载到当前目录,至于那些可选参数,赶紧去摸索吧。
就到此为止吧。
对了,有三AI刚刚开源了一个深度学习项目,如下:
https://github.com/longpeng2008/yousan.ai
内容包含计算机视觉,语音,自然语言处理,支持caffe,tensorflow,pytorch,mxnet,paddlepaddle,darknet,deeplearning4j,matconvnet,keras,chainer,cntk,lasadge等框架,大家可以看我们的介绍文章。
【完结】给新手的12大深度学习开源框架快速入门项目
要说互联网圈里最有权势的那些人,搞爬虫的高手一定位列其中,他们大概是掌握信息最多的那批人了,善于整合抓取资源,如果身边有这样的大佬,一定要牢牢抱着。
杂谈系列文章
【杂谈】深度学习必备,各路免费爬虫一举拿下
【杂谈】想成为机器学习学霸?先学会做笔记吧
【杂谈】那些酷炫的深度学习网络图怎么画出来的?
【杂谈】如何学会看arxiv.org才能不错过自己研究领域的最新论文?
【杂谈】提升写代码效率不得不做的三件事
【杂谈】为什么你学了AI,企业却不要你
【杂谈】白身,初识,不惑,有识,不可知,你处于深度学习工程师哪一重境界了
【杂谈】三人行必有AI,你会在其一吗?
感谢各位看官的耐心阅读,不足之处希望多多指教。后续内容将会不定期奉上,欢迎大家关注有三公众号 有三AI!
【杂谈】GitHub上有哪些好用的爬虫(从Google百度,腾讯视频抖音,豆瓣知乎到不可描述)相关推荐
- GitHub 上有哪些好用的爬虫?
GitHub 上有哪些好用的爬虫? 在开发实际项目的时候,你经常没有足够多的数据,需要自己去想办法获取,这个时候常常需要用到爬虫.然而找来找去,很可能找了很久都找不到既免费又好用的爬虫,今天就从好的爬 ...
- 实现今日头条-西瓜视频-抖音视频自动化上传(如希望无人值守长期定时执行的话,需自行优化代码)
业务合作请联系:13958075150 [1]首次登录使用selenium登录并将cookies存为文件,实现免密登录,并便于后期维护cookie. # 首次使用selenium登录,并将cookie ...
- python爬虫案例_推荐上百个github上Python爬虫案例
现在学生都对爬虫感兴趣,这里发现一些好的github开源的代码,分享给各位 1.awesome-spider 该网站提供了近上百个爬虫案例代码,这是ID为facert的一个知乎工程师开源的,star6 ...
- 马化腾首谈腾讯开源时,鹅厂已在Github上放出82个项目,标星24万+ | 附AI项目链接...
乾明 发自 凹非寺 量子位 报道 | 公众号 QbitAI "腾讯希望在科研领域投入更多力量,把'科技向善'纳入公司新的使命与愿景.我们将通过内外部开放源代码等方式,积极参与'全球科技共同 ...
- git clone一个github上的仓库非常缓慢 和 github网页打不开
git clone一个github上的仓库非常缓慢,简单快捷的方法解决git下载缓慢问题 文章目录: 1 问题描述 2 解决git clone下载速度缓慢问题 2.1 使用github的镜像网站 (亲 ...
- 搭建线上网校?推荐这套Github上最好的开源网校系统
这两年随着疫情和政策的紧逼,线下的教培机构迅速地意识到了网校平台搭建的必要性,网课这一形式除了是一种教育趋势,也是一种抵御经营风险的方法.那么线上教育平台该如何选择或搭建? 线上网校平台的三种选择 1 ...
- 手把手教你把你的作品上传到github上
原起 为什么要把自己做的一些东西上传到github上? 在软件行业竞争日益激烈的行情下,面试的时候,github上有高Star开源项目,绝对是个加分项.同时知识分享也是一种美德.这种双向受益的事,何乐 ...
- 156个Python网络爬虫资源,GitHub上awesome系列之Python爬虫工具
项目地址:lorien/awesome-web-scraping GitHub上awesome系列之Python的爬虫工具. 本列表包含Python网页抓取和数据处理相关的库. 网络相关 通用 url ...
- 谷歌大数据三篇论文标题_抖音短视频标题怎么写才能上热门?起标题的3个实操步骤,大数据分析爆款标题的套路...
抖音短视频运营学习路线图,带你全面系统性学习抖音短视频运营! 第十一篇:抖音短视频标题撰写技巧. 1.了解视频标题应该具备的特点. 2.掌握起视频标题的3个实操步骤. 3.掌握起视频标题的注意事项. ...
最新文章
- 基于jquery的serializeArray
- oracle 裸设备 ocr,裸设备建立RAC的OCR设备不一致的问题
- socket编程之gethostbyname获取IP列表和Host别名列表
- html5 如何局部放大,【HTML5特效】挺简单的HTML5放大效果
- hibernate继承映射之每个具体类一张表
- Unicode® Character Name Index
- 疑似iPhone XI内部设计图曝光:这个造型爱不起来
- P1533 可怜的狗狗
- Ubuntu18.04下解决Qt出现qt.qpa.plugin:Could not load the Qt platform plugin “xcb“问题
- TF-IDF及相似度计算
- 【BZOJ】3524: [Poi2014]Couriers
- 用java求可达矩阵_ISM算法(邻接矩阵求可达矩阵)Java实现
- Dorado7使用常见问题,不定时持续更新。
- ubuntu 安装osx 主题 转自linux公社
- Android Lolipop AssetAtlasService引起的系统崩溃
- Indel (Insertion and Deletion)分析简介
- NOIp 2020 微信步数 题解
- 题解 乃爱与城市拥挤程度
- linux下IIC驱动解释
- spark实战问题(一):is running beyond physical memory limits. Current usage: xx GB of xx GB physical memory
热门文章
- Lucene教程--入门程序详解
- 【版本工具】SVN-E155036 Working copy ... is too old Please see the ‘svn upgrade‘ command
- python模拟手写_python-自己手写的贴吧爬虫
- springboot入门demo详解(解决跨域)
- 2020 我的C++学习之路 C++PrimerPlus第四章课后习题
- python爬取内容乱码_【提问】PYTHON 爬取下来的中文数据显示乱码
- android信息中字符个数,在android中指定编辑文本中的字符数
- 台达变频器s1参数设置_【智】台达变频器计数输入功能接线和参数设置详解
- 运维基础(12)服务器12种基本故障+排查方法
- 【分享】VRRP不懂不行