爬虫登陆为啥子老被卡住?这些网站示例值得你拥有
不论是自然语言处理还是计算机视觉,做机器学习算法总会存在数据不足的情况,而这个时候就需要我们用爬虫获取一些额外数据。这个项目介绍了如何用 Python 登录各大网站,并用简单的爬虫获取一些有用数据,目前该项目已经提供了知乎、B 站、和豆瓣等 18 个网站的登录方法。
项目地址:https://github.com/CriseLYJ/awesome-python-login-model
作者收集了一些网站的登陆方式和爬虫程序,有的通过 selenium 登录,有的则通过抓包直接模拟登录。作者希望该项目能帮助初学者学习各大网站的模拟登陆方式,并爬取一些需要的数据。
作者表示模拟登陆基本采用直接登录或者使用 selenium+webdriver 的方式,有的网站直接登录难度很大,比如 qq 空间和 bilibili 等,采用 selenium 登录相对轻松一些。虽然在登录的时候采用的是 selenium,但为了效率,我们也可以在登录后维护得到的 cookie。登录后,我们就能调用 requests 或者 scrapy 等工具进行数据采集,这样数据采集的速度可以得到保证。
目前已经完成的网站有:
无需身份验证即可抓取 Twitter 前端 API
微博网页版
知乎
QQZone
CSDN
淘宝
Baidu
果壳
JingDong 模拟登录和自动申请京东试用
163mail
拉钩
Bilibili
豆瓣
Baidu2
猎聘网
微信网页版登录并获取好友列表
Github
爬取图虫相应的图片
如下所示,如果我们满足依赖项,那么就可以直接运行代码,它会在图虫网站中下载搜索到的图像。
如下所示为搜索「秋天」,并完成下载的图像:
每一个网站都会有对应的登录代码,有的还有数据的爬取代码。以豆瓣为例,主要的登录函数如下所示,它会获取验证码、处理验证码、返回登录数据完成登录,并最后保留 cookies。
其中获取并解决验证码的函数如下:
当然这些都是简单的演示,在 GitHub 项目中可以找到更多的示例。此外,作者表明由于网站策略或者样式改变而导致代码失效,我们也可以提 Issue 或 Pull Requests。最后,该项目未来还会一直维护,很多东西哦也会慢慢改进,项目作者表明:
项目写了一段时间后,发现代码风格、程序易用性、可扩展性、代码的可读性,都存在一定的问题,所以接下来最重要的是重构代码,让大家可以更容易的做出一些自己的小功能;
如果读者觉得某个网站的登录很有代表性,可以在项目 issue 中提出;
网站的登录机制有可能经常的变动,所以当现在的模拟的登录的规则不能使用的时候,请项目在 issue 中提出。
爬虫登陆为啥子老被卡住?这些网站示例值得你拥有相关推荐
- 关于SharePoint V3网站老弹出“此网站需要运行以下载项:'Microsoft Corporation'中的'name.dll'......”的3种解决办法...
有位朋友提出:SharePoint V3网站老弹出"此网站需要运行以下载项:'Microsoft Corporation'中的'name.dll'......"的骚扰信息. 我找了 ...
- Python爬虫-02 request模块爬取妹子图网站
简介 #介绍:使用requests可以模拟浏览器的请求,比起之前用到的urllib,requests模块的api更加便捷(本质就是封装了urllib3)#注意:requests库发送请求将网页内容下载 ...
- 老站长心语:网站由小到大的建站经历
老站长心语:网站由小到大的建站经历 先简单自我介绍,我是伊凡笑子君,是中国无忧商务网(www.cn5135.com)的站长,湖南人.回顾这些年来的技术路程,很多酸甜苦辣,想想也乐在其中. 我的网站经历 ...
- 老毛桃唯一官方网站,现已开发出适应现阶段的U盘启动盘制作工具,让老毛桃传承经典,发扬光大。 http://www.laomaotao.net/?A7510
老毛桃唯一官方网站,现已开发出适应现阶段的U盘启动盘制作工具,让老毛桃传承经典,发扬光大. http://www.laomaotao.net/?A7510
- 虚拟主机网站怎样搬到服务器,老站长教你网站迁移虚拟主机服务器的技巧
原标题:老站长教你网站迁移虚拟主机服务器的技巧 作为广大的站长,其实是一群弱势群体,当我们掏钱之后,IDC说啥就是啥,个人基本是无能为力的.于是,更换虚拟主机,成为各个站长最普遍的问题.那么在更换虚拟 ...
- 我的世界奇葩种子java_我的世界:10个最新版奇葩种子,老玩家:天选之子才能拥有这待遇...
原标题:我的世界:10个最新版奇葩种子,老玩家:天选之子才能拥有这待遇 胖虎曾经介绍过MC编程大师@1256编写了一个java软件,当你输入种子ID,程序会自动输出种子对应的生物群系数据.于是,借助这 ...
- 正在用Wordpress做一个老外学中文的网站
最近,闲来无事,决定做点什么打发时间,所以,就做了一个 老外学中文 的网站, 当然,用的是Wordpress的博客系统. 打算把在用Wordpress开发的过程中遇到的和学到的一些东西随笔记下来, 供 ...
- python 爬虫学习:抓取智联招聘网站职位信息(二)
在第一篇文章(python 爬虫学习:抓取智联招聘网站职位信息(一))中,我们介绍了爬取智联招聘网站上基于岗位关键字,及地区进行搜索的岗位信息,并对爬取到的岗位工资数据进行统计并生成直方图展示:同时进 ...
- 公众号简单爬虫--把公众号文章全部转载到网站(三)
公众号简单爬虫--把公众号文章全部转载到网站(三) 根据上一篇的方法,我们得到了一个包含标题,时间,作者,封面,文章连接等信息的json文件.接下来,就是要提取文章详细信息和把一系列的信息写入数据库. ...
最新文章
- linux怎么打开云硬盘,Linux系统云服务器如何挂在磁盘
- 物联网是互联网发展的必然趋势吗?
- 全球首款乘云而来的存储产品CDS诞生!
- android搜索文字变色_Android实现TextView字符串关键字变色的方法
- AxWebBrowser打开本地文件
- codevs——1742 爬楼梯
- Spark中RDD与DataFrame与DataSet的区别与联系
- nacos注册中心demo
- linux内核剖析之traps.c
- 夫水之积也不厚,则其负大舟也无力
- SCC1传输请求(同系统跨Client)
- Pico VR 应用开发基础教程
- 深入分析Kafka架构(三):消费者消费方式、三种分区分配策略、offset维护
- cocoscreator html5,Cocos Creator H5支持剪贴板复制功能
- centos5-6修复心血漏洞
- 充电:28G各类资料送给您!PPT模板、商业计划书等
- 计算机的英语作文模板,高中英语作文模板 第243期:My Computer 我的电脑
- Game boy模拟器(5):集成
- 教师资格证面试试讲时可以戴手表吗
- NDK学习 mp3解码器等相关