爬虫登陆为啥子老被卡住？这些网站示例值得你拥有

不论是自然语言处理还是计算机视觉，做机器学习算法总会存在数据不足的情况，而这个时候就需要我们用爬虫获取一些额外数据。这个项目介绍了如何用 Python 登录各大网站，并用简单的爬虫获取一些有用数据，目前该项目已经提供了知乎、B 站、和豆瓣等 18 个网站的登录方法。

项目地址：https://github.com/CriseLYJ/awesome-python-login-model

作者收集了一些网站的登陆方式和爬虫程序，有的通过 selenium 登录，有的则通过抓包直接模拟登录。作者希望该项目能帮助初学者学习各大网站的模拟登陆方式，并爬取一些需要的数据。

作者表示模拟登陆基本采用直接登录或者使用 selenium+webdriver 的方式，有的网站直接登录难度很大，比如 qq 空间和 bilibili 等，采用 selenium 登录相对轻松一些。虽然在登录的时候采用的是 selenium，但为了效率，我们也可以在登录后维护得到的 cookie。登录后，我们就能调用 requests 或者 scrapy 等工具进行数据采集，这样数据采集的速度可以得到保证。

目前已经完成的网站有：

Facebook

无需身份验证即可抓取 Twitter 前端 API

微博网页版

知乎

QQZone

CSDN

淘宝

Baidu

果壳

JingDong 模拟登录和自动申请京东试用

163mail

拉钩

Bilibili

豆瓣

Baidu2

猎聘网

微信网页版登录并获取好友列表

Github

爬取图虫相应的图片

如下所示，如果我们满足依赖项，那么就可以直接运行代码，它会在图虫网站中下载搜索到的图像。

如下所示为搜索「秋天」，并完成下载的图像：

每一个网站都会有对应的登录代码，有的还有数据的爬取代码。以豆瓣为例，主要的登录函数如下所示，它会获取验证码、处理验证码、返回登录数据完成登录，并最后保留 cookies。

其中获取并解决验证码的函数如下：

当然这些都是简单的演示，在 GitHub 项目中可以找到更多的示例。此外，作者表明由于网站策略或者样式改变而导致代码失效，我们也可以提 Issue 或 Pull Requests。最后，该项目未来还会一直维护，很多东西哦也会慢慢改进，项目作者表明：

项目写了一段时间后，发现代码风格、程序易用性、可扩展性、代码的可读性，都存在一定的问题，所以接下来最重要的是重构代码，让大家可以更容易的做出一些自己的小功能；

如果读者觉得某个网站的登录很有代表性，可以在项目 issue 中提出；

网站的登录机制有可能经常的变动，所以当现在的模拟的登录的规则不能使用的时候，请项目在 issue 中提出。

爬虫登陆为啥子老被卡住？这些网站示例值得你拥有相关推荐

关于SharePoint V3网站老弹出“此网站需要运行以下载项：'Microsoft Corporation'中的'name.dll'......”的3种解决办法...
有位朋友提出:SharePoint V3网站老弹出"此网站需要运行以下载项:'Microsoft Corporation'中的'name.dll'......"的骚扰信息. 我找了 ...
Python爬虫-02 request模块爬取妹子图网站
简介 #介绍:使用requests可以模拟浏览器的请求,比起之前用到的urllib,requests模块的api更加便捷(本质就是封装了urllib3)#注意:requests库发送请求将网页内容下载 ...
老站长心语：网站由小到大的建站经历
老站长心语:网站由小到大的建站经历先简单自我介绍,我是伊凡笑子君,是中国无忧商务网(www.cn5135.com)的站长,湖南人.回顾这些年来的技术路程,很多酸甜苦辣,想想也乐在其中. 我的网站经历 ...
老毛桃唯一官方网站，现已开发出适应现阶段的U盘启动盘制作工具，让老毛桃传承经典，发扬光大。 http://www.laomaotao.net/?A7510
老毛桃唯一官方网站,现已开发出适应现阶段的U盘启动盘制作工具,让老毛桃传承经典,发扬光大. http://www.laomaotao.net/?A7510
虚拟主机网站怎样搬到服务器,老站长教你网站迁移虚拟主机服务器的技巧
原标题:老站长教你网站迁移虚拟主机服务器的技巧作为广大的站长,其实是一群弱势群体,当我们掏钱之后,IDC说啥就是啥,个人基本是无能为力的.于是,更换虚拟主机,成为各个站长最普遍的问题.那么在更换虚拟 ...
我的世界奇葩种子java_我的世界：10个最新版奇葩种子，老玩家：天选之子才能拥有这待遇...
原标题:我的世界:10个最新版奇葩种子,老玩家:天选之子才能拥有这待遇胖虎曾经介绍过MC编程大师@1256编写了一个java软件,当你输入种子ID,程序会自动输出种子对应的生物群系数据.于是,借助这 ...
正在用Wordpress做一个老外学中文的网站
最近,闲来无事,决定做点什么打发时间,所以,就做了一个老外学中文的网站, 当然,用的是Wordpress的博客系统. 打算把在用Wordpress开发的过程中遇到的和学到的一些东西随笔记下来, 供 ...
python 爬虫学习：抓取智联招聘网站职位信息(二)
在第一篇文章(python 爬虫学习:抓取智联招聘网站职位信息(一))中,我们介绍了爬取智联招聘网站上基于岗位关键字,及地区进行搜索的岗位信息,并对爬取到的岗位工资数据进行统计并生成直方图展示:同时进 ...
公众号简单爬虫--把公众号文章全部转载到网站（三）
公众号简单爬虫--把公众号文章全部转载到网站(三) 根据上一篇的方法,我们得到了一个包含标题,时间,作者,封面,文章连接等信息的json文件.接下来,就是要提取文章详细信息和把一系列的信息写入数据库. ...

爬虫登陆为啥子老被卡住？这些网站示例值得你拥有

爬虫登陆为啥子老被卡住？这些网站示例值得你拥有相关推荐

最新文章

热门文章