selenium验证码登录_如何用 Python 登录主流网站，爬取一些需要的数据

最近收集了一些网站的登陆方式和爬虫程序，有的通过 selenium 登录，有的则通过抓包直接模拟登录。作者希望该项目能帮助初学者学习各大网站的模拟登陆方式，并爬取一些需要的数据。

作者表示模拟登陆基本采用直接登录或者使用 selenium+webdriver 的方式，有的网站直接登录难度很大，比如 qq 空间和 bilibili 等，采用 selenium 登录相对轻松一些。虽然在登录的时候采用的是 selenium，但为了效率，我们也可以在登录后维护得到的 cookie。登录后，我们就能调用 requests 或者 scrapy 等工具进行数据采集，这样数据采集的速度可以得到保证。

目前已经完成的网站有：

Facebook
无需身份验证即可抓取 Twitter 前端 API
微博网页版
知乎
QQZone
CSDN
淘宝
Baidu
果壳
JingDong 模拟登录和自动申请京东试用
163mail
拉钩
Bilibili
豆瓣
Baidu2
猎聘网
微信网页版登录并获取好友列表
Github
爬取图虫相应的图片

如下所示，如果我们满足依赖项，那么就可以直接运行代码，它会在图虫网站中下载搜索到的图像。

如下所示为搜索「秋天」，并完成下载的图像：

每一个网站都会有对应的登录代码，有的还有数据的爬取代码。以豆瓣为例，主要的登录函数如下所示，它会获取验证码、处理验证码、返回登录数据完成登录，并最后保留 cookies。

def login():

captcha, captcha_id = get_captcha()

# 增加表数据

datas[ captcha-solution ] = captcha

datas[ captcha-id ] = captcha_id

login_page = session.post(url, data=datas, headers=headers)

page = login_page.text

soup = BeautifulSoup(page, "html.parser")

result = soup.findAll( div , attrs={ class : title })

#进入豆瓣登陆后页面，打印热门内容

for item in result:

print(item.find( a ).get_text())

# 保存 cookies 到文件，

# 下次可以使用 cookie 直接登录，不需要输入账号和密码

session.cookies.save()

其中获取并解决验证码的函数如下：

def get_captcha():

获取验证码及其ID

r = requests.post(url, data=datas, headers=headers)

page = r.text

soup = BeautifulSoup(page, "html.parser")

# 利用bs4获得验证码图片地址

img_src = soup.find( img , { id : captcha_image }).get( src )

urlretrieve(img_src, captcha.jpg )

try:

im = Image.open( captcha.jpg )

im.show - 又一个WordPress站点()

im.close()

except:

print( 到本地目录打开captcha.jpg获取验证码 )

finally:

captcha = input( please input the captcha: )

remove( captcha.jpg )

captcha_id = soup.find(

input , { type : hidden , name : captcha-id }).get( value )

return captcha, captcha_id

当然这些都是简单的演示，在 GitHub 项目中可以找到更多的示例。此外，作者表明由于网站策略或者样式改变而导致代码失效，我们也可以提 Issue 或 Pull Requests。最后，该项目未来还会一直维护，很多东西哦也会慢慢改进，项目作者表明：

项目写了一段时间后，发现代码风格、程序易用性、可扩展性、代码的可读性，都存在一定的问题，所以接下来最重要的是重构代码，让大家可以更容易的做出一些自己的小功能；
如果读者觉得某个网站的登录很有代表性，可以在项目 issue 中提出；
网站的登录机制有可能经常的变动，所以当现在的模拟的登录的规则不能使用的时候，请项目在 issue 中提出。

项目地址：https://github.com/ape-python/awesome-python-login-model

selenium验证码登录_如何用 Python 登录主流网站，爬取一些需要的数据相关推荐

python登录网站后爬取数据_如何用 Python 登录主流网站，爬取一些需要的数据
最近收集了一些网站的登陆方式和爬虫程序,有的通过 selenium 登录,有的则通过抓包直接模拟登录.作者希望该项目能帮助初学者学习各大网站的模拟登陆方式,并爬取一些需要的数据. 作者表示模拟登陆基本 ...
Python网络爬虫：爬取CSDN热搜数据并保存到本地文件中
hello,大家好,我是wangzirui32,今天我们来学习如何爬取CSDN热搜数据,并保存到Excel表格中. 开始学习吧! 学习目录 1. 数据包抓取 2. 编写代码 1. 数据包抓取打开CS ...
python爬虫实例之爬取智联招聘数据
这是作者的处女作,轻点喷.... 实习在公司时领导要求学习python,python的爬虫作为入门来说是十分友好的,话不多说,开始进入正题. 主要是爬去智联的岗位信息进行对比分析出java和pytho ...
python爬取百度百科表格_第一个python爬虫（python3爬取百度百科1000个页面）
以下内容参考自:http://www.imooc.com/learn/563 一.爬虫简介爬虫:一段自动抓取互联网信息的程序爬虫可以从一个url出发,访问其所关联的所有的url.并从每个url指向 ...
python批量下载文件教程_零基础Python教程:教你爬取天堂网1920*1080大图片（批量下载）...
这篇文章将针对上篇文章的未尽事宜进行完善,完成图片的批量抓取. /2 图片网址解析/ 1. 我们首先来分析一下这个图片的地址在哪里.我们选择图片,然后右击网页检查,可以看到图片的路径,如下图所示. 2 ...
python爬虫篇1——爬取中英文论文文献数据
程序运行截图: mysql代码: CREATE TABLE `article` (`id` int(11) NOT NULL,`article_time` varchar(50) DEFAULT NU ...
python爬取mysql_如何利用 Python＋MySQL 存储爬取的币乎数据
1LSGO软件技术团队贡献人:李金原如果喜欢这里的内容,你能够给我最大的帮助就是转发,告诉你的朋友,鼓励他们一起来学习. If you like the content here, the gre ...
用python写注册登录_如何用python 写注册，登录功能的测试
2015-07-09 回答有些网页需要你登录之后才可以访问,你需要提供账户和密码. 只要在发送http请求时,带上含有正常登陆的cookie就可以了. 1.首先我们要先了解cookie的工作原理. ...
用python中django创建网页终端直接关闭是什么问题_如何用Python Django创建网站？系列文章03（持续更新...）...
第三篇文章主要介绍的是如何将Django网站部署到阿里云服务器上,具体的流程如下图所示: 我们会按照这张思维导图的顺序逐个展开讲解: Section I, Ubuntu (1)我们需要在阿里云上租一台 ...

selenium验证码登录_如何用 Python 登录主流网站，爬取一些需要的数据

selenium验证码登录_如何用 Python 登录主流网站，爬取一些需要的数据相关推荐

最新文章

热门文章