python 爬虫网页登陆

相信各位在写python爬虫的时候会在爬取网站时遇到一些登陆的问题，比如说登陆时遇到输入验证码比如说登录时遇到图片拖拽等验证，如何解决这类问题呢？一般有两种方案。
使用cookie登陆
我们可以通过使用cookies登陆，首先获取浏览器的cookie，然后利用requests 库直接登陆cookie，服务器就会认为你是一个真实登陆用户，所以就会返回给你一个已登陆的状态，这个方法是很好用的，基本上绝大部分的需要验证码登录的网站都可以通过cookie登录来解决，

 #! -*- encoding:utf-8 -*-import requestsimport randomimport requests.adapters# 要访问的目标页面targetUrlList = ["https://httpbin.org/ip","https://httpbin.org/headers","https://httpbin.org/user-agent",]# 代理服务器proxyHost = "t.16yun.cn"proxyPort = "31111"# 代理隧道验证信息proxyUser = "username"proxyPass = "password"proxyMeta = "http://%(user)s:%(pass)s@%(host)s:%(port)s" % {"host": proxyHost,"port": proxyPort,"user": proxyUser,"pass": proxyPass,}# 设置 http和https访问都是用HTTP代理proxies = {"http": proxyMeta,"https": proxyMeta,}# 访问三次网站，使用相同的Session(keep-alive)，均能够保持相同的外网IPs = requests.session()# 设置cookiecookie_dict = {"JSESSION":"123456789"}cookies = requests.utils.cookiejar_from_dict(cookie_dict, cookiejar=None, overwrite=True)s.cookies = cookiesfor i in range(3):for url in targetUrlList:r = s.get(url, proxies=proxies)print r.text

若存在验证码，此时采用resp**e = requests_session.post(url=url_login, data=data)是不行的，做法应该如下：

respe_captcha = requests_session.get(url=url_login, cookies=cookies)
respe1 = requests.get(url_login) # 未登陆
respe2 = requests_session.get(url_login) # 已登陆，因为之前拿到了Respe Cookie！
respe3 = requests_session.get(url_results) # 已登陆，因为之前拿到了Respe Cookie！
模拟登陆
这里不得不说一句老话，前人种树，后人乘凉，当时我想爬一下知乎盐选的文章，但是卡在了登陆这块，没想到搜索下来发现了一个模拟登陆的库，非常好用，不过本着好东西不分享防和谐的原则，就不在这里说了。
具体思路也就是通过requests来进行模拟登陆，然后返回一下验证码，之后传入验证码即可登陆成功了。
其余文章推荐:https://editor.csdn.net/md/?articleId=110286768
https://editor.csdn.net/md/?articleId=110159882
爬取我的世界id

python 爬虫网页登陆相关推荐

硬核来袭！！！一篇文章教你入门Python爬虫网页解析神器——BeautifulSoup详细讲解
文章目录一.BeautifulSoup介绍二.安装三.bs4数据解析的原理四.bs4 常用的方法和属性 1.BeautifulSoup构建 1.1 通过字符串构建 1.2 从文件加载 2.Be ...
python爬虫网页中的图片_Python爬虫爬取一个网页上的图片地址实例代码
本文实例主要是实现爬取一个网页上的图片地址,具体如下. 读取一个网页的源代码: import urllib.request def getHtml(url): html=urllib.request. ...
HTML的学习---为了python爬虫网页
之前学习了xml知识,使用python解析.创建和更改xml文件,现在需要用python爬虫新浪博客的文章,所以进一步学习下HTML. XML 指可扩展标记语言(EXtensible Markup L ...
python爬虫模拟登陆豆瓣
一.简介工具:Google chrome python 爬虫登陆方式一般有两种: 第一种:使用post登陆,即需要输入账号密码等选项, 第二种:使用cookies登陆,即把已登陆好账号的cookie ...
python爬虫网页表格_python网页表格
广告关闭腾讯云11.11云上盛惠 ,精选热门产品助力上云,云服务器首年88元起,买的越多返的越多,最高返5000元! 以网页表格为例:https:www.kuaidaili.comfree该网站数据 ...
python爬虫模拟登陆腾讯课堂
根据腾讯课堂网页登陆问题进行解说(需要安装谷歌浏览器): 1.导入库 import requests from selenium import webdriver 2.根据腾讯课堂链接,进入页面,获取 ...
python爬虫——模拟登陆
参考链接:https://blog.csdn.net/weixin_39875941/article/details/109878457 模拟登陆 Python网络爬虫应用十分广泛,但是有些网页需要用 ...
python爬虫网页中的图片_Python爬取网页中的图片（搜狗图片）详解
前言最近几天,研究了一下一直很好奇的爬虫算法.这里写一下最近几天的点点心得.下面进入正文: 你可能需要的工作环境: 我们这里以sogou作为爬取的对象. 首先我们进入搜狗图片http://pic.s ...
python爬虫+网页版微信实时获取消息程序
项目需求: 目的是24小时爬取各种软件的讯息并且以一种统一的方式集中发送给自己. 实现方法: 利用python的requests库以及wxpy库,前者用来爬取网页,后者用来将爬到的内容发送给自己. 程 ...

python 爬虫网页登陆

python 爬虫网页登陆相关推荐

最新文章

热门文章