相信各位在写python爬虫的时候会在爬取网站时遇到一些登陆的问题,比如说登陆时遇到输入验证码比如说登录时遇到图片拖拽等验证,如何解决这类问题呢?一般有两种方案。
使用cookie登陆
我们可以通过使用cookies登陆,首先获取浏览器的cookie,然后利用requests 库直接登陆cookie,服务器就会认为你是一个真实登陆用户,所以就会返回给你一个已登陆的状态,这个方法是很好用的,基本上绝大部分的需要验证码登录的网站都可以通过cookie登录来解决,

 #! -*- encoding:utf-8 -*-import requestsimport randomimport requests.adapters# 要访问的目标页面targetUrlList = ["https://httpbin.org/ip","https://httpbin.org/headers","https://httpbin.org/user-agent",]# 代理服务器proxyHost = "t.16yun.cn"proxyPort = "31111"# 代理隧道验证信息proxyUser = "username"proxyPass = "password"proxyMeta = "http://%(user)s:%(pass)s@%(host)s:%(port)s" % {"host": proxyHost,"port": proxyPort,"user": proxyUser,"pass": proxyPass,}# 设置 http和https访问都是用HTTP代理proxies = {"http": proxyMeta,"https": proxyMeta,}# 访问三次网站,使用相同的Session(keep-alive),均能够保持相同的外网IPs = requests.session()# 设置cookiecookie_dict = {"JSESSION":"123456789"}cookies = requests.utils.cookiejar_from_dict(cookie_dict, cookiejar=None, overwrite=True)s.cookies = cookiesfor i in range(3):for url in targetUrlList:r = s.get(url, proxies=proxies)print r.text

若存在验证码,此时采用resp**e = requests_session.post(url=url_login, data=data)是不行的,做法应该如下:

respe_captcha = requests_session.get(url=url_login, cookies=cookies)
resp
e1 = requests.get(url_login) # 未登陆
respe2 = requests_session.get(url_login) # 已登陆,因为之前拿到了Respe Cookie!
respe3 = requests_session.get(url_results) # 已登陆,因为之前拿到了Respe Cookie!
模拟登陆
这里不得不说一句老话,前人种树,后人乘凉,当时我想爬一下知乎盐选的文章,但是卡在了登陆这块,没想到搜索下来发现了一个模拟登陆的库,非常好用,不过本着好东西不分享防和谐的原则,就不在这里说了。
具体思路也就是通过requests来进行模拟登陆,然后返回一下验证码,之后传入验证码即可登陆成功了。
其余文章推荐:https://editor.csdn.net/md/?articleId=110286768
https://editor.csdn.net/md/?articleId=110159882
爬取我的世界id

python 爬虫网页登陆相关推荐

  1. 硬核来袭!!!一篇文章教你入门Python爬虫网页解析神器——BeautifulSoup详细讲解

    文章目录 一.BeautifulSoup介绍 二.安装 三.bs4数据解析的原理 四.bs4 常用的方法和属性 1.BeautifulSoup构建 1.1 通过字符串构建 1.2 从文件加载 2.Be ...

  2. python爬虫网页中的图片_Python爬虫爬取一个网页上的图片地址实例代码

    本文实例主要是实现爬取一个网页上的图片地址,具体如下. 读取一个网页的源代码: import urllib.request def getHtml(url): html=urllib.request. ...

  3. HTML的学习---为了python爬虫网页

    之前学习了xml知识,使用python解析.创建和更改xml文件,现在需要用python爬虫新浪博客的文章,所以进一步学习下HTML. XML 指可扩展标记语言(EXtensible Markup L ...

  4. python爬虫模拟登陆豆瓣

    一.简介 工具:Google chrome python 爬虫登陆方式一般有两种: 第一种:使用post登陆,即需要输入账号密码等选项, 第二种:使用cookies登陆,即把已登陆好账号的cookie ...

  5. python爬虫网页表格_python网页表格

    广告关闭 腾讯云11.11云上盛惠 ,精选热门产品助力上云,云服务器首年88元起,买的越多返的越多,最高返5000元! 以网页表格为例:https:www.kuaidaili.comfree该网站数据 ...

  6. python爬虫模拟登陆腾讯课堂

    根据腾讯课堂网页登陆问题进行解说(需要安装谷歌浏览器): 1.导入库 import requests from selenium import webdriver 2.根据腾讯课堂链接,进入页面,获取 ...

  7. python爬虫——模拟登陆

    参考链接:https://blog.csdn.net/weixin_39875941/article/details/109878457 模拟登陆 Python网络爬虫应用十分广泛,但是有些网页需要用 ...

  8. python爬虫网页中的图片_Python爬取网页中的图片(搜狗图片)详解

    前言 最近几天,研究了一下一直很好奇的爬虫算法.这里写一下最近几天的点点心得.下面进入正文: 你可能需要的工作环境: 我们这里以sogou作为爬取的对象. 首先我们进入搜狗图片http://pic.s ...

  9. python爬虫+网页版微信实时获取消息程序

    项目需求: 目的是24小时爬取各种软件的讯息并且以一种统一的方式集中发送给自己. 实现方法: 利用python的requests库以及wxpy库,前者用来爬取网页,后者用来将爬到的内容发送给自己. 程 ...

最新文章

  1. 营救Peter——下载XCode的六种姿势
  2. [***]沙雕低错集
  3. android Arrays.fill()的使用
  4. HttpContext 来源(System.Web.HttpContext.Current值为null的问题)
  5. javascript base64加密解密
  6. http accept字段有用吗_http协议(六)报文首部
  7. psv无线怎么连接电脑连接服务器,如何使用PSV远程操作电脑 PSVITA REMOTE DESKTOP详细教程...
  8. 阿里P6、P7、P8、级别需要多少年的工作经验,还是因能力而定?
  9. CATIA二次开发过程中几个问题
  10. Codeforces 645D Robot Rapping Results Report【拓扑排序+二分】
  11. 2020用户行为分析领域最具商业合作价值企业盘点
  12. 在以太坊开发自己的ERC-20代币及如何ICO
  13. TAElectronic-车辆电子电器模型库
  14. Flutter自定义Widget之炫酷粒子时钟效果
  15. Android尺子布局和自定义TextView
  16. python折叠代码_Python实现代码块儿折叠
  17. kaggle竞赛 使用TPU对104种花朵进行分类 第二十一次尝试 99.9%准确率 中文注释【深度学习TPU+Keras+Tensorflow+EfficientNetB7】
  18. java出现次数最多的字母_关于Java:查找字母中每个字母出现次数最多的单词
  19. 飞机大战python小游戏
  20. vscode配置c++代码提示补全

热门文章

  1. 计算机底层:计算机层次结构(高级语言到低级语言的简单概述)
  2. 新睿云云服务器稳定吗,新睿云云主机评测—用数据告诉您“新睿云”为何这么受欢迎...
  3. 你的程序运行使用了多少CPU,秒知!
  4. 广东省高校人工智能产教融合院长研讨会召开,校企协同探索AI教育新范式
  5. python set函数 返回排序_Python排序函数的使用方法详解
  6. 我身边的高T,问了Java面试者这样的问题......
  7. iPhone苹果手机微信读书付费会员卡连续包月怎么取消关闭订阅?
  8. vue 和 微信小程序的区别
  9. yolov5训练高精度非机动车驾驶检测
  10. 技术沙龙|风口之下,经验丰富的“传统开发者”要不要转型区块链开发?(西安)...