python 爬虫网页登陆
相信各位在写python爬虫的时候会在爬取网站时遇到一些登陆的问题,比如说登陆时遇到输入验证码比如说登录时遇到图片拖拽等验证,如何解决这类问题呢?一般有两种方案。
使用cookie登陆
我们可以通过使用cookies登陆,首先获取浏览器的cookie,然后利用requests 库直接登陆cookie,服务器就会认为你是一个真实登陆用户,所以就会返回给你一个已登陆的状态,这个方法是很好用的,基本上绝大部分的需要验证码登录的网站都可以通过cookie登录来解决,
#! -*- encoding:utf-8 -*-import requestsimport randomimport requests.adapters# 要访问的目标页面targetUrlList = ["https://httpbin.org/ip","https://httpbin.org/headers","https://httpbin.org/user-agent",]# 代理服务器proxyHost = "t.16yun.cn"proxyPort = "31111"# 代理隧道验证信息proxyUser = "username"proxyPass = "password"proxyMeta = "http://%(user)s:%(pass)s@%(host)s:%(port)s" % {"host": proxyHost,"port": proxyPort,"user": proxyUser,"pass": proxyPass,}# 设置 http和https访问都是用HTTP代理proxies = {"http": proxyMeta,"https": proxyMeta,}# 访问三次网站,使用相同的Session(keep-alive),均能够保持相同的外网IPs = requests.session()# 设置cookiecookie_dict = {"JSESSION":"123456789"}cookies = requests.utils.cookiejar_from_dict(cookie_dict, cookiejar=None, overwrite=True)s.cookies = cookiesfor i in range(3):for url in targetUrlList:r = s.get(url, proxies=proxies)print r.text
若存在验证码,此时采用resp**e = requests_session.post(url=url_login, data=data)是不行的,做法应该如下:
respe_captcha = requests_session.get(url=url_login, cookies=cookies)
respe1 = requests.get(url_login) # 未登陆
respe2 = requests_session.get(url_login) # 已登陆,因为之前拿到了Respe Cookie!
respe3 = requests_session.get(url_results) # 已登陆,因为之前拿到了Respe Cookie!
模拟登陆
这里不得不说一句老话,前人种树,后人乘凉,当时我想爬一下知乎盐选的文章,但是卡在了登陆这块,没想到搜索下来发现了一个模拟登陆的库,非常好用,不过本着好东西不分享防和谐的原则,就不在这里说了。
具体思路也就是通过requests来进行模拟登陆,然后返回一下验证码,之后传入验证码即可登陆成功了。
其余文章推荐:https://editor.csdn.net/md/?articleId=110286768
https://editor.csdn.net/md/?articleId=110159882
爬取我的世界id
python 爬虫网页登陆相关推荐
- 硬核来袭!!!一篇文章教你入门Python爬虫网页解析神器——BeautifulSoup详细讲解
文章目录 一.BeautifulSoup介绍 二.安装 三.bs4数据解析的原理 四.bs4 常用的方法和属性 1.BeautifulSoup构建 1.1 通过字符串构建 1.2 从文件加载 2.Be ...
- python爬虫网页中的图片_Python爬虫爬取一个网页上的图片地址实例代码
本文实例主要是实现爬取一个网页上的图片地址,具体如下. 读取一个网页的源代码: import urllib.request def getHtml(url): html=urllib.request. ...
- HTML的学习---为了python爬虫网页
之前学习了xml知识,使用python解析.创建和更改xml文件,现在需要用python爬虫新浪博客的文章,所以进一步学习下HTML. XML 指可扩展标记语言(EXtensible Markup L ...
- python爬虫模拟登陆豆瓣
一.简介 工具:Google chrome python 爬虫登陆方式一般有两种: 第一种:使用post登陆,即需要输入账号密码等选项, 第二种:使用cookies登陆,即把已登陆好账号的cookie ...
- python爬虫网页表格_python网页表格
广告关闭 腾讯云11.11云上盛惠 ,精选热门产品助力上云,云服务器首年88元起,买的越多返的越多,最高返5000元! 以网页表格为例:https:www.kuaidaili.comfree该网站数据 ...
- python爬虫模拟登陆腾讯课堂
根据腾讯课堂网页登陆问题进行解说(需要安装谷歌浏览器): 1.导入库 import requests from selenium import webdriver 2.根据腾讯课堂链接,进入页面,获取 ...
- python爬虫——模拟登陆
参考链接:https://blog.csdn.net/weixin_39875941/article/details/109878457 模拟登陆 Python网络爬虫应用十分广泛,但是有些网页需要用 ...
- python爬虫网页中的图片_Python爬取网页中的图片(搜狗图片)详解
前言 最近几天,研究了一下一直很好奇的爬虫算法.这里写一下最近几天的点点心得.下面进入正文: 你可能需要的工作环境: 我们这里以sogou作为爬取的对象. 首先我们进入搜狗图片http://pic.s ...
- python爬虫+网页版微信实时获取消息程序
项目需求: 目的是24小时爬取各种软件的讯息并且以一种统一的方式集中发送给自己. 实现方法: 利用python的requests库以及wxpy库,前者用来爬取网页,后者用来将爬到的内容发送给自己. 程 ...
最新文章
- 营救Peter——下载XCode的六种姿势
- [***]沙雕低错集
- android Arrays.fill()的使用
- HttpContext 来源(System.Web.HttpContext.Current值为null的问题)
- javascript base64加密解密
- http accept字段有用吗_http协议(六)报文首部
- psv无线怎么连接电脑连接服务器,如何使用PSV远程操作电脑 PSVITA REMOTE DESKTOP详细教程...
- 阿里P6、P7、P8、级别需要多少年的工作经验,还是因能力而定?
- CATIA二次开发过程中几个问题
- Codeforces 645D Robot Rapping Results Report【拓扑排序+二分】
- 2020用户行为分析领域最具商业合作价值企业盘点
- 在以太坊开发自己的ERC-20代币及如何ICO
- TAElectronic-车辆电子电器模型库
- Flutter自定义Widget之炫酷粒子时钟效果
- Android尺子布局和自定义TextView
- python折叠代码_Python实现代码块儿折叠
- kaggle竞赛 使用TPU对104种花朵进行分类 第二十一次尝试 99.9%准确率 中文注释【深度学习TPU+Keras+Tensorflow+EfficientNetB7】
- java出现次数最多的字母_关于Java:查找字母中每个字母出现次数最多的单词
- 飞机大战python小游戏
- vscode配置c++代码提示补全
热门文章
- 计算机底层:计算机层次结构(高级语言到低级语言的简单概述)
- 新睿云云服务器稳定吗,新睿云云主机评测—用数据告诉您“新睿云”为何这么受欢迎...
- 你的程序运行使用了多少CPU,秒知!
- 广东省高校人工智能产教融合院长研讨会召开,校企协同探索AI教育新范式
- python set函数 返回排序_Python排序函数的使用方法详解
- 我身边的高T,问了Java面试者这样的问题......
- iPhone苹果手机微信读书付费会员卡连续包月怎么取消关闭订阅?
- vue 和 微信小程序的区别
- yolov5训练高精度非机动车驾驶检测
- 技术沙龙|风口之下,经验丰富的“传统开发者”要不要转型区块链开发?(西安)...