解决selenium模拟浏览器爬取(淘宝、微博等需要登陆验证的网站)多次登陆问题
在爬取淘宝等需要登陆的网站时,模拟点击打开新的页面往往需要重新登陆,这时可以通过采用本地打开一个浏览器,设置监听端口,在该端口下模拟浏览器,这样浏览器会记住所有的用户行为,只要登陆过一次就不必重复登录。
(本文采用chrome,chromedriver,pycharm工具)
首先,需要找到浏览器的位置,右键点击chrome.exe图标,选择属性,将地址复制下来
用cmd命令打开命令提示符,切换到上一步复制的地址,然后在本地9222端口下打开浏览器,命令如下:
chrome.exe --remote-debugging-port=9222
就会自动打开chrome,在地址栏输入
127.0.0.1:9222/json
如果有内容说明监听成功,如果没显示内容,检查是否打开其他的chrome
接下来在python代码中模拟浏览器,代码如下:
from selenium.webdriver.chrome.options import Options
chrome_option=Options()
chrome_option.add_argument("--disable-extensions")
chrome_option.add_experimental_option("debuggerAddress", "127.0.0.1:9222")
# path为chromedriver的路径
browser = webdriver.Chrome(executable_path="path",chrome_options=chrome_option)
# url 为需要爬取的网址
browser.get(url)
程序就会在打开的浏览器下打开需要爬取的网址,并且只需要登陆一次,就不必多次登录
如果想实现静默状态下,即不显示浏览器界面,可添加参数
chrome_option.add_argument('headless')
解决selenium模拟浏览器爬取(淘宝、微博等需要登陆验证的网站)多次登陆问题相关推荐
- Python爬虫实战03:用Selenium模拟浏览器爬取淘宝美食
1 目标站点分析 淘宝页面信息很复杂的,含有各种请求参数和加密参数,如果直接请求或者分析Ajax请求的话会很繁琐.所以我们可以用Selenium来驱动浏览器模拟点击来爬取淘宝的信息.这样我们只要关系操 ...
- 用selenium模拟浏览器爬取淘宝订单信息
用selenium模拟浏览器登录淘宝爬取自己购买商品的订单信息,代码不是十分完善,但是亲测可用,后期还可以进一步优化. 链接:https://pan.baidu.com/s/1aGwWCFaWPfOU ...
- python爬虫:Selenium模拟浏览器爬取淘宝商品信息
1.数据提取前期网页分析 分析:淘宝网页数据也是通过Ajax技术获取的,但是淘宝的API接口参数比较复杂,可能包含加密密匙等参数:所以,想要通过自己构造API接口获取完整网页信息很难实现(可能只有部分 ...
- 3.使用Selenium模拟浏览器抓取淘宝商品美食信息
# 使用selenium+phantomJS模拟浏览器爬取淘宝商品信息 # 思路: # 第一步:利用selenium驱动浏览器,搜索商品信息,得到商品列表 # 第二步:分析商品页数,驱动浏览器翻页,并 ...
- Python爬虫:Selenium模拟Chrome浏览器爬取淘宝商品信息
对于采用异步加载技术的网页,有时候想通过逆向工程的方式来设计爬虫进行爬取会比较困难,因此,要想通过python获取异步加载数据往往可以使用Selenium模拟浏览器的方式来获取. Selenium是一 ...
- Python使用selenium模拟浏览器爬取某查查数据
在使用爬虫爬取某查查的数据的时候,会被识别到,进行反爬限制,最后使用selenium模拟浏览器进行爬取. 这里解决办法主要使用selenium打开浏览器,模拟人操作进行爬取,代码: ua = 'Moz ...
- 模拟浏览器抓取淘宝书籍数据
淘宝的html是动态加载的,直接用requests请求并不能找到想要的数据,这里用selenium库模拟浏览器登录并操作 导库 from selenium import webdriver 淘宝的ur ...
- python模拟登录爬取数据_python 模拟登录爬取淘宝数据
淘宝现在需要登录才能爬取搜索商品,首先在登录页面登录chrome F12 开发者模式抓包 登录请求 发现有一个post请求,这个就是登录的请求了,看下面的from data 登录信息 由from da ...
- selenium模拟浏览器-----爬取马蜂窝地区全部景点
为什么使用selenium 在前面的文章中,我们了解了Ajax的分析和爬取方式,但是,对于参数加密复杂的网页来说,用之前构造请求头的方法来爬取数据未免显得困难,所以这里我们选择了使用selenium. ...
最新文章
- 算法设计与分析第4章 动态规划(一)【背包问题】
- 文件上传 java web_JavaWeb 文件上传下载
- python批量下载文件-python使用selenium实现批量文件下载
- 深度解析dba_segments和sys.seg$中的细节差异(下)
- webstorm前端常用快捷键
- 大话知识图谱--构建知识图谱第一步定义数据模型
- java爬取网页并保存_Java结合WebMagic实现网页内容爬取
- 独家:为了永不停机的计算服务 - 四月月刊 | 凌云时刻
- 水稻PHP基因,科学网—和驯化相关的水稻基因 - 闫双勇的博文
- 杭州电子科技大学计算机学硕复试,杭州电子科技大学2020年研究生复试常见问题解答...
- vue3的生命周期函数
- SCAR:Scalable Consensus Algorithm 灵活共识算法
- erlang httpc
- 地质勘查项目管理困难重重,需要专业软件来解决
- 在数控机床上加工零件,主要取决于加工程序
- 51单片机:LED流水灯(仿真+代码)
- 珍藏资源,msdn2001英文版
- 梯度裁剪Grandient Clipping
- python如何求矩阵逆运算_Sympy复矩阵求逆/运算
- java计算机毕业设计高校实习实训管理系统MyBatis+系统+LW文档+源码+调试部署
热门文章
- python头像右上角加红色数字_Python初学:将你的 QQ 头像(或者微博头像)右上角加上红色的数字,类似于微信未读信息数量那种提示效果。...
- 修改docker内kafka的topic日志路径,修改server.properties的log.dirs参数
- 视频电警帮助手册_V3.0.0.0
- Java开发常用软件与辅助工具
- 仅用一个微处理器管脚驱动两个低静态电流的LED
- 如何做好顾问咨询工作
- Github网页版使用新手教程
- 升降衣柜-自动控制(基于STC89C52单片机,步进电机)
- 获取openwrt wan口ip方法
- 字节Java高工面试:java时间戳是毫秒还是秒