在爬取淘宝等需要登陆的网站时,模拟点击打开新的页面往往需要重新登陆,这时可以通过采用本地打开一个浏览器,设置监听端口,在该端口下模拟浏览器,这样浏览器会记住所有的用户行为,只要登陆过一次就不必重复登录。

(本文采用chrome,chromedriver,pycharm工具)

首先,需要找到浏览器的位置,右键点击chrome.exe图标,选择属性,将地址复制下来

用cmd命令打开命令提示符,切换到上一步复制的地址,然后在本地9222端口下打开浏览器,命令如下:

chrome.exe --remote-debugging-port=9222

就会自动打开chrome,在地址栏输入

127.0.0.1:9222/json

如果有内容说明监听成功,如果没显示内容,检查是否打开其他的chrome

接下来在python代码中模拟浏览器,代码如下:

from selenium.webdriver.chrome.options import Options
chrome_option=Options()
chrome_option.add_argument("--disable-extensions")
chrome_option.add_experimental_option("debuggerAddress", "127.0.0.1:9222")
# path为chromedriver的路径
browser = webdriver.Chrome(executable_path="path",chrome_options=chrome_option)
# url 为需要爬取的网址
browser.get(url)

程序就会在打开的浏览器下打开需要爬取的网址,并且只需要登陆一次,就不必多次登录

如果想实现静默状态下,即不显示浏览器界面,可添加参数

chrome_option.add_argument('headless')

解决selenium模拟浏览器爬取(淘宝、微博等需要登陆验证的网站)多次登陆问题相关推荐

  1. Python爬虫实战03:用Selenium模拟浏览器爬取淘宝美食

    1 目标站点分析 淘宝页面信息很复杂的,含有各种请求参数和加密参数,如果直接请求或者分析Ajax请求的话会很繁琐.所以我们可以用Selenium来驱动浏览器模拟点击来爬取淘宝的信息.这样我们只要关系操 ...

  2. 用selenium模拟浏览器爬取淘宝订单信息

    用selenium模拟浏览器登录淘宝爬取自己购买商品的订单信息,代码不是十分完善,但是亲测可用,后期还可以进一步优化. 链接:https://pan.baidu.com/s/1aGwWCFaWPfOU ...

  3. python爬虫:Selenium模拟浏览器爬取淘宝商品信息

    1.数据提取前期网页分析 分析:淘宝网页数据也是通过Ajax技术获取的,但是淘宝的API接口参数比较复杂,可能包含加密密匙等参数:所以,想要通过自己构造API接口获取完整网页信息很难实现(可能只有部分 ...

  4. 3.使用Selenium模拟浏览器抓取淘宝商品美食信息

    # 使用selenium+phantomJS模拟浏览器爬取淘宝商品信息 # 思路: # 第一步:利用selenium驱动浏览器,搜索商品信息,得到商品列表 # 第二步:分析商品页数,驱动浏览器翻页,并 ...

  5. Python爬虫:Selenium模拟Chrome浏览器爬取淘宝商品信息

    对于采用异步加载技术的网页,有时候想通过逆向工程的方式来设计爬虫进行爬取会比较困难,因此,要想通过python获取异步加载数据往往可以使用Selenium模拟浏览器的方式来获取. Selenium是一 ...

  6. Python使用selenium模拟浏览器爬取某查查数据

    在使用爬虫爬取某查查的数据的时候,会被识别到,进行反爬限制,最后使用selenium模拟浏览器进行爬取. 这里解决办法主要使用selenium打开浏览器,模拟人操作进行爬取,代码: ua = 'Moz ...

  7. 模拟浏览器抓取淘宝书籍数据

    淘宝的html是动态加载的,直接用requests请求并不能找到想要的数据,这里用selenium库模拟浏览器登录并操作 导库 from selenium import webdriver 淘宝的ur ...

  8. python模拟登录爬取数据_python 模拟登录爬取淘宝数据

    淘宝现在需要登录才能爬取搜索商品,首先在登录页面登录chrome F12 开发者模式抓包 登录请求 发现有一个post请求,这个就是登录的请求了,看下面的from data 登录信息 由from da ...

  9. selenium模拟浏览器-----爬取马蜂窝地区全部景点

    为什么使用selenium 在前面的文章中,我们了解了Ajax的分析和爬取方式,但是,对于参数加密复杂的网页来说,用之前构造请求头的方法来爬取数据未免显得困难,所以这里我们选择了使用selenium. ...

最新文章

  1. 算法设计与分析第4章 动态规划(一)【背包问题】
  2. 文件上传 java web_JavaWeb 文件上传下载
  3. python批量下载文件-python使用selenium实现批量文件下载
  4. 深度解析dba_segments和sys.seg$中的细节差异(下)
  5. webstorm前端常用快捷键
  6. 大话知识图谱--构建知识图谱第一步定义数据模型
  7. java爬取网页并保存_Java结合WebMagic实现网页内容爬取
  8. 独家:为了永不停机的计算服务 - 四月月刊 | 凌云时刻
  9. 水稻PHP基因,科学网—和驯化相关的水稻基因 - 闫双勇的博文
  10. 杭州电子科技大学计算机学硕复试,杭州电子科技大学2020年研究生复试常见问题解答...
  11. vue3的生命周期函数
  12. SCAR:Scalable Consensus Algorithm 灵活共识算法
  13. erlang httpc
  14. 地质勘查项目管理困难重重,需要专业软件来解决
  15. 在数控机床上加工零件,主要取决于加工程序
  16. 51单片机:LED流水灯(仿真+代码)
  17. 珍藏资源,msdn2001英文版
  18. 梯度裁剪Grandient Clipping
  19. python如何求矩阵逆运算_Sympy复矩阵求逆/运算
  20. java计算机毕业设计高校实习实训管理系统MyBatis+系统+LW文档+源码+调试部署

热门文章

  1. python头像右上角加红色数字_Python初学:将你的 QQ 头像(或者微博头像)右上角加上红色的数字,类似于微信未读信息数量那种提示效果。...
  2. 修改docker内kafka的topic日志路径,修改server.properties的log.dirs参数
  3. 视频电警帮助手册_V3.0.0.0
  4. Java开发常用软件与辅助工具
  5. 仅用一个微处理器管脚驱动两个低静态电流的LED
  6. 如何做好顾问咨询工作
  7. Github网页版使用新手教程
  8. 升降衣柜-自动控制(基于STC89C52单片机,步进电机)
  9. 获取openwrt wan口ip方法
  10. 字节Java高工面试:java时间戳是毫秒还是秒