解决selenium模拟浏览器爬取（淘宝、微博等需要登陆验证的网站）多次登陆问题

在爬取淘宝等需要登陆的网站时，模拟点击打开新的页面往往需要重新登陆，这时可以通过采用本地打开一个浏览器，设置监听端口，在该端口下模拟浏览器，这样浏览器会记住所有的用户行为，只要登陆过一次就不必重复登录。

（本文采用chrome，chromedriver，pycharm工具）

首先，需要找到浏览器的位置，右键点击chrome.exe图标，选择属性，将地址复制下来

用cmd命令打开命令提示符，切换到上一步复制的地址，然后在本地9222端口下打开浏览器，命令如下：

chrome.exe --remote-debugging-port=9222

就会自动打开chrome，在地址栏输入

127.0.0.1:9222/json

如果有内容说明监听成功，如果没显示内容，检查是否打开其他的chrome

接下来在python代码中模拟浏览器，代码如下：

from selenium.webdriver.chrome.options import Options
chrome_option=Options()
chrome_option.add_argument("--disable-extensions")
chrome_option.add_experimental_option("debuggerAddress", "127.0.0.1:9222")
# path为chromedriver的路径
browser = webdriver.Chrome(executable_path="path",chrome_options=chrome_option)
# url 为需要爬取的网址
browser.get(url)

程序就会在打开的浏览器下打开需要爬取的网址，并且只需要登陆一次，就不必多次登录

如果想实现静默状态下，即不显示浏览器界面，可添加参数

chrome_option.add_argument('headless')

解决selenium模拟浏览器爬取（淘宝、微博等需要登陆验证的网站）多次登陆问题相关推荐

Python爬虫实战03：用Selenium模拟浏览器爬取淘宝美食
1 目标站点分析淘宝页面信息很复杂的,含有各种请求参数和加密参数,如果直接请求或者分析Ajax请求的话会很繁琐.所以我们可以用Selenium来驱动浏览器模拟点击来爬取淘宝的信息.这样我们只要关系操 ...
用selenium模拟浏览器爬取淘宝订单信息
用selenium模拟浏览器登录淘宝爬取自己购买商品的订单信息,代码不是十分完善,但是亲测可用,后期还可以进一步优化. 链接:https://pan.baidu.com/s/1aGwWCFaWPfOU ...
python爬虫：Selenium模拟浏览器爬取淘宝商品信息
1.数据提取前期网页分析分析:淘宝网页数据也是通过Ajax技术获取的,但是淘宝的API接口参数比较复杂,可能包含加密密匙等参数:所以,想要通过自己构造API接口获取完整网页信息很难实现(可能只有部分 ...
3.使用Selenium模拟浏览器抓取淘宝商品美食信息
# 使用selenium+phantomJS模拟浏览器爬取淘宝商品信息 # 思路: # 第一步:利用selenium驱动浏览器,搜索商品信息,得到商品列表 # 第二步:分析商品页数,驱动浏览器翻页,并 ...
Python爬虫：Selenium模拟Chrome浏览器爬取淘宝商品信息
对于采用异步加载技术的网页,有时候想通过逆向工程的方式来设计爬虫进行爬取会比较困难,因此,要想通过python获取异步加载数据往往可以使用Selenium模拟浏览器的方式来获取. Selenium是一 ...
Python使用selenium模拟浏览器爬取某查查数据
在使用爬虫爬取某查查的数据的时候,会被识别到,进行反爬限制,最后使用selenium模拟浏览器进行爬取. 这里解决办法主要使用selenium打开浏览器,模拟人操作进行爬取,代码: ua = 'Moz ...
模拟浏览器抓取淘宝书籍数据
淘宝的html是动态加载的,直接用requests请求并不能找到想要的数据,这里用selenium库模拟浏览器登录并操作导库 from selenium import webdriver 淘宝的ur ...
python模拟登录爬取数据_python 模拟登录爬取淘宝数据
淘宝现在需要登录才能爬取搜索商品,首先在登录页面登录chrome F12 开发者模式抓包登录请求发现有一个post请求,这个就是登录的请求了,看下面的from data 登录信息由from da ...
selenium模拟浏览器-----爬取马蜂窝地区全部景点
为什么使用selenium 在前面的文章中,我们了解了Ajax的分析和爬取方式,但是,对于参数加密复杂的网页来说,用之前构造请求头的方法来爬取数据未免显得困难,所以这里我们选择了使用selenium. ...

解决selenium模拟浏览器爬取（淘宝、微博等需要登陆验证的网站）多次登陆问题

（本文采用chrome，chromedriver，pycharm工具）

首先，需要找到浏览器的位置，右键点击chrome.exe图标，选择属性，将地址复制下来

用cmd命令打开命令提示符，切换到上一步复制的地址，然后在本地9222端口下打开浏览器，命令如下：

就会自动打开chrome，在地址栏输入

如果有内容说明监听成功，如果没显示内容，检查是否打开其他的chrome

接下来在python代码中模拟浏览器，代码如下：

程序就会在打开的浏览器下打开需要爬取的网址，并且只需要登陆一次，就不必多次登录

解决selenium模拟浏览器爬取（淘宝、微博等需要登陆验证的网站）多次登陆问题相关推荐

最新文章

热门文章