python下载整个网站_python – Selenium下载整个HTML

我一直在尝试使用硒来刮擦整个网页.我希望它们中至少有一小部分是水疗中心,如Angular,React,Vue,所以这就是我使用Selenium的原因.

我需要下载整个页面(如果某些内容没有从延迟加载加载,因为没有向下滚动,这很好).我试过设置time.sleep()延迟,但是没有用.在我得到页面之后,我希望将其哈希并将其存储在数据库中以便稍后进行比较,并检查内容是否已更改.目前,散列每次都不同,这是因为每次缺少不同的部分数量时,selenium不会下载整个页面.我已经在几个网页上证实了这一点,而不仅仅是一个单一的网页.

我也可能有1000个网页通过手工获取所有链接所以我没有时间在它们上找到一个元素以确保它被加载.

这个过程需要多长时间并不重要.如果需要1个小时,那么速度并不重要,只有准确性.

如果您有其他想法,请分享.

我的司机声明

from selenium import webdriver

from selenium.common.exceptions import WebDriverException

driverPath = '/usr/lib/chromium-browser/chromedriver'

def create_web_driver():

options = webdriver.ChromeOptions()

options.add_argument('headless')

# set the window size

options.add_argument('window-size=1200x600')

# try to initalize the driver

try:

driver = webdriver.Chrome(executable_path=driverPath, chrome_options=options)

except WebDriverException:

print("failed to start driver at path: " + driverPath)

return driver

我的网址叫我超时= 20

driver.get(url)

time.sleep(timeout)

content = driver.page_source

content = content.encode('utf-8')

hashed_content = hashlib.sha512(content).hexdigest()

^每次得到不同的哈希,因为相同的网址不生成相同的网页

最佳答案由于受测试的应用程序(AUT)基于Angular,React,Vue,在这种情况下Selenium似乎是完美的选择.

现在,因为你没有从延迟加载加载某些内容这一事实,因为没有滚动使得用例可行.但是在所有可能的方面……没有时间在它们上面找到一个元素以确保它被加载…无法真正补偿导致time.sleep(),因为time.sleep()有一定的缺点.您可以在How to sleep webdriver in python for milliseconds中找到详细的讨论.值得一提的是,对于所有1000多个网页,HTML DOM的状态将有所不同.

解

一些可行的解决方案：

>页面标题

>另一个解决方案是调整功能pageLoadStrategy.您可以将所有1000个奇数网页的pageLoadStrategy设置为公共点,分配值：

>正常(整页加载)

>渴望(互动)

>没有

如果你实现了pageLoadStrategy,那么page_source方法将在同一个跳转点被触发,你可能会看到相同的hashed_content.

python下载整个网站_python – Selenium下载整个HTML相关推荐

python实现视频网站_python实现各大视频网站电影下载
一.前期准备有时候我们想下载自己喜欢的电影,但很多时候要么需要安装客户端才能下载,或者干脆不提供下载的服务,很是不爽, 因此这里我们介绍使用python来实现网站的电影下载功能,凡是能在线观看的,都 ...
python下载整个网站_python 下载整个网站 | 学步园
用python实现的下载整个网站工具. 核心流程很简单: 1. 输入网站地址 2. url,得到响应的内容. 3. 根据响应的http报文头,如果类型为html, 则从第4步开始执行.如果是其它类型, ...
python免费下载及安装_Python的下载及安装
Python下载可以在百度查找"Python下载": 或者直接搜索此网址:https://www.python.org/getit/ 在官网有python2和python3可供选择 ...
python下载vip素材_Python素材下载爬虫，多线程rar下载爬虫
一个多线程素材下载爬虫,实现多线程素材下载,包含素材包rar,素材图及素材描述,应用了经典的生产者与消费者模式,不过数据没有下载全,容易出现卡死的问题,期待后期能够解决相关问题,可以算是一个半成品,供 ...
python 日历控件_python selenium 处理时间日期控件（十六）
测试过程中经常遇到时间控件,需要我们来选择日期,一般处理时间控件通过层级定位来操作或者通过调用js来实现. 1.首先我们看一下如何通过层级定位来操作时间控件. 通过示例图可以看到,日期控件是无法输入日 ...
python自动化流程概念_python selenium 自动化流程的一些总结与思考
首先要考虑的项目为什么要做自动化测试?(主要从自动化测试的优点着手) 其次是什么项目才适合做自动化测试? 自动化测试覆盖率要达到什么样的程度?因为都知道不可能达到100%的,不然脚本太臃肿,反而会失去 ...
python自动投递简历_python selenium 实现简历自动刷新
1 安装Python 和 selenium (1)下载Python 官网地址: https://www.python.org/ftp/python/3.6.8/python-3.6.8-amd64.e ...
python海龟图画龙珠_Python selenium+webdriver 实战龙珠直播
selenium是一个自动化的web应用测试工具,直接可以运行在浏览器中模拟用户进行操作,有点类似于机器人,可以模拟用户进行点击,登陆,输入等操作. webdriver可以看成是驱动器,用来驱动我们的 ...
python爬音乐网站_python爬虫-爬取高逼格音乐网站《落网》
关于落网,一个高逼格的音乐网站,是很多文艺青年经常逛的网站.经常下载落网音乐到本地,一首一首的下载十分的痛苦.最近刚好在学习python爬虫的东西,刚好把落网音乐的爬取当做一个练习项目来实践(IT从 ...

python下载整个网站_python – Selenium下载整个HTML

python下载整个网站_python – Selenium下载整个HTML相关推荐

最新文章

热门文章