用selenium在python下实现批量网页 截图
需要用到的工具是selenium,
引用下百度的解释:
Selenium [1] 是一个用于Web应用程序测试的工具。Selenium测试直接运行在浏览器中,就像真正的用户在操作一样。支持的浏览器包括IE(7, 8, 9, 10, 11),Mozilla Firefox,Safari,Google Chrome,Opera等。这个工具的主要功能包括:测试与浏览器的兼容性——测试你的应用程序看是否能够很好得工作在不同浏览器和操作系统之上。测试系统功能——创建回归测试检验软件功能和用户需求。支持自动录制动作和自动生成 .Net、Java、Perl等不同语言的测试脚本。
demo代码如下,python写的
import os
from selenium import webdriverc=0
delay=1 #网页打开后停留时间,单位是秒
path=os.getcwd()+'/html_dir'files=os.listdir(path)
num=len(files)for c in range(num): fn=str(c)+'.html' tmpurl='file://{path}/{mapfile}'.format(path=path,mapfile=fn)browser=webdriver.Chrome()#browser.set_window_size(960,540) #可设置打开网页窗口大小browser.get(tmpurl)time.sleep(delay)browser.save_screenshot('./pic_of_html/'+str(c)+'.png')browser.quit()
上面的代码实现的是:加入在html_dir文件夹下有名称为1.html, 2.html , 3.html……等总计num个网页文件;使用Chrome浏览器加载然后截图保存到pic_of_html文件夹下,图片命名为:1.png, 2.png ……
除了安装好selenium外,还需要安装浏览器的驱动,比如我这用的是Chrome浏览器,首先需要确定自己使用的Chrome版本,然后下载对应的Chrome 网页驱动。
用selenium在python下实现批量网页 截图相关推荐
- 使用puppeteer 进行批量网页截图
数据来源为一个txt文件 每一行用\t分割后 前面是域名后面是url 域名用来md5后作为截图名 pageSize控制一次最多打开多少个页面 防止网页过多占用内存过多 配置里的'--proxy-ser ...
- Python实现网页截图,附带完整代码
Python实现网页截图,附带完整代码 在现代化的互联网时代,我们经常需要对网页进行截图以便于保存.共享以及其他种种用途.Python是一种功能强大的编程语言,可以帮助我们轻松地实现网页截图功能.本文 ...
- Python利用bs4批量抓取网页图片并下载保存至本地
Python利用bs4批量抓取网页图片并下载保存至本地 使用bs4抓取网页图片,bs4解析比较简单,需要预先了解一些html知识,bs4的逻辑简单,编写难度较低.本例以抓取某壁纸网站中的壁纸为例.(b ...
- python 数据挖掘 网页_使用Selenium和Python进行网页搜刮!
使用Selenium和Python进行网页搜刮! 机器学习助长了当今的技术奇迹,例如无人驾驶汽车,太空飞行,图像和语音识别.但是,一位数据科学专业人员将需要大量数据来构建针对此类业务问题的健壮且可靠的 ...
- Python selenium定位动态下拉框
Python selenium定位动态下拉框 1.下拉框元素需要点击控件才展示 这里可以使用XPAN定位到下拉框,使用driver.find_element(By.XPATH,"路径&quo ...
- linux下使用python截图_linux多线程网页截图-python
上一篇中( linux多线程网页截图-shell ),使用shell多进程对大量的网站截图,大大减少了截图的时间.但慢慢的也发现了这种方式的弊端:每个进程分配的网站数量是相等的,有些进程截图较快,有些 ...
- selenium webdriver (python)的基本用法一
阅在线 AIP 文档: http://selenium.googlecode.com/git/docs/api/py/index.html 目录 一.selenium+python 环境搭建..... ...
- 零基础也能看懂python_零基础也能看懂的Python下载网易云音乐爬虫
Python Selenium(配置方法参照:Selenium配置) Chrome浏览器(其它的也可以,需要进行相应的修改) 解析 以前抓取过网易云网页的朋友可能都清楚网易云有反爬虫策略的,post时 ...
- php如何模拟网页点击按钮,python模拟点击网页按钮如何实现 python模拟点击网页按钮实现方法...
python模拟点击网页按钮如何实现 python模拟点击网页按钮实现方法 本篇文章小编给大家分享一下python模拟点击网页按钮实现方法,小编觉得挺不错的,现在分享给大家供大家参考,有需要的小伙伴们 ...
最新文章
- 今晚20:00 | 港科大郑光廷院士详解人工视觉技术发展及应用
- 如何赋能零售行业数字化转型? SAP从这些方向发力
- CodeForces 66C 	Petya and File System (实现)
- Dynamo分布式系统——「RWN」协议解决多备份数据如何读写来保证数据一致性,而「向量时钟」来保证当读取到多个备份数据的时候,如何判断哪些数据是最新的这种情况...
- Dropbox用户数增速恢复:突破5亿 9个月增加1亿
- 用ANSYS画矩形_用SolidWorks画一个换挡杆防尘罩,此图建了10个基准面,颇为麻烦...
- 360笔试第一题----最强的不一定是最后的赢家
- java批量执行查询sql语句_详解MyBatis直接执行SQL查询及数据批量插入
- java调用支付接口实例_Java 调用支付宝接口
- redis 本机链接服务端命令
- Sql 中的变量使用
- php柱状图html代码,html5生成柱状图(条形图)效果的实例代码
- Eclipse设定文件的默认打开方式
- 【C语言】输出100内素数
- 记录下生活,让人生有点感悟
- mysql 并发 链接失败_瞬发大量并发连接 造成MySQL连接不响应的分析
- 赵神牛的游戏(过程分析与结果分析)
- 自然语言处理中的文本聚类
- 交换机上STP端口角色选举规则
- Nat.Mach.Intell.|如何改进错义突变致病性预测?使用图注意神经网络试试
热门文章
- selenium_Selenium4 Alpha –期望什么?
- win10环境 pip 安装theano(gpu) python3.6
- 地址总线、数据总线和控制总线简述
- Python实战之小说下载神器(二)整本小说下载:看小说不用这个程序,我实在替你感到可惜*(小说爱好者必备)
- Linux 危险的 rm 命令,替换 trash
- PMP考试冲刺敏捷专题
- 多边形画椭圆算法java_运用椭圆画法,45行代码画出随意正多边形
- python页面转图片_网页转图片_技术分享 - SegmentFault 思否
- 四步迅速提高网站百度排名
- python比java好学吗-java为什么比python快?