网页爬虫实例一（网页截屏）

测试网站页面，往往是考验测试眼力的时候，大多数情况都要打开网站页面对着原型图一点点比对。如果碰到网页加载太慢或者需要测试兼容性的时候很是心累，如果可以利用程序自动将对应的网页截图，然后直接拿着原型跟截图比对呢，会不会稍微好一些呢？

以下就是我个人写的网页爬虫小程序，程序主要是获取某网页链接及其页面中的所有有效链接，并将有效链接打开的页面截图保存到指定目录中

coding=utf-8
import requests
from selenium import webdriver
import os,time,re
#获取搜狐网页所有有效链接，并将链接到的页面截图保存到指定目录中
class PS_sohu(object):def __init__(self,path):self.driver=webdriver.Firefox()if os.path.exists(path):os.chdir(path)else:os.mkdir(path)os.chdir(path)#获取搜狐网页所有的有效链接
    def get_valid_link(self,url):response=requests.get(url)all_links=re.findall(r'href="(.*?)"',response.text)valid_links=[]#筛选出有效链接
        for link in list(set(all_links)):if re.search(r'(\.css)',link):continue
            elif link.find('javascript')!=-1 or link.find('mailto')!=-1:continue
            elif link.strip()==''or link.strip()=='#'or link.strip()=='/':continue
            elif link.startswith('//'):link='http:'+linkvalid_links.append(link.strip())else:valid_links.append(link.strip())return valid_links#得到有效链接的截图
    def get_picture(self,url_list):for url in url_list:try:self.driver.set_page_load_timeout(10)#设置网页加载超时时间为10秒
                self.driver.get(url)self.driver.get_screenshot_as_file('%d.png'%time.time())#截取网页内容，已当前时间戳为图片命名保存
                print self.driver.current_url#打印当前网页地址
            except:s= u'当前网页超时：%s\n' %url#将超时的网站保存到文件中
                with open('test.txt','a') as f:f.write(s)print sdef quit(self):self.driver.quit()
if __name__=="__main__":path=r'd:\dd\a'
    url='http://www.xxx.com'
    ps_sh=PS_sohu(path)valid_links=ps_sh.get_valid_link(url)s_time=time.time()ps_sh.get_picture(valid_links)print '用时：%d'%(time.time()-s_time)ps_sh.quit()

网页爬虫实例一（网页截屏）相关推荐

【截取整个网页】Chrome浏览器快速截屏，高清截图
Chrome版本78,window 10系统第一步:打开 Chrome 浏览器,输入网址,例如输入网址:https://www.golianghao.com. 第二步:Ctrl + shift + ...
python3.4.4实现网页爬虫基础之网页下载器三种方法
这是是慕课网<Python开发简单爬虫>中网页下载器的三种实现方法,课程用的是python2.7,这里用最新的3.4.4实现出来,分享给新人: import urllib.request ...
python爬取豆瓣电影排行前250获取电影名称和网络链接[静态网页]————爬虫实例（1）
目录 1.算法原理: 2.程序流程: 3.程序代码: 4.运行结果(部分结果展示): 5.结果分析: 1.算法原理: (1)利用import命令导入模块或者导入模块中的对象: ①利用requests库 ...
asyncio aiohttp lxml 网页爬虫实例
原因:查看asyncio ,aiohttp 和lxml配合的速度 # coding=utf-8 import asyncio import logging import time from aioht ...
python应用：爬虫实例(静态网页)
爬取起点中文网某本小说实例: 1 # -*-coding:utf8-*- 2 import requests 3 import urllib 4 import urllib2 5 from bs4 i ...
web网页设计实例作业网页Dreamweaver设计
Web前端开发技术描述网页设计题材,DIV+CSS 布局制作,HTML+CSS网页设计期末课程大作业,公司官网网站 | 企业官网 | 酒店官网 | 等网站的设计与制 | HTML期末大学生网页设计 ...
JavaScript实现网页截屏方法总结
" 关注『前端开发博客』公众号,回复加群 " 最近研究了下如何利用JavaScript实现网页截屏,包括在浏览器运行的JS,以及在后台运行的nodeJs的方法.主要看了以下几个: ...
JavaScript 实现网页截屏五种方法
JavaScript 实现网页截屏五种方法最近研究了下如何利用JavaScript实现网页截屏,包括在浏览器运行的JS,以及在后台运行的nodeJs的方法.主要看了以下几个: PhantomJS P ...
JS 实现网页截屏五种方法
最近研究了下如何利用JavaScript实现网页截屏,包括在浏览器运行的JS,以及在后台运行的nodeJs的方法.主要看了以下几个: PhantomJS Puppeteer(chrome headle ...
【JS】1007- JavaScript实现网页截屏的5种方法
作者:luckness 原文:https://segmentfault.com/a/1190000037673677 最近研究了下如何利用JavaScript实现网页截屏,包括在浏览器运行的JS,以及 ...

网页爬虫实例一（网页截屏）

网页爬虫实例一（网页截屏）相关推荐

最新文章

热门文章