scrapy 保存html页面,28.用配合scrapy的方式爬取本地保存的html

使用splash抓取js动态加载的网页，输出网页源代码，以html的格式保存到本地，然后编写个py文件抓取自己想要的信息，又希望自己的抓取方式能够复用到scrapy-splash爬虫项目项目中。

可以使用下面的方式抓取本地的html文件：

# -*- coding: utf-8 -*-

# @AuThor : frank_lee

from scrapy.selector import Selector

htmlfile = open("zfcaigou.html", 'r', encoding='utf-8')

htmlhandle = htmlfile.read()

pagedata = Selector(text=htmlhandle)

infodata = pagedata.css(".items p")

for infoline in infodata:

city = infoline.css(".warning::text").extract()[0]

issuescate = infoline.css(".warning .limit::text").extract()[0]

title = infoline.css("a .underline::text").extract()[0]

publish_date = infoline.css(".time::text").extract()[0]

print(city+issuescate+publish_date)

首先说下网页源代码的获取：

下面这张图，对于已经安装splash的童鞋应该不陌生，在1处输入想要抓取的动态网页的网址，点一下2处。

稍等片刻，网页的返回结果就会呈现出渲染截图、HAR加载统计数据和网页的源代码。

将上图中方框内网页源代码保存到本地HTML文件里，用浏览器打开就可以像正常网页一样对其分析，抓取。如果觉得上面方式不够高级，配置一下scrapy的settings文件，和spiders下的文件只抓网页也是可以的，像下面这样，执行下，也会输出网页源代码。

# -*- coding: utf-8 -*-

import scrapy

from scrapy_splash import SplashRequest

class ZfcaigouSpider(scrapy.Spider):

name = 'zfcaigou'

allowed_domains = ['www.zjzfcg.gov.cn']

start_urls = ['http://www.zjzfcg.gov.cn/purchaseNotice/index.html?categoryId=3001']

def start_requests(self):

for url in self.start_urls:

yield SplashRequest(url=url, callback=self.parse,

args={'wait': 1}, endpoint='render.html')

def parse(self, response):

print(response.body.decode("utf-8"))

pass

下面这张图片就是保存为html文件后使用pycharm打开的，按下F12就可以对其进行分析了，使用文章开始处的代码就可以将我们需要的信息通过本地的html文件输出或保存。

scrapy 保存html页面,28.用配合scrapy的方式爬取本地保存的html相关推荐

python爬取json数据_Python爬取数据保存为Json格式的代码示例
python爬取数据保存为Json格式代码如下: #encoding:'utf-8' import urllib.request from bs4 import BeautifulSoup impo ...
使用urllib2简单爬取并保存内涵吧内涵段子指定分页的的描述信息
对内涵8的内涵段子爬取每个分页上面显示的描述信息,按回车键继续对下一页进行爬取,输入quit退出爬取. 思路: 1. 爬取每个页面的源码 2. 对源码进行处理(使用正则),获取指定信息 3. 保存 ...
python爬取小说写入txt_对新笔趣阁小说进行爬取，保存和下载！这就是Python的魅力...
原标题:对新笔趣阁小说进行爬取,保存和下载!这就是Python的魅力以前挺爱在笔趣阁看小说的(老白嫖怪了) 现在学了一点爬虫技术,就自然而然的想到了爬取笔趣阁的小说也算锻炼一下自己的技术,就以新笔 ...
【python爬虫】对喜马拉雅上一个专辑的音频进行爬取并保存到本地
>>>内容基本框架: 1.爬虫目的 2.爬取过程 3.代码实现 4.爬取结果 >>>实验环境: python3.6版本,pycharm,电脑可上网. [一爬虫目 ...
Python 爬虫爬取豆瓣Top 250 并将海报图片爬取下来保存
本文章的所有代码和相关文章, 仅用于经验技术交流分享,禁止将相关技术应用到不正当途径,滥用技术产生的风险与本人无关. 本文章是自己学习的一些记录. 爬取豆瓣top 250 现在的很多学习的教程例子都是 ...
webmagic ajax,webmagic爬虫对静态页面，动态页面及js请求方式爬取的处理
webmagic爬取网页数据,[分页爬取内容]见上一篇博文https://segmentfault.com/a/1190000020005655 webmagic的官方文档见: http://webm ...
使用Python+Scrapy爬取并保存QQ群空间帖子
首先声明,在Python和爬虫这方面,我是业余的那一卦,只是平时玩一玩,不能当真的,请各位大佬轻拍.虽然爬虫与传统意义上的大数据技术不属于同一类,但大概也只能放在大数据分类下面了. 今天接到了 @小阿 ...
Python爬虫-利用Scrapy框架完成天天书屋内容爬取并保存本地txt
准备工作首先创建项目,代码操作参照我之前的博客,这里强调一下,由于scrapy是异步io,同时处理多个http,所以要想按顺序存一个txt每章按顺序写入,可以实现但有点繁琐,这里只为了scrapy的 ...
Scrapy 爬虫框架初体验二 —— 以一个新闻站点爬取为例
一.搭建基础 Scrapy 工程框架创建项目输入如下命令: scrapy startproject NewsSpider # 创建项目 cd NewsSpider scrapy genspider ...
scrapy中集成selenium+浏览器池实现selenium的并发爬取LCSC网站中非结构化表格数据+异步存储进mysql+完整代码
爬取https://lcsc.com/products/Connectors_365.html这个网址下所有的表格数据. 蓝色的都是要爬取的子页面,要爬取子页面里面的表格数据 ,表格数据如下: 右上角 ...

scrapy 保存html页面,28.用配合scrapy的方式爬取本地保存的html

scrapy 保存html页面,28.用配合scrapy的方式爬取本地保存的html相关推荐

最新文章

热门文章