scrapy 保存html页面,28.用配合scrapy的方式爬取本地保存的html
使用splash抓取js动态加载的网页,输出网页源代码,以html的格式保存到本地,然后编写个py文件抓取自己想要的信息,又希望自己的抓取方式能够复用到scrapy-splash爬虫项目项目中。
可以使用下面的方式抓取本地的html文件:
# -*- coding: utf-8 -*-
# @AuThor : frank_lee
from scrapy.selector import Selector
htmlfile = open("zfcaigou.html", 'r', encoding='utf-8')
htmlhandle = htmlfile.read()
pagedata = Selector(text=htmlhandle)
infodata = pagedata.css(".items p")
for infoline in infodata:
city = infoline.css(".warning::text").extract()[0]
issuescate = infoline.css(".warning .limit::text").extract()[0]
title = infoline.css("a .underline::text").extract()[0]
publish_date = infoline.css(".time::text").extract()[0]
print(city+issuescate+publish_date)
首先说下网页源代码的获取:
下面这张图,对于已经安装splash的童鞋应该不陌生,在1处输入想要抓取的动态网页的网址,点一下2处。
稍等片刻,网页的返回结果就会呈现出渲染截图、HAR加载统计数据和网页的源代码。
将上图中方框内网页源代码保存到本地HTML文件里,用浏览器打开就可以像正常网页一样对其分析,抓取。如果觉得上面方式不够高级,配置一下scrapy的settings文件,和spiders下的文件只抓网页也是可以的,像下面这样,执行下,也会输出网页源代码。
# -*- coding: utf-8 -*-
import scrapy
from scrapy_splash import SplashRequest
class ZfcaigouSpider(scrapy.Spider):
name = 'zfcaigou'
allowed_domains = ['www.zjzfcg.gov.cn']
start_urls = ['http://www.zjzfcg.gov.cn/purchaseNotice/index.html?categoryId=3001']
def start_requests(self):
for url in self.start_urls:
yield SplashRequest(url=url, callback=self.parse,
args={'wait': 1}, endpoint='render.html')
def parse(self, response):
print(response.body.decode("utf-8"))
pass
下面这张图片就是保存为html文件后 使用pycharm打开的,按下F12就可以对其进行分析了,使用文章开始处的代码就可以将我们需要的信息通过本地的html文件输出或保存。
scrapy 保存html页面,28.用配合scrapy的方式爬取本地保存的html相关推荐
- python爬取json数据_Python爬取数据保存为Json格式的代码示例
python爬取数据保存为Json格式 代码如下: #encoding:'utf-8' import urllib.request from bs4 import BeautifulSoup impo ...
- 使用urllib2简单爬取并保存内涵吧内涵段子指定分页的的描述信息
对 内涵8的内涵段子 爬取每个分页上面显示的描述信息,按回车键继续对下一页进行爬取,输入quit退出爬取. 思路: 1. 爬取每个页面的源码 2. 对源码进行处理(使用正则),获取指定信息 3. 保存 ...
- python爬取小说写入txt_对新笔趣阁小说进行爬取,保存和下载!这就是Python的魅力...
原标题:对新笔趣阁小说进行爬取,保存和下载!这就是Python的魅力 以前挺爱在笔趣阁看小说的(老白嫖怪了) 现在学了一点爬虫技术,就自然而然的想到了爬取笔趣阁的小说 也算锻炼一下自己的技术,就以新笔 ...
- 【python爬虫】对喜马拉雅上一个专辑的音频进行爬取并保存到本地
>>>内容基本框架: 1.爬虫目的 2.爬取过程 3.代码实现 4.爬取结果 >>>实验环境: python3.6版本,pycharm,电脑可上网. [一 爬虫目 ...
- Python 爬虫 爬取豆瓣Top 250 并将海报图片爬取下来保存
本文章的所有代码和相关文章, 仅用于经验技术交流分享,禁止将相关技术应用到不正当途径,滥用技术产生的风险与本人无关. 本文章是自己学习的一些记录. 爬取豆瓣top 250 现在的很多学习的教程例子都是 ...
- webmagic ajax,webmagic爬虫对静态页面,动态页面及js请求方式爬取的处理
webmagic爬取网页数据,[分页爬取内容]见上一篇博文https://segmentfault.com/a/1190000020005655 webmagic的官方文档见: http://webm ...
- 使用Python+Scrapy爬取并保存QQ群空间帖子
首先声明,在Python和爬虫这方面,我是业余的那一卦,只是平时玩一玩,不能当真的,请各位大佬轻拍.虽然爬虫与传统意义上的大数据技术不属于同一类,但大概也只能放在大数据分类下面了. 今天接到了 @小阿 ...
- Python爬虫-利用Scrapy框架完成天天书屋内容爬取并保存本地txt
准备工作 首先创建项目,代码操作参照我之前的博客,这里强调一下,由于scrapy是异步io,同时处理多个http,所以要想按顺序存一个txt每章按顺序写入,可以实现但有点繁琐,这里只为了scrapy的 ...
- Scrapy 爬虫框架初体验二 —— 以一个新闻站点爬取为例
一.搭建基础 Scrapy 工程框架 创建项目 输入如下命令: scrapy startproject NewsSpider # 创建项目 cd NewsSpider scrapy genspider ...
- scrapy中集成selenium+浏览器池实现selenium的并发爬取LCSC网站中非结构化表格数据+异步存储进mysql+完整代码
爬取https://lcsc.com/products/Connectors_365.html这个网址下所有的表格数据. 蓝色的都是要爬取的子页面,要爬取子页面里面的表格数据 ,表格数据如下: 右上角 ...
最新文章
- linux用户管理最常用的三个文件说明(不完整版)
- CanalAdapter启动过程分析(源码详解)
- 专题导读:医学大数据
- IE下 显示图片会多出一个边框的问题
- leetcode链表篇
- 前端:CSS/13/HTML引入CSS的方法,CSS表格属性,盒子模型,上下外边距合并
- 计算机专业外语英译汉,信科计算机专业英语英译汉
- 【电商系统】—项目缺陷管理(二)
- mysql 按小时统计
- scala学习(一)
- 翻译:自动驾驶相关术语的分类和定义Taxonomy and Definitions for Terms Related to On-Road Motor Vehicle Automated
- “两步路·户外助手”谷歌类图源
- 微信小程序——云开发入门
- 全网搜索 6.0 - 超级网搜 SuperSearch 最新版 - 主要更新内容
- iptables failed: iptables --wait -t nat -A DOCKER -p tcp -d 0/0 --dport 80 -j DNAT ...
- 服务器脱机18个文档正在打印,打印机提示脱机打印的解决方案.docx
- 结巴分词python安装_“结巴”分词:做最好的Python分词组件
- 一兆mysql能存多少个字_MySQL 中一个汉字占多少存储?
- 数学与泛型编程(6)编程的基本概念
- 首都师范大学计算机考研调剂,首都师范大学2018年考研调剂信息公布
热门文章
- python 数据去重 max()_荐 用 Python 对 Excel 表格内数据进行去重、分类,标记异常及分析...
- (Windows)Scala学习3--列表、数组
- 史上最完整的MySQL注入
- java面试| 精选基础题(1)
- Centos7下编译安装Nginx、Mysql、PHP(文章底部包含一键安装脚本)
- linux定时执行脚本
- NeHe OpenGL第九课:移动图像
- dategurd oracle_Oracle Dataguard 基本原理
- JDBC+Servlet+JSP实现简单的数据遍历和查找功能
- python2.7安装教程win7_win7下python2.7安装 pip,setuptools的正确方法