使用splash抓取js动态加载的网页,输出网页源代码,以html的格式保存到本地,然后编写个py文件抓取自己想要的信息,又希望自己的抓取方式能够复用到scrapy-splash爬虫项目项目中。

可以使用下面的方式抓取本地的html文件:

# -*- coding: utf-8 -*-

# @AuThor : frank_lee

from scrapy.selector import Selector

htmlfile = open("zfcaigou.html", 'r', encoding='utf-8')

htmlhandle = htmlfile.read()

pagedata = Selector(text=htmlhandle)

infodata = pagedata.css(".items p")

for infoline in infodata:

city = infoline.css(".warning::text").extract()[0]

issuescate = infoline.css(".warning .limit::text").extract()[0]

title = infoline.css("a .underline::text").extract()[0]

publish_date = infoline.css(".time::text").extract()[0]

print(city+issuescate+publish_date)

首先说下网页源代码的获取:

下面这张图,对于已经安装splash的童鞋应该不陌生,在1处输入想要抓取的动态网页的网址,点一下2处。

稍等片刻,网页的返回结果就会呈现出渲染截图、HAR加载统计数据和网页的源代码。

将上图中方框内网页源代码保存到本地HTML文件里,用浏览器打开就可以像正常网页一样对其分析,抓取。如果觉得上面方式不够高级,配置一下scrapy的settings文件,和spiders下的文件只抓网页也是可以的,像下面这样,执行下,也会输出网页源代码。

# -*- coding: utf-8 -*-

import scrapy

from scrapy_splash import SplashRequest

class ZfcaigouSpider(scrapy.Spider):

name = 'zfcaigou'

allowed_domains = ['www.zjzfcg.gov.cn']

start_urls = ['http://www.zjzfcg.gov.cn/purchaseNotice/index.html?categoryId=3001']

def start_requests(self):

for url in self.start_urls:

yield SplashRequest(url=url, callback=self.parse,

args={'wait': 1}, endpoint='render.html')

def parse(self, response):

print(response.body.decode("utf-8"))

pass

下面这张图片就是保存为html文件后 使用pycharm打开的,按下F12就可以对其进行分析了,使用文章开始处的代码就可以将我们需要的信息通过本地的html文件输出或保存。

scrapy 保存html页面,28.用配合scrapy的方式爬取本地保存的html相关推荐

  1. python爬取json数据_Python爬取数据保存为Json格式的代码示例

    python爬取数据保存为Json格式 代码如下: #encoding:'utf-8' import urllib.request from bs4 import BeautifulSoup impo ...

  2. 使用urllib2简单爬取并保存内涵吧内涵段子指定分页的的描述信息

    对 内涵8的内涵段子 爬取每个分页上面显示的描述信息,按回车键继续对下一页进行爬取,输入quit退出爬取. 思路: 1. 爬取每个页面的源码 2. 对源码进行处理(使用正则),获取指定信息 3. 保存 ...

  3. python爬取小说写入txt_对新笔趣阁小说进行爬取,保存和下载!这就是Python的魅力...

    原标题:对新笔趣阁小说进行爬取,保存和下载!这就是Python的魅力 以前挺爱在笔趣阁看小说的(老白嫖怪了) 现在学了一点爬虫技术,就自然而然的想到了爬取笔趣阁的小说 也算锻炼一下自己的技术,就以新笔 ...

  4. 【python爬虫】对喜马拉雅上一个专辑的音频进行爬取并保存到本地

    >>>内容基本框架: 1.爬虫目的 2.爬取过程 3.代码实现 4.爬取结果  >>>实验环境: python3.6版本,pycharm,电脑可上网. [一 爬虫目 ...

  5. Python 爬虫 爬取豆瓣Top 250 并将海报图片爬取下来保存

    本文章的所有代码和相关文章, 仅用于经验技术交流分享,禁止将相关技术应用到不正当途径,滥用技术产生的风险与本人无关. 本文章是自己学习的一些记录. 爬取豆瓣top 250 现在的很多学习的教程例子都是 ...

  6. webmagic ajax,webmagic爬虫对静态页面,动态页面及js请求方式爬取的处理

    webmagic爬取网页数据,[分页爬取内容]见上一篇博文https://segmentfault.com/a/1190000020005655 webmagic的官方文档见: http://webm ...

  7. 使用Python+Scrapy爬取并保存QQ群空间帖子

    首先声明,在Python和爬虫这方面,我是业余的那一卦,只是平时玩一玩,不能当真的,请各位大佬轻拍.虽然爬虫与传统意义上的大数据技术不属于同一类,但大概也只能放在大数据分类下面了. 今天接到了 @小阿 ...

  8. Python爬虫-利用Scrapy框架完成天天书屋内容爬取并保存本地txt

    准备工作 首先创建项目,代码操作参照我之前的博客,这里强调一下,由于scrapy是异步io,同时处理多个http,所以要想按顺序存一个txt每章按顺序写入,可以实现但有点繁琐,这里只为了scrapy的 ...

  9. Scrapy 爬虫框架初体验二 —— 以一个新闻站点爬取为例

    一.搭建基础 Scrapy 工程框架 创建项目 输入如下命令: scrapy startproject NewsSpider # 创建项目 cd NewsSpider scrapy genspider ...

  10. scrapy中集成selenium+浏览器池实现selenium的并发爬取LCSC网站中非结构化表格数据+异步存储进mysql+完整代码

    爬取https://lcsc.com/products/Connectors_365.html这个网址下所有的表格数据. 蓝色的都是要爬取的子页面,要爬取子页面里面的表格数据 ,表格数据如下: 右上角 ...

最新文章

  1. linux用户管理最常用的三个文件说明(不完整版)
  2. CanalAdapter启动过程分析(源码详解)
  3. 专题导读:医学大数据
  4. IE下 显示图片会多出一个边框的问题
  5. leetcode链表篇
  6. 前端:CSS/13/HTML引入CSS的方法,CSS表格属性,盒子模型,上下外边距合并
  7. 计算机专业外语英译汉,信科计算机专业英语英译汉
  8. 【电商系统】—项目缺陷管理(二)
  9. mysql 按小时统计
  10. scala学习(一)
  11. 翻译:自动驾驶相关术语的分类和定义Taxonomy and Definitions for Terms Related to On-Road Motor Vehicle Automated
  12. “两步路·户外助手”谷歌类图源
  13. 微信小程序——云开发入门
  14. 全网搜索 6.0 - 超级网搜 SuperSearch 最新版 - 主要更新内容
  15. iptables failed: iptables --wait -t nat -A DOCKER -p tcp -d 0/0 --dport 80 -j DNAT ...
  16. 服务器脱机18个文档正在打印,打印机提示脱机打印的解决方案.docx
  17. 结巴分词python安装_“结巴”分词:做最好的Python分词组件
  18. 一兆mysql能存多少个字_MySQL 中一个汉字占多少存储?
  19. 数学与泛型编程(6)编程的基本概念
  20. 首都师范大学计算机考研调剂,首都师范大学2018年考研调剂信息公布

热门文章

  1. python 数据去重 max()_荐 用 Python 对 Excel 表格内数据进行去重、分类,标记异常及分析...
  2. (Windows)Scala学习3--列表、数组
  3. 史上最完整的MySQL注入
  4. java面试| 精选基础题(1)
  5. Centos7下编译安装Nginx、Mysql、PHP(文章底部包含一键安装脚本)
  6. linux定时执行脚本
  7. NeHe OpenGL第九课:移动图像
  8. dategurd oracle_Oracle Dataguard 基本原理
  9. JDBC+Servlet+JSP实现简单的数据遍历和查找功能
  10. python2.7安装教程win7_win7下python2.7安装 pip,setuptools的正确方法