有时使用爬虫的时候会把网页抓下来然后本地调试,所以今天写一篇博客记录一下整个流程:

目录

1.抓取网页保存到本地

2.离线调试


1.抓取网页保存到本地

# 在Scrapy爬虫类的parse函数中使用
def parse(self,response):def saveHtml(file_content):with open("保存路径/test.html", "w") as f:f.write(file_content)# test中就是html网页的文本信息text = response.textsaveHtml(text)

2.离线调试

第一次爬取网页的时候直接保存了网页的内容,因此此时使用scrapy直接简单的在本地调试正则表达式:

from scrapy import Selectorbody = open('离线网页保存地址/test.html').read()
#使用scrapy自身的Selector解析文本
selector = Selector(text=body)#这里获得所有a标签中的链接
a_list = selector.css('a::attr(href)')
#之后可以随意的调戏这个网页了(滑稽脸)

比较简短的代码,可以快速方便的调试本地内容

scrapy离线调试本地HTML文件相关推荐

  1. chrome调试本地项目, 引用本地javascript文件

    chrome调试本地项目, 引用本地javascript文件 本地文件可以访问本地文件 修改快捷方式属性 C:\Users\xxx\AppData\Local\Google\Chrome\Applic ...

  2. 将Chrome调试器里的JavaScript变量保存成本地JSON文件

    我们在Chrome开发者工具的Console标签页里,可以输入JavaScript变量然后回车,查看这些变量的值. 比如我用类jQuery选择器的语法 var button = $('button') ...

  3. Android中使用WebChromeClient显示Openlayers加载本地GeoJson文件显示地图(跨域问题解决)

    场景 Openlayers中加载GeoJson文件显示地图: Openlayers中加载GeoJson文件显示地图_BADAO_LIUMANG_QIZHI的博客-CSDN博客 上面加载显示GeoJso ...

  4. chrome inspect 离线调试-工具包 怎么使用

    1.找到相关目录: C:\Users\当前用户\AppData\Local\Google\Chrome\User Data\Default 2.找到以下文件夹: 1.Application Cache ...

  5. python读取本地文件-python解析本地HTML文件

    Python使用爬虫技术时,每运行一次,本地都会访问一次主机.为避免完成程序前调试时多次访问主机增加主机负荷,我们可以在编写程序前将网页源代码存在本地,调试时访问本地文件即可.现在我来分享一下爬取资料 ...

  6. python博客下载本地文件_解决django无法访问本地static文件(js,css,img)网页里js,cs都加载不了...

    1.今天网上下载一个博客项目,发现本地访问,js,css加载不了. 我想应该是项目上线的安全措施,但是我想调试项目.找到方法如下 在settings.py里面编辑 添加 STATICFILES_DIR ...

  7. 通过 Chrome Workspace 调试本地项目

    通过 Workspace,你可以把本地服务器的资源映射为硬盘上的文件,实现调试 JS 和 CSS 的同时自动保存文件,比如 Elements 面板中的样式变更会自动保存到文件中. 以调试本地服务器上的 ...

  8. 加载本地json文件,并利用批处理调用Chrome显示html

    加载本地json文件 1.加载本地json文件 为了调试保存在本地的json数据,需要进行读入.一般使用jQuery来进行,但需要对浏览器进行一点设置. Chrome浏览器中有一个启动选项--allo ...

  9. 在手机上访问和调试本地的 H5 页面

    在手机上访问本地的 H5 页面: 手机和电脑处于同一局域网. 在手机上是无法访问本地的 localhost 页面的,可以用电脑本机的 ip 地址替换 localhost. 在 cmd 里输入 ipco ...

最新文章

  1. echart 多柱图只显示部分数据标签_2分钟上手、3小时学会无代码软件开发---Echarts数据可视化...
  2. eclipse 启动tomcat, java.lang.ClassNotFoundExcepti
  3. C++11新特性- for语句
  4. Could not install from “echarts\lib\visual\dataColor“ as it does not contain a package.json file.
  5. matlab实现图像放大两倍,matlab图像处理基础知识0(双线性插值matlab实现--调整水平和垂直放大倍数)...
  6. Andriod开发 --插件安装、环境配置、问题集锦
  7. Run ASMX Without IIS
  8. java打印等腰三角形_为什么大家都说Java中只有值传递?
  9. html5实现留言功能,javascript实现留言板功能
  10. 基于大数据的房价数据可视化分析预测系统
  11. 小白如何连续两年美赛斩获M奖
  12. SLIC 2.6:Windows Server 2022 OEM SLP 准备就绪,更新完毕
  13. appcan与java_APPCAN学习笔记004---AppCan与Hybrid,appcan概述
  14. java 正则 标点符号_js实现正则匹配中文标点符号的方法
  15. windows下安装Bugzilla 2.18
  16. 论文阅读 Optimal Rough Terrain Trajectory Generation for Wheeled Mobile Robots
  17. SFP光模块电气接口参数详解
  18. 华硕P8H61-M+i3-3220 +GTX650
  19. 学会提问———阅读笔记
  20. 美狐美颜SDK滤镜、哈哈镜功能算法分析

热门文章

  1. Epic Games创始人眼中的虚拟现实
  2. 关于插件管理器Alcatraz的一些问题
  3. 淘宝内核月报 2017
  4. struts项目部署在Tomca上在断网情况下启动报错
  5. Brew安装MacVim
  6. 经纪xx系统节点VIP案例介绍和深入分析异常
  7. centos7安装gitlab7.5.0
  8. 求第i个小的元素 时间复杂度O(n)
  9. 第一个flash游戏--配对游戏
  10. kettle连接数据mysql查_Kettle连接MySQL报错的解决方法