scrapy离线调试本地HTML文件
有时使用爬虫的时候会把网页抓下来然后本地调试,所以今天写一篇博客记录一下整个流程:
目录
1.抓取网页保存到本地
2.离线调试
1.抓取网页保存到本地
# 在Scrapy爬虫类的parse函数中使用
def parse(self,response):def saveHtml(file_content):with open("保存路径/test.html", "w") as f:f.write(file_content)# test中就是html网页的文本信息text = response.textsaveHtml(text)
2.离线调试
第一次爬取网页的时候直接保存了网页的内容,因此此时使用scrapy直接简单的在本地调试正则表达式:
from scrapy import Selectorbody = open('离线网页保存地址/test.html').read()
#使用scrapy自身的Selector解析文本
selector = Selector(text=body)#这里获得所有a标签中的链接
a_list = selector.css('a::attr(href)')
#之后可以随意的调戏这个网页了(滑稽脸)
比较简短的代码,可以快速方便的调试本地内容
scrapy离线调试本地HTML文件相关推荐
- chrome调试本地项目, 引用本地javascript文件
chrome调试本地项目, 引用本地javascript文件 本地文件可以访问本地文件 修改快捷方式属性 C:\Users\xxx\AppData\Local\Google\Chrome\Applic ...
- 将Chrome调试器里的JavaScript变量保存成本地JSON文件
我们在Chrome开发者工具的Console标签页里,可以输入JavaScript变量然后回车,查看这些变量的值. 比如我用类jQuery选择器的语法 var button = $('button') ...
- Android中使用WebChromeClient显示Openlayers加载本地GeoJson文件显示地图(跨域问题解决)
场景 Openlayers中加载GeoJson文件显示地图: Openlayers中加载GeoJson文件显示地图_BADAO_LIUMANG_QIZHI的博客-CSDN博客 上面加载显示GeoJso ...
- chrome inspect 离线调试-工具包 怎么使用
1.找到相关目录: C:\Users\当前用户\AppData\Local\Google\Chrome\User Data\Default 2.找到以下文件夹: 1.Application Cache ...
- python读取本地文件-python解析本地HTML文件
Python使用爬虫技术时,每运行一次,本地都会访问一次主机.为避免完成程序前调试时多次访问主机增加主机负荷,我们可以在编写程序前将网页源代码存在本地,调试时访问本地文件即可.现在我来分享一下爬取资料 ...
- python博客下载本地文件_解决django无法访问本地static文件(js,css,img)网页里js,cs都加载不了...
1.今天网上下载一个博客项目,发现本地访问,js,css加载不了. 我想应该是项目上线的安全措施,但是我想调试项目.找到方法如下 在settings.py里面编辑 添加 STATICFILES_DIR ...
- 通过 Chrome Workspace 调试本地项目
通过 Workspace,你可以把本地服务器的资源映射为硬盘上的文件,实现调试 JS 和 CSS 的同时自动保存文件,比如 Elements 面板中的样式变更会自动保存到文件中. 以调试本地服务器上的 ...
- 加载本地json文件,并利用批处理调用Chrome显示html
加载本地json文件 1.加载本地json文件 为了调试保存在本地的json数据,需要进行读入.一般使用jQuery来进行,但需要对浏览器进行一点设置. Chrome浏览器中有一个启动选项--allo ...
- 在手机上访问和调试本地的 H5 页面
在手机上访问本地的 H5 页面: 手机和电脑处于同一局域网. 在手机上是无法访问本地的 localhost 页面的,可以用电脑本机的 ip 地址替换 localhost. 在 cmd 里输入 ipco ...
最新文章
- echart 多柱图只显示部分数据标签_2分钟上手、3小时学会无代码软件开发---Echarts数据可视化...
- eclipse 启动tomcat, java.lang.ClassNotFoundExcepti
- C++11新特性- for语句
- Could not install from “echarts\lib\visual\dataColor“ as it does not contain a package.json file.
- matlab实现图像放大两倍,matlab图像处理基础知识0(双线性插值matlab实现--调整水平和垂直放大倍数)...
- Andriod开发 --插件安装、环境配置、问题集锦
- Run ASMX Without IIS
- java打印等腰三角形_为什么大家都说Java中只有值传递?
- html5实现留言功能,javascript实现留言板功能
- 基于大数据的房价数据可视化分析预测系统
- 小白如何连续两年美赛斩获M奖
- SLIC 2.6:Windows Server 2022 OEM SLP 准备就绪,更新完毕
- appcan与java_APPCAN学习笔记004---AppCan与Hybrid,appcan概述
- java 正则 标点符号_js实现正则匹配中文标点符号的方法
- windows下安装Bugzilla 2.18
- 论文阅读 Optimal Rough Terrain Trajectory Generation for Wheeled Mobile Robots
- SFP光模块电气接口参数详解
- 华硕P8H61-M+i3-3220 +GTX650
- 学会提问———阅读笔记
- 美狐美颜SDK滤镜、哈哈镜功能算法分析