关于Scrapy爬虫框架中meta参数的使用示例演示(下)
点击上方“Python爬虫与数据挖掘”,进行关注
回复“书籍”即可获赠Python从入门到进阶共10本电子书
今
日
鸡
汤
络纬秋啼金井阑,微霜凄凄簟色寒。
/前言/
上一篇文章我们已经了解了meta参数,关于Scrapy爬虫框架中meta参数的使用示例演示(上)接下来我们将先从文章列表页中提取出封面图的URL,然后再一起来感受meta。
/分析过程/
通过与网页信息的交互,我们可以发现封面图存放在一个叫a标签下面,如下图所示。
可以很清楚的看到图片链接的URL,而且之间复制这个URL在网页中进行打开的话,也可以正常访问,如下图所示。像这种图片的URL是存放在第三方服务器上面的,可以正常访问到。
但是也有的时候网站封面图并不是存放在第三方服务器上,并不会将图片的域名呈现出来,如下图所示,如果直接访问URL的话会出现404错误(无可访问资源)。
这种情况默认是该图片的资源加载在当前域名之下的,只需要将网页主域名和图片的URL地址进行连接组合(在代码中通过parse.urljoin()函数进行实现),尔后便可以访问到图片了,如下图所示。
/代码实现/
接下来进行代码实现,下图中的1和2部分的代码都是可以实现这个爬虫逻辑的,从编程的角度,还是建议大家还是多多使用第1种方法,也是经常会用得到的,这是xpath的嵌套使用,该方法减少了代码冗余,而且逻辑实现也很清晰。
将front_img_url取到之后,再将其传给meta,如下图所示。
一般的,当我们在选择器上使用.extract()或者.extract_first(“”)函数之后,该选择器就变成了一个数组,就无法再进行嵌套选择了,所以这里选择将标签块取出来,然后再进行嵌套选择,这也是Scrapy给我们带来的便利之处。
完成好上面的代码之后,便可以进行Debug调试了,这里简单的安利一下Pycharm中关于Debug的两个快捷键F6和F8,F6的作用是继续执行Debug,通常是进入到下一行;F8的作用是跳出当前的Debug,跳至下个断点,在调试的时候经常会用到。这里将断点打在parse_detail()函数这里,一起来看看meta参数是否传递过来了,如下图所示。
通过上图可以看到,在response下,里边有一个meta,可以得知meta参数顺利传递过来了,是一个字典,并且我们可以看到封面图front_img_url的链接已经获取到了,而且在浏览器中可以正常访问到该图片,如下图所示,说明这种传递方式是非常有效的,接下来我们需要在parse_detail()函数中去用一个item接受它。
这里定义变量front_img_url用于接收封面图信息,其传递过来是字典的形式,所以可以用字典的形式去获取,当然也可以用get方法,下面两种方式任选其一均可。
至此,我们已经完成封面图的提取。小伙伴们,关于Scrapy爬虫框架中meta参数的用法你们get到了吗?
/小结/
本文基于上篇meta的理论基础,结合网页分析和代码实现,主要介绍了Scrapy爬虫框架中meta参数的使用示例,希望对大家的学习有帮助。
想学习更多关于Python的知识,可以参考学习网址:http://pdcfighting.com/,或者点击阅读原文,可以直达噢~
------------------- 送书 -------------------
内容简介
1、《Python Web开发从入门到精通》,内容如其书名,不多赘述,欢迎大家前来取书,共送2本书。
《Python Web开发从入门到精通》分为3部分:
第1部分是基础篇,带领初学者实践Python开发环境和掌握基本语法,同时对网络协议、Web客户端技术、数据库建模编程等网络编程基础深入浅出地进行学习;
第2部分是框架篇,学习当前*流行的Python Web框架,即Django、Tornado、Flask和Twisted,达到对各种Python网络技术融会贯通的目的;
第3部分是实战篇,分别对几种常用WEB框架进行项目实践,利用其各自的特点开发适用于不同场景的网络程序。
活动规则
参与方式:在本公众号后台回复 “送书”关键字,即可参与本次的送书活动。
公布时间:2020年11月11号(周三)晚上20点
领取事宜:请小伙伴添加小助手微信: pycharm1314,或者扫码添加好友。添加小助手的每一个人都可以领取一份Python学习资料,更重要的是方便联系。
注意事项:一定要留意微信消息,如果你是幸运儿就尽快在小程序中填写收货地址、书籍信息。一天之内没有填写收货信息,送书名额就转给其他人了噢,欢迎参与~
往期精彩文章推荐:
Python中的正则表达式及其常用匹配函数用法简介
手把手教你用Python进行SSH暴力破解
安利三个关于Python字符串格式化进阶知识
欢迎大家点赞,留言,转发,转载,感谢大家的相伴与支持
想加入Python学习群请在后台回复【入群】
万水千山总是情,点个【在看】行不行
/今日留言主题/
随便说一两句吧~~
关于Scrapy爬虫框架中meta参数的使用示例演示(下)相关推荐
- Scrapy爬虫框架抓取网易新闻
@scrapy 环境安装 Windows scrapy的安装需要5个依赖库,先安装好这5个依赖库,然后在dos命令中利用pip install安装scrapy框架即可,首先要确保python的目录是添 ...
- Python Scrapy爬虫框架实战应用
通过上一节<Python Scrapy爬虫框架详解>的学习,您已经对 Scrapy 框架有了一个初步的认识,比如它的组件构成,配置文件,以及工作流程.本节将通过一个的简单爬虫项目对 Scr ...
- 【数据分析】干货!一文教会你 Scrapy 爬虫框架的基本使用
出品:Python数据之道 (ID:PyDataLab) 作者:叶庭云 编辑:Lemon 一.scrapy 爬虫框架介绍 在编写爬虫的时候,如果我们使用 requests.aiohttp 等库,需要从 ...
- 崔老哥python scrapy爬虫框架入门
Scrapy 爬虫框架入门案例详解 Scrapy入门 创建项目 创建Spider 创建Item 解析Response 使用Item 后续Request 保存到文件 使用Item Pipeline 源代 ...
- python3 scrapy爬虫_Python3 Scrapy爬虫框架(Scrapy/scrapy-redis)
Python3 Scrapy爬虫框架(Scrapy/scrapy-redis) 本文由 Luzhuo 编写,转发请保留该信息. 原文: https://blog..net/Rozol/article/ ...
- Day537538539540541.scrapy爬虫框架 -python
scrapy爬虫框架 一.scrapy scrapy是什么? Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架. 可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中. 安 ...
- Scrapy爬虫框架学习_intermediate
一.Scrapy爬虫框架介绍 Scrapy是功能强大的非常快速的网络爬虫框架,是非常重要的python第三方库.scrapy不是一个函数功能库,而是一个爬虫框架. 1.1 Scrapy库的安装 pip ...
- 初探Scrapy爬虫框架之百度网页爬取
初探Scrapy爬虫框架之百度网页爬取 scrapy框架及百度网页爬取与保存 一.scrapy框架简介 二.自己初使用的心得体会 1.爬虫之前明确目标 2.scrapy框架的简单使用流程 3.scra ...
- python创建scrapy_Python爬虫教程-31-创建 Scrapy 爬虫框架项目
首先说一下,本篇是在 Anaconda 环境下,所以如果没有安装 Anaconda 请先到官网下载安装 Scrapy 爬虫框架项目的创建0.打开[cmd] 1.进入你要使用的 Anaconda 环境1 ...
最新文章
- 【深度学习理论】(4) 权重初始化,Batch Normalization
- 13个球一个天平,现知道只有一个和其它的重量不同,怎样称才能用三次就找到那个球?...
- Windows中断编程
- 新东方mti百科知识pdf_20南航翻硕mti初试417上岸经验贴
- maven详解之仓库
- PHP发送邮件,解决乱码
- codeigniter mysql 存储过程_Codeigniter框架使用Mysql存储过程的例子
- svn 同步 linux,linux SVN 中 配置钩子 实现 线上项目同步
- linux下verilog功能验证,Verilog 条件语句介绍
- c#语言开发安卓app,Xamarin——用C#轻松实现跨平台原生移动应用开发
- EOF经验正交展开(一)——主成分分析
- Bzoj1001 [BeiJing2006]狼抓兔子
- mt管理器错误信息java_DEX编辑
- 基于MATLABCPLEX 的机组最优组合,成功求解表格化,图示化的机组组合结果(学习参考)
- pat甲级1013图柳神代码解析自学复盘
- 赛博朋克风格奇幻少女 集原美电脑4k壁纸3840x2160
- 开源中国源码学习(一)——简介
- window.open 新开窗口设置title问题
- 《例说51单片机(C语言版)(第3版)》一1.2 8051基础知识
- (ECB,CBC)分组密码的算法类型及模式
热门文章
- java让一个方法等待_如何写一个“等待”的方法?
- STM32_BKP备份数据
- 华为认证数通方向证书的职业规划和就业选择
- Unix/Linux编程:多协议服务器(TCP/UDP)-----DAYTIME
- 2017百度之星资格赛 1003:度度熊与邪恶大魔王(DP)
- 中国会计科目的中英文对照
- 软件测试小黑指北-知识点复习
- element table相同数据行合并
- SQL SERVER数据库误删除误格式化误重装软件覆盖数据恢复修复
- 莫纳什大学计算机硕士专业怎么样,澳大利亚留学:莫纳什大学计算机硕士的14个专业...