点击上方“Python爬虫与数据挖掘”,进行关注

回复“书籍”即可获赠Python从入门到进阶共10本电子书

络纬秋啼金井阑,微霜凄凄簟色寒。

/前言/

上一篇文章我们已经了解了meta参数,关于Scrapy爬虫框架中meta参数的使用示例演示(上)接下来我们将先从文章列表页中提取出封面图的URL,然后再一起来感受meta。

/分析过程/

通过与网页信息的交互,我们可以发现封面图存放在一个叫a标签下面,如下图所示。

可以很清楚的看到图片链接的URL,而且之间复制这个URL在网页中进行打开的话,也可以正常访问,如下图所示。像这种图片的URL是存放在第三方服务器上面的,可以正常访问到。

但是也有的时候网站封面图并不是存放在第三方服务器上,并不会将图片的域名呈现出来,如下图所示,如果直接访问URL的话会出现404错误(无可访问资源)。

这种情况默认是该图片的资源加载在当前域名之下的,只需要将网页主域名和图片的URL地址进行连接组合(在代码中通过parse.urljoin()函数进行实现),尔后便可以访问到图片了,如下图所示。

/代码实现/

接下来进行代码实现,下图中的1和2部分的代码都是可以实现这个爬虫逻辑的,从编程的角度,还是建议大家还是多多使用第1种方法,也是经常会用得到的,这是xpath的嵌套使用,该方法减少了代码冗余,而且逻辑实现也很清晰。

将front_img_url取到之后,再将其传给meta,如下图所示。

一般的,当我们在选择器上使用.extract()或者.extract_first(“”)函数之后,该选择器就变成了一个数组,就无法再进行嵌套选择了,所以这里选择将标签块取出来,然后再进行嵌套选择,这也是Scrapy给我们带来的便利之处。

完成好上面的代码之后,便可以进行Debug调试了,这里简单的安利一下Pycharm中关于Debug的两个快捷键F6和F8,F6的作用是继续执行Debug,通常是进入到下一行;F8的作用是跳出当前的Debug,跳至下个断点,在调试的时候经常会用到。这里将断点打在parse_detail()函数这里,一起来看看meta参数是否传递过来了,如下图所示。

通过上图可以看到,在response下,里边有一个meta,可以得知meta参数顺利传递过来了,是一个字典,并且我们可以看到封面图front_img_url的链接已经获取到了,而且在浏览器中可以正常访问到该图片,如下图所示,说明这种传递方式是非常有效的,接下来我们需要在parse_detail()函数中去用一个item接受它。

这里定义变量front_img_url用于接收封面图信息,其传递过来是字典的形式,所以可以用字典的形式去获取,当然也可以用get方法,下面两种方式任选其一均可。

至此,我们已经完成封面图的提取。小伙伴们,关于Scrapy爬虫框架中meta参数的用法你们get到了吗?

/小结/

本文基于上篇meta的理论基础,结合网页分析和代码实现,主要介绍了Scrapy爬虫框架中meta参数的使用示例,希望对大家的学习有帮助。

想学习更多关于Python的知识,可以参考学习网址:http://pdcfighting.com/,或者点击阅读原文,可以直达噢~

------------------- 送书 -------------------

内容简介

1、《Python Web开发从入门到精通》,内容如其书名,不多赘述,欢迎大家前来取书,共送2本书。

《Python Web开发从入门到精通》分为3部分:

第1部分是基础篇,带领初学者实践Python开发环境和掌握基本语法,同时对网络协议、Web客户端技术、数据库建模编程等网络编程基础深入浅出地进行学习;

第2部分是框架篇,学习当前*流行的Python Web框架,即Django、Tornado、Flask和Twisted,达到对各种Python网络技术融会贯通的目的;

第3部分是实战篇,分别对几种常用WEB框架进行项目实践,利用其各自的特点开发适用于不同场景的网络程序。

活动规则

参与方式:在本公众号后台回复 “送书”关键字,即可参与本次的送书活动。

公布时间:2020年11月11号(周三)晚上20点

领取事宜:请小伙伴添加小助手微信: pycharm1314,或者扫码添加好友。添加小助手的每一个人都可以领取一份Python学习资料,更重要的是方便联系。

注意事项:一定要留意微信消息,如果你是幸运儿就尽快在小程序中填写收货地址、书籍信息。一天之内没有填写收货信息,送书名额就转给其他人了噢,欢迎参与~

往期精彩文章推荐:

  • Python中的正则表达式及其常用匹配函数用法简介

  • 手把手教你用Python进行SSH暴力破解

  • 安利三个关于Python字符串格式化进阶知识

欢迎大家点赞,留言,转发,转载,感谢大家的相伴与支持

想加入Python学习群请在后台回复【入群

万水千山总是情,点个【在看】行不行

/今日留言主题/

随便说一两句吧~~

关于Scrapy爬虫框架中meta参数的使用示例演示(下)相关推荐

  1. Scrapy爬虫框架抓取网易新闻

    @scrapy 环境安装 Windows scrapy的安装需要5个依赖库,先安装好这5个依赖库,然后在dos命令中利用pip install安装scrapy框架即可,首先要确保python的目录是添 ...

  2. Python Scrapy爬虫框架实战应用

    通过上一节<Python Scrapy爬虫框架详解>的学习,您已经对 Scrapy 框架有了一个初步的认识,比如它的组件构成,配置文件,以及工作流程.本节将通过一个的简单爬虫项目对 Scr ...

  3. 【数据分析】干货!一文教会你 Scrapy 爬虫框架的基本使用

    出品:Python数据之道 (ID:PyDataLab) 作者:叶庭云 编辑:Lemon 一.scrapy 爬虫框架介绍 在编写爬虫的时候,如果我们使用 requests.aiohttp 等库,需要从 ...

  4. 崔老哥python scrapy爬虫框架入门

    Scrapy 爬虫框架入门案例详解 Scrapy入门 创建项目 创建Spider 创建Item 解析Response 使用Item 后续Request 保存到文件 使用Item Pipeline 源代 ...

  5. python3 scrapy爬虫_Python3 Scrapy爬虫框架(Scrapy/scrapy-redis)

    Python3 Scrapy爬虫框架(Scrapy/scrapy-redis) 本文由 Luzhuo 编写,转发请保留该信息. 原文: https://blog..net/Rozol/article/ ...

  6. Day537538539540541.scrapy爬虫框架 -python

    scrapy爬虫框架 一.scrapy scrapy是什么? Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架. 可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中. 安 ...

  7. Scrapy爬虫框架学习_intermediate

    一.Scrapy爬虫框架介绍 Scrapy是功能强大的非常快速的网络爬虫框架,是非常重要的python第三方库.scrapy不是一个函数功能库,而是一个爬虫框架. 1.1 Scrapy库的安装 pip ...

  8. 初探Scrapy爬虫框架之百度网页爬取

    初探Scrapy爬虫框架之百度网页爬取 scrapy框架及百度网页爬取与保存 一.scrapy框架简介 二.自己初使用的心得体会 1.爬虫之前明确目标 2.scrapy框架的简单使用流程 3.scra ...

  9. python创建scrapy_Python爬虫教程-31-创建 Scrapy 爬虫框架项目

    首先说一下,本篇是在 Anaconda 环境下,所以如果没有安装 Anaconda 请先到官网下载安装 Scrapy 爬虫框架项目的创建0.打开[cmd] 1.进入你要使用的 Anaconda 环境1 ...

最新文章

  1. 【深度学习理论】(4) 权重初始化,Batch Normalization
  2. 13个球一个天平,现知道只有一个和其它的重量不同,怎样称才能用三次就找到那个球?...
  3. Windows中断编程
  4. 新东方mti百科知识pdf_20南航翻硕mti初试417上岸经验贴
  5. maven详解之仓库
  6. PHP发送邮件,解决乱码
  7. codeigniter mysql 存储过程_Codeigniter框架使用Mysql存储过程的例子
  8. svn 同步 linux,linux SVN 中 配置钩子 实现 线上项目同步
  9. linux下verilog功能验证,Verilog 条件语句介绍
  10. c#语言开发安卓app,Xamarin——用C#轻松实现跨平台原生移动应用开发
  11. EOF经验正交展开(一)——主成分分析
  12. Bzoj1001 [BeiJing2006]狼抓兔子
  13. mt管理器错误信息java_DEX编辑
  14. 基于MATLABCPLEX 的机组最优组合,成功求解表格化,图示化的机组组合结果(学习参考)
  15. pat甲级1013图柳神代码解析自学复盘
  16. 赛博朋克风格奇幻少女 集原美电脑4k壁纸3840x2160
  17. 开源中国源码学习(一)——简介
  18. window.open 新开窗口设置title问题
  19. 《例说51单片机(C语言版)(第3版)》一1.2 8051基础知识
  20. (ECB,CBC)分组密码的算法类型及模式

热门文章

  1. java让一个方法等待_如何写一个“等待”的方法?
  2. STM32_BKP备份数据
  3. 华为认证数通方向证书的职业规划和就业选择
  4. Unix/Linux编程:多协议服务器(TCP/UDP)-----DAYTIME
  5. 2017百度之星资格赛 1003:度度熊与邪恶大魔王(DP)
  6. 中国会计科目的中英文对照
  7. 软件测试小黑指北-知识点复习
  8. element table相同数据行合并
  9. SQL SERVER数据库误删除误格式化误重装软件覆盖数据恢复修复
  10. 莫纳什大学计算机硕士专业怎么样,澳大利亚留学:莫纳什大学计算机硕士的14个专业...