上一卷中我们抓取了网页的所有内容,现在我们抓取下网页的图片名称以及连接

现在我再新建个爬虫文件,名称设置为crawler2

做爬虫的朋友应该知道,网页里的数据都是用文本或者块级标签包裹着的,scrapy框架里自带标签选择器HtmlXPathSelector,具体的使用规则可以查阅一下我就不介绍了

我们现在要爬取的内容是 网页的图片标题,以及网页的图片链接,所以我们需要在网站浏览器的控制台上查看标签内容属性

在控制台上我们发现:

我们所要抓取的内容在类名为showlist的div下的li标签下

所以我们先获取下页面的指定LI标签

先看下打印结果:

内容哪去了 不要慌这个选择器打印的结果没问题

下面进行下代码修改,获取LI里的内容,实现由父找子的过程

这个extract()函数是我一般用来获取标签

看下结果

一组LI里有好多内容,并不是一一对应看起来不方便,由此可见个做网站的前端是直接一个LI里封装多个图片的块级元素

看的不舒服 来修改下代码 ,一个LI里有七个 为了保证数据的准确性 每一个父级LI元素我都设定一个编号

看下代码

来看下结果:

纵然文字不健康,但是数据的展现依旧清晰可见

现在图片的连接有了 我们可以根据链接来下载图片 那么我们使用urlretrieve函数,我们在当前爬虫的文件夹中与SPIDER文件同级建立一个IMG文件夹

来看下代码:

其实就像个公式一样 读取公式+存储公式就能完成图片的下载:来现在看一下结果:

真的是豪无节操的网站 我以后不会再爬取它了

python爬取网页上的特定链接_python3下scrapy爬虫(第三卷:初步抓取网页内容之抓取网页里的指定数据)...相关推荐

  1. python爬取网页上的特定链接_python 用bs4解析网页后,如何循环打开爬取出来的网址链接?...

    请问,用beautiful soup爬取特定网页后提取tag 'a',抓取里面的网址,打开特定的网址,循环特定次数,最后打印出想要的网址,如何操作? 详细的要求如下图: 我的代码如下: import ...

  2. python爬取网页上的特定链接_自学python爬虫二:如何正常操作urllib2通过指定的URL抓取网页内容...

    所谓网页抓取, 就是把URL地址中指定的网络资源从网络流中读取出来,保存到本地. 类似于使用程序模拟IE浏览器的功能,把URL作为HTTP请求的内容发送到服务器端, 然后读取服务器端的响应资源. 在P ...

  3. python爬网页上所有的链接(爬到最深)

    相关课程链接:Crawl Web 今天做的这个是在上个实验的基础上加了一个跳转挖掘链接,再从新链接里面继续向下挖掘,这样层层递进挖到深处~~ 还没有学到get_page的真正写法,如果用urllib2 ...

  4. 博客社会学图——使用python检索网页上的友情链接

    <博客社会学图--使用python检索网页上的友情链接>,作者:leniy,原文链接:http://www.cnblogs.com/leniy/archive/2012/11/27/pyt ...

  5. 获取网页上没有下载链接的视频音频资源 火狐浏览器插件 Video DownloadHelper

    获取网页上没有下载链接的视频音频资源 荔枝上web的音频下载链接没有了,"查看源代码",没有找到蛛丝马迹,它的数据没有以资源的形式放到前台代码中,于是查看浏览器缓存,希望从中发现点 ...

  6. python爬携程上出境游数据_python爬取携程旅游评价信息词云图分析

    python爬取携程旅游评价信息词云图分析 前言 前面咱们已经分析过如何爬取携程旅游的相关信息,如果没有看过的,可以先跳转看一下前面的那篇博客:python 爬虫 一键爬取携程旅游团数据 这一篇呢,咱 ...

  7. python爬去segementfault上的博客文章

    利用Scray框架爬去segementfault上的保存到数据库然后发送到自己的邮箱 先显示部分源码: coding:utf-8 ! /usr/bin/python ''' Author fiz Da ...

  8. 如何在网页上添加支付宝链接

     为了方便买家们在网站购物时能够在线支付货款并有效提升网站档次,作为购物网站的站长有必要给网站增添在线支付功能,这也是商务网站发展的大势所趋.拥有在线支付功能后,购物网站的买卖双方都会倍感轻松,网 ...

  9. python读文件一次读特定行_Python3实现从文件中读取指定行的方法 python读取文本内每行指定内容...

    如何用python读取文本中指定行的内容在这个世界上说不出口的话太多了,你能不能陪小编去,你能不能留下来,你能不能帮帮小编,你对小编很重要,所以你可不可以不要走,到最后哽咽出口的却是,没关系,小编可以 ...

最新文章

  1. 借助Glances Monitor,密切关注你的系统
  2. PetShop 4数据库分析一
  3. oracle client中对 TNSNAMES.ORA的研究
  4. Linux_指令杂烩
  5. HDU 2546 饭卡(01背包裸题)
  6. Android Multimedia框架总结(十八)Camera2框架从Java层到C++层类关系
  7. redis主从、哨兵、集群的区别
  8. linux每日命令(28):chgrp命令
  9. 修改Android动画速度
  10. 程序员10个必须有的Android应用程序
  11. 带计算机功能的私有云,网盘关停不用愁 教你打造个人私有云
  12. 果木浪子吉他入门零基础教学(70课时)
  13. 转 纯真IP数据库格式详解
  14. Second《C++ Primer》中文第四版
  15. 【HDU2019多校】E - Snowy Smile (最大字段和)
  16. C语言:输入10个整数,找出其中绝对值最小的数
  17. 【unity 保卫星城】--- 开发笔记01(飞机移动)
  18. Spring Validation的校验顺序问题解决方案(建议读到最后,有大坑)
  19. 发了一篇小红书,阅读量破了20W...
  20. 巧妙利用DZ自有功能实现豆丁网在线文档功能

热门文章

  1. 九度 1408 寻找表达式 (中缀转后缀)
  2. WEB免费打印控件推荐
  3. 25个强大的 jQuery 砌体网页设计作品
  4. 印第安人的灵魂——敏捷回顾
  5. BCH实用场景增加,Bitwage推出BCH工资单
  6. BCH升级日期将至,社区组织开始为11月“硬分叉”做准备
  7. 不到两个月后,有关比特币现金升级的讨论升温
  8. 【Luogu】P3927 SAC E#1 - 一道中档题 Factorial
  9. 记一次数据库查询语句的优化
  10. HDU 6090 Rikka with Graph