安装插件

xpath helper

chrome://flags/#extensions-on-chrome-urls

测试抓取

# -*- coding: utf-8 -*-
import scrapyclass DoubanSpiderSpider(scrapy.Spider):#爬虫名name = 'douban_spider'allowed_domains = ['movie.douban.com']#入口url,扔到调度器中start_urls = ['https://movie.douban.com/top250']def parse(self, response):# 打印抓取过来的内容print(response.text)

使用谷歌copy xpath

# -*- coding: utf-8 -*-
import scrapyclass DoubanSpiderSpider(scrapy.Spider):#爬虫名name = 'douban_spider'allowed_domains = ['movie.douban.com']#入口url,扔到调度器中start_urls = ['https://movie.douban.com/top250']def parse(self, response):movie_list = response.xpath('//*[@id="content"]/div/div[1]/ol').extract()for i_item in movie_list:print(i_item)

不要使用上面那个

# -*- coding: utf-8 -*-
import scrapy
from douban.items import DoubanItemclass DoubanSpiderSpider(scrapy.Spider):# 爬虫名name = 'douban_spider'allowed_domains = ['movie.douban.com']# 入口url,扔到调度器中start_urls = ['https://movie.douban.com/top250']def parse(self, response):movie_list = response.xpath('//ol/li')for i_item in movie_list:douban_item = DoubanItem()# [<Selector xpath='.//em/text()' data='1'>]# 上面是未加:extract_first()的时候douban_item['serial_number'] = i_item.xpath('.//em/text()').extract_first()print(douban_item['serial_number'])

使用Scrapy(二)编写抓取规则相关推荐

  1. 练手练到阅文集团作家中心了,python crawlspider 二维抓取学习

    本篇博客学习使用 CrawlSpider 进行二维抓取. 目标站点分析 本次要采集的目标站点为:阅文集团作家中心 分页地址具备一定规则,具体如下: https://write.qq.com/porta ...

  2. 抓取一个连续的网页_搞懂各大搜索引擎蜘蛛的抓取规则,快速获得排名!

    搜索引擎平台的抓取规则: 百度.360.搜狗等搜索引擎抓取规则对比! 蜘蛛抓取规则:深度优先和广度优先 深度优先: 深度优先策略即一条道走到黑,当沿着一个路径走到无路可走时,再返回来走另一条路. 深度 ...

  3. 抖音短视频数据抓取实战系列(十二)——抓取实战BUG总集

    抖音短视频数据抓取实战系列(十二)--抓取实战BUG总集 1.模拟器自带的Xposed框架无法安装. 2.Fiddler无法监测雷电模拟器上的数据. 3.模拟器抖音用户详情页为空(未解决). 4.pi ...

  4. 浅析搜索引擎对网站的抓取规则有哪些方面

    众多网络优化公司都有一个共识,那就是每个搜索引擎的排名实际上都是综合网站各方面因素进行综合判定的.在某种情况下凑巧让一些网站得出了一些所谓的优化结论,实际上关于搜索引擎的算法谁都不能确保自己完全了解, ...

  5. 百度搜索关键字抓取_百度搜索引擎收录的抓取规则 - 蜘蛛池

    最蜘蛛池,快速提高网站收录,百度蜘蛛池.搜狗蜘蛛池.360蜘蛛池.神马蜘蛛池.繁殖池.权重池,欢迎使用. 浅谈搜索引擎收录的抓取规则?谈到SEO优化我们就必须不得不谈网站的收录问题,没有收录的站是不可 ...

  6. python查天气预报_一个用Python编写抓取天气预报的代码示例

    Python代码抓取获取天气预报信息源码讲解.这是一个用Python编写抓取天气预报的代码示例,用python写天气查询软件程序很简单.这段代码可以获取当地的天气和.任意城市的天气预报,原理是根据ur ...

  7. scrapy爬虫之抓取《芳华》短评及词云展示

    简介 在scrapy爬虫之<琅琊榜2>话题title收集及词云展示 及scrapy爬虫之模拟登录豆瓣l 两篇博文中,我们分别实现了直接爬取内容及模拟登陆豆瓣,现在我们将这两个功能整合到一起 ...

  8. Python进阶之Scrapy利用ImagesPipeline抓取汽车之家宝马5系缩略图

    Python进阶之Scrapy利用ImagesPipeline抓取汽车之家宝马5系缩略图 1. 创建项目 2. 使用ImagesPipeline爬取数据 items.py setings.py aut ...

  9. Scrapy 爬虫实例 抓取豆瓣小组信息并保存到mongodb中

    这个框架关注了很久,但是直到最近空了才仔细的看了下 这里我用的是scrapy0.24版本 先来个成品好感受这个框架带来的便捷性,等这段时间慢慢整理下思绪再把最近学到的关于此框架的知识一一更新到博客来. ...

  10. 用scrapy进行网页抓取

    最近用scrapy来进行网页抓取,对于pythoner来说它用起来非常方便,详细文档在这里:http://doc.scrapy.org/en/0.14/index.html 要想利用scrapy来抓取 ...

最新文章

  1. 「杂谈」如何系统性地学习生成对抗网络GAN
  2. 16. 3Sum Closest
  3. 如何让低版本IE浏览器支持HTML5和CSS3
  4. 【原创】开源Math.NET基础数学类库使用(06)直接求解线性方程组
  5. 12.文件系统——磁盘管理之RAID概述
  6. 你以为 CSS 只是个简单的布局?装逼指南了解一下
  7. C++3个汉诺塔递归问题
  8. java 高并发mqtt服务器_Boomer 实战压测 mqtt,2w 并发轻松实现
  9. 【王道计组笔记】总线(1):总线的概念和分类
  10. 吊打面试官系列之:移动APP测试开发面试题汇总,对标P7职位~ ~熬夜整理,建议收藏!!!
  11. 内网渗透 | powershellwmic详解
  12. xp计算机用户名和密码忘记了怎么办,XP系统开机密码忘记了怎么办?
  13. ROS 教程1 机器人操作系统 基础知识 节点 话题 消息 服务 行动 参数 日志 TF变换 目标结构 启动文件
  14. 使用ApachePOI复制pptx文件模板的幻灯片
  15. LeetCode.1046-最后的石头重量(Last Stone Weight)
  16. java多线程系列(一)
  17. ThinkPad E450 拆机换电池
  18. php注册登录描述,基于PHP实现用户登录注册功能的详细教程
  19. 小学计算机上课课前导入视频教程,小学信息技术教学中微视频的导入实践分析...
  20. jsd2205-csmall-passport(Day13)

热门文章

  1. 论用户体验测试:牛逼的功能千篇一律,好的用户体验万里挑一
  2. SQL自动审核工具archer
  3. PL330 DMAC笔记(1) - 简介
  4. 常用API——Object、Objects、StringBuilder
  5. Solr评分整理汇总:深入理解Lucene默认打分算法以及常用的三种评分方法
  6. 用Burpsuite破解网站密码
  7. Springboot物理地址映射和Nginx静态资源代理实现前端上传并访问服务器图片
  8. A callback was made on a garbage collected delegate of type...
  9. MySQL原理与实践(六):自增主键的使用
  10. JAVA 超详细 将文件夹目录打包为 ZIP 压缩包并下载