安装插件

xpath helper

chrome://flags/#extensions-on-chrome-urls

测试抓取

# -*- coding: utf-8 -*-
import scrapyclass DoubanSpiderSpider(scrapy.Spider):#爬虫名name = 'douban_spider'allowed_domains = ['movie.douban.com']#入口url，扔到调度器中start_urls = ['https://movie.douban.com/top250']def parse(self, response):# 打印抓取过来的内容print(response.text)

使用谷歌copy xpath

# -*- coding: utf-8 -*-
import scrapyclass DoubanSpiderSpider(scrapy.Spider):#爬虫名name = 'douban_spider'allowed_domains = ['movie.douban.com']#入口url，扔到调度器中start_urls = ['https://movie.douban.com/top250']def parse(self, response):movie_list = response.xpath('//*[@id="content"]/div/div[1]/ol').extract()for i_item in movie_list:print(i_item)

不要使用上面那个

# -*- coding: utf-8 -*-
import scrapy
from douban.items import DoubanItemclass DoubanSpiderSpider(scrapy.Spider):# 爬虫名name = 'douban_spider'allowed_domains = ['movie.douban.com']# 入口url，扔到调度器中start_urls = ['https://movie.douban.com/top250']def parse(self, response):movie_list = response.xpath('//ol/li')for i_item in movie_list:douban_item = DoubanItem()# [<Selector xpath='.//em/text()' data='1'>]# 上面是未加：extract_first()的时候douban_item['serial_number'] = i_item.xpath('.//em/text()').extract_first()print(douban_item['serial_number'])

使用Scrapy（二）编写抓取规则相关推荐

练手练到阅文集团作家中心了，python crawlspider 二维抓取学习
本篇博客学习使用 CrawlSpider 进行二维抓取. 目标站点分析本次要采集的目标站点为:阅文集团作家中心分页地址具备一定规则,具体如下: https://write.qq.com/porta ...
抓取一个连续的网页_搞懂各大搜索引擎蜘蛛的抓取规则，快速获得排名！
搜索引擎平台的抓取规则: 百度.360.搜狗等搜索引擎抓取规则对比! 蜘蛛抓取规则:深度优先和广度优先深度优先: 深度优先策略即一条道走到黑,当沿着一个路径走到无路可走时,再返回来走另一条路. 深度 ...
抖音短视频数据抓取实战系列（十二）——抓取实战BUG总集
抖音短视频数据抓取实战系列(十二)--抓取实战BUG总集 1.模拟器自带的Xposed框架无法安装. 2.Fiddler无法监测雷电模拟器上的数据. 3.模拟器抖音用户详情页为空(未解决). 4.pi ...
浅析搜索引擎对网站的抓取规则有哪些方面
众多网络优化公司都有一个共识,那就是每个搜索引擎的排名实际上都是综合网站各方面因素进行综合判定的.在某种情况下凑巧让一些网站得出了一些所谓的优化结论,实际上关于搜索引擎的算法谁都不能确保自己完全了解, ...
百度搜索关键字抓取_百度搜索引擎收录的抓取规则 - 蜘蛛池
最蜘蛛池,快速提高网站收录,百度蜘蛛池.搜狗蜘蛛池.360蜘蛛池.神马蜘蛛池.繁殖池.权重池,欢迎使用. 浅谈搜索引擎收录的抓取规则?谈到SEO优化我们就必须不得不谈网站的收录问题,没有收录的站是不可 ...
python查天气预报_一个用Python编写抓取天气预报的代码示例
Python代码抓取获取天气预报信息源码讲解.这是一个用Python编写抓取天气预报的代码示例,用python写天气查询软件程序很简单.这段代码可以获取当地的天气和.任意城市的天气预报,原理是根据ur ...
scrapy爬虫之抓取《芳华》短评及词云展示
简介在scrapy爬虫之<琅琊榜2>话题title收集及词云展示及scrapy爬虫之模拟登录豆瓣l 两篇博文中,我们分别实现了直接爬取内容及模拟登陆豆瓣,现在我们将这两个功能整合到一起 ...
Python进阶之Scrapy利用ImagesPipeline抓取汽车之家宝马5系缩略图
Python进阶之Scrapy利用ImagesPipeline抓取汽车之家宝马5系缩略图 1. 创建项目 2. 使用ImagesPipeline爬取数据 items.py setings.py aut ...
Scrapy 爬虫实例抓取豆瓣小组信息并保存到mongodb中
这个框架关注了很久,但是直到最近空了才仔细的看了下这里我用的是scrapy0.24版本先来个成品好感受这个框架带来的便捷性,等这段时间慢慢整理下思绪再把最近学到的关于此框架的知识一一更新到博客来. ...
用scrapy进行网页抓取
最近用scrapy来进行网页抓取,对于pythoner来说它用起来非常方便,详细文档在这里:http://doc.scrapy.org/en/0.14/index.html 要想利用scrapy来抓取 ...

使用Scrapy（二）编写抓取规则

安装插件

测试抓取

使用谷歌copy xpath

不要使用上面那个

使用Scrapy（二）编写抓取规则相关推荐

最新文章

热门文章