Scrapy是啥

scrapy是一个使用python编写的开源网络爬虫框架。这里的框架实际上就是应用程序的骨架，是一个半成品，框架能够保证程序结构风格统一。

Scrapy的安装

pip install Scrapy。但在此之前要先安装几个包：
在cmd中运行以下语句：
(1) pip install wheel
(2) pip install lxml
(3) pip install twisted
(4) 最后 pip install scrapy
(5) 验证Scrapy框架是否安装成功：
打开python,试试import scrapy 和scrapy.version_info

如图看到Scrapy库的版本为2.4.1

实例：爬取美剧天堂new100：

(1)创建工程：

找一个文件夹，打开cmd进入该目录。
输入命令：
Scrapy startproject movie

这时可以看到该目录下多了一个叫movie的文件夹，而这个文件夹里面还有一个叫movie的文件夹，里面是这样的：

这样Scrapy项目就成功创建了。

（2）创建爬虫程序

用cd先进入movie目录，输入命令：
Scrapy genspider meiju meijutt.tv

该命令创建了一个叫meiju的爬虫
这时查看spiders目录可以看到多了一个meiju.py，就是我们刚创建的爬虫。

（3）编辑爬虫

用编辑器打开meiju.py

这个网站的内容是我们的爬取目标

import scrapy
from movie.items import MovieItemclass MeijuSpider(scrapy.Spider):  # 继承这个类name = 'meiju'  #名字allowed_domains = ['meijutt.tv']  # 域名start_urls = ['https://www.meijutt.tv/new100.html']  # 要补充完整def parse(self, response):movies = response.xpath('//ul[@class="top-list  fn-clear"]/li')  # 看不懂for each_movie in movies:item = MovieItem()item['name'] = each_movie.xpath('./h5/a/@title').extract()[0]yield item  # 一种特殊的循环

(4)设置item模板：

在items中输入：

import scrapyclass MovieItem(scrapy.Item):# define the fields for your item here like:# name = scrapy.Field()
name = scrapy.Field()

（5）设置配置文件

在settings.py中增加代码：

ITEM_PIPELINES = {'movie.pipelines.MoviePipeline':100}

(6)设置数据处理脚本：

在pipelines.py中输入代码：

import jsonclass MoviePipeline(object):def process_item(self, item, spider):return item

(7)运行爬虫

在爬虫根目录执行命令：
Scrapy crawl meiju

Emm发现meiju.py有错误，看了一下是由于冒号后面的语句没有缩进。

现在看看那两个xpath选择器的内容：

movies = response.xpath('//ul[@class="top-list  fn-clear"]/li')# 意思是选中所有的属性class值为"top-list  fn-clear"的ul下的li标签内容

也就是说movies得到的是li标签之间的内容的列表

for each_movie in movies:item = MovieItem()item['name'] = each_movie.xpath('./h5/a/@title').extract()[0]# .表示选取当前节点，也就是对每一项li，其下的h5下的a标签中title的属性值yield item  # 一种特殊的循环

修改增加缩进，并修改第一个xpath的内容后再次运行：

可以看到爬取成功

一个Scrapy爬虫实例相关推荐

【python实现网络爬虫（5）】第一个Scrapy爬虫实例项目（Scrapy原理及Scrapy爬取名言名句网站信息）
Scrapy介绍总共有五部分组成的:具体的流程可看图示引擎.调度器.下载器.蜘蛛和项目管道爬取流程针对于每个URL, Scheduler -> Downloader -> Spid ...
简单scrapy爬虫实例
简单scrapy爬虫实例流程分析抓取内容:网站课程页面:https://edu.hellobi.com 数据:课程名.课程链接及学习人数观察页面url变化规律以及页面源代码帮助我们获取所有数据 ...
python学习（三）scrapy爬虫框架（二）——创建一个scrapy爬虫
在创建新的scrapy爬虫之前,我们需要先了解一下创建一个scrapy爬虫的基本步骤第一步:确定要爬取的数据以爬取豆瓣电影数据为例: 每部电影所要爬取的信息有: 片名:<头号玩家> 导 ...
Scrapy爬虫实例——校花网
学习爬虫有一段时间了,今天使用Scrapy框架将校花网的图片爬取到本地.Scrapy爬虫框架相对于使用requests库进行网页的爬取,拥有更高的性能. Scrapy官方定义:Scrapy是用于抓取网 ...
python每天定时9点执行_[求助]关于twisted框架，如何每天定时执行一个scrapy爬虫...
RT,最近在学scrapy,写了一个简单的爬取网页数据的爬虫,利用CrawlProcess单次调用执行的时候没有问题,脚本如下,就是清空数据表然后爬取数据: class updateBoardData ...
Scrapy 爬虫实例抓取豆瓣小组信息并保存到mongodb中
这个框架关注了很久,但是直到最近空了才仔细的看了下这里我用的是scrapy0.24版本先来个成品好感受这个框架带来的便捷性,等这段时间慢慢整理下思绪再把最近学到的关于此框架的知识一一更新到博客来. ...
在anaconda下创建我的第一个scrapy爬虫——爬取dmoz网站某一网址下的目录的链接名称以及链接地址...
这里我用的python工具是anaconda. 1.首先创建一个scrapy工程: 打开anaconda promt命令行(注意这里不是使用cmd打开windows下的命令行),进入到需要创建工程的目 ...
安装scrapy模块，创建一个Scrapy爬虫项目，并运行
创建一个Scrapy项目,首先需要所需要的模块一丶安装scrapy框架所有模块 1.第一个安装的依赖库是lxml ,命令是: pip install lxml 2.第二个依赖库是pyOpenSSL, ...
SCRAPY爬虫实例
一:Scrapy简介 scrapy是一个爬虫框架,支持多线程爬取数据,使用简单,爬取效率高. 二:项目介绍 1:爬取对象 #乐彩网历史双色球开奖号码,网址如下 http://www.17500.cn/ ...
Python 三.创建第一个scrapy爬虫项目(分布式爬虫打造搜索引擎)
1.安装pywin32 打开cmd窗口 pip install -i https://pypi.tuna.tsinghua.edu.cn/simple pywin32 2.安装Twisted网络数据处 ...

一个Scrapy爬虫实例

目录

Scrapy是啥

Scrapy的安装

实例：爬取美剧天堂new100：

(1)创建工程：

（2）创建爬虫程序

（3）编辑爬虫

(4)设置item模板：

（5）设置配置文件

(6)设置数据处理脚本：

(7)运行爬虫

一个Scrapy爬虫实例相关推荐

最新文章

热门文章

一个Scrapy爬虫实例

目录

Scrapy是啥

Scrapy的安装

实例：爬取美剧天堂new100：

(1)创建工程：

（2） 创建爬虫程序

（3） 编辑爬虫

(4)设置item模板：

（5） 设置配置文件

(6)设置数据处理脚本：

(7)运行爬虫

一个Scrapy爬虫实例相关推荐

最新文章

热门文章

（2）创建爬虫程序

（3）编辑爬虫

（5）设置配置文件