Scrapy 框架：爬取豆瓣Top 250

使用Scrapy爬取豆瓣电影Top250

鲁迅说,豆瓣排行榜这么多,不爬一爬可惜了.

第一步：安装Scrapy

安装命令:

pip3 install scrapy

win用户一般来说第一次都不会太顺利。（我不会告诉你我也装了3个小时）
所以，本文结束。

这里是另外一种win7的安装方式，传说该作者是一次通过的http://www.scrapyd.cn/doc/124.html

其实本人觉得在无数次安装失败提示当中，主要是因为依赖库
Twisted-21.2.0-py3-none-any.whl文件下载失败，毕竟它有3.2M，其他的文件都挺小的，如果先安装了Twisted-21.2.0-py3-none-any.whl的话，成功的概率就会提升很大了。

该安装包的百度云链接附上
链接：https://pan.baidu.com/s/1TqThqGZaFqlu_jEnUrkLPQ
提取码：7733

安装Twisted命令:

pip3 install Twisted文件路径.whl（记得cd进去）

第二：新建爬虫项目

1，创建项目
命令：

scrapy startproject 你的项目名称

2，确定目标，创建字段

打开 mySpider 目录下的 items.py。
Item 定义结构化数据字段，用来保存爬取到的数据

import scrapyclass DoubanItem(scrapy.Item):# define the fields for your item here like:# name = scrapy.Field()name = scrapy.Field()  # 电影名称,中文introInfo = scrapy.Field()  # 主演人物介绍信息time = scrapy.Field()  # 上映时间score = scrapy.Field()  # 评分quote = scrapy.Field()  # 引用pass

3，新建爬虫,用来发请求爬数据

cd 进 spiders 目录

在 cmd 上敲：

scrapy genspider 自定义名称 "movie.douban.com"

第三：获取数据

在上面创建的爬虫文件上：

import scrapy
from douban.items import DoubanItemclass DoubanpSpider(scrapy.Spider):name = 'doubanP'  # 上面你自定义的名称allowed_domains = ['movie.douban.com']  # 访问的网域start_urls = ['https://movie.douban.com/top250'] # 祖链接def parse(self, response):try:# 获取数据for info in response.css('div.info'):  # 这里使用css 方式 获得响应的htmlitem = DoubanItem() # 之前创的字段文件# 标题name1 = info.css('span.title::text').get()name2 = info.css('span:nth-child(2).title::text').get()name3 = info.css('span.other::text').get()# 电影信息introInfo = info.css('div.bd p::text').getall()# 评分score = info.css('span.rating_num::text').get()# 引用 inqquote = info.css('span.inq::text').get()# 加入item对象item['name'] = str(name1) + str(name2) + str(name3)item['introInfo'] = introInfo[0]item['time'] = introInfo[1]item['score'] = scoreitem['quote'] = quoteyield item  # 这里会传到管道文件，一会配置# 下一页  由于是固定250个文件，点击下一页会有一个 top250?start=25&fter=# 所以简单的计算一下，然后发送请求获取下一页的数据count = 25while count <= 250:url = 'https://movie.douban.com/top250?start={count}&filter='.format(count=count)count += 25 # 豆瓣一页显示25条数据yield scrapy.Request(url, callback=self.parse)except Exception as e:print(e)

最最最重要的一步来了，那就是设置setting.py文件：


BOT_NAME = 'douban'
SPIDER_MODULES = ['douban.spiders']
NEWSPIDER_MODULE = 'douban.spiders'# 头文件，没有该文件将无法爬取
USER_AGENT = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.90 Safari/537.36'# Obey robots.txt rules
ROBOTSTXT_OBEY = True# 管道
ITEM_PIPELINES = {'douban.pipelines.DoubanPipeline': 300,
}

第4：存入Mongodb数据库或导出成为文件

1，存入数据库

安装数据库：

pip3 install pymongo

在 pipelines.py 文件中

import pymongo
from itemadapter import ItemAdapterclass DoubanPipeline:def __init__(self):# 连接数据库client = pymongo.MongoClient()# 集合self.collection = client.scrapy.douban_moviedef process_item(self, item, spider):self.collection.insert_one(dict(item))print('加入成功!')return item

就这么简单。

2，导出json文件

在控制台输入：

scrapy crawl doubanP -o movies.json -s FEED_EXPORT_ENCODING=UTF-8

或者

建一个main.py 文件

from scrapy.cmdline import *if __name__ == '__main__':execute('scrapy crawl doubanP -o movies.json -s FEED_EXPORT_ENCODING=UTF-8'.split())

第5：看看你的250？不，是我的250！

Mongodb后台：

json：