scrapy爬取猫眼电影信息

scrapy是一个优秀的爬虫框架，可以非常直观规整的进行数据爬取。下面以爬取猫眼电影信息为例：

首先我们我们需要建立一个scrapy项目：
在项目目录下cmd窗口输入：

scrapy startproject maoyan

创建一个maoyan爬虫项目：
接着我们进入maoyan项目目录：
然后我们创建一个spider：

scrapy genspider maoyan_spider maoyan.com

这样我们就创建好目录了

接着我们开始写item

import scrapyclass MaoyanItem(scrapy.Item):# define the fields for your item here like:# name = scrapy.Field()index = scrapy.Field()title = scrapy.Field()star = scrapy.Field()releasetime = scrapy.Field()score = scrapy.Field()

这是我们需要爬取的数据项

然后我们写spider

# -*- coding: utf-8 -*-
import scrapyfrom maoyan.items import MaoyanItemclass MySpider(scrapy.Spider):name = 'maoyan'  # 项目名allowed_domains = ['maoyan.com']  # 允许访问的域名def start_requests(self):url_list = []for i in range(0,10):url_list.append('https://maoyan.com/board/4?offset='+str(i))# 定义爬取的链接urls = url_listfor url in urls:# 爬取到的页面如何处理？提交给parse方法处理yield scrapy.Request(url=url, callback=self.parse)def parse(self, response):dl = response.css('.board-wrapper dd')for dd in dl:item = MaoyanItem()# extract()[0]等同于extract_first()item['index'] = dd.css('.board-index::text').extract_first()item['title'] = dd.css('.name a::text').extract_first()# strip方法是去除空格和换行符item['star'] = dd.css('.star::text').extract_first().strip()item['releasetime'] = dd.css('.releasetime::text').extract_first()item['score'] = dd.css('.integer::text').extract_first() + dd.css('.fraction::text').extract_first()yield item

在这里面我们重写了start_url和parse方法，采用css解释器对response进行解析

接着我们写过滤器pipelines

import json
class MaoyanPipeline(object):def __init__(self):self.fp = open('budejie.json','w',encoding='utf-8')def process_item(self, item, spider):return itemdef process_item(self, item, spider):item_json = json.dumps(dict(item),ensure_ascii=False)self.fp.write(item_json+'\n')return item

这里我们在初始化方法中添加文件保存方法，并重写process_item方法，将爬取内容转化成json
配置设置文件settings
我们需要把robots协议设为： ROBOTSTXT_OBEY = False
并添加：

DEFAULT_REQUEST_HEADERS = {'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8','Accept-Language': 'en','User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.88 Safari/537.36',}
ITEM_PIPELINES = {'maoyan.pipelines.MaoyanPipeline': 300,
}

最后我们在项目maoyan下设置启动文件start.py

from scrapy import cmdline
cmdline.execute(['scrapy','crawl','maoyan'])

这样我们直接启动start.py就获得了爬取数据的json文件

scrapy爬取猫眼电影信息相关推荐

Scrapy爬取猫眼电影评论
Scrapy爬取猫眼电影评论文章目录 Scrapy爬取猫眼电影评论 1.寻找评论接口 2.分析接口URL 接口URL规律构造URL接口分析JSON参数 3.Scrapy代码 spiders文件 ...
爬虫基本库request使用—爬取猫眼电影信息
使用request库和正则表达式爬取猫眼电影信息. 1.爬取目标猫眼电影TOP100的电影名称,时间,评分,等信息,将结果以文件存储. 2.准备工作安装request库. 3.代码实现 1 imp ...
小白学python－实战－爬取猫眼电影信息
这次我们来学习爬去猫眼电影前100名的电影 1．首先我们打开猫眼电影top100的网页:http://maoyan.com/board/4? 我们发现有offset=页数,来进行翻页 2．我们打开py ...
scrapy爬取豆瓣电影信息
1.新建项目 scrapy startproject douban cd douban cd spiders scrapy genspider douban_spider movie.douban.c ...
scrapy爬取猫眼电影及详情页
本来是在学习matplotlib画图的,发现自己没有数据去画图光看命令效果好像不是特别大,就想着去猫眼爬点电影来画图.然后就想着刚好练习下以前学过的scrapy,然后悲剧就开始了. 整个spider的 ...
(爬取猫眼电影TOP100的电影信息（含图片、评分等）)
爬取猫眼电影TOP100的电影信息(含图片.评分等) 让我们直接进入正题 1.导入需要的库 2.获取页面 3.分析页面 4.保存文件全部代码让我们直接进入正题对猫眼电影的网站进行分析其链接为: ...
使用PHP+QueryList 爬取猫眼电影榜单信息
爬虫是我一直以来跃跃欲试的技术,现在的爬虫框架很多,比较流行的是基于python,nodejs,java,C#的的框架,其中又以基于python的爬虫流行最为广泛,还有的已经是一套傻瓜式的软件操作,如 ...
Python全栈开发-Python爬虫-05 爬取猫眼电影榜单信息
爬取猫眼电影榜单信息(翻页) 一. 获取url及headers 首先进入猫眼电影首页: 猫眼电影之后点击菜单栏的榜单并在下面选择 TOP100榜接着右击检查并刷新界面,在Network中找到4 ...
利用正则表达式爬取猫眼电影TOP100信息
本文利用requests库和正则表达式爬取了猫眼电影TOP100电影信息,并将电影封面和标题.主演等文字信息保存在了本地.本文完整代码链接:https://github.com/iapcoder/Ma ...
python爬虫，爬取猫眼电影1（正则表达式）
本文用正则.xpath.beautifulsoup.css.pyquery几种不同的方式,爬取猫眼电影.只是记录过程.比较乱. 猫眼电影现在也添加了一些反爬虫机制,如果直接用requests可能会40 ...

scrapy爬取猫眼电影信息

scrapy是一个优秀的爬虫框架，可以非常直观规整的进行数据爬取。下面以爬取猫眼电影信息为例：

scrapy爬取猫眼电影信息相关推荐

最新文章

热门文章