Scrapy框架学习 - 爬取豆瓣电影排行榜TOP250所有电影信息并保存到MongoDB数据库中

概述

利用Scrapy爬取豆瓣电影Top250排行榜电影信息,并保存到MongoDB数据库中

使用pymongo库操作MOngodb数据库

没有进行数据清洗

源码

items.py

class Douban250Item(scrapy.Item):"""豆瓣电影Top250爬虫 Item"""# 电影名称title=scrapy.Field()# 信息info=scrapy.Field()# 评分star=scrapy.Field()# 评价人数num=scrapy.Field()# 一句话点评quote=scrapy.Field()

spider/douban250_spider.py

# !/usr/bin/env python
# -*- coding:utf-8 -*-import scrapy
from myscrapy.items import Douban250Itemclass Douban250Spider(scrapy.Spider):"""豆瓣电影Top250爬虫Spider"""name = 'douban250'allowed_domains=['movie.douban.com',]base_url='https://movie.douban.com/top250?start='offset=0start_urls=[base_url+str(offset),]def parse(self, response):# 包含本页所有电影的SelectorListmovies=response.xpath('//ol/li/div[@class="item"]')for movie in movies:title=movie.xpath('./div[@class="info"]//a/span[1]/text()')[0].extract()info=movie.xpath('./div[@class="info"]//p[1]')[0].extract()star=movie.xpath('.//span[@class="rating_num"]/text()')[0].extract()num=movie.xpath('.//div[@class="star"]/span[last()]/text()')[0].extract()quote=movie.xpath('./div[@class="info"]//p[2]')[0].extract()item=Douban250Item()item['title'] = titleitem['info'] = infoitem['star'] = staritem['num'] = numitem['quote'] = quoteyield itemif self.offset<225:self.offset+=25yield scrapy.Request(url=self.base_url+str(self.offset),callback=self.parse)

pipelines.py

import pymongo
class Douban250Pipeline(object):"""豆瓣电影Top250爬虫Item Pipeline"""def __init__(self):# 连接数据库服务器mongo_client=pymongo.MongoClient(host='127.0.0.1',port=27017)# 指定数据库mydb=mongo_client['mydb']# 指定集合self.douban250_col=mydb['douban250']def process_item(self,item,spider):# 插入数据self.douban250_col.insert(dict(item))return itemdef close_spider(self,spider):pass

settings.py

ITEM_PIPELINES = {'myscrapy.pipelines.Douban250Pipeline': 300,
}

运行

Scrapy框架学习 - 爬取豆瓣电影排行榜TOP250所有电影信息并保存到MongoDB数据库中相关推荐

Scrapy框架学习 - 爬取Boss直聘网Python职位信息
分析使用CrawlSpider结合LinkExtractor和Rule爬取网页信息 LinkExtractor用于定义链接提取规则,一般使用allow参数即可 LinkExtractor(allow ...
Scrapy 框架：爬取豆瓣Top 250
使用Scrapy爬取豆瓣电影Top250 鲁迅说,豆瓣排行榜这么多,不爬一爬可惜了. 第一步:安装Scrapy 安装命令: pip3 install scrapy win用户一般来说第一次都不会太顺利 ...
爬取虎扑nba球员得分榜信息并存储至MongoDB数据库
Main.py: import re import requests from requests.exceptions import RequestException from config impo ...
利用xpath爬取链家租房房源数据并利用pandas保存到Excel文件中
我们的需求是利用xpath爬取链家租房房源数据,并将数据通过pandas保存到Excel文件当中下面我们看一下链家官网的房源信息(以北京为例) 如图所示,我们通过筛选得到北京租房信息那么我们需要将 ...
python爬虫爬取虎扑湖人论坛专区帖子数据，并存入MongoDB数据库中
今天就带大家从头到尾一步一步带着大家爬取虎扑论坛帖子的数据,里面涉及到的一些知识,我会给出学习的连接,大家可以自行去学习查看. 前期准备首先我们打开虎扑NBA论坛,我选择的是湖人专区(小湖迷一个). ...
Pandas的学习(读取mongodb数据库集合到DataFrame，将DataFrame类型数据保存到mongodb数据库中)
1.读取mongodb数据库集合到DataFrame import pymongo import pandas as pdclient = pymongo.MongoClient("数据库连 ...
使用python3.7中的scrapy框架，爬取起点小说
这几天在学习scrapy框架,感觉有所收获,便尝试使用scrapy框架来爬取一些数据,对自己阶段性学习进行一个小小的总结本次爬取的目标数据是起点中文网中的免费作品部分,如下图: 本次一共爬取了100 ...
使用Scrapy框架，爬取b站番剧信息。
使用Scrapy框架,爬取b站番剧信息. 感觉好久没写爬虫的,今天看了在b站浏览了一会儿,发现b站有很多东西可以爬取的,比如首页的排行榜,番剧感觉很容易找到数据来源的,所以就拿主页的番剧来练练手的. ...
手把手教你使用scrapy框架来爬取北京新发地价格行情（理论篇）
点击上方"Python爬虫与数据挖掘",进行关注回复"书籍"即可获赠Python从入门到进阶共10本电子书今日鸡汤博观而约取,厚积而薄发. 大家好! ...

Scrapy框架学习 - 爬取豆瓣电影排行榜TOP250所有电影信息并保存到MongoDB数据库中

概述

源码

运行

Scrapy框架学习 - 爬取豆瓣电影排行榜TOP250所有电影信息并保存到MongoDB数据库中相关推荐

最新文章

热门文章