之前入门了Scrapy,用Scrapy框架爬取了豆瓣电影TOP250,最近打算学习下scrapy-redis分布式爬虫,学习之前再重新温故下Scrapy,这个总结我缩写了很多内容,很多介绍可以看下我之前写的豆瓣movie

实战应用

打开CMD输入

scrapy startproject maoyan

C:.

│ scrapy.cfg

└─maoyan

│ items.py

│ middlewares.py

│ pipelines.py

│ settings.py

│ __init__.py

└─spiders

__init__.py

编辑 item.py

import scrapy

class MaoyanItem(scrapy.Item):

# define the fields for your item here like:

# name = scrapy.Field()

movie_name = scrapy.Field()

movie_ename = scrapy.Field()

movie_type = scrapy.Field()

movie_publish = scrapy.Field()

movie_time = scrapy.Field()

movie_star = scrapy.Field()

movie_total_price = scrapy.Field()

pass

首先,引入Scrapy

接着,创建一个类,继承自scrapy.item,这个是用来储存要爬下来的数据的存放容器,类似orm的写法

我们要记录的是:电影的名字、电影的评分、电影的上映时间、电影类型、电影英文名

获取网页数据

网页数据使用Xpath来索取元素非常方便,附上W3SCHOOL xpath学习 接下来,我们定义一下url的爬取规则

[图片上传失败...(image-4f0d9a-1513867500981)]

[图片上传失败...(image-e05661-1513867500981)]

我们真正要抓取电影详情页的是这个链接 http://maoyan.com/films/1170264

好了,到这一步编辑spider

from scrapy.spiders import Rule, CrawlSpider

from scrapy.selector import Selector

from scrapy.linkextractors import LinkExtractor

from maoyan.items import MaoyanItem

class MaoyanmovieSpider(CrawlSpider):

name = 'my'

# allowed_domains = ['http://maoyan.com/']

start_urls = ['http://maoyan.com/films']

rules = (

Rule(LinkExtractor(allow=(r'http://maoyan.com/films\?offset=\d+'))),

Rule(LinkExtractor(allow=(r'http://maoyan.com/films/\d+')), callback='parse_item')

)

def parse_item(self, response):

# print(response.body)

sel = Selector(response)

movie_name = sel.xpath('/html/body/div[3]/div/div[2]/div[1]/h3/text()').extract()

movie_ename = sel.xpath('/html/body/div[3]/div/div[2]/div[1]/div/text()').extract()

movie_type = sel.xpath('/html/body/div[3]/div/div[2]/div[1]/ul/li[1]/text()').extract()

movie_publish = sel.xpath('/html/body/div[3]/div/div[2]/div[1]/ul/li[2]/text()').extract()

movie_time = sel.xpath('/html/body/div[3]/div/div[2]/div[1]/ul/li[3]/text()').extract()

movie_star = sel.xpath('/html/body/div[3]/div/div[2]/div[3]/div[1]/div/span/span/text()').extract()

# movie_total_price = sel.xpath('/html/body/div[3]/div/div[2]/div[3]/div[2]/div/span[1]/text()').extract()

# movie_introd = sel.xpath('//*[@id="app"]/div/div[1]/div/div[2]/div[1]/div[1]/div[2]/span/text()').extract()

# print(movie_name)

# print(movie_ename)

# print(movie_type)

# print(movie_publish)

# print(movie_time)

# print(movie_star)

# print(movie_total_price)

item = MaoyanItem()

item['movie_name'] = movie_name

item['movie_ename'] = movie_ename

item['movie_type'] = movie_type

item['movie_publish'] = movie_publish

item['movie_time'] = movie_time

item['movie_star'] = movie_star

# item['movie_total_price'] = movie_total_price

# item['movie_introd'] = movie_introd

yield item

spider写完后我们要将数据存进MongoDB数据库内,编辑pipeline.py

import pymongo

from scrapy.conf import settings

from scrapy.exceptions import DropItem

from scrapy import log

class MongoDBPipeline(object):

def __init__(self):

client = pymongo.MongoClient(settings['MONGODB_SERVER'], settings['MONGODB_PORT'])

db = client[settings['MONGODB_DB']]

self.collection = db[settings['MONGODB_COLLECTION']]

def process_item(self, item, spider):

# item: (Item 对象) – 被爬取的item

# (Spider 对象) – 爬取该item的spider

# 去重,删除重复的数据

valid = True

for data in item:

if not data:

valid = False

raise DropItem('Missing %s of blogpost from %s' % (data, item['url']))

if valid:

movies = [{

'movie_name': item['movie_name'],

'movie_ename': item['movie_ename'],

'movie_type': item['movie_type'],

'movie_publish': item['movie_publish'],

'movie_time': item['movie_time'],

'movie_star': item['movie_star']

}]

# 插入数据库集合中

self.collection.insert(movies)

log.msg('Item wrote to MongoDB database %s/%s' % (settings['MONGODB_DB'], settings['MONGODB_COLLECTION']),

level=log.DEBUG, spider=spider)

return item

配置文件

打开setting.py

BOT_NAME = 'maoyan'

SPIDER_MODULES = ['maoyan.spiders']

NEWSPIDER_MODULE = 'maoyan.spiders'

ROBOTSTXT_OBEY = False

COOKIES_ENABLED = True

DOWNLOAD_DELAY = 3

LOG_LEVEL = 'DEBUG'

RANDOMIZE_DOWNLOAD_DELAY = True

# 关闭重定向

REDIRECT_ENABLED = False

# 返回302时,按正常返回对待,可以正常写入cookie

HTTPERROR_ALLOWED_CODES = [302,]

ITEM_PIPELINES = {

'maoyan.pipelines.MongoDBPipeline': 300,

}

MONGODB_SERVER = 'localhost'

MONGODB_PORT = 27017

MONGODB_DB = 'maoyan'

MONGODB_COLLECTION = 'movies'

好了,现在开启爬虫

scrapy crawl my

[图片上传失败...(image-1f54d8-1513867500981)]

写这个爬虫应该会遇到302重定向或者被网站发现是机器人操作,建议延长delay时间,不过爬取效率会非常低!!总共有23110页,每页有30条数据,总共693300条数据,就算不被ban掉,那得爬到猴年马月............................................................

不说了,赶紧学习分布式爬虫!!!!

[图片上传失败...(image-b399d9-1513867500981)]

欢迎访问博客Treehl的博客

完整代码GitHub

简书

最后放一个爬虫集合,是我最近学习Python写的,喜欢的亲!给个Star呗!!!

SpiderList

猫眼电影票房爬取到MySQL中_Scrapy爬取猫眼电影并存入MongoDB数据库相关推荐

  1. 电影票房爬取到MySQL中_爬取最热电影及票房统计

    最近过五一小长假,带着老婆孩子出去玩了,偷了点小懒,又没有更新知乎.白天在外面玩,回来就想撸撸代码,撸代码也有瘾,成了生活中不可缺少的一部分.前几篇文章都是讲数据处理的,今天换个风格吧.写个简单的爬虫 ...

  2. python爬虫爬取虎扑湖人论坛专区帖子数据,并存入MongoDB数据库中

    今天就带大家从头到尾一步一步带着大家爬取虎扑论坛帖子的数据,里面涉及到的一些知识,我会给出学习的连接,大家可以自行去学习查看. 前期准备 首先我们打开虎扑NBA论坛,我选择的是湖人专区(小湖迷一个). ...

  3. 猫眼电影票房爬取到MySQL中_爬取猫眼电影top100,request、beautifulsoup运用

    这是第三篇爬虫实战,运用request请求,beautifulsoup解析,mysql储存. 如果你正在学习爬虫,本文是比较好的选择,建议在学习的时候打开猫眼电影top100进行标签的选择,具体分析步 ...

  4. 在线电影推荐网 Python+Django+Mysql 协同过滤推荐算法在电影网站中的运用 基于用户、物品的协同过滤推荐算法 开发在线电影推荐系统 电影网站推荐系统 人工智能、大数据、机器学习开发

    在线电影推荐网 Python+Django+Mysql 协同过滤推荐算法在电影网站中的运用 基于用户.物品的协同过滤推荐算法 开发在线电影推荐系统 电影网站推荐系统 人工智能.大数据.机器学习开发 M ...

  5. python + selenium +chrome爬取qq空间好友说说并存入mongodb数据库

    python + selenium +chrome爬取qq空间好友说说并存入mongodb数据库 准备阶段 在正式开始在前需要先准备好做爬虫的工具,本例使用chrome无头浏览器进行爬取工作,也可使用 ...

  6. python爬取好友qq空间_python + selenium +chrome爬取qq空间好友说说并存入mongodb数据库...

    title: python + selenium +chrome爬取qq空间好友说说并存入mongodb数据库 准备阶段 在正式开始在前需要先准备好做爬虫的工具,本例使用chrome无头浏览器进行爬取 ...

  7. mysql schema 保存数据_在MySQL中,所有触发器的定义都保存在information_schema数据库下的()表中。_学小易找答案...

    [单选题]如何将英制 的零件转为公制的零件 ( ). [判断题]连续选择边线创建倒角时,不能单独修改某一边线的倒角大小 [判断题]创建筋特征时截面必须是闭和的 [填空题]Hibernate 的会话接口 ...

  8. Kafka实战 - 06 Kafka消费者:从指定Topic拉取工单处置记录信息并存入MongoDB数据库

    文章目录 1. 处置记录表 t_disposal_record 2. kafka 主题和消费者配置 3. 定义一个线程任务 KafkaTask 1. kafka Topic中的数据:KafkaDisp ...

  9. 猫眼电影票房爬取到MySQL中_爬虫之爬取猫眼电影专业版实时数据排行榜

    猫眼电影专业版实时数据排行榜是个持续更新的用ajax写成的网站,一般而言,爬取它比较麻烦,需要使用ajax/js进行爬取,python中的requests库可以获取网站的ajax,再通过json库解析 ...

  10. 猫眼电影票房爬取到MySQL中_猫眼电影爬取(一):requests+正则,并将数据存储到mysql数据库...

    前面讲了如何通过pymysql操作数据库,这次写一个爬虫来提取信息,并将数据存储到mysql数据库 1.爬取目标 爬取猫眼电影TOP100榜单 要提取的信息包括:电影排名.电影名称.上映时间.分数 2 ...

最新文章

  1. 计算机组原理ppt,计算机组原理第三章.ppt
  2. [转载]判断IE浏览器-世界上最短的代码
  3. 标签页如何用php静态显示,php使用标签替换的方式生成静态页面
  4. 微信生态中,「电商」如何借“运营工具”,抢占 4.5 亿流量红利?
  5. 实体类(VO,DO,DTO)的划分
  6. C语言给考场编号,求:用C设计考场的编排,生成准考证号基本要求:br/(1)用 爱问知识人...
  7. 洛谷P3402 【模板】可持久化并查集
  8. 说说大型高并发高负载网站的系统架构 (转)
  9. SQL Server 2008空间数据应用系列九:使用空间工具(Spatial Tools)导入ESRI格式地图数据...
  10. spss软件测试题题库,spss题库_Spss软件可以算试题的区分度吗怎么算_淘题吧
  11. java常量池在哪里_【Java基础】Java常量池在哪里? - 收获啦
  12. php是什么币种的外汇英文,外汇币种英文_我要最常用的10个外汇币种和英文简称!_合拍网...
  13. 党建管理系统开发,组织部干部人事任免平台建设方案
  14. DOM以及DOM事件的处理方式
  15. 深度学习方法(十五):知识蒸馏(Distilling the Knowledge in a Neural Network),在线蒸馏
  16. c语言kbhit函数头文件,c - 有没有办法替换标准C中的kbhit()和getch()函数? - 堆栈内存溢出...
  17. Linux中如何查看命令帮助手册
  18. Linux虚拟主机与Windows虚拟主机之间有什么区别
  19. 从事Web前端要学什么 常用前端开发技术有哪些
  20. 关于GPS坐标转换(一)

热门文章

  1. 进制转换:二进制小数如何转换十进制
  2. torch.optim.lr_scheduler源码和cosine学习率策略学习
  3. Pinia的写法探索
  4. unicast multicast broadcast的区别
  5. 【初学音频】Android的Audio系统之AudioFlinger
  6. 单片机8255c语言程序,51单片机8255驱动C程序
  7. 国产高可用软件,双机热备与冷备的区别
  8. Cilium 官方文档翻译(7) IPAM Kubernetes Host模式
  9. 安卓分析工具GameGurdian使用说明
  10. Hystrix熔断器