Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架。其可以应用在数据挖掘,信息处理或存储历史数据等一系列的程序中。其最初是为了页面抓取 (更确切来说, 网络抓取 )所设计的, 也可以应用在获取API所返回的数据(例如 Amazon Associates Web Services ) 或者通用的网络爬虫。Scrapy用途广泛,可以用于数据挖掘、监测和自动化测试。

1.下载安装

我使用的是Anaconda3,相应的python版本是3.7

pip install scarpy

2.简单案例

抓取美剧天堂的前100最新,如下图所示:

步骤:

(1)cmd进入需要创建项目的文件夹

cd E://ScrapyTest

(2)创建工程

scrapy startproject movie

(3)创建爬虫程序

cd movie // 进入工程目录
scrapy genspider meiju meijutt.com //创建爬虫程序

执行代码,系统会自动创建文件目录和文件,如下图所示:

文件说明:

scrapy.cfg  项目的配置信息,主要为Scrapy命令行工具提供一个基础的配置信息。(真正爬虫相关的配置信息在settings.py文件中)

items.py    设置数据存储模板,用于结构化数据,如:Django的Model

pipelines    数据处理行为,如:一般结构化的数据持久化

settings.py 配置文件,如:递归的层数、并发数,延迟下载等

spiders      爬虫目录,如:创建文件,编写爬虫规则

注意:一般创建爬虫文件时,以网站域名命名

(4)设置数据模板(每条数据格式)

#items.py
import scrapyclass MovieItem(scrapy.Item):# define the fields for your item here like:name = scrapy.Field()

(5)爬虫主类

#meiju.py
# -*- coding: utf-8 -*-
import scrapyfrom movie.items import MovieItemclass MeijuSpider(scrapy.Spider):name = 'meiju'allowed_domains = ['meijutt.com']start_urls = ['http://www.meijutt.com/new100.html']def parse(self, response):movies = response.xpath('//ul[@class="top-list  fn-clear"]/li')for each_movie in movies:item = MovieItem()item['name'] = each_movie.xpath('./h5/a/@title').extract()[0]yield item

(6)设置配置文件

#settings.py
添加内容
ITEM_PIPELINES = {'movie.pipelines.MoviePipeline':100}

(7)抓取后数据处理程序

#pipelines.py
# -*- coding: utf-8 -*-# Define your item pipelines here
#
# Don't forget to add your pipeline to the ITEM_PIPELINES setting
# See: https://doc.scrapy.org/en/latest/topics/item-pipeline.htmlclass MoviePipeline(object):def process_item(self, item, spider):with open("E://my_meiju.txt",'a') as fp:print(type(item['name']))fp.write(item['name'] + "\n")

(8)执行爬虫程序

cd movie
scrapy crawl meiju

Scrapy入门案例,抓取美剧天堂的前100最新相关推荐

  1. 通过爬取美剧天堂详细介绍Scrapy 框架入门

    通过爬取美剧天堂并详细介绍Scrapy 框架 前言(了解) 全文写了很多注释在标题处,时间充裕的可以详细看,需要找主要知识点的我已经标注明白了,直接翻到具体位置就行. Scrapy是用纯Python实 ...

  2. SpringBoot集成jsoup多线程爬取美剧天堂全部电影资源

    SpringBoot集成jsoup爬取美剧天堂全部美剧资源 准备工作 这次我的目的是获取这个网站的所有美剧的信息和迅雷的BT地址,我们需要获取的信息都在上万个类似于下面个页面结构的页面上 确定了目标, ...

  3. Scrapy实战案例--抓取股票数据并存入SQL数据库(JS逆向)

    目标网址:http://webapi.cninfo.com.cn/#/marketDataZhishu 之前在这篇文章里面对该网站的JS进行了一个逆向的解析:JS逆向解析案例 接下来我们来创建一个Sc ...

  4. Scrapy入门实例_爬取美剧天堂的最新前100

    使用工具:Python3.6版本 Python官网:https://www.python.org/ 目录 Scrapy的安装 Scrapy爬取数据步骤 一.创建工程: 二.创建爬虫程序 三.编辑爬虫 ...

  5. scrapy爬虫之抓取《芳华》短评及词云展示

    简介 在scrapy爬虫之<琅琊榜2>话题title收集及词云展示 及scrapy爬虫之模拟登录豆瓣l 两篇博文中,我们分别实现了直接爬取内容及模拟登陆豆瓣,现在我们将这两个功能整合到一起 ...

  6. Python进阶之Scrapy利用ImagesPipeline抓取汽车之家宝马5系缩略图

    Python进阶之Scrapy利用ImagesPipeline抓取汽车之家宝马5系缩略图 1. 创建项目 2. 使用ImagesPipeline爬取数据 items.py setings.py aut ...

  7. 使用scrapy 框架来抓取100部美剧的信息

    在开始爬取之前,必须创建一个新的 Scrapy 项目.进入自定义的项目目录中,运行下列命令: 创建项目命令 scrapy startproject 项目名称 切换到项目下 cd 项目名称目录 同时找到 ...

  8. Python爬虫爬取美剧网站

    一直有爱看美剧的习惯,一方面锻炼一下英语听力,一方面打发一下时间.之前是能在视频网站上面在线看的,可是自从广电总局的限制令之后,进口的美剧英剧等貌似就不在像以前一样同步更新了. 但是,作为一个宅dia ...

  9. Python爬虫带你爬取美剧网站

    本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理 以下文章来源于腾讯云,作者:哲洛不闹 一直有爱看美剧的习惯,一方面锻炼一下英语听力 ...

  10. python爬虫实战:爬取美剧网站

    一直有爱看美剧的习惯,一方面锻炼一下英语听力,一方面打发一下时间.之前是能在视频网站上面在线看的,可是自从广电总局的限制令之后,进口的美剧英剧等貌似就不在像以前一样同步更新了.但是,作为一个宅diao ...

最新文章

  1. python爬虫简单实例-最简单的Python爬虫案例,看得懂说明你已入门,附赠教程
  2. 【又放洋屁了】文艺细菌发作了
  3. java方法6_6. java 方法
  4. PaddlePaddle版Flappy-Bird—使用DQN算法实现游戏智能
  5. 上传文件返回数据提示下载
  6. 《netty实战》阅读笔记(2)——Netty 的数据容器ByteBuf
  7. (经验总结)flowable工作流_01_流程实例管理
  8. 搜索宝典:搜索资料的三重境界【帮助高级篇】
  9. pytorch tensor.detach
  10. 整数规划--指派问题
  11. iOS SceneDelegate使用总结
  12. 计算机学win7画图,Windows7系统画图工具怎么打开?
  13. 计算机操作系统安全序列详解,操作系统知识梳理
  14. Citrix PVS架构和工作原理
  15. 掌阅科技让数字化阅读更便捷
  16. Java基础语法02-流程控制
  17. CAD图纸无法复制粘贴该怎么办?
  18. 《 Python List 列表全实例详解系列(八)》__随机列表元素
  19. 为什么年终奖是一个彻头彻尾的职场圈套?
  20. 看了下面的关于大亚湾核电站的一些报道,我终于明白为什么老弟在惠阳买的房子会这么便宜了

热门文章

  1. 最牛逼的技术能力,是技术领导力
  2. less面试_面试必看:less与sass的区别
  3. python 三角函数计算
  4. 传16寸MacBook Pro九月发布 分辨率3072x1920
  5. C++(2-4)——sqrt的使用
  6. lpx寒假作业案例10
  7. 聚合数据简易开发流程
  8. es7 如何从项目resource读取index的mapping、setting.json文件
  9. Gif动图如何裁剪?收下这个图片在线裁剪工具
  10. MarkDown语法学习--字体,分割线,删除线,下划线