使用工具:Python3.6版本

Python官网:https://www.python.org/


目录

Scrapy的安装

Scrapy爬取数据步骤

一、创建工程:

二、创建爬虫程序

三、编辑爬虫

四、设置item模板

五、设置配置文件

六、设置数据处理脚本

七、运行爬虫


Scrapy的安装

pip install Scrapy。在此之前需要先安装几个包:wheel、lxml以及twisted

cmd执行语句需要进入到对应的python根目录的Scripts文件夹下D:\hailong\Python3.6\Scripts

然后依次运行如下语句:

(1) pip install wheel

(2) pip install lxml

(3) pip install twisted

(4) 最后 pip install scrapy

安装好的wheel、lxml、twisted、scrapy包都在此路径下D:\hailong\Python3.6\Lib\site-packages

(5) 验证Scrapy框架是否安装成功:

打开python,输入import scrapyscrapy.version_info可以查看scrapy的版本信息


Scrapy爬取数据步骤

一、创建工程:

创建一个文件夹,任意命名,然后打开cmd进入该目录。

输入命令:Scrapy startproject movie

此时可以看到该目录下多了一个叫movie的文件夹

而movie文件夹下还有一个叫movie的文件夹


二、创建爬虫程序

用cd movie指令进入movie目录,输入命令:

Scrapy genspider meiju meijutt.tv

该命令创建了一个叫meiju的爬虫

这时查看spiders目录可以看到多了一个meiju.py,就是我们刚创建的爬虫。


三、编辑爬虫

用代码编辑器打开meiju.py,进行如下编辑:

import scrapyfrom movie.items import MovieItemclass MeijuSpider(scrapy.Spider):#继承这个类name = 'meiju'#名字allowed_domains = ['meijutt.tv']#域名start_urls = ['https://www.meijutt.tv/new100.html']#要补充完整# headers={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.25 Safari/537.36'}def parse(self, response):print(888888888)#测试用movies = response.xpath('//ul[@class="top-list  fn-clear"]/li')#意思是选中所有的属性class值为"top-list  fn-clear"的ul下的li标签内容print(movies)#测试用for each_movie in movies:item = MovieItem()item['name'] = each_movie.xpath('./h5/a/@title').extract()[0]# .表示选取当前节点,也就是对每一项li,其下的h5下的a标签中title的属性值yield item #一种特殊的循环


四、设置item模板

如图所示,在items.py中输入代码:

import scrapyclass MovieItem(scrapy.Item):name = scrapy.Field()

五、设置配置文件

如图所示,在settings.py中输入代码:

ITEM_PIPELINES = {'movie.pipelines.MoviePipeline':100}ROBOTSTXT_OBEY = FalseDOWNLOAD_DELAY = 1

六、设置数据处理脚本

如图所示,在pipelines.py中输入代码:

from itemadapter import ItemAdapterclass MoviePipeline:def process_item(self, item, spider):return item

七、运行爬虫

运行之前建议检查各行缩进,尤其是:之后的缩进,因为python对语法的缩进非常严格。

运行cmd,进入到爬虫根目录,也就是D:\hailong\scrapy\newmovie\movie下(带scrapy.cfg文件的文件夹下)

执行命令:Scrapy crawl meiju

然后发现未能获取到信息,问题报错信息解决来源:https://ask.csdn.net/questions/7428925?spm=1001.2014.3001.5501

修改之后再执行Scrapy crawl meiju,发现有获取到信息

Scrapy入门实例_爬取美剧天堂的最新前100相关推荐

  1. 通过爬取美剧天堂详细介绍Scrapy 框架入门

    通过爬取美剧天堂并详细介绍Scrapy 框架 前言(了解) 全文写了很多注释在标题处,时间充裕的可以详细看,需要找主要知识点的我已经标注明白了,直接翻到具体位置就行. Scrapy是用纯Python实 ...

  2. SpringBoot集成jsoup多线程爬取美剧天堂全部电影资源

    SpringBoot集成jsoup爬取美剧天堂全部美剧资源 准备工作 这次我的目的是获取这个网站的所有美剧的信息和迅雷的BT地址,我们需要获取的信息都在上万个类似于下面个页面结构的页面上 确定了目标, ...

  3. Python爬虫爬取美剧网站

    一直有爱看美剧的习惯,一方面锻炼一下英语听力,一方面打发一下时间.之前是能在视频网站上面在线看的,可是自从广电总局的限制令之后,进口的美剧英剧等貌似就不在像以前一样同步更新了. 但是,作为一个宅dia ...

  4. Python爬虫带你爬取美剧网站

    本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理 以下文章来源于腾讯云,作者:哲洛不闹 一直有爱看美剧的习惯,一方面锻炼一下英语听力 ...

  5. python爬虫实战:爬取美剧网站

    一直有爱看美剧的习惯,一方面锻炼一下英语听力,一方面打发一下时间.之前是能在视频网站上面在线看的,可是自从广电总局的限制令之后,进口的美剧英剧等貌似就不在像以前一样同步更新了.但是,作为一个宅diao ...

  6. Python爬虫框架 scrapy 入门经典project 爬取校花网资源、批量下载图片

    ####1.安装scrapy 建议:最好在新的虚拟环境里面安装scrapy 注意:博主是在 Ubuntu18.04 + Python3.6 环境下进行开发的,如果遇到安装scrapy不成功请自行百度/ ...

  7. Python爬取 美剧《纸牌屋》字幕(可可英语)---BeautifulSoup版

    爬虫还是不会写,所以借鉴一个,仔细分析分析:https://blog.csdn.net/only_anan/article/details/80082316 1,导入爬取要用到的库,主要是是Beaut ...

  8. Scrapy框架的学习(2.scrapy入门,简单爬取页面,并使用管道(pipelines)保存数据)

    上个博客写了:  Scrapy的概念以及Scrapy的详细工作流程 https://blog.csdn.net/wei18791957243/article/details/86154068 1.sc ...

  9. 【scrapy实践】_爬取安居客_广州_新楼盘数据

    需求:爬取[安居客-广州-新楼盘]的数据,具体到每个楼盘的详情页的若干字段. 难点:楼盘类型各式各样:住宅 别墅 商住 商铺 写字楼,不同楼盘字段的名称不一样.然后同一种类型,比如住宅,又分为不同的情 ...

最新文章

  1. 2w字 + 40张图带你参透并发编程!
  2. 常考数据结构与算法:异或操作
  3. P1433 吃奶酪 回溯法 优化
  4. 麦格纳软件公司绩效考核信息化管理解决方案
  5. [小改进]在个人Blog页面显示文章阅读数
  6. linux 命令终端显示-bash-4.2#解决方法
  7. socket编程资料-网络收集
  8. php mysql 失败_在php中插入失败的数据mysql
  9. 使用Mondrian Virtual OLAP Cube 实现星座模型并在saiku展现分析
  10. 图片的压缩(上传图片太大的话,上传不到服务器)
  11. axure 2021.04.26
  12. c语言大地坐标转空间直角坐标,大地坐标转换直角坐标的C++代码(高斯克吕格投影)...
  13. 华为路由器配置ip类
  14. Ubuntu18.04与deepin+nvidia-docker的构建与踩坑+puppeteer在docker中的使用
  15. Java中 … 三个点是什么意思?
  16. win7无法连接打印机拒绝访问_win7系统共享打印机拒绝访问的完美解决方法
  17. 小学计算机技术感想,小学信息技术教学经验总结(精选5篇)
  18. 【人工智能】深度学习、神经网络图
  19. 找一份好工作只需要这几招
  20. poj3281 Dining (最大流)

热门文章

  1. 从职场新人到职场达人——工作邮件
  2. win10系统给文件夹设置备注
  3. 读书笔记-精准努力-认识自己抓住优势专注聚焦
  4. touch pro2 T7373 直刷 安卓2.2
  5. python微信投票代码_Python——开发一个自动化微信投票器【附代码实例方法】
  6. 名帖42 伊秉绶 隶书《扇面三幅》
  7. Linux下搭建stackedit本地环境
  8. shell typeset命令的使用
  9. 你真的了解环形队列吗?(学习数据结构必须掌握的模型)
  10. mysql查询根据时间排序