Scrapy入门实例_爬取美剧天堂的最新前100
使用工具:Python3.6版本
Python官网:https://www.python.org/
目录
Scrapy的安装
Scrapy爬取数据步骤
一、创建工程:
二、创建爬虫程序
三、编辑爬虫
四、设置item模板
五、设置配置文件
六、设置数据处理脚本
七、运行爬虫
Scrapy的安装
pip install Scrapy。在此之前需要先安装几个包:wheel、lxml以及twisted
cmd执行语句需要进入到对应的python根目录的Scripts文件夹下D:\hailong\Python3.6\Scripts
然后依次运行如下语句:
(1) pip install wheel
(2) pip install lxml
(3) pip install twisted
(4) 最后 pip install scrapy
安装好的wheel、lxml、twisted、scrapy包都在此路径下D:\hailong\Python3.6\Lib\site-packages
(5) 验证Scrapy框架是否安装成功:
打开python,输入import scrapy和scrapy.version_info可以查看scrapy的版本信息
Scrapy爬取数据步骤
一、创建工程:
创建一个文件夹,任意命名,然后打开cmd进入该目录。
输入命令:Scrapy startproject movie
此时可以看到该目录下多了一个叫movie的文件夹
而movie文件夹下还有一个叫movie的文件夹
二、创建爬虫程序
用cd movie指令进入movie目录,输入命令:
Scrapy genspider meiju meijutt.tv
该命令创建了一个叫meiju的爬虫
这时查看spiders目录可以看到多了一个meiju.py,就是我们刚创建的爬虫。
三、编辑爬虫
用代码编辑器打开meiju.py,进行如下编辑:
import scrapyfrom movie.items import MovieItemclass MeijuSpider(scrapy.Spider):#继承这个类name = 'meiju'#名字allowed_domains = ['meijutt.tv']#域名start_urls = ['https://www.meijutt.tv/new100.html']#要补充完整# headers={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.25 Safari/537.36'}def parse(self, response):print(888888888)#测试用movies = response.xpath('//ul[@class="top-list fn-clear"]/li')#意思是选中所有的属性class值为"top-list fn-clear"的ul下的li标签内容print(movies)#测试用for each_movie in movies:item = MovieItem()item['name'] = each_movie.xpath('./h5/a/@title').extract()[0]# .表示选取当前节点,也就是对每一项li,其下的h5下的a标签中title的属性值yield item #一种特殊的循环
四、设置item模板
如图所示,在items.py中输入代码:
import scrapyclass MovieItem(scrapy.Item):name = scrapy.Field()
五、设置配置文件
如图所示,在settings.py中输入代码:
ITEM_PIPELINES = {'movie.pipelines.MoviePipeline':100}ROBOTSTXT_OBEY = FalseDOWNLOAD_DELAY = 1
六、设置数据处理脚本
如图所示,在pipelines.py中输入代码:
from itemadapter import ItemAdapterclass MoviePipeline:def process_item(self, item, spider):return item
七、运行爬虫
运行之前建议检查各行缩进,尤其是:之后的缩进,因为python对语法的缩进非常严格。
运行cmd,进入到爬虫根目录,也就是D:\hailong\scrapy\newmovie\movie下(带scrapy.cfg文件的文件夹下)
执行命令:Scrapy crawl meiju
然后发现未能获取到信息,问题报错信息解决来源:https://ask.csdn.net/questions/7428925?spm=1001.2014.3001.5501
修改之后再执行Scrapy crawl meiju,发现有获取到信息
Scrapy入门实例_爬取美剧天堂的最新前100相关推荐
- 通过爬取美剧天堂详细介绍Scrapy 框架入门
通过爬取美剧天堂并详细介绍Scrapy 框架 前言(了解) 全文写了很多注释在标题处,时间充裕的可以详细看,需要找主要知识点的我已经标注明白了,直接翻到具体位置就行. Scrapy是用纯Python实 ...
- SpringBoot集成jsoup多线程爬取美剧天堂全部电影资源
SpringBoot集成jsoup爬取美剧天堂全部美剧资源 准备工作 这次我的目的是获取这个网站的所有美剧的信息和迅雷的BT地址,我们需要获取的信息都在上万个类似于下面个页面结构的页面上 确定了目标, ...
- Python爬虫爬取美剧网站
一直有爱看美剧的习惯,一方面锻炼一下英语听力,一方面打发一下时间.之前是能在视频网站上面在线看的,可是自从广电总局的限制令之后,进口的美剧英剧等貌似就不在像以前一样同步更新了. 但是,作为一个宅dia ...
- Python爬虫带你爬取美剧网站
本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理 以下文章来源于腾讯云,作者:哲洛不闹 一直有爱看美剧的习惯,一方面锻炼一下英语听力 ...
- python爬虫实战:爬取美剧网站
一直有爱看美剧的习惯,一方面锻炼一下英语听力,一方面打发一下时间.之前是能在视频网站上面在线看的,可是自从广电总局的限制令之后,进口的美剧英剧等貌似就不在像以前一样同步更新了.但是,作为一个宅diao ...
- Python爬虫框架 scrapy 入门经典project 爬取校花网资源、批量下载图片
####1.安装scrapy 建议:最好在新的虚拟环境里面安装scrapy 注意:博主是在 Ubuntu18.04 + Python3.6 环境下进行开发的,如果遇到安装scrapy不成功请自行百度/ ...
- Python爬取 美剧《纸牌屋》字幕(可可英语)---BeautifulSoup版
爬虫还是不会写,所以借鉴一个,仔细分析分析:https://blog.csdn.net/only_anan/article/details/80082316 1,导入爬取要用到的库,主要是是Beaut ...
- Scrapy框架的学习(2.scrapy入门,简单爬取页面,并使用管道(pipelines)保存数据)
上个博客写了: Scrapy的概念以及Scrapy的详细工作流程 https://blog.csdn.net/wei18791957243/article/details/86154068 1.sc ...
- 【scrapy实践】_爬取安居客_广州_新楼盘数据
需求:爬取[安居客-广州-新楼盘]的数据,具体到每个楼盘的详情页的若干字段. 难点:楼盘类型各式各样:住宅 别墅 商住 商铺 写字楼,不同楼盘字段的名称不一样.然后同一种类型,比如住宅,又分为不同的情 ...
最新文章
- 2w字 + 40张图带你参透并发编程!
- 常考数据结构与算法:异或操作
- P1433 吃奶酪 回溯法 优化
- 麦格纳软件公司绩效考核信息化管理解决方案
- [小改进]在个人Blog页面显示文章阅读数
- linux 命令终端显示-bash-4.2#解决方法
- socket编程资料-网络收集
- php mysql 失败_在php中插入失败的数据mysql
- 使用Mondrian Virtual OLAP Cube 实现星座模型并在saiku展现分析
- 图片的压缩(上传图片太大的话,上传不到服务器)
- axure 2021.04.26
- c语言大地坐标转空间直角坐标,大地坐标转换直角坐标的C++代码(高斯克吕格投影)...
- 华为路由器配置ip类
- Ubuntu18.04与deepin+nvidia-docker的构建与踩坑+puppeteer在docker中的使用
- Java中 … 三个点是什么意思?
- win7无法连接打印机拒绝访问_win7系统共享打印机拒绝访问的完美解决方法
- 小学计算机技术感想,小学信息技术教学经验总结(精选5篇)
- 【人工智能】深度学习、神经网络图
- 找一份好工作只需要这几招
- poj3281 Dining (最大流)