创建第一个Scrapy项目
d:
进入D盘
scrapy startproject tutorial
建立一个新的Scrapy项目
工程的目录结构:
tutorial/
scrapy.cfg # 部署配置文件
tutorial/ # 项目的Python模块,您将从这里导入代码
__init__.py
items.py # 项目项目定义文件
middlewares.py # 项目中间件文件
pipelines.py # 项目管道文件
settings.py # 项目设置文件
spiders/ # 一个目录,你以后会把你的爬虫放进去
__init__.py
新建quotes_spider.py:
import scrapy class QuotesSpider(scrapy.Spider): # QuotesSpider类继承scrapy.Spider类 name = "quotes" # 标识蜘蛛。它在项目中必须是唯一的,也就是说,不能为不同的蜘蛛设置相同的名称 def start_requests(self): # 必须返回Spider将开始抓取的请求的迭代(您可以返回请求列表或编写生成器函数) # 后续请求将从这些初始请求中连续生成 urls = [ 'http://quotes.toscrape.com/page/1/', 'http://quotes.toscrape.com/page/2/', ] for url in urls: yield scrapy.Request(url=url, callback=self.parse) def parse(self, response): # 将被调用来处理为每个请求下载的响应的方法。 # 响应参数是TextResponse保存页面内容的一个实例,并有更多有用的方法来处理它 # 该parse()方法通常解析响应,将提取的数据提取为字符串,并查找新的URL并Request根据它们创建新的请求 page = response.url.split("/")[-2] filename = 'quotes-%s.html' % page with open(filename, 'wb') as f: f.write(response.body) self.log('Saved file %s' % filename)
scrapy crawl quotes
运行爬虫
已经创建了两个新文件:quotes-1.html和quotes-2.html,以及各个URL的内容,正如我们的parse方法所指示的那样
转载于:https://www.cnblogs.com/yjlch1016/p/9261158.html
创建第一个Scrapy项目相关推荐
- 创建第一个IOS项目
今天我们创建第一个IOS项目,并在模拟器上运行 首先进入Xcode 点击创建新项目后,接下来该给项目起一个名字啦 HelloWorld! 点击下一步,开始选择模板啦 我们选择SingleView Ap ...
- 五十一、创建第一个Maven项目和pom.xml 详解
@Author:Runsen @Date:2020/6/12 人生最重要的不是所站的位置,而是内心所朝的方向.只要我在每篇博文中写得自己体会,修炼身心:在每天的不断重复学习中,耐住寂寞,练就真功,不畏 ...
- 创建第一个Django项目
创建第一个Django项目: 我们将介绍Django 管理工具及如何使用 Django 来创建项目,第一个项目我们以 HelloWorld 来命令项目. 测试版本说明: python 3.7 Djan ...
- python创建django项目_搭建Python-Django环境,创建第一个Django项目
曾想学爬虫,没想到误入python web班,在美女老师shirely的指导下,搭建了好Django环境,试着开始做第一个web项目 一.Python环境安装 1.Python2.7的下载 从Pyth ...
- 跟小静学MVC3[01]--创建第一个MVC3项目
[前言]从今天开始,小静要学习Pro ASP.NET MVC3 Framework这本经典大作了,我是下载的电子版学习的.在这里只是用作学习的记录,便于以后查阅,也为了督促自己坚持下去.不用于任何商业 ...
- 将Maven集成到idea中并创建第一个Maven项目
在将Maven集成到idea中之前,你需要确保你已经安装过了Maven,在DOS下输入mvn -v如果显示如下,则证明已安装,如果没有安装,可以参考Maven的下载安装,如果你不知道Maven的一些基 ...
- VsCode创建第一个vue项目
转载自:https://www.cnblogs.com/z45281625/p/9015380.html VsCode创建第一个vue项目 使用vue-cli快速构建项目 ( vue-cli 是vu ...
- 创建第一个phpstorm项目(phpstorm+Apache)
创建第一个phpstorm项目 1.点击新建项目 2.选择新建空项目 3.选择新建项目位置(由于要使用apache,所以项目一定要建在apache下的htdocs下) 4.给项目命完名 5.再次确认文 ...
- Flutter入门——创建第一个Flutter项目
Flutter入门--创建第一个Flutter项目 一.创建项目 第一个项目使用Android Studio创建,步骤如下: 先打开Android Studio,会有一个创建新的Flutter应用的选 ...
最新文章
- [网站搭建] 阿里云虚拟主机搭建及FTP文件上传
- 数据库常用增删改查记录等语句
- celery-03-操作a-发布人一方
- javascript 编辑记录
- oracle的reliable message等待事件
- 洛谷——P1025 数的划分
- IPv4正则表达式匹配
- EJB2的3本好书第3本 EJB Cookbook
- RS232 RS422 RS485详细介绍
- 郝兵c语言_郝斌C语言笔记——C语言概述
- 电工学复习【7】-- 集成运算放大器
- 高性能服务器电源接口,服务器电源规范解析
- in_array函数漏洞
- 用命令从FTP服务器下载文件
- 超详细教程:YOLO_V3(yolov3)训练自己的数据
- Problem L: 求一元二次方程的根
- sohu_news搜狐新闻类型分类
- 计算机多核启动原理,多核cpu工作原理 不进来看看?
- 跨境电商如何做好引流?做亚马逊速卖通独立站的看过来
- oracle备份数据库的格式,ORACLE 数据库备份文件的后缀是()。
热门文章
- if函数python_关于函数:如何在python中为一个if语句提供多个条件
- linux git添加密钥,centos – 无法在Gitlab上创建项目或添加ssh密钥
- Python的PyDBG调试器的用法
- windows共享关闭密码保护是灰色的
- kali linux操作系统
- 基于 PostgreSQL 的 EMQ X Auth ACL
- Ubuntu16安装GTK+2.0教程
- Docker系列教程06-实战:修改Nginx首页
- 《精通Android 5 多媒体开发》——第6章,第6.1节视频系统结构
- Spring+SpringMVC+maven使用@aspectJ添加切面