Scrapy基础第二节：Scrapy版的Hello World

第二节：Scrapy版的Hello World

前置知识：

掌握Python的基础知识
对爬虫基础有一定了解

说明： 运行环境

Win10，Python3 64位

# -*- coding: utf-8 -*-
import scrapy
from scrapy import Request
from HelloScrapy.items import HelloscrapyItemclass MyblogspiderSpider(scrapy.Spider):name = 'MyblogSpider'allowed_domains = ['blog.csdn.net']start_urls = ['https://blog.csdn.net/mist99/']# 页面请求def start_requests(self):print("【步骤】SinaSpider::start_requests页面请求 ")yield Request(self.start_urls[0])def parse(self, response):print("*************** Hello Scrapy ********************")print("【步骤】SinaSpider::parse分析页面 ")item = HelloscrapyItem()item["name"] = "阿丹的彩蛋"yield item

3）在 middlewares.py 中添加日志

    def process_response(self, request, response, spider):# Called with the response returned from the downloader.print("【步骤】HelloscrapyDownloaderMiddleware中间件")# Must either;# - return a Response object# - return a Request object# - or raise IgnoreRequestreturn response

4）在 pipelines 中添加日志

from HelloScrapy.items import HelloscrapyItemclass HelloscrapyPipeline(object):def process_item(self, item, spider):if isinstance(item, HelloscrapyItem):  # 先判断itemprint("【步骤】pipelines处理数据")return item

5）最后打开settings配置文件中的注释

DOWNLOADER_MIDDLEWARES = {'HelloScrapy.middlewares.HelloscrapyDownloaderMiddleware': 543,
}ITEM_PIPELINES = {'HelloScrapy.pipelines.HelloscrapyPipeline': 300,
}

6）现在我们再运行一次爬虫

scrapy crawl MyblogSpider

输出结果：

这样整个项目中的数据流转过程就清楚了，下节继续总结组件知识。

Scrapy基础第二节：Scrapy版的Hello World相关推荐

初等数学O 集合论基础第二节映射与集合的势
初等数学O 集合论基础第二节映射与集合的势这一节的目标是基于映射建立比较集合"大小"的工具--集合的势(cardinality),也被称为集合的基数,这个工具是自然数的基数理 ...
Java基础第二节第二十课
引用类型用法总结概述 class 作为成员变量武器类盔甲类角色类测试类 interface 作为成员变量定义接口定义角色类定义测试类 interface 作为方法参数和返回值类型定义 ...
【Python基础知识-pycharm版】第二节-赋值/数据类型/时间点/运算符/字符串
python第二节链式赋值_系列解包赋值内置数据类型时间表示unix时间点多点坐标绘出折线图运算符字符串部分来源: 1.https://blog.csdn.net/wys103158/a ...
Scrapy基础第三节：Scrapy框架结构和组件介绍
前置知识: 掌握Python的基础知识对爬虫基础有一定了解说明: 运行环境 Win10,Python3 64位目录: 第一节:Scrapy介绍和安装配置第二节:Scrapy版的Hello Wo ...
爬虫基础篇之Scrapy抓取京东
虚拟环境同一台服务器上不同的项目可能依赖的包不同版本,新版本默认覆盖旧版本,可能导致其他项目无法运行,通过虚拟环境,完全隔离各个项目各个版本的依赖包,实现运行环境互不影响. virtualenv p ...
scrapy 解析css,Scrapy基础(六)————Scrapy爬取伯乐在线一通过css和xpath解析文章字段...
上次我们介绍了scrapy的安装和加入debug的main文件,这次重要介绍创建的爬虫的基本爬取有用信息通过命令(这篇博文)创建了jobbole这个爬虫,并且生成了jobbole.py这个文件,又写 ...
c++ 传智课件_沪科版初中物理九年级全册第二节科学探究：物质的比热容公开课优质课课件教案视频...
第十二章温度与物态变化PPT课件教案下载_初中物理沪科版九年级全一册师梦圆第一节温度与温度计PPT课件教案下载_初中物理沪科版九年级全一册师梦圆第二节熔化与凝固PPT课件教案下载_初中物理沪 ...
网络营销教程SEO 第四章．搜索引擎优化基础（第二节）
rel="File-List" href="file:///C:%5CDOCUME%7E1%5CADMINI%7E1%5CLOCALS%7E1%5CTemp%5Cmsoh ...
Python基础学习（第二节下）
这里写目录标题 1.布尔值的相关运算符 (1)布尔值 (2)比较运算符 (3)逻辑运算符 (4)同一运算符 2.字符串 (1)字符串的基本特点 (2)字符串的创建和len( )函数 (3)转义字符 ( ...

Scrapy基础第二节：Scrapy版的Hello World

第二节：Scrapy版的Hello World

目录:

1 创建项目

2 编写爬虫类

3 Scrapy组件运行过程

Scrapy基础第二节：Scrapy版的Hello World相关推荐

最新文章

热门文章

Scrapy基础 第二节：Scrapy版的Hello World

第二节：Scrapy版的Hello World

目录:

1 创建项目

2 编写爬虫类

3 Scrapy组件运行过程

Scrapy基础 第二节：Scrapy版的Hello World相关推荐

最新文章

热门文章

Scrapy基础第二节：Scrapy版的Hello World

Scrapy基础第二节：Scrapy版的Hello World相关推荐