python创建scrapy_Python爬虫教程-31-创建 Scrapy 爬虫框架项目

首先说一下，本篇是在 Anaconda 环境下，所以如果没有安装 Anaconda 请先到官网下载安装

Scrapy 爬虫框架项目的创建0.打开【cmd】

1.进入你要使用的 Anaconda 环境1.环境名可以在【Pycharm】的【Settings】下【Project：】下找到

2.使用命令：activate 环境名，例如：

activate learn

3.进入想要存放 scrapy 项目的目录下【注意】

4.新建项目：scrapy startproject xxx项目名，例如：

scrapy startproject new_project

5.操作截图：

6.在文件资源管理器打开该目录，就会发现生成了好几个文件

7.使用 Pycharm 打开项目所在目录就可以了

这里我们就把项目创建好了，分析一下自动生成的文件的作用

Scrapy 爬虫框架项目的开发0.使用 Pycharm 打开项目，截图：

项目的开发的大致流程：

1.明确需要爬取的目标/产品：编写 item.py

2.在 spider 目录下载创建 python 文件制作爬虫：

地址 spider/xxspider.py 负责分解，提取下载的数据

对应 pipelines 文件

爬虫提取出数据存入 item 后，item 中保存的数据需要进一步处理，比如清洗，去虫，存储等

Pipeline 需要处理 process_item 函数

process_item

spider 提取出来的 item 作为参数传入，同时传入的还有 spider

此方法必须实现

必须返回一个 Item 对象，被丢弃的 item 不会被之后的 pipeline

_ init _：构造函数

进行一些必要的参数初始化

open_spider(spider)：

spider 对象对开启的时候调用

close_spider(spider)：

当 spider 对象被关闭的时候调用

Spider 目录

对应的是文件夹 spider 下的文件

_ init _：初始化爬虫名称，start _urls 列表

start_requests：生成 Requests 对象交给 Scrapy 下载并返回 response

parse：根据返回的 response 解析出相应的 item，item 自动进入 pipeline：如果需要，解析 url，url自动交给 requests 模块，一直循环下去

start_requests：此方法尽能被调用一次，读取 start _urls 内容并启动循环过程

name：设置爬虫名称

start_urls：设置开始第一批爬取的 url

allow_domains：spider 允许去爬的域名列表

start_request(self)：只被调用一次

parse：检测编码

log：日志记录

原文：https://blog.csdn.net/qq_40147863/article/details/82389734blog.csdn.net

python创建scrapy_Python爬虫教程-31-创建 Scrapy 爬虫框架项目相关推荐

Python3网络爬虫教程8——有道在线翻译项目（JS加密）
上接: Python3网络爬虫教程7--SSL数字证书 https://blog.csdn.net/u011318077/article/details/86538116 6. js加密(有道在线翻译 ...
Scrapy定向爬虫教程(一)——创建运行项目和基本介绍
前言目前网上的Scrapy中文教程比较少,而且大多教程使用的Scrapy版本较老,比如说这个Scrapy 0.25 文档,如其名,上古时期的翻译文档:再比如极客学院的视频教程使用的是1.0.x版本, ...
Python爬虫基础：安装Scrapy爬虫框架和创建Scrapy爬虫项目
首先为了避免国外镜像不稳定,我们使用了清华大学的python库镜像:https://pypi.tuna.tsinghua.edu.cn/simple 1.安装scrapy 1.1.安装pywin32( ...
python 定时自动爬取_python实现scrapy爬虫每天定时抓取数据的示例代码
1. 前言. 1.1. 需求背景. 每天抓取的是同一份商品的数据,用来做趋势分析. 要求每天都需要抓一份,也仅限抓取一份数据. 但是整个爬取数据的过程在时间上并不确定,受本地网络,代理速度,抓取数据量 ...
爬虫教程（ 2 ） --- 爬虫框架 Scrapy、Scrapy 实战
From:https://piaosanlang.gitbooks.io/spiders/content/ scrapy-cookbook :https://scrapy-cookbook.readt ...
python定时爬取数据_python实现scrapy爬虫每天定时抓取数据的示例代码
1. 前言. 1.1. 需求背景. 每天抓取的是同一份商品的数据,用来做趋势分析. 要求每天都需要抓一份,也仅限抓取一份数据. 但是整个爬取数据的过程在时间上并不确定,受本地网络,代理速度,抓取数据量 ...
Python爬虫入门——3.8 Scrapy爬虫项目文件介绍
本节我们就使用scrapy框架来编写爬虫程序. 声明:参考资料" 从零开始学Python网络爬虫 "作者:罗攀,蒋仟机械工业出版社ISBN:9787111579991 上节我们创 ...
Python爬虫入门——3.7 Scrapy爬虫框架安装
声明:参考资料<从零开始学Python网络爬虫 >作者:罗攀,蒋仟机械工业出版社 ISBN: 9787111579991 参考资料<精通Python网络爬虫:核心技术. ...
Python爬虫深造篇(四)——Scrapy爬虫框架启动一个真正的项目
一.前情提要经过前面的学习,我们初识了 Scrapy 框架,通过 Scrapy 提供的互动工具,我们在命令行中体验了 Scrapy 中的 CSS 选择器最重要的几个点是:. 代表 class,# ...

python创建scrapy_Python爬虫教程-31-创建 Scrapy 爬虫框架项目

python创建scrapy_Python爬虫教程-31-创建 Scrapy 爬虫框架项目相关推荐

最新文章

热门文章