创建一个 scrapy 爬虫项目

1. 下载
2. 创建一个新项目
3. 生成一个爬虫
4. 运行
5. 修改日志水平和返回的内容
6. 其他设置

1. 下载

进入 cmd 中运行下面的语句

pip3 install scrapy

查看是否安装成功

import scrapy
scrapy.version_info

scrapy

2. 创建一个新项目

scrapy startproject mySpider

进入项目路径

cd mySpider

用 IDEA 打开

3. 生成一个爬虫

到项目目录下运行下面的语句
scrapy genspider 项目名域名

scrapy genspider csdn blog.csdn.net

tree 可以看见目录结构

tree

4. 运行

scrapy crawl 项目名

scrapy crawl csdn

import scrapyclass CsdnSpider(scrapy.Spider):# 项目名称name = 'csdn'# 允许爬取的范围allowed_domains = ['blog.csdn.net']# 最开始请求的 url 地址start_urls = ['http://blog.csdn.net/']def parse(self, response, **kwargs):content = response.xpath("//div/ul[1]/li[1]/a[1]/text()")print(content)

5. 修改日志水平和返回的内容

在 settings.py 文件中设置，目的让运行后打印的内容是想看的

LOG_LEVEL = "WARNING"

.extract() 方法返回 data 数据

content = response.xpath("//div/ul[1]/li[1]/a[1]/text()").extract()

添加日志

import logging
# 显示位置
logger = logging.getLogger(__name__)

使用日志

logger.warning("warning 日志...")

6. 其他设置

添加 USER_AGENT

USER_AGENT = "Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:88.0) Gecko/20100101 Firefox/88.0"

不检验 robots.txt 规则

ROBOTSTXT_OBEY = False

创建一个 scrapy 爬虫项目相关推荐

安装scrapy模块，创建一个Scrapy爬虫项目，并运行
创建一个Scrapy项目,首先需要所需要的模块一丶安装scrapy框架所有模块 1.第一个安装的依赖库是lxml ,命令是: pip install lxml 2.第二个依赖库是pyOpenSSL, ...
python学习（三）scrapy爬虫框架（二）——创建一个scrapy爬虫
在创建新的scrapy爬虫之前,我们需要先了解一下创建一个scrapy爬虫的基本步骤第一步:确定要爬取的数据以爬取豆瓣电影数据为例: 每部电影所要爬取的信息有: 片名:<头号玩家> 导 ...
Python 三.创建第一个scrapy爬虫项目(分布式爬虫打造搜索引擎)
1.安装pywin32 打开cmd窗口 pip install -i https://pypi.tuna.tsinghua.edu.cn/simple pywin32 2.安装Twisted网络数据处 ...
python scrapy爬虫遇见301_在Pycharm中运行Scrapy爬虫项目的基本操作
目标在Win7上建立一个Scrapy爬虫项目,以及对其进行基本操作.运行环境:电脑上已经安装了python(环境变量path已经设置好), 以及scrapy模块,IDE为Pycharm .操作如下: ...
Scrapy爬虫项目——阿里文学当当网
1. Cmd命令行创建项目创建项目命令: scrapy startproject [项目名] Items定义要爬取的东西:spiders文件夹下可以放多个爬虫文件:pipelines爬虫后处理的文件 ...
用pycharm进行python爬虫的步骤_在Pycharm中运行Scrapy爬虫项目的基本操作
目标在Win7上建立一个Scrapy爬虫项目,以及对其进行基本操作.运行环境:电脑上已经安装了python(环境变量path已经设置好), 以及scrapy模块,IDE为Pycharm .操作如下: ...
Python爬虫基础：安装Scrapy爬虫框架和创建Scrapy爬虫项目
首先为了避免国外镜像不稳定,我们使用了清华大学的python库镜像:https://pypi.tuna.tsinghua.edu.cn/simple 1.安装scrapy 1.1.安装pywin32( ...
【python实现网络爬虫（5）】第一个Scrapy爬虫实例项目（Scrapy原理及Scrapy爬取名言名句网站信息）
Scrapy介绍总共有五部分组成的:具体的流程可看图示引擎.调度器.下载器.蜘蛛和项目管道爬取流程针对于每个URL, Scheduler -> Downloader -> Spid ...
在anaconda下创建我的第一个scrapy爬虫——爬取dmoz网站某一网址下的目录的链接名称以及链接地址...
这里我用的python工具是anaconda. 1.首先创建一个scrapy工程: 打开anaconda promt命令行(注意这里不是使用cmd打开windows下的命令行),进入到需要创建工程的目 ...
Scrapy爬虫项目的管理部署
前言为了方便对爬虫项目的流程化管理,需要一款合适的工具.主要实现的功能有: 能对爬虫项目的管理做到"统一"."稳定"."方便": 能够查看 ...

创建一个 scrapy 爬虫项目

创建一个 scrapy 爬虫项目

1. 下载

2. 创建一个新项目

3. 生成一个爬虫

4. 运行

5. 修改日志水平和返回的内容

6. 其他设置

创建一个 scrapy 爬虫项目相关推荐

最新文章

热门文章