创建一个 scrapy 爬虫项目

  • 1. 下载
  • 2. 创建一个新项目
  • 3. 生成一个爬虫
  • 4. 运行
  • 5. 修改日志水平和返回的内容
  • 6. 其他设置

1. 下载

进入 cmd 中运行下面的语句

pip3 install scrapy

查看是否安装成功

import scrapy
scrapy.version_info
scrapy

2. 创建一个新项目

scrapy startproject mySpider

进入项目路径

cd mySpider

用 IDEA 打开

3. 生成一个爬虫

到项目目录下运行下面的语句
scrapy genspider 项目名 域名

scrapy genspider csdn blog.csdn.net

tree 可以看见目录结构

tree

4. 运行

scrapy crawl 项目名

scrapy crawl csdn

import scrapyclass CsdnSpider(scrapy.Spider):# 项目名称name = 'csdn'# 允许爬取的范围allowed_domains = ['blog.csdn.net']# 最开始请求的 url 地址start_urls = ['http://blog.csdn.net/']def parse(self, response, **kwargs):content = response.xpath("//div/ul[1]/li[1]/a[1]/text()")print(content)

5. 修改日志水平和返回的内容

在 settings.py 文件中设置,目的让运行后打印的内容是想看的

LOG_LEVEL = "WARNING"

.extract() 方法返回 data 数据

content = response.xpath("//div/ul[1]/li[1]/a[1]/text()").extract()

添加日志

import logging
# 显示位置
logger = logging.getLogger(__name__)

使用日志

logger.warning("warning 日志...")

6. 其他设置

添加 USER_AGENT

USER_AGENT = "Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:88.0) Gecko/20100101 Firefox/88.0"

不检验 robots.txt 规则

ROBOTSTXT_OBEY = False

创建一个 scrapy 爬虫项目相关推荐

  1. 安装scrapy模块,创建一个Scrapy爬虫项目,并运行

    创建一个Scrapy项目,首先需要所需要的模块 一丶安装scrapy框架所有模块 1.第一个安装的依赖库是lxml ,命令是: pip install lxml 2.第二个依赖库是pyOpenSSL, ...

  2. python学习(三)scrapy爬虫框架(二)——创建一个scrapy爬虫

    在创建新的scrapy爬虫之前,我们需要先了解一下创建一个scrapy爬虫的基本步骤 第一步:确定要爬取的数据 以爬取豆瓣电影数据为例: 每部电影所要爬取的信息有: 片名:<头号玩家> 导 ...

  3. Python 三.创建第一个scrapy爬虫项目(分布式爬虫打造搜索引擎)

    1.安装pywin32 打开cmd窗口 pip install -i https://pypi.tuna.tsinghua.edu.cn/simple pywin32 2.安装Twisted网络数据处 ...

  4. python scrapy爬虫遇见301_在Pycharm中运行Scrapy爬虫项目的基本操作

    目标在Win7上建立一个Scrapy爬虫项目,以及对其进行基本操作.运行环境:电脑上已经安装了python(环境变量path已经设置好), 以及scrapy模块,IDE为Pycharm .操作如下: ...

  5. Scrapy爬虫项目——阿里文学当当网

    1. Cmd命令行创建项目 创建项目命令: scrapy startproject [项目名] Items定义要爬取的东西:spiders文件夹下可以放多个爬虫文件:pipelines爬虫后处理的文件 ...

  6. 用pycharm进行python爬虫的步骤_在Pycharm中运行Scrapy爬虫项目的基本操作

    目标在Win7上建立一个Scrapy爬虫项目,以及对其进行基本操作.运行环境:电脑上已经安装了python(环境变量path已经设置好), 以及scrapy模块,IDE为Pycharm .操作如下: ...

  7. Python爬虫基础:安装Scrapy爬虫框架和创建Scrapy爬虫项目

    首先为了避免国外镜像不稳定,我们使用了清华大学的python库镜像:https://pypi.tuna.tsinghua.edu.cn/simple 1.安装scrapy 1.1.安装pywin32( ...

  8. 【python实现网络爬虫(5)】第一个Scrapy爬虫实例项目(Scrapy原理及Scrapy爬取名言名句网站信息)

    Scrapy介绍 总共有五部分组成的:具体的流程可看图示 引擎.调度器.下载器.蜘蛛和项目管道 爬取流程 针对于每个URL, Scheduler -> Downloader -> Spid ...

  9. 在anaconda下创建我的第一个scrapy爬虫——爬取dmoz网站某一网址下的目录的链接名称以及链接地址...

    这里我用的python工具是anaconda. 1.首先创建一个scrapy工程: 打开anaconda promt命令行(注意这里不是使用cmd打开windows下的命令行),进入到需要创建工程的目 ...

  10. Scrapy爬虫项目的管理部署

    前言 为了方便对爬虫项目的流程化管理,需要一款合适的工具.主要实现的功能有: 能对爬虫项目的管理做到"统一"."稳定"."方便": 能够查看 ...

最新文章

  1. 【Netty】NIO 网络编程 聊天室案例
  2. 一晚啪了5只喵,累到在医院打点滴,这中国喵把英国人看傻了 | 今日最佳
  3. 牛客题霸 [两个链表生成相加链表] C++题解/答案
  4. PyTorch导出JIT模型并用C++ API libtorch调用
  5. JSP——Web应用
  6. windows下安装jmeter
  7. qtouch跨平台组态软件四位一体表现
  8. linux 内核移植和根文件系统的制作
  9. 考研高数 专题11:多元复合函数及隐函数求导的方法和技巧【灵活】
  10. java连接navicat_java怎么连接navicat
  11. 表示整数x的绝对值大于5时值为真的c语言表达式是——.,1表示'整数x的绝对值大于5'时值为'真'的C语言表达式是_____...
  12. 多双系统下蓝牙键盘鼠标的共享配对问题解决办法:win + debian + arch~IRK、LTK、ERand、EDIV、CSRK
  13. 微信公众号和web项目聊天表情转化
  14. 北语计算机基础知识作业1,【图】- 北京语言大学20秋《计算机基础》作业1 - 昆山经济开发区其他教育培训 - 昆山百姓网...
  15. Azure - AD B2C自定义策略和身份体验框架
  16. html浏览器在哪里,javascript在哪儿启用?
  17. 微信公众号第三方平台投票
  18. KY-RTI分布仿真技术:第九章 综合演示
  19. pta 6-7 使用函数求最大公约数 (10 分)
  20. Mbed Crypto 和 MbedTLS 使用方法

热门文章

  1. linux全自动备份网站到百度云盘,Linux定时备份数据到百度云盘
  2. 【已解决】解锁小米6的时候,卡在当前未连接手机怎么办?
  3. 4am永远 鼠标按键设置_罗技G502 LIGHTSPEED无线游戏鼠标评测 性能超乎想象
  4. typora输入LATEX数学公式语法总结
  5. Java开源博客源码完整汇总(持续更新)
  6. php 连接 sybase,thinkphp连接sybase数据库
  7. Git下载安装及设置详细教程
  8. 如何写一首悲伤的原创歌曲?
  9. cad查看_CAD查看:Geometric Glovius Pro v5.1.0
  10. linux上的mysql数据库恢复