创建一个 scrapy 爬虫项目
创建一个 scrapy 爬虫项目
- 1. 下载
- 2. 创建一个新项目
- 3. 生成一个爬虫
- 4. 运行
- 5. 修改日志水平和返回的内容
- 6. 其他设置
1. 下载
进入 cmd 中运行下面的语句
pip3 install scrapy
查看是否安装成功
import scrapy
scrapy.version_info
scrapy
2. 创建一个新项目
scrapy startproject mySpider
进入项目路径
cd mySpider
用 IDEA 打开
3. 生成一个爬虫
到项目目录下运行下面的语句
scrapy genspider 项目名 域名
scrapy genspider csdn blog.csdn.net
tree 可以看见目录结构
tree
4. 运行
scrapy crawl 项目名
scrapy crawl csdn
import scrapyclass CsdnSpider(scrapy.Spider):# 项目名称name = 'csdn'# 允许爬取的范围allowed_domains = ['blog.csdn.net']# 最开始请求的 url 地址start_urls = ['http://blog.csdn.net/']def parse(self, response, **kwargs):content = response.xpath("//div/ul[1]/li[1]/a[1]/text()")print(content)
5. 修改日志水平和返回的内容
在 settings.py 文件中设置,目的让运行后打印的内容是想看的
LOG_LEVEL = "WARNING"
.extract() 方法返回 data 数据
content = response.xpath("//div/ul[1]/li[1]/a[1]/text()").extract()
添加日志
import logging
# 显示位置
logger = logging.getLogger(__name__)
使用日志
logger.warning("warning 日志...")
6. 其他设置
添加 USER_AGENT
USER_AGENT = "Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:88.0) Gecko/20100101 Firefox/88.0"
不检验 robots.txt 规则
ROBOTSTXT_OBEY = False
创建一个 scrapy 爬虫项目相关推荐
- 安装scrapy模块,创建一个Scrapy爬虫项目,并运行
创建一个Scrapy项目,首先需要所需要的模块 一丶安装scrapy框架所有模块 1.第一个安装的依赖库是lxml ,命令是: pip install lxml 2.第二个依赖库是pyOpenSSL, ...
- python学习(三)scrapy爬虫框架(二)——创建一个scrapy爬虫
在创建新的scrapy爬虫之前,我们需要先了解一下创建一个scrapy爬虫的基本步骤 第一步:确定要爬取的数据 以爬取豆瓣电影数据为例: 每部电影所要爬取的信息有: 片名:<头号玩家> 导 ...
- Python 三.创建第一个scrapy爬虫项目(分布式爬虫打造搜索引擎)
1.安装pywin32 打开cmd窗口 pip install -i https://pypi.tuna.tsinghua.edu.cn/simple pywin32 2.安装Twisted网络数据处 ...
- python scrapy爬虫遇见301_在Pycharm中运行Scrapy爬虫项目的基本操作
目标在Win7上建立一个Scrapy爬虫项目,以及对其进行基本操作.运行环境:电脑上已经安装了python(环境变量path已经设置好), 以及scrapy模块,IDE为Pycharm .操作如下: ...
- Scrapy爬虫项目——阿里文学当当网
1. Cmd命令行创建项目 创建项目命令: scrapy startproject [项目名] Items定义要爬取的东西:spiders文件夹下可以放多个爬虫文件:pipelines爬虫后处理的文件 ...
- 用pycharm进行python爬虫的步骤_在Pycharm中运行Scrapy爬虫项目的基本操作
目标在Win7上建立一个Scrapy爬虫项目,以及对其进行基本操作.运行环境:电脑上已经安装了python(环境变量path已经设置好), 以及scrapy模块,IDE为Pycharm .操作如下: ...
- Python爬虫基础:安装Scrapy爬虫框架和创建Scrapy爬虫项目
首先为了避免国外镜像不稳定,我们使用了清华大学的python库镜像:https://pypi.tuna.tsinghua.edu.cn/simple 1.安装scrapy 1.1.安装pywin32( ...
- 【python实现网络爬虫(5)】第一个Scrapy爬虫实例项目(Scrapy原理及Scrapy爬取名言名句网站信息)
Scrapy介绍 总共有五部分组成的:具体的流程可看图示 引擎.调度器.下载器.蜘蛛和项目管道 爬取流程 针对于每个URL, Scheduler -> Downloader -> Spid ...
- 在anaconda下创建我的第一个scrapy爬虫——爬取dmoz网站某一网址下的目录的链接名称以及链接地址...
这里我用的python工具是anaconda. 1.首先创建一个scrapy工程: 打开anaconda promt命令行(注意这里不是使用cmd打开windows下的命令行),进入到需要创建工程的目 ...
- Scrapy爬虫项目的管理部署
前言 为了方便对爬虫项目的流程化管理,需要一款合适的工具.主要实现的功能有: 能对爬虫项目的管理做到"统一"."稳定"."方便": 能够查看 ...
最新文章
- 【Netty】NIO 网络编程 聊天室案例
- 一晚啪了5只喵,累到在医院打点滴,这中国喵把英国人看傻了 | 今日最佳
- 牛客题霸 [两个链表生成相加链表] C++题解/答案
- PyTorch导出JIT模型并用C++ API libtorch调用
- JSP——Web应用
- windows下安装jmeter
- qtouch跨平台组态软件四位一体表现
- linux 内核移植和根文件系统的制作
- 考研高数 专题11:多元复合函数及隐函数求导的方法和技巧【灵活】
- java连接navicat_java怎么连接navicat
- 表示整数x的绝对值大于5时值为真的c语言表达式是——.,1表示'整数x的绝对值大于5'时值为'真'的C语言表达式是_____...
- 多双系统下蓝牙键盘鼠标的共享配对问题解决办法:win + debian + arch~IRK、LTK、ERand、EDIV、CSRK
- 微信公众号和web项目聊天表情转化
- 北语计算机基础知识作业1,【图】- 北京语言大学20秋《计算机基础》作业1 - 昆山经济开发区其他教育培训 - 昆山百姓网...
- Azure - AD B2C自定义策略和身份体验框架
- html浏览器在哪里,javascript在哪儿启用?
- 微信公众号第三方平台投票
- KY-RTI分布仿真技术:第九章 综合演示
- pta 6-7 使用函数求最大公约数 (10 分)
- Mbed Crypto 和 MbedTLS 使用方法
热门文章
- linux全自动备份网站到百度云盘,Linux定时备份数据到百度云盘
- 【已解决】解锁小米6的时候,卡在当前未连接手机怎么办?
- 4am永远 鼠标按键设置_罗技G502 LIGHTSPEED无线游戏鼠标评测 性能超乎想象
- typora输入LATEX数学公式语法总结
- Java开源博客源码完整汇总(持续更新)
- php 连接 sybase,thinkphp连接sybase数据库
- Git下载安装及设置详细教程
- 如何写一首悲伤的原创歌曲?
- cad查看_CAD查看:Geometric Glovius Pro v5.1.0
- linux上的mysql数据库恢复