python笔记之scrapy
Scrapy的基本命令
基本命令分两种: 全局命令
和项目命令
全局命令(在命令行中执行的指令)
fetch
主要用来显示爬虫爬取的过程
scrapy fetch http://www.taobao.com
如果他在scrapy项目之外使用,会调用scrapy默认的爬虫进行网页的爬取
如果他在scrapy项目中使用,会使用scrapy项目中的爬虫进行网页的爬取
runspider
不依托scrapy项目来直接运行一个爬虫文件
创建first.py文件编写代码,执行指令
scrapy runspider first.py
from scrapy.spider import Spiderclass FirstSpider(Spider):name = "first" # 爬虫名allowed_domains = ["baidu.com"] # 设置允许爬取的域名start_urls = ["http://www.baidu.com" # 设置爬取的起始网页# 可以有多个]def parse(self, response):pass
settings
查看scrapy默认的配置信息
如果是在项目下查看,是项目的配置信息
shell
启动scrapy的交互终端,shell经常在开发以及调试中用到
使用scrapy的交互终端,可以在不启动scrapy爬虫的情况下,对网站响应进行调试
也可以在交互终端中写一些python的代码
scrapy shell http://www.baidu.com --nolog
ti = sel.xpath("/html/head/title")
print(ti)
startproject
用于创建一个scrapy爬虫项目
scrapy startproject first
version
查看scrpay的版本信息
scrapy version
view
下载某个网页并用浏览器查看
scrapy view http://www.baidu.com
项目命令(在scrapy项目中执行的指令)
bench
可以测试本地硬件性能,会创建一个本地服务器并且以最大的爬行速度爬行
scrapy bench
genspider
用于在项目下创建爬虫文件
使用该指令可以基于现有爬虫模板来生成一个爬虫文件
-l 来查看当前可以使用的模板
scrapy genspider -l
-t 使用某个爬虫模板来生成一个爬虫文件
scrapy genspider -t basic txl baidu.com
txl : 爬虫文件名
baidu.com : 可以爬取的域名
crawl
使用crawl指令可以启动某一个爬虫
scrapy scrawl 爬虫名
list
使用list命令来列出当前项目可使用的爬虫文件
scrapy list
edit
使用edit指令直接打开对应的编辑器对爬虫文件进行编写
这条指令对linux比较友好
对windows没什么卵用,因为会出现问题
scrapy edit 爬虫名
python笔记之scrapy相关推荐
- Python 网络爬虫笔记11 -- Scrapy 实战
Python 网络爬虫笔记11 – Scrapy 实战 Python 网络爬虫系列笔记是笔者在学习嵩天老师的<Python网络爬虫与信息提取>课程及笔者实践网络爬虫的笔记. 课程链接:Py ...
- Python 网络爬虫笔记10 -- Scrapy 使用入门
Python 网络爬虫笔记10 – Scrapy 使用入门 Python 网络爬虫系列笔记是笔者在学习嵩天老师的<Python网络爬虫与信息提取>课程及笔者实践网络爬虫的笔记. 课程链接: ...
- Python 网络爬虫笔记9 -- Scrapy爬虫框架
Python 网络爬虫笔记9 – Scrapy爬虫框架 Python 网络爬虫系列笔记是笔者在学习嵩天老师的<Python网络爬虫与信息提取>课程及笔者实践网络爬虫的笔记. 课程链接:Py ...
- Scrapy:学习笔记(2)——Scrapy项目
Scrapy:学习笔记(2)--Scrapy项目 1.创建项目 创建一个Scrapy项目,并将其命名为"demo" scrapy startproject demo cd demo ...
- Python下安装Scrapy
Python下安装Scrapy 依次 执行如下命令: pip install wheel pip install lxml pip install pyOpenSSL pip install D:\T ...
- python爬虫之Scrapy框架的post请求和核心组件的工作 流程
python爬虫之Scrapy框架的post请求和核心组件的工作 流程 一 Scrapy的post请求的实现 在爬虫文件中的爬虫类继承了Spider父类中的start_urls,该方法就可以对star ...
- python 爬虫实例-Python 爬虫:Scrapy 实例(二)
原标题:Python 爬虫:Scrapy 实例(二) 稍微增加点难度,做个所需项目多一点的,并将的结果以多种形式保存起来.我们就从网络天气预报开始. 首先要做的是确定网络天气数据的来源.打开百度,搜索 ...
- 精通python爬虫框架-精通Python爬虫从Scrapy到移动应用(文末福利)
原标题:精通Python爬虫从Scrapy到移动应用(文末福利) 我能够听到人们的尖叫声:"Appery.io是什么,一个手机应用的专用平台,它和Scrapy有什么关系?"那么,眼 ...
- python常用命令汇总-Python爬虫框架Scrapy常用命令总结
本文实例讲述了Python爬虫框架Scrapy常用命令.分享给大家供大家参考,具体如下: 在Scrapy中,工具命令分为两种,一种为全局命令,一种为项目命令. 全局命令不需要依靠Scrapy项目就可以 ...
最新文章
- 正则表达式 – 语法
- iOS网络开发之:NSURLConnection
- strtus2改成springboot_jdk1.6环境下struts2改spring boot方案-阿里云开发者社区
- jquery的全选,全不选,反选
- 下载 | 新版Java开发手册有哪些亮点?
- 20应用统计考研复试要点(part1)--统计学
- MySQL 5.5.45+, 5.6.26+ and 5.7.6+ requirements SSL connection must be established
- //rest风格写_REST /使用提要发布事件
- 在基于简单Vertx Rest的应用程序上为REST资源设置基本响应HTTP标头
- 分治法在求解“最近对”问题中的应用(JAVA)
- 电商页面设计需要的素材模板|好的模板就是好的参考
- python3.6安装步骤-Ubuntu16.04安装python3.6详细教程
- esApi基本概念和操作
- 网卡-驱动-DMA API-TCP/IP
- 基于DRGs的医保控费方案
- android wifi分析 实现原理,android framework wifi 开启原理
- 读懂 指令、程序、微命令、微操作、微指令、微程序、微地址
- 线性代数拾遗(1)—— 行列式的三种公理化构造
- android仿网易云音乐引导页、仿书旗小说Flutter版、ViewPager切换、风扇叶片效果等源码...
- 华为鲲鹏是芯片还是服务器,关于芯片:眼见为实华为鲲鹏架构服务器生态大揭秘...
热门文章
- Facebook 最新可佩戴 AR 设备、AR 设备未来五年市场扩张、语音社交新创Swell等|Decode the Week...
- 音视频技术开发周刊 | 168
- 超高清视觉体验需要哪些技术栈?
- 还能这样?把 Python 自动翻译成 C++
- 重磅亮相KubeCon China,腾讯云为你揭秘国内云商最大容器集群
- PKG_CONFIG_PATH错误提示解决办法
- Nginx RTMP 功能研究
- FATAL: NO bootable medium found! System halted
- Hyperledger Fabric 1.0发布:基于区块链的开源分布式账本
- 左神算法:可见的山峰对数量(有重复值的情况)(Java版)