Scrapy的基本命令

基本命令分两种: 全局命令项目命令

全局命令(在命令行中执行的指令)

fetch
主要用来显示爬虫爬取的过程

scrapy fetch http://www.taobao.com

如果他在scrapy项目之外使用,会调用scrapy默认的爬虫进行网页的爬取
如果他在scrapy项目中使用,会使用scrapy项目中的爬虫进行网页的爬取

runspider
不依托scrapy项目来直接运行一个爬虫文件
创建first.py文件编写代码,执行指令

scrapy runspider first.py
from scrapy.spider import Spiderclass FirstSpider(Spider):name = "first" # 爬虫名allowed_domains = ["baidu.com"] # 设置允许爬取的域名start_urls = ["http://www.baidu.com" # 设置爬取的起始网页# 可以有多个]def parse(self, response):pass

settings
查看scrapy默认的配置信息
如果是在项目下查看,是项目的配置信息

shell
启动scrapy的交互终端,shell经常在开发以及调试中用到
使用scrapy的交互终端,可以在不启动scrapy爬虫的情况下,对网站响应进行调试
也可以在交互终端中写一些python的代码

scrapy shell http://www.baidu.com --nolog
ti = sel.xpath("/html/head/title")
print(ti)

startproject
用于创建一个scrapy爬虫项目

scrapy startproject first

version
查看scrpay的版本信息

scrapy version

view
下载某个网页并用浏览器查看

scrapy view http://www.baidu.com

项目命令(在scrapy项目中执行的指令)

bench
可以测试本地硬件性能,会创建一个本地服务器并且以最大的爬行速度爬行

scrapy bench

genspider
用于在项目下创建爬虫文件
使用该指令可以基于现有爬虫模板来生成一个爬虫文件

-l 来查看当前可以使用的模板
  scrapy genspider -l
-t 使用某个爬虫模板来生成一个爬虫文件
  scrapy genspider -t basic txl baidu.com
txl : 爬虫文件名
baidu.com : 可以爬取的域名

crawl
使用crawl指令可以启动某一个爬虫

scrapy scrawl 爬虫名

list
使用list命令来列出当前项目可使用的爬虫文件

scrapy list

edit
使用edit指令直接打开对应的编辑器对爬虫文件进行编写
这条指令对linux比较友好
对windows没什么卵用,因为会出现问题

scrapy edit 爬虫名

python笔记之scrapy相关推荐

  1. Python 网络爬虫笔记11 -- Scrapy 实战

    Python 网络爬虫笔记11 – Scrapy 实战 Python 网络爬虫系列笔记是笔者在学习嵩天老师的<Python网络爬虫与信息提取>课程及笔者实践网络爬虫的笔记. 课程链接:Py ...

  2. Python 网络爬虫笔记10 -- Scrapy 使用入门

    Python 网络爬虫笔记10 – Scrapy 使用入门 Python 网络爬虫系列笔记是笔者在学习嵩天老师的<Python网络爬虫与信息提取>课程及笔者实践网络爬虫的笔记. 课程链接: ...

  3. Python 网络爬虫笔记9 -- Scrapy爬虫框架

    Python 网络爬虫笔记9 – Scrapy爬虫框架 Python 网络爬虫系列笔记是笔者在学习嵩天老师的<Python网络爬虫与信息提取>课程及笔者实践网络爬虫的笔记. 课程链接:Py ...

  4. Scrapy:学习笔记(2)——Scrapy项目

    Scrapy:学习笔记(2)--Scrapy项目 1.创建项目 创建一个Scrapy项目,并将其命名为"demo" scrapy startproject demo cd demo ...

  5. Python下安装Scrapy

    Python下安装Scrapy 依次 执行如下命令: pip install wheel pip install lxml pip install pyOpenSSL pip install D:\T ...

  6. python爬虫之Scrapy框架的post请求和核心组件的工作 流程

    python爬虫之Scrapy框架的post请求和核心组件的工作 流程 一 Scrapy的post请求的实现 在爬虫文件中的爬虫类继承了Spider父类中的start_urls,该方法就可以对star ...

  7. python 爬虫实例-Python 爬虫:Scrapy 实例(二)

    原标题:Python 爬虫:Scrapy 实例(二) 稍微增加点难度,做个所需项目多一点的,并将的结果以多种形式保存起来.我们就从网络天气预报开始. 首先要做的是确定网络天气数据的来源.打开百度,搜索 ...

  8. 精通python爬虫框架-精通Python爬虫从Scrapy到移动应用(文末福利)

    原标题:精通Python爬虫从Scrapy到移动应用(文末福利) 我能够听到人们的尖叫声:"Appery.io是什么,一个手机应用的专用平台,它和Scrapy有什么关系?"那么,眼 ...

  9. python常用命令汇总-Python爬虫框架Scrapy常用命令总结

    本文实例讲述了Python爬虫框架Scrapy常用命令.分享给大家供大家参考,具体如下: 在Scrapy中,工具命令分为两种,一种为全局命令,一种为项目命令. 全局命令不需要依靠Scrapy项目就可以 ...

最新文章

  1. 正则表达式 – 语法
  2. iOS网络开发之:NSURLConnection
  3. strtus2改成springboot_jdk1.6环境下struts2改spring boot方案-阿里云开发者社区
  4. jquery的全选,全不选,反选
  5. 下载 | 新版Java开发手册有哪些亮点?
  6. 20应用统计考研复试要点(part1)--统计学
  7. MySQL 5.5.45+, 5.6.26+ and 5.7.6+ requirements SSL connection must be established
  8. //rest风格写_REST /使用提要发布事件
  9. 在基于简单Vertx Rest的应用程序上为REST资源设置基本响应HTTP标头
  10. 分治法在求解“最近对”问题中的应用(JAVA)
  11. 电商页面设计需要的素材模板|好的模板就是好的参考
  12. python3.6安装步骤-Ubuntu16.04安装python3.6详细教程
  13. esApi基本概念和操作
  14. 网卡-驱动-DMA API-TCP/IP
  15. 基于DRGs的医保控费方案
  16. android wifi分析 实现原理,android framework wifi 开启原理
  17. 读懂 指令、程序、微命令、微操作、微指令、微程序、微地址
  18. 线性代数拾遗(1)—— 行列式的三种公理化构造
  19. android仿网易云音乐引导页、仿书旗小说Flutter版、ViewPager切换、风扇叶片效果等源码...
  20. 华为鲲鹏是芯片还是服务器,关于芯片:眼见为实华为鲲鹏架构服务器生态大揭秘...

热门文章

  1. Facebook 最新可佩戴 AR 设备、AR 设备未来五年市场扩张、语音社交新创Swell等|Decode the Week...
  2. 音视频技术开发周刊 | 168
  3. 超高清视觉体验需要哪些技术栈?
  4. 还能这样?把 Python 自动翻译成 C++
  5. 重磅亮相KubeCon China,腾讯云为你揭秘国内云商最大容器集群
  6. PKG_CONFIG_PATH错误提示解决办法
  7. Nginx RTMP 功能研究
  8. FATAL: NO bootable medium found! System halted
  9. Hyperledger Fabric 1.0发布:基于区块链的开源分布式账本
  10. 左神算法:可见的山峰对数量(有重复值的情况)(Java版)