作者:Zarten知乎专栏:Python爬虫深入详解知乎ID: Zarten简介: 互联网一线工作者,尊重原创并欢迎评论留言指出不足之处,也希望多些关注和点赞是给作者最好的鼓励 !

概述

scrapy shell 属于scrapy命令行工具(上一篇文章有详解)的一种,shell命令属于全局命令。scrapy shell可以很快速方便的调试需爬虫的目标网站而不需要启动你编写的爬虫

用法

语法:scrapy shell [url]

url:可以为空、本地的一个文件(相对或绝对路径都可)、远程url地址

输入命令后会有可用的快捷命令可用的scrapy对象

例如: scrapy shell http://quotes.toscrape.com

从上图可以看到,会自动输出可用的scrapy对象以及相应的值和快捷方式

  • scrapy对象

输入相应的对象可以看到其值,从上图也可直观看到其值,也可利用操作对象的一些属性和方法,比如操作response对象xpath解析。对象的一些属性和方法,将在后面章节中详解

  • 快捷方式(shortcuts)

shelp() : 打印出可用对象和快捷方式

fetch(url[, redirect=True]) : 重新爬虫一个URL,并更新所有对象,默认支持重定向的

fetch(request) : 也可爬给定的scrapy.Request的对象

view(response) : 可用浏览器查看返回的response

scrapy代码中启动shell调试response

可通过 scrapy.shell.inspect_response 函数实现,当程序运行到此处时会阻塞,这时你可以尽情的调试。当调试完成后按Ctrl-D(Windows下Ctrl-Z)退出后继续运行,当下一次运行此处时又会阻塞在这里供你调试

scrapy 中爬取时被重定向_Scrapy详解之scrapy shell相关推荐

  1. scrapy 中爬取时被重定向_一篇文章教会你理解Scrapy网络爬虫框架的工作原理和数据采集过程...

    今天小编给大家详细的讲解一下Scrapy爬虫框架,希望对大家的学习有帮助. 1.Scrapy爬虫框架 Scrapy是一个使用Python编程语言编写的爬虫框架,任何人都可以根据自己的需求进行修改,并且 ...

  2. python爬取12306_Python爬取12306车次信息代码详解

    详情查看下面的代码: 如果被识别就要添加一个cookie如果没有被识别的话就要一个user-agent就好了.如果出现乱码就设置编码格式为utf-8 #静态的数据一般在elements中(复制文字到s ...

  3. python爬取虎扑评论_python爬虫系列Selenium定向爬取虎扑篮球图片详解

    前言: 作为一名从小就看篮球的球迷,会经常逛虎扑篮球及湿乎乎等论坛,在论坛里面会存在很多精美图片,包括NBA球队.CBA明星.花边新闻.球鞋美女等等,如果一张张右键另存为的话真是手都点疼了.作为程序员 ...

  4. Python爬虫教程:Python爬取京东商城商品大图详解

    Python爬取京东商城商品大图详解 做为一个爬虫初学者,在做爬取网址图片的练习中以京东网为例爬取商品大图并保存在相应的文件夹 1.导入模块 import urllib.request import ...

  5. Python 爬虫学习笔记(十(2))scrapy爬取图书电商实战详解

    目标是爬取某一系列图书的信息,例如名称.价格.图片等. 一.创建scrapy项目 在PyCharm终端依次输入: scrapy startproject dangdang cd dangdang\da ...

  6. python爬取小说出现乱码_详解Python解决抓取内容乱码问题(decode和encode解码)

    一.乱码问题描述 经常在爬虫或者一些操作的时候,经常会出现中文乱码等问题,如下 原因是源网页编码和爬取下来后的编码格式不一致 二.利用encode与decode解决乱码问题 字符串在Python内部的 ...

  7. python爬取动态网页_python爬取动态网页数据,详解

    原理:动态网页,即用js代码实现动态加载数据,就是可以根据用户的行为,自动访问服务器请求数据,重点就是:请求数据,那么怎么用python获取这个数据了? 浏览器请求数据方式:浏览器向服务器的api(例 ...

  8. 爬虫爬取在线小说阅读网站详解

    前言 环境:python 安装.requests安装.Beautiful Soup安装 爬取目标: 笔趣看网站的<校花之贴身高手>,以下是第一章链接 https://www.biqukan ...

  9. python爬取微博恶评_详解用python写网络爬虫-爬取新浪微博评论

    新浪微博需要登录才能爬取,这里使用m.weibo.cn这个移动端网站即可实现简化操作,用这个访问可以直接得到的微博id. 分析新浪微博的评论获取方式得知,其采用动态加载.所以使用json模块解析jso ...

最新文章

  1. org.springframework.expression.spel.SpelEvaluationException: EL1005E:(pos 0): Type cannot be found
  2. 直播系统:泛娱乐直播新趋势
  3. 重要的动态路由OSPF(多区)
  4. Python3 基础学习笔记 C07【函数】
  5. 训练数据的分布对F-measure, recall 和 precision的影响
  6. Linux-管道(day09)
  7. python推荐_利用Python构建一个简单的推荐系统
  8. CeBIT 2017热点:从5G到AI和物联网
  9. 源码分享:打造「螃蟹火星车」,遥控、拍照、测距,还能做人脸检测;
  10. 手把手教你读财报----银行业----第三课
  11. 前端常用标签与注意事项
  12. 保利威视教程:什么是HLS?
  13. 2021-10-20:分数到小数。给定两个整数,分别表示分数的分子numerator和分母denominator,以字符串形式返回小数。如果小数部分为循环小数,则将循环的部分括在括号内。输入: num
  14. 妹子图APP(一)—— Retrofit+Glide+Gson加载网络图片
  15. 杂项-一张图片和爆破一
  16. POI和POI-TL操作Word
  17. 力扣46.全排列(回溯法)
  18. 华为鸿蒙概念机,华为Mate50Pro概念机,屏下镜头+一亿像素+麒麟9010,你喜欢吗?...
  19. Pytorch实现YOLOv3训练自己的数据集
  20. OpenGL ES之离屏渲染的帧缓冲区对象FBO的说明和使用

热门文章

  1. 【机器学习】选择模型
  2. 连续与离散变量的函数分布计算
  3. JS JQ 页面加载顺序方法的区别
  4. 算法复习——数位dp(不要62HUD2089)
  5. HDU 1573 X问题 [中国剩余定理]
  6. SuperSocketClientEngine
  7. jQuery1.11源码分析(8)-----jQuery调用Sizzle引擎的相关API
  8. 通过git命令将本地代码文件推送至github
  9. 2017云计算与IT风向标-------- 移动、转型、整合
  10. 2.6 相对和绝对路径 2.7 cd命令 2.8 创建和删除目录mkdir/rmdir 2.9 rm命令