scrapy 中爬取时被重定向_Scrapy详解之scrapy shell

作者：Zarten知乎专栏：Python爬虫深入详解知乎ID： Zarten简介：互联网一线工作者，尊重原创并欢迎评论留言指出不足之处，也希望多些关注和点赞是给作者最好的鼓励！

概述

scrapy shell 属于scrapy命令行工具（上一篇文章有详解）的一种，shell命令属于全局命令。scrapy shell可以很快速方便的调试需爬虫的目标网站而不需要启动你编写的爬虫

用法

语法：scrapy shell [url]

url：可以为空、本地的一个文件（相对或绝对路径都可）、远程url地址

输入命令后会有可用的快捷命令和可用的scrapy对象

例如： scrapy shell http://quotes.toscrape.com

从上图可以看到，会自动输出可用的scrapy对象以及相应的值和快捷方式

scrapy对象

输入相应的对象可以看到其值，从上图也可直观看到其值，也可利用操作对象的一些属性和方法，比如操作response对象xpath解析。对象的一些属性和方法，将在后面章节中详解

快捷方式（shortcuts）

shelp() : 打印出可用对象和快捷方式

fetch(url[, redirect=True]) : 重新爬虫一个URL,并更新所有对象，默认支持重定向的

fetch(request) : 也可爬给定的scrapy.Request的对象

view(response) : 可用浏览器查看返回的response

scrapy代码中启动shell调试response

可通过 scrapy.shell.inspect_response 函数实现，当程序运行到此处时会阻塞，这时你可以尽情的调试。当调试完成后按Ctrl-D(Windows下Ctrl-Z)退出后继续运行，当下一次运行此处时又会阻塞在这里供你调试

scrapy 中爬取时被重定向_Scrapy详解之scrapy shell相关推荐

scrapy 中爬取时被重定向_一篇文章教会你理解Scrapy网络爬虫框架的工作原理和数据采集过程...
今天小编给大家详细的讲解一下Scrapy爬虫框架,希望对大家的学习有帮助. 1.Scrapy爬虫框架 Scrapy是一个使用Python编程语言编写的爬虫框架,任何人都可以根据自己的需求进行修改,并且 ...
python爬取12306_Python爬取12306车次信息代码详解
详情查看下面的代码: 如果被识别就要添加一个cookie如果没有被识别的话就要一个user-agent就好了.如果出现乱码就设置编码格式为utf-8 #静态的数据一般在elements中(复制文字到s ...
python爬取虎扑评论_python爬虫系列Selenium定向爬取虎扑篮球图片详解
前言: 作为一名从小就看篮球的球迷,会经常逛虎扑篮球及湿乎乎等论坛,在论坛里面会存在很多精美图片,包括NBA球队.CBA明星.花边新闻.球鞋美女等等,如果一张张右键另存为的话真是手都点疼了.作为程序员 ...
Python爬虫教程：Python爬取京东商城商品大图详解
Python爬取京东商城商品大图详解做为一个爬虫初学者,在做爬取网址图片的练习中以京东网为例爬取商品大图并保存在相应的文件夹 1.导入模块 import urllib.request import ...
Python 爬虫学习笔记（十(2)）scrapy爬取图书电商实战详解
目标是爬取某一系列图书的信息,例如名称.价格.图片等. 一.创建scrapy项目在PyCharm终端依次输入: scrapy startproject dangdang cd dangdang\da ...
python爬取小说出现乱码_详解Python解决抓取内容乱码问题（decode和encode解码）
一.乱码问题描述经常在爬虫或者一些操作的时候,经常会出现中文乱码等问题,如下原因是源网页编码和爬取下来后的编码格式不一致二.利用encode与decode解决乱码问题字符串在Python内部的 ...
python爬取动态网页_python爬取动态网页数据，详解
原理:动态网页,即用js代码实现动态加载数据,就是可以根据用户的行为,自动访问服务器请求数据,重点就是:请求数据,那么怎么用python获取这个数据了? 浏览器请求数据方式:浏览器向服务器的api(例 ...
爬虫爬取在线小说阅读网站详解
前言环境:python 安装.requests安装.Beautiful Soup安装爬取目标: 笔趣看网站的<校花之贴身高手>,以下是第一章链接 https://www.biqukan ...
python爬取微博恶评_详解用python写网络爬虫-爬取新浪微博评论
新浪微博需要登录才能爬取,这里使用m.weibo.cn这个移动端网站即可实现简化操作,用这个访问可以直接得到的微博id. 分析新浪微博的评论获取方式得知,其采用动态加载.所以使用json模块解析jso ...

scrapy 中爬取时被重定向_Scrapy详解之scrapy shell

概述

用法

scrapy代码中启动shell调试response

scrapy 中爬取时被重定向_Scrapy详解之scrapy shell相关推荐

最新文章

热门文章