python中的scrapy爬虫_Python 爬虫之Scrapy《中》

欢迎关注【无量测试之道】公众号，回复【领取资源】,

Python编程学习资源干货、

Python+Appium框架APP的UI自动化、

Python+Selenium框架Web的UI自动化、

Python+Unittest框架API自动化、

资源和代码免费送啦~

文章下方有公众号二维码，可直接微信扫一扫关注即可。

一、基本概念说明

Scrapy数据解析主要有两个大类：xpath() 和 css() ，今天这篇文章主要讲解xpath如何解析我们想获取的页面数据。同时Scrapy还给我们提供自己的数据解析方法，即Selector(选择器)，Selector是一个可独立使用的模块，我们可以用Selector类来构建一个选择器对象，然后调用它的相关方法如xpaht(), css()等来提取数据，它的常用写法如下：

1 response.selector.css() #这里的response就是我们请求页面返回的响应2 response.selector.xpath()#可简写为(因为这两个解析的方法太通用了，所以就直接在response上面支持了这两个解析方法)3 response.css()4 response.xpath()5 其中response.xpath() 这个数据解析方法是今天的主角。

Scrapy Shell 主要用于测试Scrapy项目中命令是否生效，可在bash下直接执行，这里我们通过使用Scrapy Shell来验证学习选择器提取网页数据，使用的是在windows下 cmd 命令行下执行此命令 scrapy shell http://lab.scrapyd.cn/page/1/ 来演示。

二、Scrapy Shell 提取数据演示

win+r 输入 cmd 回车—》进入到windows 交互命令行界面，输入：

2 C:\Users\tdcengineer>scrapy version3 d:\program files\python36\lib\site-packages\scrapy\utils\project.py:94: ScrapyDeprecationWarning: Use of environment variables prefixed with SCRAPY_ to override settings is deprecated. The following environment variables are currently defined: HOME4 ScrapyDeprecationWarning5 Scrapy 2.2.06 如果此命令执行不成功，就需要自己去配置环境变量了。7

8 执行如下命令：9 C:\Users\tdcengineer>scrapy shell http://lab.scrapyd.cn/page/1/10 这是返回的信息：11 [s] Available Scrapy objects:12 [s] scrapy scrapy module (contains scrapy.Request, scrapy.Selector, etc)13 [s] crawler

14 [s] item {}15 [s] request

16 [s] response <200http://lab.scrapyd.cn/page/1/>

17 [s] settings

18 [s] spider

19 [s] Useful shortcuts:20 [s] fetch(url[, redirect=True]) Fetch URL and update local objects (by default, redirects are followed)21 [s] fetch(req) Fetch a scrapy.Request and update local objects22 [s] shelp() Shell help (print this help)23 [s] view(response) View response in a browser24 >>>

Step1:// 与 / 的使用，//表示文档下面的所有节点元素，/ 表示取当前节点的下一级元素

http://lab.scrapyd.cn/page/1/ 以下是本页面的网页源代码片段：

1 >>> response.xpath("//body") #加粗的地方注意一下，它就是取了body下面的所有元素，后面进行了省略展示，返回的是Selector 对象，并存放在list 里面。2 [\n

python中的scrapy爬虫_Python 爬虫之Scrapy《中》相关推荐

python scrapy 入门_Python爬虫Scrapy入门看这篇就够了
一.初窥scrapy scrapy中文文档: http://scrapy-chs.readthedocs.io/zh_CN/latest/ Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应 ...
python增量爬虫_python爬虫Scrapy框架之增量式爬虫
一增量式爬虫什么时候使用增量式爬虫: 增量式爬虫:需求当我们浏览一些网站会发现,某些网站定时的会在原有的基础上更新一些新的数据.如一些电影网站会实时更新最近热门的电影.那么,当我们在爬虫的过程中 ...
python简单的爬虫教程中召唤小海龟_Python爬虫入门小练习之简单的50行（一）
HI 最近得空,小看了一下python爬虫方面的资料,于是就打算把笔记和代码练习整理成文章分享给大家. 一.先来认识一下啥玩意叫爬虫吧爬虫的目的:数据 1.企业内部数据由企业内部服务器产生的数据 ...
pythonscrapy爬虫_Python 爬虫：Scrapy 实例（二）
原标题:Python 爬虫:Scrapy 实例(二) 稍微增加点难度,做个所需项目多一点的,并将的结果以多种形式保存起来.我们就从网络天气预报开始. 首先要做的是确定网络天气数据的来源.打开百度,搜索 ...
python高阶面试题_Python 爬虫面试题 170 道：2019 版
通过本场 Chat,你将获得如下知识点:掌握 Python 的基础语法语法常见的 Python 应用场景掌握 Python 闭包的使用以及装饰器的使用生成器和迭代器的使用常见的设计模式的使用 ...
python基础知识500题_python爬虫基础知识点整理
更多编程教程请到:菜鸟教程 https://www.piaodoo.com/ 友情链接: 高州阳光论坛https://www.hnthzk.com/ 人人影视http://www.sfkyty.com ...
python 百度云下载加速器_Python爬虫加速神器的牛刀小试，就问你怕不怕
大名鼎鼎的aiohttp,相信如果你学习Python或者爬虫的时候,肯定听说过这个东西.没听过也不要紧,今天看完文章,只要记住,aiohttp这个东西,在写爬虫的时候,很牛逼就行了. aiohttp ...
python爬取多页_Python 爬虫 2 爬取多页网页
本文内容: Requests.get 爬取多个页码的网页例:爬取极客学院课程列表爬虫步骤打开目标网页,先查看网页源代码 get网页源码找到想要的内容,找到规律,用正则表达式匹配,存储结果 Re ...
菜鸟python爬虫_Python爬虫学习－基础爬取
编译环境:python v3.5.0, mac osx 10.11.4 第三方库:针对网页解析,python有丰富的第三方库如: BeautifulSoup, urllib, requests etc ...
python从入门到爬虫_python爬虫从入门到放弃（一）之初识爬虫
什么是爬虫? 网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本.另外一些不常使用的名字还有蚂蚁.自动索引. ...

python中的scrapy爬虫_Python 爬虫之Scrapy《中》

python中的scrapy爬虫_Python 爬虫之Scrapy《中》相关推荐

最新文章

热门文章