欢迎关注【无量测试之道】公众号,回复【领取资源】,

Python编程学习资源干货、

Python+Appium框架APP的UI自动化、

Python+Selenium框架Web的UI自动化、

Python+Unittest框架API自动化、

资源和代码 免费送啦~

文章下方有公众号二维码,可直接微信扫一扫关注即可。

一、基本概念说明

Scrapy数据解析主要有两个大类:xpath() 和 css() ,今天这篇文章主要讲解xpath如何解析我们想获取的页面数据。同时Scrapy还给我们提供自己的数据解析方法,即Selector(选择器),Selector是一个可独立使用的模块,我们可以用Selector类来构建一个选择器对象,然后调用它的相关方法如xpaht(), css()等来提取数据,它的常用写法如下:

1 response.selector.css() #这里的response就是我们请求页面返回的响应2 response.selector.xpath()#可简写为(因为这两个解析的方法太通用了,所以就直接在response上面支持了这两个解析方法)3 response.css()4 response.xpath()5 其中response.xpath() 这个数据解析方法是今天的主角。

Scrapy Shell 主要用于测试Scrapy项目中命令是否生效,可在bash下直接执行,这里我们通过使用Scrapy Shell来验证学习选择器提取网页数据,使用的是在windows下 cmd 命令行下执行此命令 scrapy shell http://lab.scrapyd.cn/page/1/ 来演示。

二、Scrapy Shell 提取数据演示

win+r 输入 cmd 回车—》进入到windows 交互命令行界面,输入:

1

2 C:\Users\tdcengineer>scrapy version3 d:\program files\python36\lib\site-packages\scrapy\utils\project.py:94: ScrapyDeprecationWarning: Use of environment variables prefixed with SCRAPY_ to override settings is deprecated. The following environment variables are currently defined: HOME4 ScrapyDeprecationWarning5 Scrapy 2.2.06 如果此命令执行不成功,就需要自己去配置环境变量了。7

8 执行如下命令:9 C:\Users\tdcengineer>scrapy shell http://lab.scrapyd.cn/page/1/10 这是返回的信息:11 [s] Available Scrapy objects:12 [s] scrapy scrapy module (contains scrapy.Request, scrapy.Selector, etc)13 [s] crawler

14 [s] item {}15 [s] request

16 [s] response <200http://lab.scrapyd.cn/page/1/>

17 [s] settings

18 [s] spider

19 [s] Useful shortcuts:20 [s] fetch(url[, redirect=True]) Fetch URL and update local objects (by default, redirects are followed)21 [s] fetch(req) Fetch a scrapy.Request and update local objects22 [s] shelp() Shell help (print this help)23 [s] view(response) View response in a browser24 >>>

Step1:// 与 / 的使用,//表示文档下面的所有节点元素,/ 表示取当前节点的下一级元素

http://lab.scrapyd.cn/page/1/ 以下是本页面的网页源代码片段:

1 >>> response.xpath("//body") #加粗的地方注意一下,它就是取了body下面的所有元素,后面进行了省略展示,返回的是Selector 对象,并存放在list 里面。2 [\n

python中的scrapy爬虫_Python 爬虫之Scrapy《中》相关推荐

  1. python scrapy 入门_Python爬虫Scrapy入门看这篇就够了

    一.初窥scrapy scrapy中文文档: http://scrapy-chs.readthedocs.io/zh_CN/latest/ Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应 ...

  2. python增量爬虫_python爬虫Scrapy框架之增量式爬虫

    一 增量式爬虫 什么时候使用增量式爬虫: 增量式爬虫:需求 当我们浏览一些网站会发现,某些网站定时的会在原有的基础上更新一些新的数据.如一些电影网站会实时更新最近热门的电影.那么,当我们在爬虫的过程中 ...

  3. python简单的爬虫教程中召唤小海龟_Python爬虫入门小练习之简单的50行(一)

    HI 最近得空,小看了一下python爬虫方面的资料,于是就打算把笔记和代码练习整理成文章分享给大家. 一.先来认识一下啥玩意叫爬虫吧 爬虫的目的:数据 1.企业内部数据 由企业内部服务器产生的数据 ...

  4. pythonscrapy爬虫_Python 爬虫:Scrapy 实例(二)

    原标题:Python 爬虫:Scrapy 实例(二) 稍微增加点难度,做个所需项目多一点的,并将的结果以多种形式保存起来.我们就从网络天气预报开始. 首先要做的是确定网络天气数据的来源.打开百度,搜索 ...

  5. python高阶面试题_Python 爬虫面试题 170 道:2019 版

    通过本场 Chat,你将获得如下知识点:掌握 Python 的基础语法 语法常见的 Python 应用场景 掌握 Python 闭包的使用以及装饰器的使用 生成器和迭代器的使用 常见的设计模式的使用 ...

  6. python基础知识500题_python爬虫基础知识点整理

    更多编程教程请到:菜鸟教程 https://www.piaodoo.com/ 友情链接: 高州阳光论坛https://www.hnthzk.com/ 人人影视http://www.sfkyty.com ...

  7. python 百度云下载加速器_Python爬虫加速神器的牛刀小试,就问你怕不怕

    大名鼎鼎的aiohttp,相信如果你学习Python或者爬虫的时候,肯定听说过这个东西.没听过也不要紧,今天看完文章,只要记住,aiohttp这个东西,在写爬虫的时候,很牛逼就行了. aiohttp ...

  8. python爬取多页_Python 爬虫 2 爬取多页网页

    本文内容: Requests.get 爬取多个页码的网页 例:爬取极客学院课程列表 爬虫步骤 打开目标网页,先查看网页源代码 get网页源码 找到想要的内容,找到规律,用正则表达式匹配,存储结果 Re ...

  9. 菜鸟python爬虫_Python爬虫学习-基础爬取

    编译环境:python v3.5.0, mac osx 10.11.4 第三方库:针对网页解析,python有丰富的第三方库如: BeautifulSoup, urllib, requests etc ...

  10. python从入门到爬虫_python爬虫从入门到放弃(一)之初识爬虫

    什么是爬虫? 网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本.另外一些不常使用的名字还有蚂蚁.自动索引. ...

最新文章

  1. 深度理解目标检测(MMdetection)-HOOK机制
  2. 周鸿祎重做路由器,到底在做什么?
  3. 获取指定路径文件方法
  4. (转)spring源码解析,spring工作原理
  5. Java 洛谷 P1914 小书童——密码
  6. 23种设计模式之解释器模式
  7. VMware找不到父磁盘 父虚拟磁盘在子虚拟磁盘创建之后被修改过。父虚拟磁盘的内容 ID 与子虚拟磁盘中对应的父内容 ID 不匹配
  8. 膜拜大丹(结论+二元环)
  9. GDB 使用——Linux C编程
  10. 【LeetCode】3月26日打卡-Day11
  11. mysql 多进程配置_基于mysql_multi实现MySQL多实例多进程配置
  12. python自动化常见面试题_Python基础面试题80问 Python自动化开发
  13. ImageNet 数据集
  14. xml提交数据的方法--gin
  15. 陆兆禧:此时此刻,非我莫属!
  16. 浏览器iframe跨域
  17. 标签打印软件如何设置单排标签纸尺寸
  18. 签电子合同的流程是怎样的
  19. C#打印标签(包括二维码和一位条码)
  20. 2020年9月份华为杯研究生数学建模C题

热门文章

  1. ps第六章后三节及第七章
  2. 前端svg字体图标使用_材质设计图标字体与svg以及如何在角度中使用svg精灵
  3. Ubuntu安装中文语言包(包括五笔拼音等中文输入法)
  4. 学术论文写作以及discussions/results与conclusion的区别
  5. 让珊瑚虫QQ显出隐身好友
  6. SAP相关各模块的关键集成点(2):PP与CO的关键集成点小析
  7. python 爬虫爬取下载网易云音乐歌单的歌曲(需要使用JS的加密方法得出params去获取下载地址)
  8. ISO20000与ISO27001认证如何进行有效整合实施?
  9. 个人计算机属于微型计算机,个人计算机属于
  10. findBugs学习小结