开发PHPSpider爬虫的常用工具“工欲善其事,必先利其器”,开发PHPSpider爬虫,起码得有几件顺手的工具才行吧,接下来给你逐个介绍。

谷歌Chrome浏览器

说起谷歌的Chrome浏览器(以下简称Chrome),相信大家都耳熟能详了吧,不仅使用流畅,而且功能强大,对开发PHPSpider爬虫非常有帮助。

我们主要使用的是Chrome的开发者工具,如下图所示:

或者可以直接在网页上点击鼠标右键,选择“检查”,也可打开开发者工具。

开发者工具顶部有Elements、Console、Network等八个栏目。常用的有三个:Elements,用来查看需爬取字段的HTML标签信息;Console,可以检测你的JS代码;Network,用来分析HTTP请求。

XPath Helper

XPath Helper是Chrome浏览器的插件,可以在Chrome应用商店安装下载,主要用来分析当前网页信息的XPath,并将其精简化。具体操作步骤如下:

1、在Chrome浏览器上,选择抽取的html字段并右击,点击“检查”,即可弹出开发者工具;右击已选字段,点击Copy XPath即可将该字段的XPath保存到浏览器剪贴板上,如下图所示:

2、打开XPath Helper插件,将得到的XPath复制进去,最好进行简化修改后再使用,如下图所示:

3、在XPath中,如果使用class属性来定位元素,最好使用contains函数,因为元素可能含有多个class:(

"name"=>"article_title",

"selector"=>"//div[contains(@class,'page-header')]//h1/a"

),

4、在XPath中,如果使用id属性来定位元素,因为理论上id是唯一的,可以直接使用*[@id='']:(

"name"=>"article_content",

"selector"=>"//*[@id='single-next-link']"

),

DHC REST

DHC REST也是Chrome浏览器的插件,可以在Chrome应用商店安装下载,主要用来模拟HTTP客户端发送测试数据到服务器。HTTP Get请求在开发中比较常用。

正则表达式测试工具

php spider 开发文档,爬虫进阶开发——之技巧篇 - 开发PHPSpider爬虫的常用工具 - 《phpspider开发文档》 - 书栈网 · BookStack...相关推荐

  1. wps在线预览接口_金山文档在线编辑 - 快速接入 - 《WPS开放平台技术文档》 - 书栈网 · BookStack...

    快速接入 一.申请和上线流程如下: 1.申请Appid和SecretKey 需要前往https://open.wps.cn 注册服务商,并且申请开通金山文档在线编辑服务. 2.实现回调接口 根据本文档 ...

  2. apollo local 模式_Java客户端使用指南 - 五、本地开发模式 - 《携程 Apollo v1.4 开发指南》 - 书栈网 · BookStack...

    五.本地开发模式 Apollo客户端还支持本地开发模式,这个主要用于当开发环境无法连接Apollo服务器的时候,比如在邮轮.飞机上做相关功能开发. 在本地开发模式下,Apollo只会从本地文件读取配置 ...

  3. bmob php支付,支付服务 - 支付服务RESTful 开发文档 - 《Bmob 文档中心》 - 书栈网 · BookStack...

    注意:目前支付宝无法使用,请用户暂时不要接入,等待官方的恢复公告! 打款需知 1.打款前请先在控制台填写以下信息 2.每月的1.2.16.17号为申请打款时间,15号.月尾日为打款时间,确保用户有半个 ...

  4. 正式环境docker部署hyperf_应用部署 - Docker Swarm 集群搭建 - 《Hyperf v1.1.1 开发文档》 - 书栈网 · BookStack...

    Docker Swarm 集群搭建 现阶段,Docker容器技术已经相当成熟,就算是中小型公司也可以基于 Gitlab.Aliyun镜像服务.Docker Swarm 轻松搭建自己的 Docker集群 ...

  5. px4 uavcan linux,UAVCAN总线 - UAVCAN固件升级 - 《PX4开发指南》 - 书栈网 · BookStack

    UAVCAN 固件升级 电子调速器(ESC)矢量控制代码库 (Pixhawk ESC 1.6 and S2740VC) 下载ESC代码: git clone https://github.com/th ...

  6. python3怎么使用pyrex_用户指南 - Cython 和 Pyrex 之间的区别 - 《Cython 3.0 中文文档》 - 书栈网 · BookStack...

    Cython 和 Pyrex 之间的区别 警告 Cython 和 Pyrex 都是移动目标.已经到了这一点,两个项目之间所有差异的明确列表将很难列出和跟踪,但希望这个高级列表能够了解存在的差异.应该注 ...

  7. 语雀可以导出html吗,工具 - Confluence 迁移到语雀 - 《语雀使用文档》 - 书栈网 · BookStack...

    Confluence 迁移到语雀 实现原理 基于 Confluence 自带的 「HTML Export」功能,可以将整个空间(Space)以 HTML 文件格式导出到一个 zip 文件中.这样语雀就 ...

  8. tars-php文档,TarsPHP - tars-extension - 《Tars 1.8 使用手册》 - 书栈网 · BookStack

    tars-extension phptars 扩展使用说明 php扩展能力说明 为了在扩展中实现tars打包解包和tup编码解码的全部体系,所以php扩展主要做了三件事情:将tars的所有数据结构进行 ...

  9. mysql pmod项目_内置函数 - 数学函数 - 《Apache Doris 文档(201812)》 - 书栈网 · BookStack...

    数学函数 abs(double a) 功能: 返回参数的绝对值 返回类型:double类型 使用说明:使用该函数需要确保函数的返回值是整数. acos(double a) 功能: 返回参数的反余弦值 ...

  10. mysql t 保存_检查 (调试) - 离线消息保存到 MySQL - 《EMQ X Enterprise v4.1 中文文档》 - 书栈网 · BookStack...

    离线消息保存到 MySQL 搭建 MySQL 数据库,并设置用户名密码为 root/public,以 MacOS X 为例: $ brew install mysql $ brew services ...

最新文章

  1. 请与计算机管理员联系,电脑的限制被取消,请与管理员联系 解决方案
  2. 软件开发环境-过程控制和消息服务器
  3. 如何用原生js替换字符串中的某个字符(或字符串)为指定的字符串?
  4. java多线程(同步和死锁,生产者和消费者问题)
  5. ios uitableview 去掉多余的空行
  6. QT中PRO文件写法的详细介绍
  7. caffe安装 cuda安装 opencv安装 cudnn安装 python相关依赖库安装
  8. react 中组件隐藏显示_React组件开发中常见的陷阱及解决
  9. 转:神经网络编程入门
  10. 洛谷——P1851 好朋友
  11. ppoe拨号被远程计算机终止,Windows各操作系统常见PPPoE拨号错误代码说明
  12. 云平台之实例类型与故障迁移
  13. 教育行业课程介绍话术
  14. VB6.0 读取Excel2010简单方法(附源码和注释,可伸手)
  15. python使用微信设置-用Python来可视化微信好友
  16. 出租车数据的地图展示
  17. JetBrains申请学生认证
  18. Linux inotify
  19. 最近远景论坛打不开修改hosts_s芃成_新浪博客
  20. 电子学会2022年9月青少年软件编程(图形化)等级考试试卷(二级)答案解析

热门文章

  1. 数字图像处理·SLIC超像素分割算法C++实现
  2. C语言也能干大事第十三节(如鹏基础)
  3. layabox 场景文件类型有哪些?
  4. 超详细! 利用Synopsys VCS对Verilog代码加密的四种方法
  5. 红米note2 解账号锁、救砖 (附刷机包,工具)
  6. 基于ssh的会议室管理系统(源码免费下载)
  7. user_agent浏览器头部
  8. Windows无法访问指定设备,路径或文件.您可能没有合适的权限访问这个项目
  9. 数据挖掘和机器学习之间,主要有什么区别和联系?
  10. 机器学习与数据挖掘之ROC与AUC