本篇写的demo是爬取军事网站,因为我是军事迷嘿嘿。

你们运行一下就好了,不要乱爬,爬虫是有爬取礼仪的,如果你爬取频率过高就是不礼貌的,会被封ip的。

先上文档:PHP蜘蛛爬虫开发文档 代码中不明白的可以进去搜索。

在demo目录中新建demo.php

<?php
require_once __DIR__ . '/../autoloader.php';
use phpspider\core\phpspider;/* Do NOT delete this comment */
/* 不要删除这段注释 */$configs = array('name' => '军事', // 给你的爬虫起一个名字'log_show' => false, // 是否显示日志'tasknum' => 1, // 开启多少个进程爬取// 数据库配置'db_config' => array('host'  => '127.0.0.1','port'  => 3306,'user'  => 'root','pass'  => 'root','name'  => 'collection',),// 数据库表,表需要已存在,collection库,test表'export' => array('type' => 'db','table' => 'test',),// 爬取的域名列表'domains' => array('war.163.com'),// 抓取的起点'scan_urls' => array('http://war.163.com'),// 列表页实例,你要爬取的列表,也就是分页'list_url_regexes' => array("http://war.163.com"),// 内容页实例,文章的内容页// \d+ 指的是变量,就是可变的参数'content_url_regexes' => array("http://war.163.com/photoview/4T8E0001/\d+",),// 失败重新爬取次数'max_try' => 5,// 爬取规则配置'fields' => array(array('name' => "title", // 数据库字段名'selector' => "//div[@class='headline']/h1", // 规则,表示:headline类里的h1标签'required' => true, // 如果为空,整条数据丢弃),array('name' => "content",'selector' => "//div[@class='overview']/p",'required' => true,),array('name' => "img",'selector' => "//img[@class='firstPreload']",'required' => true,),),
);$spider = new phpspider($configs);
$spider->start();

运行

# php demo.php

运行个几秒ctrl+c停止。


如果你运行出现了这个错误

那是因为你把那俩行注释给删了,作者真是闲的蛋疼。

如果你想去掉那注释,就去掉phpspider.php这判断的代码

说了这么多,你是不是想问:那我咋改成我要爬取的站点呢?

1、打开你要爬取的站点,然后按F12。
例如,本篇的地址为:https://war.163.com/ ,也就是list_url_regexes字段的地址

这个地址就是content_url_regexes字段中的,\d+就是文章的变量,是一个会变的值,通常是id。
2、再按F12,进入文章内容页。
http://war.163.com/photoview/4T8E0001/2301433.html#p=EE5Q9HE94T8E0001NOS
3、再次F12

此时的类名就是fields字段中的title数组,也就是我们要爬取的标题,表示:headline类里的h1标签的文本。内容与图片都是一样的操作方法。你还可以选择更多。

做php开发,你是知道模版这个玩意的,就是内容页,是不会变化的,即使是列表分页也是同一个模版。所以,这些标签什么的都是不会变的。这就使得只需要配置分页的地址+文章地址就ok了。

PHP爬虫框架phpspider(二) - 分页爬取写入数据库相关推荐

  1. 爬虫学习(二)--爬取360应用市场app信息

    欢迎加入python学习交流群 667279387 爬虫学习 爬虫学习(一)-爬取电影天堂下载链接 爬虫学习(二)–爬取360应用市场app信息 代码环境:windows10, python 3.5 ...

  2. 初探Scrapy爬虫框架之百度网页爬取

    初探Scrapy爬虫框架之百度网页爬取 scrapy框架及百度网页爬取与保存 一.scrapy框架简介 二.自己初使用的心得体会 1.爬虫之前明确目标 2.scrapy框架的简单使用流程 3.scra ...

  3. python 写csv scrapy_scrapy爬虫框架实例一,爬取自己博客

    本篇就是利用scrapy框架来抓取本人的博客,博客地址:http://www.cnblogs.com/shaosks scrapy框架是个比较简单易用基于python的爬虫框架,相关文档:http:/ ...

  4. node 没有界面的浏览器_node.js爬虫入门(二)爬取动态页面(puppeteer)

    之前第一篇爬虫教程node.js爬虫入门(一)爬取静态页面讲解了静态网页的爬取,十分简单,但是遇到一些动态网页(ajax)的话,直接用之前的方法发送请求就无法获得我们想要的数据.这时就需要通过爬取动态 ...

  5. java爬虫系列(二)——爬取动态网页

    准备工作 项目地址 网页解析工具地址 启动网页解析器 根据系统选择所需文件 指定端口号启动工具 项目配置 seimi.properties SeimiAgentDemo.java 分析原网页代码 Bo ...

  6. python爬京东联盟_python爬虫框架scrapy实战之爬取京东商城进阶篇

    前言 之前的一篇文章已经讲过怎样获取链接,怎样获得参数了,详情请看python爬取京东商城普通篇,本文将详细介绍利用python爬虫框架scrapy如何爬取京东商城,下面话不多说了,来看看详细的介绍吧 ...

  7. Python 爬虫实战(二)爬取携程(国际)机票

    github项目:https://github.com/wzyblowfire/flightsmonitor 页面分析 首先进入携程网的国际机票网页分析,可以看出该网页是一个动态页面,也就是说单一的请 ...

  8. 从零开始的爬虫学习(二)爬取动漫之家的漫画

    上篇讲了如何爬取一张图片,这里就爬取 大妈之家 的一部漫画吧! 可以通过修改目标地址,爬取任意一部 大妈之家 的一部漫画! 本篇内容 """ 1.抓取西刺代理网站的代理i ...

  9. 爬虫实例(二)—— 爬取高清4K图片

    大家好,我是 Enovo飞鱼,今天继续分享一个爬虫案例,爬取高清4K图片,加油

  10. 爬虫项目实战二:爬取起点小说网

    爬取起点小说网 目标 项目准备 网站分析 反爬分析 代码实现 效果显示 目标 爬取一本仙侠类的小说下载并保存为txt文件到本地.本例为"大周仙吏". 项目准备 软件:Pycharm ...

最新文章

  1. NeHe教程Qt实现——lesson17
  2. python在另一个函数中使用其他函数的变量_在另一个函数中访问函数的变量,如function() . var in python...
  3. 电脑桌面点任何文件都打开计算机,桌面上的文件全部都打不开
  4. qml 信号槽第二次才响应_QML中各种代理的用法
  5. 资源日历 踩坑记(二)
  6. wss3.0 对文档库的一些操作
  7. 同步图计算:GraphLite的安装和使用
  8. 第三季-第10课-时间编程
  9. 阿里38号元老:管理要轻,文化要浓
  10. 【html5和css3】animation属性整理
  11. 微电子专业深度盘点:哪所大学芯片最强?强在哪?(第3弹)
  12. 专业心率监测器克服了心电噪声和电源的挑战---凯利讯半导体
  13. 华硕T100 安装linux,【华硕T100TA3740评测】双硬盘组合 华硕T100TA挑战存储极限(全文)_华硕 T100TA3740_笔记本评测-中关村在线...
  14. pdf.js在h5端访问图片服务器地址携带token防盗链无法读取问题,兼容安卓ios在线预览
  15. 计算机科学与技术论文选题怎么选,比较好写的计算机科学与技术专业论文选题 计算机科学与技术专业论文题目如何取...
  16. win10自带Groove音乐不能播放CUE和APE文件的一种曲线救国办法,自己创建aimppack插件包,AIMP安装DSP插件
  17. 02325计算机系统结构201810,2018年10月自考02325计算机系统结构真题及答案
  18. uboot的常用环境变量(bootdelay、ipaddr、serverip、gatewayip、netmask、ethaddr、bootcmd、bootargs)
  19. 三种anti-TNF制剂生物学剂量增加、非生物制剂和类固醇强化作用的差异:来自临床实践的证据...
  20. 计算机网络隧道工程,隧道工程

热门文章

  1. Kolmogorov–Smirnov test 柯尔莫哥洛夫-斯米尔诺夫检验
  2. 0.99元用7天,金山云大米云主机给你这个机会!
  3. 永洪BI到底有多好用?知乎大V用3000字力荐
  4. 麦克风音频服务器未响应,win7电脑插入麦克风后realtek高清晰音频管理器没有反应怎么办...
  5. python blp模型 估计_随机系数Logit模型及Stata实现
  6. 关于FL Studio ASIO驱动不工作的一个解决方案
  7. 监控--CactiEZ使用
  8. [转载]使用 Abbot 框架自动化测试 Eclipse 插件的用户界面,第 1 部分
  9. Eclipse安装Thymeleaf插件
  10. 缺陷管理工具(jira,禅道)