PHP爬虫框架phpspider(二) - 分页爬取写入数据库

本篇写的demo是爬取军事网站，因为我是军事迷嘿嘿。

你们运行一下就好了，不要乱爬，爬虫是有爬取礼仪的，如果你爬取频率过高就是不礼貌的，会被封ip的。

先上文档：PHP蜘蛛爬虫开发文档代码中不明白的可以进去搜索。

在demo目录中新建demo.php

<?php
require_once __DIR__ . '/../autoloader.php';
use phpspider\core\phpspider;/* Do NOT delete this comment */
/* 不要删除这段注释 */$configs = array('name' => '军事', // 给你的爬虫起一个名字'log_show' => false, // 是否显示日志'tasknum' => 1, // 开启多少个进程爬取// 数据库配置'db_config' => array('host'  => '127.0.0.1','port'  => 3306,'user'  => 'root','pass'  => 'root','name'  => 'collection',),// 数据库表，表需要已存在，collection库，test表'export' => array('type' => 'db','table' => 'test',),// 爬取的域名列表'domains' => array('war.163.com'),// 抓取的起点'scan_urls' => array('http://war.163.com'),// 列表页实例，你要爬取的列表，也就是分页'list_url_regexes' => array("http://war.163.com"),// 内容页实例，文章的内容页// \d+ 指的是变量，就是可变的参数'content_url_regexes' => array("http://war.163.com/photoview/4T8E0001/\d+",),// 失败重新爬取次数'max_try' => 5,// 爬取规则配置'fields' => array(array('name' => "title", // 数据库字段名'selector' => "//div[@class='headline']/h1", // 规则，表示：headline类里的h1标签'required' => true, // 如果为空，整条数据丢弃),array('name' => "content",'selector' => "//div[@class='overview']/p",'required' => true,),array('name' => "img",'selector' => "//img[@class='firstPreload']",'required' => true,),),
);$spider = new phpspider($configs);
$spider->start();

运行

# php demo.php

运行个几秒ctrl+c停止。

如果你运行出现了这个错误

那是因为你把那俩行注释给删了，作者真是闲的蛋疼。

如果你想去掉那注释，就去掉phpspider.php这判断的代码

说了这么多，你是不是想问：那我咋改成我要爬取的站点呢？

1、打开你要爬取的站点，然后按F12。
例如，本篇的地址为：https://war.163.com/ ，也就是list_url_regexes字段的地址

这个地址就是content_url_regexes字段中的，\d+就是文章的变量，是一个会变的值，通常是id。
2、再按F12，进入文章内容页。
http://war.163.com/photoview/4T8E0001/2301433.html#p=EE5Q9HE94T8E0001NOS
3、再次F12

此时的类名就是fields字段中的title数组，也就是我们要爬取的标题，表示：headline类里的h1标签的文本。内容与图片都是一样的操作方法。你还可以选择更多。

做php开发，你是知道模版这个玩意的，就是内容页，是不会变化的，即使是列表分页也是同一个模版。所以，这些标签什么的都是不会变的。这就使得只需要配置分页的地址+文章地址就ok了。

PHP爬虫框架phpspider(二) - 分页爬取写入数据库相关推荐

爬虫学习（二）--爬取360应用市场app信息
欢迎加入python学习交流群 667279387 爬虫学习爬虫学习(一)-爬取电影天堂下载链接爬虫学习(二)–爬取360应用市场app信息代码环境:windows10, python 3.5 ...
初探Scrapy爬虫框架之百度网页爬取
初探Scrapy爬虫框架之百度网页爬取 scrapy框架及百度网页爬取与保存一.scrapy框架简介二.自己初使用的心得体会 1.爬虫之前明确目标 2.scrapy框架的简单使用流程 3.scra ...
python 写csv scrapy_scrapy爬虫框架实例一，爬取自己博客
本篇就是利用scrapy框架来抓取本人的博客,博客地址:http://www.cnblogs.com/shaosks scrapy框架是个比较简单易用基于python的爬虫框架,相关文档:http:/ ...
node 没有界面的浏览器_node.js爬虫入门（二）爬取动态页面(puppeteer)
之前第一篇爬虫教程node.js爬虫入门(一)爬取静态页面讲解了静态网页的爬取,十分简单,但是遇到一些动态网页(ajax)的话,直接用之前的方法发送请求就无法获得我们想要的数据.这时就需要通过爬取动态 ...
java爬虫系列（二）——爬取动态网页
准备工作项目地址网页解析工具地址启动网页解析器根据系统选择所需文件指定端口号启动工具项目配置 seimi.properties SeimiAgentDemo.java 分析原网页代码 Bo ...
python爬京东联盟_python爬虫框架scrapy实战之爬取京东商城进阶篇
前言之前的一篇文章已经讲过怎样获取链接,怎样获得参数了,详情请看python爬取京东商城普通篇,本文将详细介绍利用python爬虫框架scrapy如何爬取京东商城,下面话不多说了,来看看详细的介绍吧 ...
Python 爬虫实战（二）爬取携程（国际）机票
github项目:https://github.com/wzyblowfire/flightsmonitor 页面分析首先进入携程网的国际机票网页分析,可以看出该网页是一个动态页面,也就是说单一的请 ...
从零开始的爬虫学习（二）爬取动漫之家的漫画
上篇讲了如何爬取一张图片,这里就爬取大妈之家的一部漫画吧! 可以通过修改目标地址,爬取任意一部大妈之家的一部漫画! 本篇内容 """ 1.抓取西刺代理网站的代理i ...
爬虫实例（二）—— 爬取高清4K图片
大家好,我是 Enovo飞鱼,今天继续分享一个爬虫案例,爬取高清4K图片,加油
爬虫项目实战二：爬取起点小说网
爬取起点小说网目标项目准备网站分析反爬分析代码实现效果显示目标爬取一本仙侠类的小说下载并保存为txt文件到本地.本例为"大周仙吏". 项目准备软件:Pycharm ...

PHP爬虫框架phpspider(二) - 分页爬取写入数据库

PHP爬虫框架phpspider(二) - 分页爬取写入数据库相关推荐

最新文章

热门文章