* 通过composer下载

composer require owner888/phpspider

// composer.json

{"require": {"owner888/phpspider": "^2.1"}
}

  

* 去掉讨厌的注释

https://doc.phpspider.org/demo-start.html

 ./vendor/owner888/phpspider/core/phpspider.php

/* Do NOT delete this comment */
        // 彩蛋$included_files = get_included_files();$content = file_get_contents($included_files[0]);if (!preg_match("#/\* Do NOT delete this comment \*/#", $content) || !preg_match("#/\* 不要删除这段注释 \*/#", $content)){$msg = "Unknown error...";log::error($msg);exit;}

 删掉这段恶心的代码

* 导入数据库文件

cd ./vendor/owner888/phpspider/demo

  

mysql -uroot -hlocalhost -p

  

create database demo charset utf8 collate utf8_general_ci;
\. qiushibaike.sql

  

# ************************************************************
# Sequel Pro SQL dump
# Version 4541
#
# http://www.sequelpro.com/
# https://github.com/sequelpro/sequelpro
#
# Host: 127.0.0.1 (MySQL 5.7.14)
# Database: demo
# Generation Time: 2016-10-20 16:55:11 +0000
# ************************************************************/*!40101 SET @OLD_CHARACTER_SET_CLIENT=@@CHARACTER_SET_CLIENT */;
/*!40101 SET @OLD_CHARACTER_SET_RESULTS=@@CHARACTER_SET_RESULTS */;
/*!40101 SET @OLD_COLLATION_CONNECTION=@@COLLATION_CONNECTION */;
/*!40101 SET NAMES utf8 */;
/*!40014 SET @OLD_FOREIGN_KEY_CHECKS=@@FOREIGN_KEY_CHECKS, FOREIGN_KEY_CHECKS=0 */;
/*!40101 SET @OLD_SQL_MODE=@@SQL_MODE, SQL_MODE='NO_AUTO_VALUE_ON_ZERO' */;
/*!40111 SET @OLD_SQL_NOTES=@@SQL_NOTES, SQL_NOTES=0 */;# Dump of table content
# ------------------------------------------------------------DROP TABLE IF EXISTS `content`;CREATE TABLE `content` (`id` int(11) unsigned NOT NULL AUTO_INCREMENT,`depth` int(11) DEFAULT NULL,`url` varchar(200) DEFAULT NULL,`article_title` varchar(20) DEFAULT NULL,`article_headimg` varchar(150) DEFAULT NULL,`article_author` varchar(20) DEFAULT NULL,`article_content` text,`article_publish_time` int(10) DEFAULT NULL,PRIMARY KEY (`id`)
) ENGINE=InnoDB DEFAULT CHARSET=utf8;/*!40111 SET SQL_NOTES=@OLD_SQL_NOTES */;
/*!40101 SET SQL_MODE=@OLD_SQL_MODE */;
/*!40014 SET FOREIGN_KEY_CHECKS=@OLD_FOREIGN_KEY_CHECKS */;
/*!40101 SET CHARACTER_SET_CLIENT=@OLD_CHARACTER_SET_CLIENT */;
/*!40101 SET CHARACTER_SET_RESULTS=@OLD_CHARACTER_SET_RESULTS */;
/*!40101 SET COLLATION_CONNECTION=@OLD_COLLATION_CONNECTION */;

View Code

* 创建./index.php

<?php
require './vendor/autoload.php';use phpspider\core\phpspider;$configs = ['name' => '糗事百科','domains' => ['qiushibaike.com','www.qiushibaike.com'],'scan_urls' => ['http://www.qiushibaike.com/'],'content_url_regexes' => ["http://www.qiushibaike.com/article/\d+"],'list_url_regexes' => ["http://www.qiushibaike.com/8hr/page/\d+\?s=\d+"],'fields' => [[// 抽取内容页的文章内容'name' => "article_content",'selector' => "//*[@id='single-next-link']",'required' => true],[// 抽取内容页的文章作者'name' => "article_author",'selector' => "//div[contains(@class,'author')]//h2",'required' => true],],'log_show' => true,'input_encoding' => 'utf-8','output_encoding' => 'utf-8','db_config' => ['host' => '127.0.0.1','user' => 'root','pass' => '','name' => 'demo','port' => 3306],/*'export' => ['type' => 'sql','file' => './data/sql/qiushibaike.sql']*/'export' => ['type' => 'db','table' => 'content',]
];$spider = new phpspider($configs);
$spider->start();

  

* Run

php ./index.php

  

phpspider PHP 爬虫相关推荐

  1. phpspider php爬虫框架

    其实我自身的不是经常写正则,而且不规则的html去写正则本身就是件很麻烦的事情,如果页面有些微变动和更新就得再次去维护正则表达式,其实是非常蛋疼的 我第一感觉就是去找一下爬虫的库,但是发现现在php爬 ...

  2. 利用爬虫爬取 zol网站热门手机

    使用了20几分钟,爬取了zol相关的热门手机型号.特点.价格.上市时间.屏幕大小相关信息.对最新的热门手机做了一个简单的统计.如果你想知道任何其他的信息,可以给我留言.我已经把我的相关代码传导了git ...

  3. [学]PHP爬虫框架phpspider

    [学]PHP爬虫框架phpspider http://www.phpchina.com/article-40283-2.html http://www.111cn.net/phper/php-gj/6 ...

  4. PHP爬虫框架phpspider(一) - 下载安装

    该框架还是挺强大的,就是爬取规则采用的是Xpath语法,没有python的bs4库那么易用. github地址 随便找个目录即可,不依赖于apache等. 克隆 git clone https://g ...

  5. php spider 开发文档,开发PHPSpider爬虫的常用工具

    # 开发PHPSpider爬虫的常用工具 # 开发PHPSpider爬虫的常用工具 > "工欲善其事,必先利其器",开发PHPSpider爬虫,起码得有几件顺手的工具才行吧, ...

  6. phpspider中当爬虫获取数据时如何去掉广告

    当成功爬取到的网页数据中有很多不相干的html广告标签时, 你是否会感到无可奈何, 有时候即使将XPath的效果发挥到极致, 也无法去掉顽固的html广告标签, 咋整呢? 本节给你介绍通过select ...

  7. PHP系统能不能加爬虫,php能做爬虫吗

    phpspider一款优秀的PHP开发蜘蛛爬虫 编写PHP网络爬虫,需要具备以下技能: 爬虫采用PHP编写(推荐学习:PHP视频教程) 从网页中抽取数据需要用XPath ( XPath选择器教程 ) ...

  8. 旅游景点人流量代码php,用 PHP 爬虫做旅游数据分析

    随着物质的提高,旅游渐渐成为人们的焦点,火热的国庆刚刚过去,乘着这股余热,我想很多人都想知道,大家一般会去哪里玩呢,于是我花了10分钟写了一个采集马蜂窝游记的小程序,当然速度能有这么快,完全依赖于PH ...

  9. python的spider程序下载_PHPspider爬虫10分钟快速教程(内附python教程分享)

    说到做爬虫,大家都可能第一时间想到的是python,其实php也是可以用来写爬虫程序的.php一贯简洁.易用,亲测使用PHPspider框架10分钟就能写出一个简单的爬虫程序. 一.PHP环境安装 和 ...

  10. php 爬数据库,php爬虫爬取数据并存储至数据库

    php爬虫爬取数据并存储至数据库 准备:php环境,phpspider请自行下载 下载地址:https://github.com/owner888/phpspider 文档:https://doc.p ...

最新文章

  1. java 获取泛型_Java泛型 | Jackson TypeReference获取泛型类型信息
  2. Windows Server2003 sp2重装IIS后无法浏览asp.net网页解决方法
  3. 新浪微博封装类,以及常见问题sdk修改
  4. xsl-mode属性用法
  5. 利用openCV中的cvCanny函数检测人脸的边缘
  6. 【转】VS.NET2003 调试无法启动
  7. mysql联合索引和单索引_mysql联合索引跟单列索引的区别
  8. 大米API源码v2.0(全新UI版本)
  9. Python编程基础20:实例成员与类成员
  10. spark学习-SparkSQL一些函数的使用
  11. 23.C++- 继承的多种方式、显示调用父类构造函数、父子之间的同名函数、virtual虚函数...
  12. redis java eval_【宇润日常疯测-002】Redis-eval() 到底好在哪
  13. 《大话设计模式》笔记2
  14. 咱们的课程里,有微信的这种菜单示例吗?---酷课堂iOS交流群问答整理(201810期)
  15. echarts使用复选框样式legend控制显隐
  16. RHCE linux学习第一天
  17. 孢子社群:今日推荐人工智能微信群:智能群3群 智能大数据合作交流群
  18. IIS6 日志删除脚本(t00ls)
  19. 助力课堂智能点名 | 爱莫AI场景化应用(四)
  20. 2022.11.10 英语背诵

热门文章

  1. 关于需求确认的重要性
  2. 正二十面体的各个面位置点
  3. 匠能电子:55寸0.88mm拼接屏与1.7mm拼接屏的对比效果
  4. 苹果6s强制删除id锁_付费苹果解锁软件 屏幕解锁及AppleID解锁
  5. python数据可视化-简单案例
  6. 【LDC1314】电感传感器中文手册与检测原理介绍
  7. python手机号码替换代码_手机号码中间部分替换成星号
  8. Spring框架学习重点概要笔记(一)
  9. 测试英语小软件,儿童学英语软件哪个好,亲测这四款很不错
  10. speex java_(原创)speex与wav格式音频文件的互相转换(二)