1. composer require owner888/phpspider  下载包

2.自动化抓取

use phpspider\core\phpspider;
$configs = array( 'name' => '糗事百科', 'domains' => array( 'qiushibaike.com', 'www.qiushibaike.com' ), 'scan_urls' => array( 'http://www.qiushibaike.com/' ), 'content_url_regexes' => array( "http://www.qiushibaike.com/article/\d+" ), 'list_url_regexes' => array( "http://www.qiushibaike.com/8hr/page/\d+\?s=\d+" ), 'fields' => array( array( // 抽取内容页的文章内容 'name' => "article_content", 'selector' => "//*[@id='single-next-link']", 'required' => true ), array( // 抽取内容页的文章作者 'name' => "article_author", 'selector' => "//div[contains(@class,'author')]//h2", 'required' => true ), ), );

$spider = new phpspider($configs);//实例化

$spider->start(); ​

3.自定义抓取 + XPath选择

use phpspider\core\requests;   //phpspider下的requests
use phpspider\core\selector;        

$url = 'https://xxx.com/r17678.html';

$html = requests::get($url);

$href = selector::select($html,'//div[@class="chapter"]/a/@href');

PHP爬虫之phpspider相关推荐

  1. [学]PHP爬虫框架phpspider

    [学]PHP爬虫框架phpspider http://www.phpchina.com/article-40283-2.html http://www.111cn.net/phper/php-gj/6 ...

  2. PHP爬虫框架phpspider(一) - 下载安装

    该框架还是挺强大的,就是爬取规则采用的是Xpath语法,没有python的bs4库那么易用. github地址 随便找个目录即可,不依赖于apache等. 克隆 git clone https://g ...

  3. 旅游景点人流量代码php,用 PHP 爬虫做旅游数据分析

    随着物质的提高,旅游渐渐成为人们的焦点,火热的国庆刚刚过去,乘着这股余热,我想很多人都想知道,大家一般会去哪里玩呢,于是我花了10分钟写了一个采集马蜂窝游记的小程序,当然速度能有这么快,完全依赖于PH ...

  4. 爬虫 php网页数据分析,用 PHP 爬虫做旅游数据分析

    声明: 采集程序只做技术研究使用,切不可做出格的事以免惹来麻烦 首先感谢广大网友的支持,现将源代码公开,地址如下: https://github.com/owner888/phpspider gith ...

  5. 利用爬虫爬取看看豆网站站的数据信息

    其实很早我就开始关注爬虫技术,这两天特别学习了一下,并且做了一个简单的demo.爬取了看看豆网站的数据信息.总共11751本书,爬取了不到3个小时,基本每秒爬取1条.速度慢的原因主要是单线程,使用my ...

  6. 暑假到了,是一个旅游旺季,用 PHP 爬虫做旅游数据分析,让我们更好的外出旅行吧!

    用 PHP 爬虫做旅游数据分析 声明: 采集程序只做技术研究使用,切不可做出格的事以免惹来麻烦 首先感谢广大网友的支持,现将源代码公开,地址如下: https://github.com/owner88 ...

  7. 爬虫数据+php,用 PHP 爬虫做旅游数据分析

    (点击上方公号,可快速关注) 作者:伯乐在线专栏作者 - 杨泽涛 网址:http://blog.jobbole.com/106623/ 声明: 采集程序只做技术研究使用,切不可做出格的事以免惹来麻烦 ...

  8. PHP 优秀资源汇集(转)

    文章目录 原文地址: https://shockerli.net/post/php-awesome/ GitHub: https://github.com/shockerli/php-awesome ...

  9. php spider 开发文档,开发PHPSpider爬虫的常用工具

    # 开发PHPSpider爬虫的常用工具 # 开发PHPSpider爬虫的常用工具 > "工欲善其事,必先利其器",开发PHPSpider爬虫,起码得有几件顺手的工具才行吧, ...

  10. phpspider php爬虫框架

    其实我自身的不是经常写正则,而且不规则的html去写正则本身就是件很麻烦的事情,如果页面有些微变动和更新就得再次去维护正则表达式,其实是非常蛋疼的 我第一感觉就是去找一下爬虫的库,但是发现现在php爬 ...

最新文章

  1. 使用页面元素属性做状态判断的隐患
  2. [Modules]PrestaShop插件 模块 – 产品推荐模块 随机展示推荐产品
  3. Qt for Android 自定义启动页(解决启动页拉伸的问题)
  4. Flutter入门:Hero共享元素
  5. java函数式编程之接口Default方法五
  6. mysql 导入dbm文件_DBM数据导入到mysql数据库方法
  7. STM32 软件重启导致死机的情况分析
  8. Python Windows安装
  9. CMake笔记2 构建动态链接库
  10. 爬虫scrapy框架安装使用
  11. LDN蓝牙双模键盘驱动和固件更新日志
  12. 华为HCNA之配置RIPv2认证实验
  13. 推荐系统笔记(八):推荐系统中的长尾效应
  14. 怎么取消微信送票服务器,智行火车票如何关闭微信自动扣费服务 微信怎么关闭智行火车票自动扣费授权...
  15. 证券交易api 查询证券编码及基本上市信息
  16. php mysql抽奖转盘_PHP微信转盘抽奖前后台 数据库完整示例
  17. hive:函数:转换函数:cast
  18. Odoo与浪潮合资研发PS Cloud之如何在Odoo中进行搜索引擎优化(5)
  19. 读书笔记:《漫画生理学》
  20. Pycharm 一键加引号、批量加引号

热门文章

  1. android 天气类应用,一周天气预报!7款另类Android天气应用
  2. 天玥运维安全网关(启明星辰堡垒机)无法登录资源主机的问题
  3. Egret和LayaBox
  4. 计算机网络(网络编程)
  5. 腾讯电脑管家修复代理服务器,腾讯电脑管家修复msvcp140.dll丢失的方法
  6. 天正电气T20 V6完全使用指南
  7. 大学四年Java学习路线规划,所有私藏资料我都贡献出来了,我要是早知道就好了
  8. 用matlab做仿真实验难不难,SIMULINK仿真实验心得体会
  9. AmazeUI组件使用和百度地图集成
  10. 用计算机解决对长江水源治理的问题,科学调控长江水资源的思考