php爬虫框架phpspider,第一次使用php编写爬虫，使用了phpspider包

Php爬虫，最简单的小demo

最重要的两点，第一必须在命令行中输入，windows+R,输入cmd，先查看自己的电脑中有没有composer依赖包。

这是安装成功的。

然后安装phpspider,这个是php支持写爬虫的依赖包。

进入到你的项目路径，我这个是放在了tp框架里，可以随意的修改项目路径。

第一种方法：输入：composer require owoner888/phpspider

下载好了：用时大概1小时

第二种办法：去github上下载了这个phpspider包。

点击下载这个依赖包，可以直接引用。

解压到你的项目路径中，因为我们写的php代码是需要读取这个依赖包。

开始编写代码：

新建一个数据库，和数据表。

数据表：jianshu

新建一个demo.php(随意命名)。

Php代码：

require './phpspider-master/autoloader.php';

use phpspider\core\phpspider;

/* Do NOT delete this comment */

/* 不要删除这段注释 */

// 不清楚他这个意思，不知道为啥不能删除

//定义一个数组

$configs = array(

'name' => '简书',

'log_show' => false,

'tasknum' => 1,

// 数据库配置

'db_config' => array(

// 数据url地址

'host' => '127.0.0.1',

// 数据库端口

'port' => 3306,

// 数据库登录账号

'user' => 'root',

// 密码

'pass' => '',

// 数据库名切记这个是数据库的名字要一致。可以随意更改，但是要和数据库的名字一致

'name' => 'demo'

'export' => array(

'type' => 'db',

'table' => 'jianshu' //添加表， jianshu ,

// 爬取的页面

'domains' => array(

'jianshu',

'www.jianshu.com'

// 抓取的起点

'scan_urls' => array(

'https://www.jianshu.com/c/V2CqjW?utm_medium=index-collections&utm_source=desktop'

// 列表页实例

'list_url_regexes' => array(

"https://www.jianshu.com/c/\d+"

//内容页实例

'content_url_regexes' => array(

"https://www.jianshu.com/p/\d+"

'max_try' => 5,

'fields' => array(

// 表结构，也就是表字段

array(

'name' => 'title',

'selector' => "//h1[@class='title']",

//获取所有class值为title的h1节点

'required' => true

array(

'name' => 'content',

//获取所有class值为show-content-free的div节点

'selector' => "//div[@class='show-content-free']",

'required' => true

);

$spider = new phpspider($configs);

$spider->start();

然后打开cmd:

进入到你的项目目录：输入 php -f demo.php

爬取成功：

php也算第一次爬取成功了，效仿大佬。哈哈哈，第一次用PHP写爬虫感觉其实也没啥不一样的，基本上都是互通的，学好一个基本都会了，好好学习

php爬虫框架phpspider,第一次使用php编写爬虫，使用了phpspider包相关推荐

python 爬虫框架对比_用Python写爬虫，用什么方式、框架比较好？
以前只写过很简单的Python爬虫,直接用内置库实现,有没有谁用Python爬过规模较大的数据,用的是什么方法? 还有,采用现有的Python爬虫框架,相比与直接使用内置库,优势在哪?因为Python ...
python 爬虫框架对比_几种爬虫框架效果分析，python最好爬虫框架是哪一种？
爬虫可以用不同的语言编写,而且爬虫框架也多,比如python,简单易学,也是有不同的爬虫框架,python最好爬虫框架是哪一种呢?这些爬虫框架都有什么优缺点? 一.爬虫框架使用对比分析多学习爬虫的框 ...
常见python爬虫框架_常用高效的Python爬虫框架
Python是现在非常流行的编程语言,而爬虫则是Python语言中最典型的应用,下面是ipidea全球http总结的高效Python爬虫框架,大家看看是否都用过呢. Scrapy是一个为了爬取网站数据 ...
python分布式爬虫框架_python之简单Scrapy分布式爬虫的实现
分布式爬虫:爬虫共用同一个爬虫程序,即把同一个爬虫程序同时部署到多台电脑上运行,这样可以提高爬虫速度. 在默认情况下,scrapy爬虫是单机爬虫,只能在一台电脑上运行,因为爬虫调度器当中的队列queu ...
Scrapy网络爬虫框架实际案例讲解，Python爬虫原来如此简单！
创建项目 Scrapy爬虫框架提供一个工具来创建项目,生成的项目中预置了一些文件,用户需要在这些文件中添加python代码.最后,如果你的时间不是很紧张,并且又想快速的提高,最重要的是不怕吃苦,建议你 ...
Python爬虫框架Scrapy入门（三）爬虫实战：爬取长沙链家二手房
Item Pipeline介绍 Item对象是一个简单的容器,用于收集抓取到的数据,其提供了类似于字典(dictionary-like)的API,并具有用于声明可用字段的简单语法. Scrapy的It ...
python爬虫框架——scrapy（1）scrapy爬虫框架介绍
导语:(python语言中存在众多的爬虫框架,本文及接下来的几篇都只介绍scrapy框架) 一:整理scrapy爬虫框架组件的各种知识,了解爬虫机制的原理 1.scrapy架构: 各个组件: 引擎(E ...
android爬虫框架jsoup,Android笔记之JSoup爬虫入门
前言闲扯一些没用的,写这篇文章之前是有点私心的,因为之前评论某简书大v的文章是鸡汤,瞬间被拉黑,连个解释和说明的机会都没有,文章语言干涩,内容平平,于是就好奇到底是些什么样的人喜欢和吹捧这样的鸡汤作 ...
开发一款开源爬虫框架系列（五）：爬虫架构的一些新思路
爬虫开源项目地址:http://git.oschina.net/coliza/MongooCrawler 以前的思路是由客户端完成所有的下载网页,解析等功能,服务器端负责从内存队列中拿到数据并将获取的 ...
python3爬虫框架scrapy_带你深入浅出python爬虫框架scrapy(三)
接下来我们要讲解爬取一些较难的数据评论: 1. 在Item中定义自己要抓取的数据: movie_name就像是字典中的"键",爬到的数据就像似字典中的"值".在 ...

php爬虫框架phpspider,第一次使用php编写爬虫，使用了phpspider包

php爬虫框架phpspider,第一次使用php编写爬虫，使用了phpspider包相关推荐

最新文章

热门文章