Php爬虫,最简单的小demo

最重要的两点,第一必须在命令行中输入,windows+R,输入cmd,先查看自己的电脑中有没有composer依赖包。

这是安装成功的。

然后安装phpspider,这个是php支持写爬虫的依赖包。

进入到你的项目路径,我这个是放在了tp框架里,可以随意的修改项目路径。

第一种方法:输入:composer require owoner888/phpspider

下载好了:用时大概1小时

第二种办法:去github上下载了这个phpspider包。

点击下载这个依赖包,可以直接引用。

解压到你的项目路径中,因为我们写的php代码是需要读取这个依赖包。

开始编写代码:

新建一个数据库,和数据表。

数据表:jianshu

新建一个demo.php(随意命名)。

Php代码:

require './phpspider-master/autoloader.php';

use phpspider\core\phpspider;

/* Do NOT delete this comment */

/* 不要删除这段注释 */

// 不清楚他这个意思,不知道为啥不能删除

//定义一个数组

$configs = array(

'name' => '简书',

'log_show' => false,

'tasknum' => 1,

// 数据库配置

'db_config' => array(

// 数据url地址

'host' => '127.0.0.1',

// 数据库端口

'port' => 3306,

// 数据库登录账号

'user' => 'root',

// 密码

'pass' => '',

// 数据库名 切记这个是数据库的名字要一致。可以随意更改,但是要和数据库的名字一致

'name' => 'demo'

),

'export' => array(

'type' => 'db',

'table' => 'jianshu' //添加表, jianshu ,

),

// 爬取的页面

'domains' => array(

'jianshu',

'www.jianshu.com'

),

// 抓取的起点

'scan_urls' => array(

'https://www.jianshu.com/c/V2CqjW?utm_medium=index-collections&utm_source=desktop'

),

// 列表页实例

'list_url_regexes' => array(

"https://www.jianshu.com/c/\d+"

),

//内容页实例

'content_url_regexes' => array(

"https://www.jianshu.com/p/\d+"

),

'max_try' => 5,

'fields' => array(

// 表结构,也就是表字段

array(

'name' => 'title',

'selector' => "//h1[@class='title']",

//获取所有class值为title的h1节点

'required' => true

),

array(

'name' => 'content',

//获取所有class值为show-content-free的div节点

'selector' => "//div[@class='show-content-free']",

'required' => true

),

),

);

$spider = new phpspider($configs);

$spider->start();

?>

然后打开cmd:

进入到你的项目目录:输入 php -f demo.php

爬取成功:

php也算第一次爬取成功了,效仿大佬。哈哈哈,第一次用PHP写爬虫感觉其实也没啥不一样的,基本上都是互通的,学好一个基本都会了,好好学习

php爬虫框架phpspider,第一次使用php编写爬虫,使用了phpspider包相关推荐

  1. python 爬虫框架对比_用Python写爬虫,用什么方式、框架比较好?

    以前只写过很简单的Python爬虫,直接用内置库实现,有没有谁用Python爬过规模较大的数据,用的是什么方法? 还有,采用现有的Python爬虫框架,相比与直接使用内置库,优势在哪?因为Python ...

  2. python 爬虫框架对比_几种爬虫框架效果分析,python最好爬虫框架是哪一种?

    爬虫可以用不同的语言编写,而且爬虫框架也多,比如python,简单易学,也是有不同的爬虫框架,python最好爬虫框架是哪一种呢?这些爬虫框架都有什么优缺点? 一.爬虫框架使用对比分析 多学习爬虫的框 ...

  3. 常见python爬虫框架_常用高效的Python爬虫框架

    Python是现在非常流行的编程语言,而爬虫则是Python语言中最典型的应用,下面是ipidea全球http总结的高效Python爬虫框架,大家看看是否都用过呢. Scrapy是一个为了爬取网站数据 ...

  4. python分布式爬虫框架_python之简单Scrapy分布式爬虫的实现

    分布式爬虫:爬虫共用同一个爬虫程序,即把同一个爬虫程序同时部署到多台电脑上运行,这样可以提高爬虫速度. 在默认情况下,scrapy爬虫是单机爬虫,只能在一台电脑上运行,因为爬虫调度器当中的队列queu ...

  5. Scrapy网络爬虫框架实际案例讲解,Python爬虫原来如此简单!

    创建项目 Scrapy爬虫框架提供一个工具来创建项目,生成的项目中预置了一些文件,用户需要在这些文件中添加python代码.最后,如果你的时间不是很紧张,并且又想快速的提高,最重要的是不怕吃苦,建议你 ...

  6. Python爬虫框架Scrapy入门(三)爬虫实战:爬取长沙链家二手房

    Item Pipeline介绍 Item对象是一个简单的容器,用于收集抓取到的数据,其提供了类似于字典(dictionary-like)的API,并具有用于声明可用字段的简单语法. Scrapy的It ...

  7. python爬虫框架——scrapy(1)scrapy爬虫框架介绍

    导语:(python语言中存在众多的爬虫框架,本文及接下来的几篇都只介绍scrapy框架) 一:整理scrapy爬虫框架组件的各种知识,了解爬虫机制的原理 1.scrapy架构: 各个组件: 引擎(E ...

  8. android爬虫框架jsoup,Android笔记之JSoup爬虫入门

    前言 闲扯一些没用的,写这篇文章之前是有点私心的,因为之前评论某简书大v的文章是鸡汤,瞬间被拉黑,连个解释和说明的机会都没有,文章语言干涩,内容平平,于是就好奇到底是些什么样的人喜欢和吹捧这样的鸡汤作 ...

  9. 开发一款开源爬虫框架系列(五):爬虫架构的一些新思路

    爬虫开源项目地址:http://git.oschina.net/coliza/MongooCrawler 以前的思路是由客户端完成所有的下载网页,解析等功能,服务器端负责从内存队列中拿到数据并将获取的 ...

  10. python3爬虫框架scrapy_带你深入浅出python爬虫框架scrapy(三)

    接下来我们要讲解爬取一些较难的数据评论: 1. 在Item中定义自己要抓取的数据: movie_name就像是字典中的"键",爬到的数据就像似字典中的"值".在 ...

最新文章

  1. Activiti——流程执行历史记录(七)
  2. 别踩白块java程序代码_别踩白块源码
  3. 字选项套接字选项-java教程
  4. DataTables中提示:DataTables warning: table id=example - Cannot reinitialise DataTable.
  5. jqgrid 启用键盘操作bindKeys
  6. oracle数据库主键自增序列_oracle数据库ID自增长--序列
  7. [译]WPF开源控件扩展库ControlzEx
  8. python各进制的表述与转换
  9. 飞鸽传书2007用户需求就是做好需求处理
  10. esp8266设置sta失败_ESP8266使用教程之初识
  11. C#反射Assembly 详细说明
  12. C++11for(auto iter : container)auto简介
  13. 【cocos2d-x 手游研发小技巧(4)与Android混编实现换“头像图片”】
  14. mysql unzip下载_zip unzip 命令
  15. 牛客练习赛63 牛牛的树行棋
  16. python用matplotlib或boxplot作图的时候,中文标注无法正常显示,乱码为小方框的解决办法
  17. 【一】从.WAV文件中提取语音的fbank特征
  18. Leetcode_49_Anagrams
  19. 下一个风口就是硬科技,抓住机遇,中国能重返世界之巅
  20. 关于光猫连接无线路由设置问题

热门文章

  1. 重庆邮电大学c语言题库
  2. 谈谈柔性屏/可折叠屏的过去、现在和未来
  3. 重定向后路径上自动添加jsessionid=
  4. java 微信 图灵机器人_使用图灵api创建微信聊天机器人
  5. tpac100控制器设置教程_TP-link AC100控制器配置基础教程
  6. 高斯光束matlab 仿真,高斯光束的matlab仿真.docx
  7. 上海大华条码称代码_上海大华条码秤的调试方法
  8. PIE工程师是做什么的
  9. java获取世界各国地址,获取世界各国、全国省份、城市、县
  10. 深入浅出、通俗易懂的讲解CAN bus。