php爬虫框架phpspider,第一次使用php编写爬虫,使用了phpspider包
Php爬虫,最简单的小demo
最重要的两点,第一必须在命令行中输入,windows+R,输入cmd,先查看自己的电脑中有没有composer依赖包。
这是安装成功的。
然后安装phpspider,这个是php支持写爬虫的依赖包。
进入到你的项目路径,我这个是放在了tp框架里,可以随意的修改项目路径。
第一种方法:输入:composer require owoner888/phpspider
下载好了:用时大概1小时
第二种办法:去github上下载了这个phpspider包。
点击下载这个依赖包,可以直接引用。
解压到你的项目路径中,因为我们写的php代码是需要读取这个依赖包。
开始编写代码:
新建一个数据库,和数据表。
数据表:jianshu
新建一个demo.php(随意命名)。
Php代码:
require './phpspider-master/autoloader.php';
use phpspider\core\phpspider;
/* Do NOT delete this comment */
/* 不要删除这段注释 */
// 不清楚他这个意思,不知道为啥不能删除
//定义一个数组
$configs = array(
'name' => '简书',
'log_show' => false,
'tasknum' => 1,
// 数据库配置
'db_config' => array(
// 数据url地址
'host' => '127.0.0.1',
// 数据库端口
'port' => 3306,
// 数据库登录账号
'user' => 'root',
// 密码
'pass' => '',
// 数据库名 切记这个是数据库的名字要一致。可以随意更改,但是要和数据库的名字一致
'name' => 'demo'
),
'export' => array(
'type' => 'db',
'table' => 'jianshu' //添加表, jianshu ,
),
// 爬取的页面
'domains' => array(
'jianshu',
'www.jianshu.com'
),
// 抓取的起点
'scan_urls' => array(
'https://www.jianshu.com/c/V2CqjW?utm_medium=index-collections&utm_source=desktop'
),
// 列表页实例
'list_url_regexes' => array(
"https://www.jianshu.com/c/\d+"
),
//内容页实例
'content_url_regexes' => array(
"https://www.jianshu.com/p/\d+"
),
'max_try' => 5,
'fields' => array(
// 表结构,也就是表字段
array(
'name' => 'title',
'selector' => "//h1[@class='title']",
//获取所有class值为title的h1节点
'required' => true
),
array(
'name' => 'content',
//获取所有class值为show-content-free的div节点
'selector' => "//div[@class='show-content-free']",
'required' => true
),
),
);
$spider = new phpspider($configs);
$spider->start();
?>
然后打开cmd:
进入到你的项目目录:输入 php -f demo.php
爬取成功:
php也算第一次爬取成功了,效仿大佬。哈哈哈,第一次用PHP写爬虫感觉其实也没啥不一样的,基本上都是互通的,学好一个基本都会了,好好学习
php爬虫框架phpspider,第一次使用php编写爬虫,使用了phpspider包相关推荐
- python 爬虫框架对比_用Python写爬虫,用什么方式、框架比较好?
以前只写过很简单的Python爬虫,直接用内置库实现,有没有谁用Python爬过规模较大的数据,用的是什么方法? 还有,采用现有的Python爬虫框架,相比与直接使用内置库,优势在哪?因为Python ...
- python 爬虫框架对比_几种爬虫框架效果分析,python最好爬虫框架是哪一种?
爬虫可以用不同的语言编写,而且爬虫框架也多,比如python,简单易学,也是有不同的爬虫框架,python最好爬虫框架是哪一种呢?这些爬虫框架都有什么优缺点? 一.爬虫框架使用对比分析 多学习爬虫的框 ...
- 常见python爬虫框架_常用高效的Python爬虫框架
Python是现在非常流行的编程语言,而爬虫则是Python语言中最典型的应用,下面是ipidea全球http总结的高效Python爬虫框架,大家看看是否都用过呢. Scrapy是一个为了爬取网站数据 ...
- python分布式爬虫框架_python之简单Scrapy分布式爬虫的实现
分布式爬虫:爬虫共用同一个爬虫程序,即把同一个爬虫程序同时部署到多台电脑上运行,这样可以提高爬虫速度. 在默认情况下,scrapy爬虫是单机爬虫,只能在一台电脑上运行,因为爬虫调度器当中的队列queu ...
- Scrapy网络爬虫框架实际案例讲解,Python爬虫原来如此简单!
创建项目 Scrapy爬虫框架提供一个工具来创建项目,生成的项目中预置了一些文件,用户需要在这些文件中添加python代码.最后,如果你的时间不是很紧张,并且又想快速的提高,最重要的是不怕吃苦,建议你 ...
- Python爬虫框架Scrapy入门(三)爬虫实战:爬取长沙链家二手房
Item Pipeline介绍 Item对象是一个简单的容器,用于收集抓取到的数据,其提供了类似于字典(dictionary-like)的API,并具有用于声明可用字段的简单语法. Scrapy的It ...
- python爬虫框架——scrapy(1)scrapy爬虫框架介绍
导语:(python语言中存在众多的爬虫框架,本文及接下来的几篇都只介绍scrapy框架) 一:整理scrapy爬虫框架组件的各种知识,了解爬虫机制的原理 1.scrapy架构: 各个组件: 引擎(E ...
- android爬虫框架jsoup,Android笔记之JSoup爬虫入门
前言 闲扯一些没用的,写这篇文章之前是有点私心的,因为之前评论某简书大v的文章是鸡汤,瞬间被拉黑,连个解释和说明的机会都没有,文章语言干涩,内容平平,于是就好奇到底是些什么样的人喜欢和吹捧这样的鸡汤作 ...
- 开发一款开源爬虫框架系列(五):爬虫架构的一些新思路
爬虫开源项目地址:http://git.oschina.net/coliza/MongooCrawler 以前的思路是由客户端完成所有的下载网页,解析等功能,服务器端负责从内存队列中拿到数据并将获取的 ...
- python3爬虫框架scrapy_带你深入浅出python爬虫框架scrapy(三)
接下来我们要讲解爬取一些较难的数据评论: 1. 在Item中定义自己要抓取的数据: movie_name就像是字典中的"键",爬到的数据就像似字典中的"值".在 ...
最新文章
- Activiti——流程执行历史记录(七)
- 别踩白块java程序代码_别踩白块源码
- 字选项套接字选项-java教程
- DataTables中提示:DataTables warning: table id=example - Cannot reinitialise DataTable.
- jqgrid 启用键盘操作bindKeys
- oracle数据库主键自增序列_oracle数据库ID自增长--序列
- [译]WPF开源控件扩展库ControlzEx
- python各进制的表述与转换
- 飞鸽传书2007用户需求就是做好需求处理
- esp8266设置sta失败_ESP8266使用教程之初识
- C#反射Assembly 详细说明
- C++11for(auto iter : container)auto简介
- 【cocos2d-x 手游研发小技巧(4)与Android混编实现换“头像图片”】
- mysql unzip下载_zip unzip 命令
- 牛客练习赛63 牛牛的树行棋
- python用matplotlib或boxplot作图的时候,中文标注无法正常显示,乱码为小方框的解决办法
- 【一】从.WAV文件中提取语音的fbank特征
- Leetcode_49_Anagrams
- 下一个风口就是硬科技,抓住机遇,中国能重返世界之巅
- 关于光猫连接无线路由设置问题