初探PHP开源采集器----蓝天采集器
开源地址:
github:https://github.com/zorlan/skycaiji
安装及基本使用
点击跳转到官方文档: https://www.skycaiji.com/manual/doc/install
初次使用
可以看到功能还不少,可以自动采集,可以设置代理等等…
接下来开始的常规操作:
- 创建任务
- 设置规则
按照正常思维应该是
点击采集 以为就可以直接采集,但是并没有,会弹出下面的图片
没办法,只能按照规则来,点击规则旁边的发布 弹出的页面是
作为一个研究过的人来给大家解释下是什么意思
- 本地CMS程序 : 将采集的数据保存到一些知名的CMS库中(前面使用的人做了一些相应的匹配规则,直接用)
- 数据库:将数据保存到库里,这里要注意的是,最好新建一个库,在页面选择采集的字段与数据库的字段绑定来保存**(下面我会使用这种方式来查看采集的数据)**
- 文件存储:将数据以文件的方式存储,用的是excex或者word 的方式
- 调用接口:就是将采集的数据以API的方式发送给另一个服务器,主动发送
- 生成API:就是将采集的数据存储好后,另一个服务器可以直接通过设置好的API被动的拿数据
- 自定义插件:将采集的数据,可以完全自定义,想怎么存,存哪里,完全自己操作**(下面我也做了这种方式的采集修理)**
数据库的方式
设置好数据库字段与采集字段的绑定关系
保存后点击采集,查看已采集的数据,然后去当前的数据表发现有了记录
注意
点了采集后在想重复采集时,你可能会看到下面这张图片
页面的提示是 已经采集过的不可以在采集,现在有两种处理方式
- 删除采集好的数据在次采集(你就看不到历史的采集记录了)
- 寻找代码,进行更改,实现多次采集,很显然下面我们将会去修改代码达到相应的需求
作为一个研究过的人来直接说处理方式
1. 找到 skycaiji\SkycaijiApp\admin\event\Cpattern.php
2. 大概在 1745 行 ,找到 if($this->config['url_repeat']||$mcollected->getCountByUrl($cont_url)<=0){
就是经过这里的判断后,不在重复抓取相同的网址
3. 直接注释转为 if(true){ 就可以重复抓取相同的网址
在次点击采集
已经可以重复抓取
自定义插件
先去目录/plugin/release/diy目录中创建Astar.php, 下面是我的astar.php的源码
<?php
namespace plugin\release\diy;
/*自定义插件:类名首字母必须大写*/
class Astar extends BaseDiy{/*数据库连接信息*/public $connection = array('db_type' => 'mysql', //类型'db_host' => 'localhost', //服务器'db_name' => 'skycaiji', //库名称'db_user' => 'root', //用户名'db_pwd' => 'root', //密码'db_port' => 3306, //端口'db_prefix' => 'skycaiji_pro_list_copy', //表名'db_charset' => 'utf8', //编码);/*** 导入数据* @param string $url 采集的页面网址* @param array $fields 采集到的字段数据列表*/public function runImport($url,$fields){/** -----这里开始写代码-----* 数据库操作:$this->db() 可参考thinkphp5的数据库操作* 获取字段值必须使用 $this->get_field_val($field);方法(可处理图片本地化等),否则使用$field['value']调用字段原始值*/// 这里是需要保存的数据$data = ['product'=>trim($fields['name']['value']),'url'=>$url,'num'=>trim($fields['num']['value']),'ctime'=>time()];$this->db->insert($data);$id = $this->db->getLastInsID();
// 这里可以做任何的逻辑,比如通知相关人员/** 必须以数组形式返回:* id(必填)表示入库返回的自增id或状态* target(可选)记录入库的数据位置(发布的网址等)* desc(可选)记录入库的数据位置附加信息* error(可选)记录入库失败的错误信息* 入库的信息可在“已采集数据”中查看*/return array('id'=>$id,'target'=>'skycaiji_pro_list_copy','desc'=>$id,'error'=>'');}
}
?>
下图我采集到的一些测试数据列表,真实数据在库里
如果使用中发现什么问题,可以评论一起探讨…
初探PHP开源采集器----蓝天采集器相关推荐
- 最新PHP开源采集器/蓝天采集器系统源码
正文: 致力于网站数据自动化采集发布,系统采用PHP+MySQL开发,可部署在云端服务器,使数据采集便捷化,智能化,云端化. 程序: wwgedr.lanzouf.com/iTRz00cip27a 图 ...
- 博客论坛自动采集器 - 蓝天采集器源码
介绍: 博客论坛自动采集器 做一个自动采集文章的网站,在你网站根目录创建一个目录随便我这边是caiji,然后把采集器的源码上传到caiji里面去. 安装:你的域名/caiji访问配置好数据库什么的安装 ...
- 站长利器,全自动采集发布,开源免费-蓝天采集器-教程(1-简介)
作为一个小白站长,接触了很多自动采集的软件(手头拮据,所以都是免费的),从火车头,杰奇,YGBOOK,苹果CMS,WP-AutoPost,等等,每个软件都有难以容忍的缺陷,或者采集规则过时,不适应JS ...
- 站长利器,全自动采集发布,开源免费-蓝天采集器-教程(3-采集设置)
抱歉各位,前两天有事情,一直没更新.今天开始讲解蓝天采集器的采集设置: 1.选择任务-添加任务: 2.填写任务名称,任务分组.方便后期管理,如果不选择更多选项,则默认为通用设置选项,参考(教程2),填 ...
- discuz!Q免登陆蓝天采集器api发布模块
内容采集规范: 1.内容部分只保留 等markdown支持的标签 请在发布之前处理好数据,否则程序强制剥离其他标签 2.内容图片上传 需上传 aaa.jpg 和 aaa_thumb.jpg 两份文件, ...
- 用php蓝天采集器抓取今日头条ajax的文章内容
今日头条的数据都是ajax加载显示的,按照正常的url是抓取不到数据的,需要分析出加载出址,我们以 https://www.toutiao.com/searc... 为例来采集列表的文章 用谷歌浏览器 ...
- 5分钟快速安装蓝天采集器
简介 蓝天采集器是一款免费的数据采集发布爬虫软件,采用php+mysql开发,可部署在云服务器,几乎能采集所有类型的网页,无缝对接各类CMS建站程序,免登录实时发布数据,全自动无需人工干预. 安装 为 ...
- 蓝天采集器安装环境要求
蓝天采集器 感谢使用SkyCaiji(蓝天采集器),本软件致力于网页大数据采集与发布,是一款跨平台的云端大数据爬虫系统! PHP版本要求 PHP5.4 至 PHP8 安装环境要求 操作系统:Linux ...
- 使用php蓝天采集器抓取今日头条ajax的文章内容
今日头条的数据都是ajax加载显示的,按照正常的url是抓取不到数据的,需要分析出加载出址,我们以 https://www.toutiao.com/search/?keyword=%E6%96%B0% ...
- php文章自动采集器,使用php蓝天采集器抓取今日头条ajax的文章内容
今日头条的数据都是ajax加载显示的,按照正常的url是抓取不到数据的,需要分析出加载出址,我们以 https://www.toutiao.com/search/?keyword=%E6%96%B0% ...
最新文章
- mahout kmeans
- 网站服务器可以用虚拟主机吗,做网站虚拟主机可以用服务器吗
- 20年吐血整理:程序员全栈体系化学习路线与进阶地图
- centos6 安装 mantisbt-1.2.8 —— (1) VMware Workstation 12 Pro 虚拟机安装步骤详解(window 10 系统)
- 10个优秀的 Web UI库/框架 详细出处参考:http://www.jb51.net/web/22251.html
- 用Python 给你的个人微信朋友圈数据生成一本电子书吧!
- jQuery操作标签--样式、文本、属性操作, 文档处理
- 社区团购平台得推社区团购系统 v3.1源码
- azure考试_我如何通过AZ-900 Microsoft Azure基础考试
- 安卓饼状图设置软件_android开源图表库MPAndroidChart(曲线图、直方图、饼状图)...
- 工作学习总结--ng2-pdf-viewer的运用
- 清华大学计算机音乐,清华特奖候选人丨胡昌然:关于机器,音乐和灵魂
- MCAL配置-Cdd_Ipc
- 求一个数各个位数之和
- DayDayUp:计算机技术与软件专业技术资格证书之《系统集成项目管理工程师》课程讲解之项目管理概述、项目管理基本基础知识、项目立项管理相关知识
- 1024共码未来(一览中华风华,API First)
- JavaScriptCore内部原理(一):从JS源码到字节码的追踪
- 生鲜商城系统如何营销?
- 浅谈IM软件如何建立安全socket连接、登录
- Swaks邮件发件人伪造
热门文章
- 关于阿里云的一键部署工具【飞流】的使用(详细)
- 大数据之父_BIM先驱Charles (Chuck) M. Eastman逝世——致敬“BIM之父”
- HTML5期末大作业:商城网站设计——仿天猫商城(9页) HTML+CSS大作业: 网页制作作业_疫情防控网页设计...
- 用户授权中@Secured,@PreAuthorize,@PostAuthorize,@PreFilter,@PostFilter这五个注解的使用
- ArithmeticException:“不结束的十进制扩展; 没有确切可表示的小数结果”
- 关于资金调拨系统的设计方法论
- 计算机窗口闪退,最近电脑经常会有一个一闪而过的窗口,发现是CONSENT.EXE。请问这样正常吗?...
- umoocs外语慕课答案_umoocs答案怎么查,中国高校外语慕课平台(UMOOCs)答案公众号
- HBuilder打包App教程
- 力科(Lecroy)示波器专用波形文件(轨迹文件/trace文件/.trc文件)在MATLAB上的解析与回写