开源地址:

github:https://github.com/zorlan/skycaiji

安装及基本使用

点击跳转到官方文档: https://www.skycaiji.com/manual/doc/install

初次使用

可以看到功能还不少,可以自动采集,可以设置代理等等…

接下来开始的常规操作:

  • 创建任务
  • 设置规则

    按照正常思维应该是
    点击采集 以为就可以直接采集,但是并没有,会弹出下面的图片

没办法,只能按照规则来,点击规则旁边的发布 弹出的页面是

作为一个研究过的人来给大家解释下是什么意思

  • 本地CMS程序 : 将采集的数据保存到一些知名的CMS库中(前面使用的人做了一些相应的匹配规则,直接用)
  • 数据库:将数据保存到库里,这里要注意的是,最好新建一个库,在页面选择采集的字段与数据库的字段绑定来保存**(下面我会使用这种方式来查看采集的数据)**
  • 文件存储:将数据以文件的方式存储,用的是excex或者word 的方式
  • 调用接口:就是将采集的数据以API的方式发送给另一个服务器,主动发送
  • 生成API:就是将采集的数据存储好后,另一个服务器可以直接通过设置好的API被动的拿数据
  • 自定义插件:将采集的数据,可以完全自定义,想怎么存,存哪里,完全自己操作**(下面我也做了这种方式的采集修理)**

数据库的方式


设置好数据库字段与采集字段的绑定关系
保存后点击采集,查看已采集的数据,然后去当前的数据表发现有了记录


注意

点了采集后在想重复采集时,你可能会看到下面这张图片
页面的提示是 已经采集过的不可以在采集,现在有两种处理方式

  1. 删除采集好的数据在次采集(你就看不到历史的采集记录了)
  2. 寻找代码,进行更改,实现多次采集,很显然下面我们将会去修改代码达到相应的需求

作为一个研究过的人来直接说处理方式

1.  找到 skycaiji\SkycaijiApp\admin\event\Cpattern.php
2.  大概在 1745 行 ,找到 if($this->config['url_repeat']||$mcollected->getCountByUrl($cont_url)<=0){
就是经过这里的判断后,不在重复抓取相同的网址
3.  直接注释转为  if(true){  就可以重复抓取相同的网址

在次点击采集

已经可以重复抓取


自定义插件

先去目录/plugin/release/diy目录中创建Astar.php, 下面是我的astar.php的源码

<?php
namespace plugin\release\diy;
/*自定义插件:类名首字母必须大写*/
class Astar extends BaseDiy{/*数据库连接信息*/public $connection = array('db_type'   => 'mysql', //类型'db_host'    => 'localhost', //服务器'db_name'    => 'skycaiji', //库名称'db_user'    => 'root', //用户名'db_pwd'     => 'root', //密码'db_port'    => 3306, //端口'db_prefix'  => 'skycaiji_pro_list_copy', //表名'db_charset' => 'utf8', //编码);/*** 导入数据* @param string $url 采集的页面网址* @param array $fields 采集到的字段数据列表*/public function runImport($url,$fields){/** -----这里开始写代码-----* 数据库操作:$this->db() 可参考thinkphp5的数据库操作* 获取字段值必须使用 $this->get_field_val($field);方法(可处理图片本地化等),否则使用$field['value']调用字段原始值*/// 这里是需要保存的数据$data = ['product'=>trim($fields['name']['value']),'url'=>$url,'num'=>trim($fields['num']['value']),'ctime'=>time()];$this->db->insert($data);$id = $this->db->getLastInsID();
//  这里可以做任何的逻辑,比如通知相关人员/** 必须以数组形式返回:* id(必填)表示入库返回的自增id或状态* target(可选)记录入库的数据位置(发布的网址等)* desc(可选)记录入库的数据位置附加信息* error(可选)记录入库失败的错误信息* 入库的信息可在“已采集数据”中查看*/return array('id'=>$id,'target'=>'skycaiji_pro_list_copy','desc'=>$id,'error'=>'');}
}
?>

下图我采集到的一些测试数据列表,真实数据在库里

如果使用中发现什么问题,可以评论一起探讨…

初探PHP开源采集器----蓝天采集器相关推荐

  1. 最新PHP开源采集器/蓝天采集器系统源码

    正文: 致力于网站数据自动化采集发布,系统采用PHP+MySQL开发,可部署在云端服务器,使数据采集便捷化,智能化,云端化. 程序: wwgedr.lanzouf.com/iTRz00cip27a 图 ...

  2. 博客论坛自动采集器 - 蓝天采集器源码

    介绍: 博客论坛自动采集器 做一个自动采集文章的网站,在你网站根目录创建一个目录随便我这边是caiji,然后把采集器的源码上传到caiji里面去. 安装:你的域名/caiji访问配置好数据库什么的安装 ...

  3. 站长利器,全自动采集发布,开源免费-蓝天采集器-教程(1-简介)

    作为一个小白站长,接触了很多自动采集的软件(手头拮据,所以都是免费的),从火车头,杰奇,YGBOOK,苹果CMS,WP-AutoPost,等等,每个软件都有难以容忍的缺陷,或者采集规则过时,不适应JS ...

  4. 站长利器,全自动采集发布,开源免费-蓝天采集器-教程(3-采集设置)

    抱歉各位,前两天有事情,一直没更新.今天开始讲解蓝天采集器的采集设置: 1.选择任务-添加任务: 2.填写任务名称,任务分组.方便后期管理,如果不选择更多选项,则默认为通用设置选项,参考(教程2),填 ...

  5. discuz!Q免登陆蓝天采集器api发布模块

    内容采集规范: 1.内容部分只保留 等markdown支持的标签 请在发布之前处理好数据,否则程序强制剥离其他标签 2.内容图片上传 需上传 aaa.jpg 和 aaa_thumb.jpg 两份文件, ...

  6. 用php蓝天采集器抓取今日头条ajax的文章内容

    今日头条的数据都是ajax加载显示的,按照正常的url是抓取不到数据的,需要分析出加载出址,我们以 https://www.toutiao.com/searc... 为例来采集列表的文章 用谷歌浏览器 ...

  7. 5分钟快速安装蓝天采集器

    简介 蓝天采集器是一款免费的数据采集发布爬虫软件,采用php+mysql开发,可部署在云服务器,几乎能采集所有类型的网页,无缝对接各类CMS建站程序,免登录实时发布数据,全自动无需人工干预. 安装 为 ...

  8. 蓝天采集器安装环境要求

    蓝天采集器 感谢使用SkyCaiji(蓝天采集器),本软件致力于网页大数据采集与发布,是一款跨平台的云端大数据爬虫系统! PHP版本要求 PHP5.4 至 PHP8 安装环境要求 操作系统:Linux ...

  9. 使用php蓝天采集器抓取今日头条ajax的文章内容

    今日头条的数据都是ajax加载显示的,按照正常的url是抓取不到数据的,需要分析出加载出址,我们以 https://www.toutiao.com/search/?keyword=%E6%96%B0% ...

  10. php文章自动采集器,使用php蓝天采集器抓取今日头条ajax的文章内容

    今日头条的数据都是ajax加载显示的,按照正常的url是抓取不到数据的,需要分析出加载出址,我们以 https://www.toutiao.com/search/?keyword=%E6%96%B0% ...

最新文章

  1. mahout kmeans
  2. 网站服务器可以用虚拟主机吗,做网站虚拟主机可以用服务器吗
  3. 20年吐血整理:程序员全栈体系化学习路线与进阶地图
  4. centos6 安装 mantisbt-1.2.8 —— (1) VMware Workstation 12 Pro 虚拟机安装步骤详解(window 10 系统)
  5. 10个优秀的 Web UI库/框架 详细出处参考:http://www.jb51.net/web/22251.html
  6. 用Python 给你的个人微信朋友圈数据生成一本电子书吧!
  7. jQuery操作标签--样式、文本、属性操作, 文档处理
  8. 社区团购平台得推社区团购系统 v3.1源码
  9. azure考试_我如何通过AZ-900 Microsoft Azure基础考试
  10. 安卓饼状图设置软件_android开源图表库MPAndroidChart(曲线图、直方图、饼状图)...
  11. 工作学习总结--ng2-pdf-viewer的运用
  12. 清华大学计算机音乐,清华特奖候选人丨胡昌然:关于机器,音乐和灵魂
  13. MCAL配置-Cdd_Ipc
  14. 求一个数各个位数之和
  15. DayDayUp:计算机技术与软件专业技术资格证书之《系统集成项目管理工程师》课程讲解之项目管理概述、项目管理基本基础知识、项目立项管理相关知识
  16. 1024共码未来(一览中华风华,API First)
  17. JavaScriptCore内部原理(一):从JS源码到字节码的追踪
  18. 生鲜商城系统如何营销?
  19. 浅谈IM软件如何建立安全socket连接、登录
  20. Swaks邮件发件人伪造

热门文章

  1. 关于阿里云的一键部署工具【飞流】的使用(详细)
  2. 大数据之父_BIM先驱Charles (Chuck) M. Eastman逝世——致敬“BIM之父”
  3. HTML5期末大作业:商城网站设计——仿天猫商城(9页) HTML+CSS大作业: 网页制作作业_疫情防控网页设计...
  4. 用户授权中@Secured,@PreAuthorize,@PostAuthorize,@PreFilter,@PostFilter这五个注解的使用
  5. ArithmeticException:“不结束的十进制扩展; 没有确切可表示的小数结果”
  6. 关于资金调拨系统的设计方法论
  7. 计算机窗口闪退,最近电脑经常会有一个一闪而过的窗口,发现是CONSENT.EXE。请问这样正常吗?...
  8. umoocs外语慕课答案_umoocs答案怎么查,中国高校外语慕课平台(UMOOCs)答案公众号
  9. HBuilder打包App教程
  10. 力科(Lecroy)示波器专用波形文件(轨迹文件/trace文件/.trc文件)在MATLAB上的解析与回写