火车头怎么采集php的,火车采集器采集入库教程
一、安装火车采集器
下载后解压至电脑任意目录,例如D:\LocoySpider,双击D:\LocoySpider\LocoySpider.exe打开主程序,如下图:
注意:运行火车采集器要求电脑安装.NET2.0框架支持。如果主程序无法运行,很可能是因为您的电脑没有安装.NET2.0框架。.NET2.0框架可以通过以下地址下载:
二、采集前的准备工作
2.1说明
由于本教程的重点是讲解采集入库,所以采集过程仅简单介绍。如果要详细了解采集过程,请参考以下资源:
2.1下载入库规则文件
火车采集器的入库规则是可以自己制作的,为了便于理解和测试,本站已经做好资讯入库规则,请通过以下地址下载:
下载解压后,将其中的Destoon 3.0资讯.cwr 复制到火车采集器安装目录/Module目录
2.3配置Destoon采集入库接口
Destoon采集入库接口位于您的站点目录/api/spider.php。用Editplus或其他编辑软件打开此文件。
注意:如果您的站点是UTF-8编码,请不要使用记事本编辑PHP文件。
需要配置的参数,系统已经做了中文的注释,请注意查看。
下面讲一下常用的配置:
$verify_mode 一般设置为2,采用密钥验证
$spider_auth 设置一个最少6位的密钥,为了配合已经配置好的Destoon 3.0资讯.cwr规则,暂时请设置为12345678,后面会详细说明。
$spider_status 建议设置为2,这样采集到的信息默认会发布为待审核状态。
接口为了安全,默认需要修改一下spider.php文件名。为了方便测试,可以暂时删除此限制。注释掉以下代码即可:
if(strpos($_SERVER['PHP_SELF'], '/spider.php') !== false) exit('为了系统安全,请修改接口文件名');
设置好的配置如下:
三、建立采集站点
本教程将以采集Destoon帮助文档为例说明。
打开火车采集器主面板,点击站点菜单,选择新建站点:
四、新建采集任务
在建立的站点上点右键,从该站点新建任务:
五、设置采集网址规则
设置完成之后,点击开始测试网址采集:
看到目标网址,说明网址规则设置成功
六、设置采集内容规则
打开任意一个目标网址,寻找标题、内容等字段匹配规则:
例一:设置标题规则
例二:设置内容规则
设置好字段后,再次测试:
此时已经采集到正确的内容了。
七、设置采集内容发布
7.1选择Web在线发布方式发布
7.2 定义Web在线发布全局设置
点击添加,可以看到本站提供的Destoon 3.0资讯采集规则
选择一个分类并保存
7.3 选择已保存的配置
返回到发布内容设置界面,在表格上点右键,选择添加更多发布配置
选择 DT文档 点击添加,然后选择分类
7.4保存任务
填写任务名称,点击保存按钮
八、采集内容
在刚才建立的DT文档任务上点右键,选择开始任务采集
软件提示内容发布成功。
进入网站后台,资讯管理,审核资讯
可以看到采集到的资讯列表,说明发布成功。
九、采集发布规则
为了便于测试和理解,本教程默认提供了一个规则,下面讲解如果修改或者建立规则。
在建立的任务DT文档上点右键,编辑任务,进入发布内容设置,点击定义web在线发布全局设置
如果需要新建一个发布规则,可以采用火车采集器自带的发布模块编辑器新建,也可以将火车采集器安装目录/Mdule目录里的Destoon 3.0资讯.cwr复制一个新文件,例如Destoon 3.0供应.cwr,然后用火车采集器模块编辑器编辑。
9.1文章发表参数
如果需要添加一个字段,例如作者,可以在Post数据里追加&author=[标签:作者],其中author对应Destoon资讯表的字段,[标签:作者]对应采集软件采集的字段。
如果需要知道Destoon系统某个模块具体有那些字段,例如资讯,可以在网站后台添加资讯或者会员中心发布资讯点右键,查看网页源代码,形如name=”post[xxxx]”中的xxxx即为字段,和数据库中表的字段名称一致。
备注:本教程提供的规则定义了发布地址为/api/spider.php,所以在配置spider.php参数时,删除了系统对文件名的设置。同时定义了发送的密钥auth为12345678,所以在配置spider.php参数时设置了$spider_auth = '12345678';
9.2刷新列表设置
刷新列表设置用于获取Destoon模块的分类内容,各个模块的设置是一致的,但是需要修改其中的moduleid参数。
十、小结
对于有PHP基础的用户,可以直接修改spider.php接口代码,然后配合采集器发送的数据,实现更多内容的入库。
网站起步阶段,适量采集,并非有500G的空间就可以采集500G的数据,以免CPU和内存配置不匹配导致站点运行卡顿。
采集是一把双刃剑,在带来便利的同时也面临被搜索引擎惩罚或版权纠纷的风险,请慎用。
火车头怎么采集php的,火车采集器采集入库教程相关推荐
- 火车头采集器 采集https网站 以及网站cookie 避免 蜘蛛 爬虫 程序等
火车头采集器 采集https网站 并不是想象中的困难,有时https网站只是用了这个加密协议,但是事实上的数据并没有加密,所以仍然可以采集. 如果确实有困难的可以通过,http分析软件来确认地址,如H ...
- 火车头传数据到mysql_火车头采集器采集文章使用教程实例
任务: 采集某一个指定页面的文章包括(标题.图片.描述.内容)导入到自己网站数据库对应栏目(栏目id为57),数据库字段分别(title,thumb,descrption,content). 页面里面 ...
- cmsplus实战之仿[我扫网]之十一:安装采集器采集并发布数据
一:安装火车头采集器: 二:导出栏目信息到采集器: 三:配置火车头采集器采集数据并发布:
- php写火车头采集接口,的这个火车头采集接口我在火车头采集规则里已经写了采集时间的规,迅睿CMS,CodeIgniter技术文档,PHP开发文档,迅睿CMS框架官方教程...
官方的这个火车头采集接口,我在火车头采集规则里已经写了采集时间的规则,接口这里要怎么写才能把采集到的时间入库呀?<?php $this->_module_init('news'); // ...
- wordpress采集器-wordpress采集器安装下载教程
wordpress采集器可以批量采集伪原创发布到wordpress网站上吗?有了这款wordpress采集器我们应该怎么把企业站优化好?[附下载],网站seo基础也需要考虑,比如URL优化.因为如果U ...
- 使用后羿采集器采集数据,并导出到MySql数据库中
首先官网网址:http://www.houyicaiji.com/ 下载好以后界面是这样的 找一个你需要的网站,这里我选择的是一个明星资讯网站 复制好网站后可以智能采集 首先工具会给你采集一些样品,让 ...
- WordPress自动采集发布文章01-使用火车头采集目标网站
火车头采集目标网站有什么好处 火车头采集目标网站有什么好处呢? 它会根据我们指定的网站进行采集,采集到的内容和我们网站的内容相关性高. 为什么不用站群软件采集呢?站群软件和火车头采集的方式不一样,站群 ...
- php 采集 京东 图片,京东商品图片采集详细教程
本文介绍采集使用八爪鱼7.0采集京东商品图片的方法:首先将京东商品搜索结果网页中图片的URL采集下来,再通过八爪鱼专用的图片批量下载工具,将采集到的图片URL中的图片,下载并保存到本地电脑中. 采集网 ...
- 大数据项目之电商数仓、日志采集Flume配置概述、日志采集Flume配置实操
文章目录 4. 用户行为数据采集模块 4.3 日志采集Flume 4.3.2 日志采集Flume配置概述 4.3.2.1 TailDirSource 4.3.2.2 KafkaChannel 4.3. ...
- 苹果cms采集后无法播放原因排查及解决教程
声明:除特殊声明外本站文档均由作者原创,转载请注明出处,原文地址:苹果cms采集后无法播放原因排查及解决教程 苹果cmsv10采集后无法播放黑屏原因排查,首先确定是否导入播放器,采集资源后如果没有添加 ...
最新文章
- docker下用keepalived+Haproxy实现高可用负载均衡集群
- 开关灯(信息学奥赛一本通-T1109)
- eoe·Android 开发门户 - android开发者的必备网站
- PythonDay7
- 最新破解QQ空间收费物品的真实地址(完全可免费使用)
- Android开发笔记(一百八十三)利用HMS轻松扫描二维码
- WPS word解决公式上浮的问题
- sd卡与FAT32文件系统
- MATLAB terminal远程启动桌面GUI界面
- python实现中考倒计时
- 写给女儿高中编程课老师的一封信
- Javaweb google身份宝验证
- python中最小公倍数函数_Python 最小公倍数算法
- react+antd的后台管理项目模板
- 数据结构课设_网页形式的景区导游
- LVM如何实现逻辑卷镜像
- Waymo获得加州首个完全自动驾驶汽车许可证
- cocos creator 开发浅塘游戏(1) 软件安装
- MAC下输入除号 (÷)等字符
- 短连接和长连接的区分
热门文章
- 硬核干货 | 人大金仓数据库产品体系合集
- 【Python数据科学】多表关联 merge、join、concat
- 小程序如何cdn加速服务器,小程序能用cdn加速吗
- 深度神经网络算法有哪些,深度神经网络算法原理
- 带后台管理的超酷jquery+ajax幻灯相册php源码,六屏仿手风琴效果的js焦点幻灯片代码_js特效_js幻灯片是什么...
- 电脑缓存,缓存设置(电脑缓存设置多少合理)
- 垃圾邮件服务器 查询,邮件服务器ip黑名单查询
- 服务器运行一天死机,服务器死机怎么办?教你排除故障
- 学妹:新手小白如何进行网络抓包?
- 以衍复为例,聊聊当下的沪深300指数增强