火车采集器(LocoySpider) 是一个供各大主流文章系统,论坛系统等使用的多线程内容采集,支持采集其他网站文章、下载下本地,统一上传到指定文件夹。
火车头采集规则是什么,怎么样设置火车头采集规则?
前沿:如果你对火车头一点都不知道,你还是去网上自学一点火车头采集的知识,我也不是什么大师,硬着头皮写的,至少能用,在这里我不会教你如何写采集规则,因为写法种类太多,你问我我也不知道,火车头相关文件夹里提供的发布接口内置了马甲发布文章,并且支持远程图片抓取本地化,和发布文章时间设置(10-70分钟随机)。用户只需关注火车头标题和内容即可,参数值标题(title),内容(content)。

火车头采集器采集文章使用教程实例

任务:
采集某一个指定页面的文章包括(标题、图片、描述、内容)导入到自己网站数据库对应栏目(栏目id为57),数据库字段分别(title,thumb,descrption,content)。
页面里面第一张图作为文章缩略图,这边一个获取缩略图名称并添加上对应网站路径放入数据库thumb字段,另一个是下载下本地,统一上传到指定文件夹,(当然看软件可以直接ftp,目前还没弄,后期弄了会补充)
1、新建分组–新建任务

2、添加网址+ 编辑获取网址的规则

选择范围在 ul 里面的 li 里面的链接,注意排除重复地址,可以点击下面测试网址采集获取。

可以看到有采集到的文章链接了。

3、采集内容规则
我这边需要采集下面图上展示数据(catid是栏目id,可以将采集到的数据放入对应栏目,设置固定值就好)

着重说下内容和图片的采集,标题和描述同理内容采集

内容采集:
打开一个采集的文章页面,查看源代码(禁了右键的f11 或者在网址前面加上 view-source: 一样可以查看):
选中文章开头一个位置,截取一段在ctrl+f 搜下是否唯一一段,若是就可以放在位置下图1处,结尾同开头一样。
我截取内容不想里面还带有链接图片可以数据处理,添加–html标签排除–选好确定–确定

还有需要下载页面图片,勾选和填写下面选项

图片采集:
(1)选中范围和内容一样(文章内图片)
(2)数据处理选 提取第一张图片 内容是:http://www.xxx.com/2017/33/aa.jpg
(3)只要aa.jpg,正则过滤 .+/(.+)$

,获取内容:aa.jpg
(4)数据库存储有前缀,添加上, upload/xxxxx/

找一个页面测试一下,可以看到对应项目都获取到了。

4、发布内容设置,这里以方式三发布到数据库为例子,编辑后回到这边勾选刚定义的模块就好:

5、我需要保存图片到本地,要设置下保存文件的路径(ftp后续会试着使用)。

6、保存,查看刚新建的任务,右键 开始任务运行,这边就可以看到文字和图片都下载下来了,数据库里面也可以看到了。

不用代码免费采集网站内容_看一遍就能上手的火车头采集图文全流程教程相关推荐

  1. php中使用curl采集小说网,PHP:通过curl实现采集网站内容

    关于curl,请各位同学自行百度,我直接上案例. 首先开启你的curl拓展,在php.ini文件把curl拓展开启,即取消extension=php_curl.dll的分号. eg:利用curl采集网 ...

  2. SharePoint隐藏快速启动栏_左侧导航_所有网站内容_回收站

    隐藏快速启动栏 1. 使用内容编辑Web部件 编辑需要隐藏快速启动栏的页面,插入一个内容编辑控件(放任何地方都行),编辑HTML源,插入下面的代码: 保存页面,快速启动栏就隐藏了.接着你可以隐藏自己添 ...

  3. 火车头如何才能设置发布的时候,如果是有html代码就直接的转换掉,互联网上笑话抽取及排重---火车头采集器的使用和MD5算法的应用...

    10011311341 吕涛.10011311356 李红 目的:通过熟悉使用火车头采集器,在网络上采取3万条笑话并进行排重,以此来熟悉web文本挖掘的一些知识. 过程:本次学习,主要分成两个部分.第 ...

  4. 微x怎么设置主题_爱逛直播怎么玩才有效果?SOP全流程在这!

    2020年,是直播电商全面爆发的一年. 前有李佳琦.薇娅等超级主播,后有官员.企业家直播带货.时至今日,直播带货已不是专属于网红.明星.KOL.导购与销售,越来越多的新鲜面孔,包括企业家.官员.新闻主 ...

  5. pythonmysql部署_详解centos7+django+python3+mysql+阿里云部署项目全流程

    (PS:本文假设你已经在本地联调好django和客户端,只是需要将django部署到外网) 购买阿里云服务器 到[阿里云官网],选择轻量应用服务器, 步骤如图所示: 地域随便选择哪一个,镜像的话,对比 ...

  6. 劳资蜀道山!6个高质量免费电子书网站!我看谁还不知道

    如今,电子书轻便海量的良好移动式体验受到广大年轻读者的喜爱.但是很多人也发现,有些电子书网站很贵,某些书籍还搜不到.今天,就给大家推荐6个电子书网站,不仅免费,而且品类丰富,能帮你找到99%的电子书. ...

  7. 抖音的标题写什么内容_看了这篇文章,我才真正明白什么才是英语速成之路!感恩...

    英语的重要性,毋庸置疑!尤其对广大职场人士,掌握英语意味着就多了一项竞争的技能.那,对于我们成人来说,时间是最宝贵的.如何短时间内在英语方面有所突破,这是我们最关心的事情.英语学习,到底有没有捷径可以 ...

  8. 云之梦php免费教学视频下载_云知梦php基础+php进阶+mysql+linux+laravel全栈工程师【百度网盘】...

    云知梦php基础+php进阶+mysql+linux+laravel全栈工程师视频百度网盘下载,全套云知梦PHP全栈工程师教程一共172集,每天两小时深入讲解,注意只是讲,课下自己要练习,总和86天课 ...

  9. python网站迁移_在Python中利用Into包整洁地进行数据迁移的教程

    动机 我们花费大量的时间将数据从普通的交换格式(比如CSV),迁移到像数组.数据库或者二进制存储等高效的计算格式.更糟糕的是,许多人没有将数据迁移到高效的格式,因为他们不知道怎么(或者不能)为他们的工 ...

最新文章

  1. Hadoop集群上使用JNI,调用资源文件
  2. 使用LitePal操作数据库(CRUD增删改查) 项目已上传GitHub
  3. [Android]你不知道的Android进程化--进程信息
  4. bootstrap-表单
  5. 神经网络为什么需要激活函数
  6. oracle权限的分配
  7. beast php,windows php-beast 安装
  8. 数字图像处理-空间滤波
  9. 2019年最新,免费检测僵尸粉软件,无打扰检测清理微信僵尸粉
  10. webgame中常见安全问题、防御方式与挽救措施
  11. QT 使用QModbus类实现modbus TCP踩过的坑
  12. linux系统 插上硬盘认不到,关于Linux系统增加SCSI硬盘不识别的问题及解决办法
  13. 关键词搜索淘宝商品列表接口,关键词搜索接口,淘宝关键词搜索接口,item_search - 按关键字搜索淘宝商品列表接口,接口参数说明。
  14. 任泽平最新演讲:从这6个周期,读懂中国经济未来走势
  15. Java面试笔试经验技巧总结
  16. 运动耳机品牌排行榜有哪些,排行前五的运动耳机推荐
  17. java iText 的jar导出pdf格式,禁止浏览器预览,直接下载功能
  18. Ajax --- 客户端与服务器端之间传递数据
  19. 学生管理系统的mysql数据库设计_MySQL数据库--学生管理系统数据库设计
  20. HMC7044调试说明

热门文章

  1. Linux下Chelsio T5调试方法
  2. Windows系统本地搭建DedeCMS网站教程
  3. n阶奇数魔方阵c语言编程,n阶魔方阵C语言
  4. 如何群发邮件,5秒帮你搞定
  5. android隐私违规获取问题处理 及 Hook拦截处理记录 (VirtualXposted/epic等)及 android/iOS 多bundle加载方式修复方案
  6. Qt中正确设置子窗口关闭方式
  7. 解决eclipse debug运行项目时下一步按钮一直为灰色不可用的问题
  8. Intellij IDEA设置@Author文件头注释
  9. 粗虚线和细虚线_车道划分线上下两侧有粗虚线
  10. 嵌入式FCT项目案例分享(STM32)