官方手册:

http://faq.locoy.com/q-741.html

项目需要,需要采集旅游攻略数据,这里以采集新闻简单记录下,原理一样,火车头采集器确实很牛逼

注意事项

采集工具还有phpQuery、snoopy,snoopy是先把结果获取,然后循环正则匹配

网址采集规则中:(.*)只表示目标之外的字符,用[参数代替] 如:

"link":"[参数]"

<a target="_blank" href="[参数]">

<div class="tit">(*)href="[参数]"

提前规则和拼接地址参数上下一一对应

<a href="[参数]" target="_blank">[参数]</a>

[参数2][参数1]

1、下载网上教程相同版本会更容易操作不需最新版本v9,采集先把第一页采集好再采集所有分页

2、新建任务分组后可新建任务(即具体需采集的数据)

3、安装好后官方提供多个实例,需要采集、发布则要勾选左边的采集、发布

右键官方demo任务——编辑可查看任务的

4、网址采集规则一般是列表页,通过列表页中的内容页链接然后采集内容标题、内容、时间等,一般前后截取和正则截取用得最多

5、内容发布:导入到数据库——修改——可插入到数据库,注意字段值加上[标签:内容],否则插入时不会替换,title、content字段自己新建,

选择插入数据库后实时数据就没有了

INSERT INTO news(title,content,time) VALUES ('[标签:标题]','[标签:内容]','[标签:时间]')

6\发布可按照是正序还是倒序发布

使用火车头采集器笔记相关推荐

  1. 火车头如何才能设置发布的时候,如果是有html代码就直接的转换掉,互联网上笑话抽取及排重---火车头采集器的使用和MD5算法的应用...

    10011311341 吕涛.10011311356 李红 目的:通过熟悉使用火车头采集器,在网络上采取3万条笑话并进行排重,以此来熟悉web文本挖掘的一些知识. 过程:本次学习,主要分成两个部分.第 ...

  2. 《火车头采集器采集网页数据》火车头配置规则采集信息文章数据。

    此为火车头采集器的页面 *左边建立分组,建议结构都和所需要采集的数据结构一致,不然数据多了起来,很容易混乱. 1, 创建任务 起始网址是指你需要抓取的网址,例如:http://www.day.gov. ...

  3. 全自动苹果CMS火车头采集器,苹果CMS火车头发布插件

    苹果CMS火车头采集器,苹果CMS影视建站系统有着丰富和强大的可定制性,做为CMS系统使用,更方便的管理和扩展您的网站.很多站长问我如何苹果CMS火车头采集指定网站或者全网文章关键词泛采集.批量伪原创 ...

  4. 火车头采集器 页面图片等信息采集

    火车头采集器 页面图片等信息采集 有些采集的页面中有图片或者其他内容如链接的word文档等等,如果采集下来,并保持链接呢. 火车头采集器中给了较好的操作. 在内容采集中,选择内容下载,如果仅仅是图片, ...

  5. 火车头采集器文章翻译插件(文章标题内容中英双语对照|自动插入相关图片)

    火车头采集器文章翻译插件(文章标题内容中英双语对照|自动插入相关图片) 为了保护接口压力防止被封IP: 请把采集的间隔时间调整为10000~100000 火车头采集器文章翻译插件(文章标题内容中英双语 ...

  6. 966SEO学习网:火车头采集器使用教程(入门+高级)

    火车头采集器技术控使用手册(高级)+火车头采集器使用教程(入门),对应没有基础的童学也是无所谓的,因为有入门学会掌握:学会火车头采集器的使用,实操教您自定义一些格式规则来采集,然后保存到word或者e ...

  7. 火车头采集器 采集https网站 以及网站cookie 避免 蜘蛛 爬虫 程序等

    火车头采集器 采集https网站 并不是想象中的困难,有时https网站只是用了这个加密协议,但是事实上的数据并没有加密,所以仍然可以采集. 如果确实有困难的可以通过,http分析软件来确认地址,如H ...

  8. 火车头采集器采集图片文章详细 教程

    火车头采集器怎么采集带图片文章?首先要更好的使用火车头采集器软件,必须需要有基本的HTML基础,能看得懂网页源码,网页结构. 同时如果用到web发布或数据库发布,则对自己文章系统及数据存储结构要非常了 ...

  9. 火车头采集器如何自制php插件

    如题,本文讲的是如何使用火车头采集器进行数据处理 一:打开采集器. 进入第四步其他设置->插件(其他版本的都差不多,找到插件选项) 2)点击插件管理测试工具 3)点击添加 ,选择php插件 4) ...

最新文章

  1. YARN-2.7.3-源码分析系列2:启动脚本原理的分析
  2. oracle多表关联查询报表,oracle多表关联查询和子查询
  3. pythonwin32api拖动图标_Python使用win32api,模拟鼠标移动并复制/粘贴到diskfi中
  4. 安装DNN时可能出现的错误
  5. Java基础—序列化底层原理
  6. 第一百三十七期:一个简单的小案例带你理解MySQL中的事务
  7. Hibernate中inverse属性与cascade属性
  8. java银行利率_Java-银行计算利息
  9. 【TensorFlow】稀疏矢量
  10. 视觉定位VBL 视觉里程计VO 视觉SLAM 区别与联系
  11. 现金支票打印模板excel_好用的支票打印软件
  12. (轉貼)《程序员》推荐C++ 图书三人谈 (C/C++)
  13. WeChat 微信公众号开发步骤
  14. Python 条件语句
  15. 【C语言练习】趣味题 疏散
  16. Linux应用编程概念
  17. Python中将科学计数法(或以e为底的自然对数)字符串转换为float浮点数
  18. 基于C++的K-means聚类算法实现
  19. Windows 图形化界面子系统安装教程
  20. Linux下通过Shell脚本快速进入指定目录

热门文章

  1. 共模电感的原理、作用和使用示例
  2. 【计算机组成原理 学习总结】第六章 总线系统(2)
  3. 第三章 打造高性能的视频弹幕系统
  4. [SEO名词]SEO是什么意思,如何理解?
  5. [Python私活案例]24行代码,轻松赚取400元,运用Selenium爬取39万条数据
  6. eclipse中ctrl+D失效的解决方案
  7. Windows10分屏,扩展显示器2刷新率只有29Hz
  8. 你会copying了吗?(Effective C++ 12 复制对象时勿忘其每一个成分)
  9. 线下沙龙 | 5月11日 ,百度智能云网络技术实践分享强势来袭!
  10. 马云唱京剧《空城计》,柳传志说相声:“商界春晚”大佬们真会玩(附视频)...