1、火车头介绍

2、什么是信息采集
3、什么是火车头

4、火车头是干啥的
5、火车头规则定制
6、规则编写流程
7、采网址详解
8、采内容详解
9、注意事项

什么是火车头?

我们打开一个网站,看到有一篇文章很不错,于是我们就将文章的标题和内容复制了一下,将这篇文章转到我们的网站上.我们的这个过程,就可以称作一个采集,将别人网站上对自己有用的信息转到自己网站上;互联网上的内容,大多数都是通过复制-修改-黏贴的过程产生的,所以信息采集很重要,也很普遍,我们平台发到网站上的文章,多数也是这样的一个过程;为什么很多人感觉新闻更新很麻烦,因为这个工作是重复的,枯燥乏味的,浪费时间的;

火车头是目前国内使用人数最多、功能最完善、网站程序支持最全面、数据库支持最丰富的软件产品;现在是大数据时代,它可以快速、批量、海量的获取到互联网上的数据,并按照我们需要的格式存储起来;说的简单一点,对我们来说有什么用?我们需要更新新闻,需要发商机,如果让你准备1000篇文章,你要用多久?5个小时?在有规则的情况下,火车头只需要5分钟!前提是有规则,所以我们要先学写规则,写规则如果数量的话,一个规则几分钟就好了,但刚开始学的时候会比较慢;

名称解释与规则编写流程

n以火车头8.6版本为准  第1步:打开—登录  第2步:新建分组

第3步:右击分组,新建任务,填写任务名;

第4步:写采集网址规则(起始网址和多级网址获取)

第5步:写采集内容规则(如标题、内容)

第6步:发布内容设置
勾选启用方式二
(1)保存格式:一条记录保存为一个txt;
(2)保存位置自定义;
(3)文件模板不用动;
(4)文件名格式:点右边的倒立笔型选[标签:标题];
(5)文件编码可以先选utf-8,如果测试时数据正常,但保存下来的数据有乱码则选gb2312;

第7步:采集设置,都选100;
 a.单任务采集内容线程个数:同时可以采集几个网址;
 b.采集内容间隔时间毫秒数:两个任务的间隔时间;
 c.单任务发布内容线程个数:一次保存多少条数据;
 d.发布内容间隔时间毫秒数:两次保存数据的时间间隔;

附注:如果网站有防屏蔽采集机制(如数据很多但只能采集一部分下来,或提示多久才能打开一次页面),则适当调小a值和调大b的值;

第8步:保存、勾选并开始任务(如果是同一分组的,可以在分组上批量选中)

以前的方式:比如我要准备n篇文章,要先找到这个文章是在哪个网站上的(如是采集同行A还是同行B),是在其哪个栏目下的(如是产品信息还是新闻信息),在这个栏目下有n条信息,我要选哪一条,然后进去后把标题复制下来,把内容复制下来再进到另一个页面把标题内容复制下来,以此类推,然后同样的流程我要执行n遍;

怎么转换:怎么把这个流程转化为软件操作呢?我要准备n篇新闻,这就表明要n个标题+对应的内容,要n个新闻链接,这n个新闻链接是从一个网站的新闻栏目上找的,而这个网站的新闻栏目有可能是很多页,比如10页,这个时候再从同行A的网站—栏目—内页;即先找到要采集的网站,打开这个网站的栏目页(确定好是采集新闻还是产品),写网址规则采集栏目下的所有新闻链接,然后写内容规则采集所有新闻链接中的标题和内容,最后保存下来;

采网址详解-具体操作

找到要采集网址的栏目页,如新闻栏目
复制栏目的第一页链接url,起始网址右侧中点添加,在单条网址中黏贴栏目的第一页链接后点添加,如
用右边的(*)代替,因为第1页已经添加了,还剩9页,这时在等差数列那一行把项数改成9,首项是2(因为第2页的链接是,然后点添加-完成;

1、点对应右侧的添加,然后如下图所示是示例,右侧大图是说明;

2、点击保存后点右下角的
看看是否能采集到新闻网址,
如果能采集到则正确,双击一个新闻网址进到下一步;如果采集到的不正确,返回修改直到成功;网址过滤可以自己观察其对应的规律;

1、到采集内容规则这里后,把作者、时间、出处都选中后删掉,如右面第一张图,因为这些标签正常情况下都用不到;
2、选中标题标签点修改,或直接双击该标签,进入编辑界面;

3、进入后标签名的“标题”别改,改过后是要改对应的模板的;
4、下面的数据提取方式:前后截取和开始结束字符串,也尽量用默认的,在不熟练的情况下不要改;
5、点击下面数据处理的添加—内容替换,如右图;
6、内容替换将标题后面的都替换为空,如果不替换的话采集的是页面title,这时需要打开两个新闻页面,看看这两个新闻页面的公共部分是什么,把公共部分替换掉

例:如下面两个标题,“ - 顶尖SEO团队”是公共部分,即把其替换为“空”;
【图文】你知道螺旋加料机的加工方法吗 螺旋加料机原理你了解吗 
【图文】气动式加料机的优点是什么 你知道粉末加料机工作原理吗

例:如下面的则需要把“-健康网”替换成“空”;
例:如下面的则需要把“-健康网”替换成“空”;
我喜欢吃西瓜-健康网
苹果好吃吗?-健康网

1、选中内容点编辑,或直接双击进入到内容标签编辑界面,标签名千万别改;
2、写开始和结束字符串,就是找能把所有新闻都包裹起来的,在所有新在所有新闻页面中都是闻页面中都有的,且是唯一的一段字符串;即这个页面模板中的唯一代码串;

举例:采集内容的时候,需要选择内容区域,因为要采集的可能是n篇,如100篇,这个时候就需要想法怎么能写一个采集到全部的,方法就是打开两个新闻链接如,查看第一篇新闻的源文件,找到新闻正文,然后向上找离新闻第一句话最近的,在这个页面中是唯一的一段代码(如果不唯一,软件能知道从第几个开始吗?),但又不是新闻中的内容,如<div id=“zoom”>,复制后在第二篇新闻页面源文件中搜一下看看有没有,如果有,则可采用;同理找到新闻最后一句话,向下找离其最近的页面中唯一的一段代码,复制后在第二篇新闻页面源文件中搜一下看看有没有,如果有,则可采用;数据处理:因为采集的是其他网站的信息,里面有可能有其他网站的资料,如公司名、联系方式、品牌等信息,也可能有其他网站的超链接等信息,这个时候就需要对信息进行过滤处理;数据处理—添加—下面对应的参数HTML标签过滤:滚动轴横向拉到最后,在所有标签前面打钩后点确定;内容替换:将这个网站的信息替换成自己的,原则是先整后拆,有公司名、电话号(拆分)、手机号(拆分)、邮箱、公司地址(拆分)、品牌名、网址(拆分);其中拆分的意思是对这个数据进行拆解替换,这个时候就需要做如下替换:因为在新闻中,,这是时候就需要对其拆解替换才能替换干净,可以多看一下他的新闻中,可能会用什么样的格式;

注:数据处理还有很多技巧,需要自己在使用的过程中琢磨,更是采集的核心,如果处理不好,有可能是为他人做嫁衣,所以一定要仔细观察,考虑全面,如果处理好了,采集下来的文章甚至可以直接就发布(非自己企业站)

注意事项()
1、右击分组:会出现如下图菜单,正常都能用到;

新建任务:在此分组上新建任务;
运行该分组下所有任务:顾名思义;
新建任务:在该分组下再建分组;
编辑/删除分组:编辑/删除当前分组;
导入/导出分组规则:可以导出当前分组下的所有任务,并导入到同版本火车头上;
导入任务至该分组:将导出的单个任务导入到该分组下面;
黏贴任务到该分组下:要复制过任务后此项才出现,可以黏贴多个同样的任务,然后再黏贴后的任务上进行编辑即可;

开始任务:和菜单栏上的开始一样;
编辑任务:编辑已经写好的任务;
导出任务:可以将当前规则导出,在其他同版本工具上导入,但导入数据时需重复上面的第6步-发布内容设置,必须要重新选/填一遍;
复制任务到黏贴板:复制后,选择一个任务分组并右击,可以黏贴不同数量的任务到那个分组中,这样就避免同一个任务多次编写了;
清空任务所有采集数据:新如果之前采集过任务想重新采集的,则需求先清空;

3、其他设置:顶部菜单栏中点击工具—选项,配置全局选项和默认选项;
全局选项:可以调整下同时运行任务最大个数,正常是5即可,可不调;
默认选项:是否忽略大小写点是;

火车头采集器使用教程相关推荐

  1. 966SEO学习网:火车头采集器使用教程(入门+高级)

    火车头采集器技术控使用手册(高级)+火车头采集器使用教程(入门),对应没有基础的童学也是无所谓的,因为有入门学会掌握:学会火车头采集器的使用,实操教您自定义一些格式规则来采集,然后保存到word或者e ...

  2. 火车头 采集 java 生成正文_火车头采集器使用教程–采集内容发布规则设置

    火车头采集器使用教程–采集内容发布规则设置 前面我们讲了怎么寻找网站,以及采集文章链接和内容,下面我们就说一下内容发布相关的设置. 因为我教程里都是设置好的发布规则,所以这里我就简单介绍下各个项目. ...

  3. 最大化参数 火车头_初级火车头采集器教程分享

    古人云:"工欲善其事,必先利其器".在简书写了将近123篇文章,仅粗略分析过几次数据,使用的方式均是手工采集数据,效率上相对比较慢,此前,有用过火头采集器,效率上比手工采集快好几倍 ...

  4. 火车头采集器采集图片文章详细 教程

    火车头采集器怎么采集带图片文章?首先要更好的使用火车头采集器软件,必须需要有基本的HTML基础,能看得懂网页源码,网页结构. 同时如果用到web发布或数据库发布,则对自己文章系统及数据存储结构要非常了 ...

  5. 火车头采集器保存任意格式-免费火车头采集发布配置教程

    火车头采集器保存,在使用火车头采集器之前你需要有HTML方面的知识,必须能够看懂网页源码和网页结构.不然完全没办法上手!如果要用到web自动发布或数据库自动发布,则需要对自己网站系统及数据存储结构非常 ...

  6. 使用火车头采集器笔记

    官方手册: http://faq.locoy.com/q-741.html 项目需要,需要采集旅游攻略数据,这里以采集新闻简单记录下,原理一样,火车头采集器确实很牛逼 注意事项 采集工具还有phpQu ...

  7. 火车头采集器V10下载-火车头采集器免费

    火车头采集器V10下载,火车头采集器V10操作难吗?使用火车头采集器需要一定的代码技术,以及编程能力才能更好的运用好火车头采集器V10,建议你先看HTML代码方法撰写采集规则.今天给大家分享一款可视化 ...

  8. 最大化参数 火车头_火车头采集器菜鸟使用手册

    <火车头采集器菜鸟使用手册>由会员分享,可在线阅读,更多相关<火车头采集器菜鸟使用手册(36页珍藏版)>请在人人文库网上搜索. 1.www.okyanli.com OK眼力 精 ...

  9. 火车头采集器百度知道聚合采集插件说明文档!

    大家好,我是淘小白~今天来整理一下百度知道聚合采集插件的的说明文档! 1.应用软件 火车头采集器 2.插件类型 Python插件 3.插件逻辑说明 1.百度知道搜索关键词 提取前2页的百度知道url, ...

最新文章

  1. 【我翻译的文章】你还需要数据层吗?
  2. python画简单图片-Python绘制“高颜值”桑基图
  3. 转自CSDNattilax的专栏 :自适应网页设计 跟 响应式 设计的区别跟原理and实践总结...
  4. appium输入和清除操作各方法对比(android)
  5. 封装CopyFileEx函数,实现文件复制中的暂停,控速,获取进度。
  6. 【SPOJ 694】Distinct Substrings (更直接的求法)
  7. 进程管理利器Supervisor--入门简介
  8. 20190925每日一句
  9. [python] 字典和列表中的pop()函数
  10. 装饰模式【设计模式学习-03】
  11. 新春活动策划案例(共31份)
  12. 安卓学习专栏——百度地图(3)配置定位模式为GPS定位功能(图文+代码)
  13. win10台式机前置耳机无声音解决方案
  14. 服务器显示器无法调节分辨率,显示器无法设置分辨率怎么办
  15. 地铁WIFI可以用来挣钱,可挣钱却注定很难
  16. jquery去除字符串空格
  17. 献给那些没有自信的人。
  18. Windows 10企业版 LTSC无法手机投屏问题解决
  19. Codeforces 14E Camels (DP)
  20. 百度云同步盘网络异常【1】解决办法(续)

热门文章

  1. 清华大学期末复习方法
  2. Flutter 适配android/iOS设备的单位换算
  3. 高德地图 自定义marker+信息窗口
  4. 尼康D7100_认识机身上的控件
  5. JVM进阶(一):初识 JAVA 栈
  6. autosar中com模块_AUTOSAR架构的CAN通讯
  7. 《海上钢琴师》The Legend Of 1900
  8. 星软车联显示服务器未返回gps,营口GPS——星软GPS车辆监控系统功能(一)
  9. 语音识别(2): kws项目实现、数据集代码分析
  10. Ubuntu安装binutils