使用火车头采集器笔记
官方手册:
http://faq.locoy.com/q-741.html
项目需要,需要采集旅游攻略数据,这里以采集新闻简单记录下,原理一样,火车头采集器确实很牛逼
注意事项
采集工具还有phpQuery、snoopy,snoopy是先把结果获取,然后循环正则匹配
网址采集规则中:(.*)只表示目标之外的字符,用[参数代替] 如:
"link":"[参数]"
<a target="_blank" href="[参数]">
<div class="tit">(*)href="[参数]"
提前规则和拼接地址参数上下一一对应
<a href="[参数]" target="_blank">[参数]</a>
[参数2][参数1]
1、下载网上教程相同版本会更容易操作不需最新版本v9,采集先把第一页采集好再采集所有分页
2、新建任务分组后可新建任务(即具体需采集的数据)
3、安装好后官方提供多个实例,需要采集、发布则要勾选左边的采集、发布
右键官方demo任务——编辑可查看任务的
4、网址采集规则一般是列表页,通过列表页中的内容页链接然后采集内容标题、内容、时间等,一般前后截取和正则截取用得最多
5、内容发布:导入到数据库——修改——可插入到数据库,注意字段值加上[标签:内容],否则插入时不会替换,title、content字段自己新建,
选择插入数据库后实时数据就没有了
INSERT INTO news(title,content,time) VALUES ('[标签:标题]','[标签:内容]','[标签:时间]')
6\发布可按照是正序还是倒序发布
使用火车头采集器笔记相关推荐
- 火车头如何才能设置发布的时候,如果是有html代码就直接的转换掉,互联网上笑话抽取及排重---火车头采集器的使用和MD5算法的应用...
10011311341 吕涛.10011311356 李红 目的:通过熟悉使用火车头采集器,在网络上采取3万条笑话并进行排重,以此来熟悉web文本挖掘的一些知识. 过程:本次学习,主要分成两个部分.第 ...
- 《火车头采集器采集网页数据》火车头配置规则采集信息文章数据。
此为火车头采集器的页面 *左边建立分组,建议结构都和所需要采集的数据结构一致,不然数据多了起来,很容易混乱. 1, 创建任务 起始网址是指你需要抓取的网址,例如:http://www.day.gov. ...
- 全自动苹果CMS火车头采集器,苹果CMS火车头发布插件
苹果CMS火车头采集器,苹果CMS影视建站系统有着丰富和强大的可定制性,做为CMS系统使用,更方便的管理和扩展您的网站.很多站长问我如何苹果CMS火车头采集指定网站或者全网文章关键词泛采集.批量伪原创 ...
- 火车头采集器 页面图片等信息采集
火车头采集器 页面图片等信息采集 有些采集的页面中有图片或者其他内容如链接的word文档等等,如果采集下来,并保持链接呢. 火车头采集器中给了较好的操作. 在内容采集中,选择内容下载,如果仅仅是图片, ...
- 火车头采集器文章翻译插件(文章标题内容中英双语对照|自动插入相关图片)
火车头采集器文章翻译插件(文章标题内容中英双语对照|自动插入相关图片) 为了保护接口压力防止被封IP: 请把采集的间隔时间调整为10000~100000 火车头采集器文章翻译插件(文章标题内容中英双语 ...
- 966SEO学习网:火车头采集器使用教程(入门+高级)
火车头采集器技术控使用手册(高级)+火车头采集器使用教程(入门),对应没有基础的童学也是无所谓的,因为有入门学会掌握:学会火车头采集器的使用,实操教您自定义一些格式规则来采集,然后保存到word或者e ...
- 火车头采集器 采集https网站 以及网站cookie 避免 蜘蛛 爬虫 程序等
火车头采集器 采集https网站 并不是想象中的困难,有时https网站只是用了这个加密协议,但是事实上的数据并没有加密,所以仍然可以采集. 如果确实有困难的可以通过,http分析软件来确认地址,如H ...
- 火车头采集器采集图片文章详细 教程
火车头采集器怎么采集带图片文章?首先要更好的使用火车头采集器软件,必须需要有基本的HTML基础,能看得懂网页源码,网页结构. 同时如果用到web发布或数据库发布,则对自己文章系统及数据存储结构要非常了 ...
- 火车头采集器如何自制php插件
如题,本文讲的是如何使用火车头采集器进行数据处理 一:打开采集器. 进入第四步其他设置->插件(其他版本的都差不多,找到插件选项) 2)点击插件管理测试工具 3)点击添加 ,选择php插件 4) ...
最新文章
- YARN-2.7.3-源码分析系列2:启动脚本原理的分析
- oracle多表关联查询报表,oracle多表关联查询和子查询
- pythonwin32api拖动图标_Python使用win32api,模拟鼠标移动并复制/粘贴到diskfi中
- 安装DNN时可能出现的错误
- Java基础—序列化底层原理
- 第一百三十七期:一个简单的小案例带你理解MySQL中的事务
- Hibernate中inverse属性与cascade属性
- java银行利率_Java-银行计算利息
- 【TensorFlow】稀疏矢量
- 视觉定位VBL 视觉里程计VO 视觉SLAM 区别与联系
- 现金支票打印模板excel_好用的支票打印软件
- (轉貼)《程序员》推荐C++ 图书三人谈 (C/C++)
- WeChat 微信公众号开发步骤
- Python 条件语句
- 【C语言练习】趣味题 疏散
- Linux应用编程概念
- Python中将科学计数法(或以e为底的自然对数)字符串转换为float浮点数
- 基于C++的K-means聚类算法实现
- Windows 图形化界面子系统安装教程
- Linux下通过Shell脚本快速进入指定目录
热门文章
- 共模电感的原理、作用和使用示例
- 【计算机组成原理 学习总结】第六章 总线系统(2)
- 第三章 打造高性能的视频弹幕系统
- [SEO名词]SEO是什么意思,如何理解?
- [Python私活案例]24行代码,轻松赚取400元,运用Selenium爬取39万条数据
- eclipse中ctrl+D失效的解决方案
- Windows10分屏,扩展显示器2刷新率只有29Hz
- 你会copying了吗?(Effective C++ 12 复制对象时勿忘其每一个成分)
- 线下沙龙 | 5月11日 ,百度智能云网络技术实践分享强势来袭!
- 马云唱京剧《空城计》,柳传志说相声:“商界春晚”大佬们真会玩(附视频)...