今天春哥技术博客给大家讲讲大名鼎鼎的火车采集器如何配置采集网站内容分页。

采集文章的时候,难免遇到文章有分页,本教程讲解下内容分页的采集。

在规则的第二步:采集内容规则左下方有个“分页获取规则”选项卡,用来设置分页。如下图:

全部列出模式适用于分页地址全部显示出来如下图:

上下页上n页下n页适用用分页地址列出一部分如下图

我们先说下上下页模式的分页,以采集这个地址http://www.asia-home.com.cn/2013/0117/1358391833627.html为例

在第一页我们查看分页代码的情况如下:

在第三页分页代码的情况如下:

在第五页分页代码的情况如下:

通过上面我们是否可以得到一个规律:当前页的源代码是“<strong>当前页码</strong></a>”然后紧接着的代码“<a href=下一页的地址>”就包含了下一页的地址

然后以“</a>”结束,也就是从页面源代码“<strong>当前页码</strong></a>”开始然后再以“</a>”结束,中间就包含了“下一页”的地址,这就是我们说的上下页模式,

原理就是找到当前页如何获取到下一页地址的源代码格式,然后我们把这个源代码格式填写到采集器里面如下图:

左侧空白框填写的是“<strong>(*)</strong></a>”其中当前页的页码我们用(*)代替,右侧的空白框我们写的是“</a>”来做为结束,中间的就是下一页地址。

“自动识别”:采集器会在上面的设置的范围内,自动匹配到分页地址。

“手动填写分页地址规则”:有的时候采集器识别分页的时候遇到无法识别或者识别的不是很准确,我们就可以把分页的格式写上去,来确保识别分页的正确性。

一般是我们先用“自动识别”如果获取不到我们就用“手动填写分页地址规则”。本例子中如果我们用“手动填写分页地址规则”可以设置如下:

因为上面我们说明了下一页的地址格式是“<a href=下一页的地址>”,其中我们需要的部分用[参数]代替。下面用[参数1][参数2]等等按照顺序和上面的[参数]一一对应。

以上分页就设置好了,现在我们设置采集内容的规则:

设置的规则一定要适用于后面的分页,然后不要忘记勾选“该标签在分页中匹配”,如果不勾选是不会采集分页地址的。

如何实现采集到的分页发布到自己网站上也是同样的分页,设置如下:

标签循环处理选项卡下面有个“分页内容连接代码”,在这里设置了连接代码,采集到的每页的内容就会以这个连接码连接在一起。

我们手动在自己网站发布文章的时候,需要分页的时候,我们都设置一个分页代码各个网站系统是不一样的,遇到分页代码就会分页,那么我们就可以把自己网站上

生成分页的代码写到这个“分页内容连接代码”就能实现分页效果了。

我们看下采集的效果:

现在说下全部列出模式的分页,如下图:

设置下分页开始和结束。其他设置和上面上下页是一样的。

备注:其实所有的分页都是可以使用上下页模式的,无论分页地址是否全部或者部分列出,根据上面讲到的原理,找到规律就可以了,我写分页全部用上下页模式

还希望大家不用太死板,灵活运用才能更好的解决问题,其实没有什么难的,分析的方法我在上面写的很清楚了,就按照这个来做就可以了。太死板的人,是帮不了你了,无视就好。

本文出自春哥技术博客官网(www.cgtblog.com),转载请注明出处,谢谢!

火车采集器采集内容页分页教程相关推荐

  1. php采集今日头条出现问题,PHP采集今日头条内容页时,解析页面上的JS转为json

    <PHP采集今日头条内容页时,解析页面上的JS转为json>要点: 本文介绍了PHP采集今日头条内容页时,解析页面上的JS转为json,希望对您有用.如果有疑问,可以联系我们. 在采集今日 ...

  2. 免费苹果CMS影视站采集器影视站SEO优化教程

    现在很多站长都有一个自己的苹果CMS影视站点,影视站点的流量很大,关键词很多,做起来非常容易,电影站依靠着大量的影视词库,是可以迅速把站点做出权重,快速积累流量建立自己的流量池.从而实现流量转化以及产 ...

  3. php分页页数过多隐藏,织梦DEDE中内容页分页数目太多时隐藏方法

    在dede程序的文章或图集模型,内容页分页过多,假如分页80页,那么dede默认的内容分页标签{dede:pagebreak/}会把所有的分页都显示出来,这样会撑破网页模板,即使使用css控制可以解决 ...

  4. 火车头采集器 采集https网站 以及网站cookie 避免 蜘蛛 爬虫 程序等

    火车头采集器 采集https网站 并不是想象中的困难,有时https网站只是用了这个加密协议,但是事实上的数据并没有加密,所以仍然可以采集. 如果确实有困难的可以通过,http分析软件来确认地址,如H ...

  5. cmsplus实战之仿[我扫网]之十一:安装采集器采集并发布数据

    一:安装火车头采集器: 二:导出栏目信息到采集器: 三:配置火车头采集器采集数据并发布:

  6. 火车头采集器在线发布模块制作教程

    在线发布模块,就是采集器通过网站后台,发布文章,也就是说,把你手动在网站后台发布文章的整个过程包含登录网站后台,选择栏目,到后面的发布文章,这些步骤写到采集器里面,就是在 线发布模块,然后规则采集到的 ...

  7. 后羿采集器怎么导出数据_怎么安装后羿采集器?后羿网页数据采集器安装教程...

    许多网友向小编反映不知道怎么下载后羿采集器?下载完成后不知道怎么安装?今天极速小编为大家提供一个安装教程,希望对大家有帮助!首先我们下载后羿采集器(下载地址:http://www.jisuxz.com ...

  8. 火车头采集器采集图片文章详细 教程

    火车头采集器怎么采集带图片文章?首先要更好的使用火车头采集器软件,必须需要有基本的HTML基础,能看得懂网页源码,网页结构. 同时如果用到web发布或数据库发布,则对自己文章系统及数据存储结构要非常了 ...

  9. 飞飞php2.8采集失败_飞飞影视系统火车头采集器采集发布免登录接口

    更改完免登陆代码后,就要写采集库接口了,打开\Lib\Action\Admin目录下的CollectAction.class.php文件,添加一个子函数,函数名称和第五步中的代码相同 //处理 火车头 ...

  10. 《火车头采集器采集网页数据》火车头配置规则采集信息文章数据。

    此为火车头采集器的页面 *左边建立分组,建议结构都和所需要采集的数据结构一致,不然数据多了起来,很容易混乱. 1, 创建任务 起始网址是指你需要抓取的网址,例如:http://www.day.gov. ...

最新文章

  1. arduino下载库出错_【arduino】DIY音乐播放器,arduino播放wav音乐,TRMpcm库测试及使用...
  2. 开源中国iOS客户端学习——(五)网络通信ASI类库(1)
  3. python 版本比较函数 LooseVersion StrictVersion
  4. 分布式搜索引擎ElasticSearch+Kibana (Marvel插件安装详解)
  5. 元宇宙iwemeta: 韩国政府力挺元宇宙, 打造元宇宙城市 出台五年规划
  6. 面试官绝杀:系统是如何支撑高并发的?
  7. 2018.3.26 1501 二叉树最大宽度和高度
  8. 推荐一个python学习的宝库(github的star数71000+)
  9. 调查:Java程序员最伤心,C++程序员最年老
  10. js怎么调用wasm_对于WebAssembly编译出来的.wasm文件js如何调用
  11. 我的移动混合开发之旅
  12. kettle连接mysql教程_kettle 连接 mysql8
  13. java se面试题_Java SE 8面试问答(第1部分)
  14. (转)基于深度组合的选股策略
  15. mysql bit 设置默认值_为什么数据库字段需要设置默认值
  16. selenium IDE Chrome下载安装与使用
  17. vsftpd配置详解
  18. oracle imp导入数据库
  19. 大学生计算机自我鉴定500字,大学生自我鉴定500字
  20. c语言中最小公倍数算法,常见算法:C语言求最小公倍数和最大公约数三种算法...

热门文章

  1. MAC电脑关机卡住黑屏菊花转圈的解决方法
  2. Hadoop之——重新格式化HDFS的方案
  3. 李智慧 - 架构师训练营 第四周
  4. tp5简单的图片上传
  5. 使用CDN加速的优点
  6. 提醒用户的方式 notification+Dialog
  7. html2d缩放代码,HTML5之SVG 2D入门1—SVG(可缩放矢量图形)概述
  8. [Lua基础]操作系统库——Date,Time,Clock
  9. unity 球体表面平均分割点
  10. www.tf.tt index.php,恶意软件分析 URL链接扫描 免费在线病毒分析平台 | 魔盾安全分析...