火车头采集翻页内容_火车头采集器教程:使用分页采集有分页的数据
使用分页采集有分页的数据
分页就是目标网站上一个文章分为好几页,我们需要设置规则将其全部采到。采集要点:
1.采集规则要对每个分页都适用。
2.分页规则如果是全部列出,只要第一个页面的分页规则就可以了。如果是上下页,每个页面的分页规则也要都适用。
具体操作流程:先测试获得所有分页,再对每个分页里的内容进行获取。
我们先解释第一点:采集规则要对每个分页都适用
我们先看一下,这里分页有两个,前一页[1] [2] 下 一页 ,我们要做的是要使所写的规则在两个页面中都可以正常采到内容,写个规则,测试第一页,成功获 取内容,然后改写网址为第二个,测试,同样可以获得我们要的内容,那么,说明这一步你已经成功了。进入下一步。我的规则是这样写的,两个页面都通过。规则下 载.
现在我们看分页这里的设置,全部列出是在第一页或每一页上都有全部的颁布文章的网址,上下页是没有将全部的列出。我们这个规则里选全部列出。因此, 我们只要在第一页里找好包含所有网址的区域就可以了。
前一页[1] [2] 下一页
看一下,上边是有分页网址的区域,选个开头结尾,就可以正常采到分页了。
火车的新版是可以直观的看到分页网址的,这对做分页规则很有用。
看吧,这样全部采集到了。。规则下 载。
注意:分页设置下边有个分页内容合并连接代码,你可以设置成你想要的东西,比如你CMS的手动分页标签。
下边我们来讲一个上下页的分页处理方法及如何使用手动链接地地规则.我们以 http://www.inpai.com.cn/doc/hard/86643.htm 这 个页面为例.我们来找一下分页的开头和结尾,这个分页很明显.
开始:
. 使用上一页,下一页的形式就可以采到所有地址.不过你会发现有一个地址是我们不需要的,看下边:
████████████████████████████████████
█此页面包含多个分页:
█1:http://www.inpai.com.cn/doc/hard/86643.htm
█2:http://www.inpai.com.cn/doc/hard/86643_2.htm
█3:http://www.inpai.com.cn/doc/hard/86643_3.htm
█4:http://www.inpai.com.cn/doc/hard/86643_4.htm
█5:http://www.inpai.com.cn/doc/hard/86643_5.htm
█6:http://www.inpai.com.cn/doc/hard/86643_6.htm
█7:http://www.inpai.com.cn/doc/hard/86643_7.htm
█8:http://www.inpai.com.cn/doc/hard/86643_8.htm
█9:http://www.inpai.com.cn/doc/hard/86643_9.htm
█10:http://www.inpai.com.cn/doc/hard/86643_10.htm
█11:http://www.inpai.com.cn/doc/hard/86643_11.htm
█12:http://www.inpai.com.cn/doc/hard/86643_12.htm
█13:http://www.inpai.com.cn/doc/hard/86643_13.htm
█14:http://www.inpai.com.cn/doc/hard/86643_14.htm
█15:http://www.inpai.com.cn/doc/hard/86643_15.htm
█16:http://www.inpai.com.cn/doc/hard/86643_16.htm
█17:http://www.inpai.com.cn/doc/hard/86643_17.htm
█18:http://www.inpai.com.cn/doc/hard/86643_18.htm
█19:http://product.inpai.com.cn/Product_default_1041.htm
█ 有分页匹配的标签,比如内容注意选中标签编辑框中的[该标签在分页中匹配]
████████████████████████████████████
最后一个不是的,我们可以看到,前边的网址和后边的是不一样的.现在是我们使用手动填写链接地址规则的时候了.在分页链接地址样式里边,我们写 http://www.inpai.com.cn/[参数].htm 分页网址里写http://www.inpai.com.cn/[参数 1].htm,现在看一下,正确了.
技巧:在使用自定义地址样式时,程序会自动补全网址,请看这个规则
火车头采集翻页内容_火车头采集器教程:使用分页采集有分页的数据相关推荐
- 火车头采集翻页内容_火车头采集:内容替换支持[参数],标签
火车头采集:内容替换支持[参数],标签 1, 内容替换 比如我们想要把标题里面的"网购火车票",换为"网购火车头采集器",我们就可以用采集器的替换功能如下图: ...
- 火车头采集翻页内容_八爪鱼采集器 循环翻页只翻3、5页就提示采集结束
满意答案 1S2xhWfZa 2015.06.02 采纳率:52% 等级:9 已帮助:312人 操作方法 1.章鱼烧粉调配方法:1KG的粉加1.5KG的水加4个鸡蛋和搅拌机搅拌均匀 2.未能用完 ...
- 火车头php post提取内容,【火车头采集教程】轻而易举学会火车头采集(附带采集案例)...
咔咔不会用python,也没打算为了爬点东西就去学python.时间成本不允许我这样做 于是咔咔使用了一款工具,火车头采集工具 这款工具学会了很简单,不会的全是问题 下来咔咔会把这个工具的从开始到结束 ...
- 某音短视频评论采集翻页(移动安全篇)
本章测试一个作品的评论及翻页: 以及前面的抓x包方式,在专栏里也有很多,xposed抓包过sslping,通用版本等: https://codeooo.blog.csdn.net/category_1 ...
- pdf做成翻页电子书_疑问解答 | Kindle翻页为什么闪屏?
经常有一些新入手Kindle的小伙伴,跟静读君反应:用Kindle看书每次翻页屏幕都会闪一下:这是怎么回事?是不是我买的Kindle有问题啊? 都不是,用久了Kindle的朋友应该都知道,闪屏--其实 ...
- php 采集不到内容_Thinkphp5与QueryList,也可以实现采集(爬虫)页面功能
QueryList 是什么 QueryList是一套用于内容采集的PHP工具,它使用更加现代化的开发思想,语法简洁.优雅,可扩展性强.相比传统的使用晦涩的正则表达式来做采集,QueryList使用了更 ...
- Java电子书平滑翻页效果_(转载)Android 平滑和立体翻页效果1
Android 平台提供了一套完整的动画框架,使得开发者可以用它来开发各种动画效果,本文将向读者阐述 Android 的动画框架是如何实现的.任何一个框架都有其优势和局限性,只有明白了其实现原理,开发 ...
- pdf做成翻页电子书_想看书就别用手机了,电子书选购指南
关注求真实验室 教你成为硬核买手 一个真正的读者,或是喜爱阅读的人,内心肯定有一份对纸质书的情怀.毫无疑问,纸质书能带来最真实的质感.最纯粹的阅读体验. 但在这个知识爆炸的时代,纸质书却在逐渐消逝.生 ...
- 后羿采集器怎么导出数据_后羿采集器教程:如何采集东方财富网股票数据
本文介绍如何使用采集器的智能模式,实时采集东方财富网行情中心新三板股票数据 采集工具简介: 后羿采集器是一款基于人工智能技术的网页采集器,只需要输入网址就能够自动识别网页数据,无需配置即可完成数据采集 ...
最新文章
- 生成随机验证图片--ASP.NET中常用代码之二
- bootstranp选项卡怎么把每个选项卡里面的表单分开提交_EXCEL 宏应用基础知识,利用已实现的宏,制作自己的功能选项卡...
- [JavaScript]return false;和e.preventDefault();的区别
- Android上实现柱状图表
- CSND Markdown模板
- RedHat 网络配置
- 索尼Xperia XZ1 Compact刷机,解锁BL,刷Twrp Recovery和Root教程
- 自动升级WordPress失败解决方法
- 全国省市县oracle,最新行政区划 省市区三级 街道乡镇四级 社区/村五级 每月更新(2021年4月版)...
- 一文读懂《理解未来的7个原则》
- matlab一元二次回归,MATLAB一元线性回归方程的计算及检验.doc
- 七彩虹SL500 闪迪05141开卡
- uniapp中上传图片并实时预览
- js 数组转json,json转数组
- 计算机考试去底纹,2017职称计算机考试Word 2003知识点:段落添加边框和底纹
- C Primer Plus(第六版)第十六章 编程练习答案
- echarts的渐变色配置 LinearGradient, 饼图默认渐变颜色设置不同的角度
- 系统管理的三维模型及实例分析
- FTP无法连接linux服务器
- ubuntu用Docker部署kafka消息服务