常见的网页大多数在页面下方会有翻页的按钮,比如“下一页”、“加载更多”,这类网页设置翻页就可以搞定,但是瀑布流网页没有这些按钮,而是随着鼠标滚动会不停的加载更多内容,这种很长很长的没有翻页按钮的网页就是瀑布流网页。

爬虫只能采集网页上已经加载显示的内容,而瀑布流网页的内容不是一次性加载的,每滚屏一次才会显示更多的内容,所以采集瀑布流网页需要用到滚屏动作。

一、操作步骤

下面用今日头条网作为案例,给大家演示一遍用滚屏动作采集瀑布流网页,操作步骤如下:

Tips:本文讲解的滚屏动作和滚轮动作是有区别的,滚屏相当于滚动网页最右边的滚动条;而滚轮是仿真鼠标轮子的滚动,所以滚轮动作可以实现一些特殊需求,如下:网页内部局部区域的滚动条

翻页无法激发加载的网页只能用滚轮仿真

二、案例规则+操作步骤采集规则:今日头条_推荐

样本网址:http://www.toutiao.com/

采集内容:每一条新闻的新闻标题、评论数、发布时间、链接

第一步:打开网页

1.1打开集搜客网络爬虫,输入网址并Enter,加载出网页后再点击“定义规则”按钮,看到一个浮窗显示出来,称为工作台,在上面定义规则;

注意:这里的截图和文字说明都是集搜客网络爬虫版本,如果您安装的是火狐插件版,那么就没有“定义规则”按钮,而是应该运行MS谋数台

1.2,在工作台中输入主题名,再点击“查重”,提示“该名可以使用”或“该名已被占用,可编辑:是”,就可以使用这个主题名,否则请重命名。

Tips:为了能准确定位网页信息,点击定义规则会把整个网页定格住,不能跳转网页链接,再次点击定义规则,才会恢复回普通的网页模式。

第二步:标注信息

2.1标注是针对网页的文本信息来操作的,双击目标信息就会选中它,在弹出小窗中输入标签名,打勾确认或Enter。首次标注还要输入整理箱名称,即存数据的表名。这也是标签与网页信息建立映射关系的过程。

2.2 由于链接是属性节点,不是文本节点,无法直接在页面上标注,所以要手动做内容映射,点击网页的标题,定位到一个网页标签节点A,展开它找到@href节点后,右击@href然后选择内容映射->链接。

2.3对“标题”勾选“关键内容”,通常是对必然显示的信息勾选关键内容,用于给爬虫判断是否执行采集,防止数据抓取不完全。

第三步:样例复制

3.1 设置样例复制,是为了把页面上结构相同的信息全部抓取下来,首先选中容器节点“新闻列表”,勾选“启用”,找到新闻列表的第一条和第二条新闻的节点分别映射给样例1和样例2。详细操作可以看文章《采集列表数据》来掌握。

第四步:设置连续动作—滚屏

4.1在连续动作工作台新建一个滚屏动作,因为滚屏后的网页结构没有变化,仍然可以用当前规则采集,所以这里的目标主题名就填写当前规则本身的主题名。

4.2滚屏动作的参数可以根据自己的需要调试。滚屏动作的高级设置一般保持默认就行,滚屏参数说明如下:每次滚屏次数:每次执行滚屏动作,浏览器往下翻多少屏;

总共滚屏数:执行滚屏操作的次数,达到总共滚屏数就会停止滚屏,-1表示无限制;

注意:设置了滚屏动作, DS打数机就要做如下两个设置:

(1)必须关闭DS打数机的自动滚屏功能

因为DS打数机的自动滚屏会让爬虫一口气滚到底,但真正的瀑布流是滚不到底的,而滚屏动作是要滚一下抓一下,所以如果不关闭自动滚屏,就不会执行滚屏动作。设置方法:点击DS打数机的配置菜单->滚屏参数,然后把滚屏次数设置成 0 就可以关闭自动滚屏。

(2)根据需要设置重复内容强制中断

DS打数机不断地企图往下滚屏,必须告诉它什么时候停止,在MS谋数台的滚屏动作里,可以通过总共滚屏数来限定滚多少屏就停止。

如果总共滚屏数设置成-1,就会一直滚屏停不下来,这时就必须在DS打数机上打开重复内容,这样当爬虫发现抓到的都是重复内容,就会停止滚屏动作。设置方法:点击DS打数机的高级菜单->终点标志->勾上重复内容。

第五步:存规则,抓数据

5.1 点击测试,看到输出的结果都正常,说明规则没有问题,可以使用了,然后点击“存规则”来保存规则,然后就可以点击“爬数据”来采集数据了。

5.2 你会发现抓到了很多个xml文件,这是因为瀑布流网页是一边滚屏一边抓取的,所以,只要保留最大的那个xml文件就可以了。

三、新功能

没有尽头的瀑布流网页会随着滚屏内容无限增长下去,导致爬虫的内存不够而崩溃,新版本集搜客网络爬虫(V8.3.1)增加了清除老内容功能,具体参看教程《爬wish等瀑布流网站时使用清除老数据功能》

若有疑问可以或

python爬取今日头条瀑布流_连续动作:滚屏采集瀑布流网页—以头条新闻为例相关推荐

  1. python爬取今日头条专栏_[python3]今日头条图片爬取

    前言 代码设计流程,先模拟ajax发送搜索"街拍美女",提取返回json里面的article_url,再访问article_url,提取article_url响应的图片url,访问 ...

  2. python爬取今日头条的文章_Python3爬取今日头条有关《人民的名义》文章

    Python3爬取今日头条有关<人民的名义>文章 最近一直在看Python的基础语法知识,五一假期手痒痒想练练,正好<人民的名义>刚结束,于是决定扒一下头条上面的人名的名义文章 ...

  3. 用python爬取今日头条上的图片_Python爬虫:抓取今日头条图集

    今天我们来爬取今日头条图集,老司机以街拍为例. 运行平台: Windows Python版本: Python3.6 IDE: Sublime Text 其他工具: Chrome浏览器 1.网页分析 从 ...

  4. 用python爬取头条文章_AI第四课:Python爬取今日头条文章

    到目前为止,能使用python写一点简单的程序了,本次的任务是爬取今日头条的文章信息. 大致涉及的知识点:json数据格式,浏览器插件jsonView,浏览器开发者模式,html基础,http代理,h ...

  5. 用Python爬取今日头条,里面的东西统统白送!

    近年来今日头条做的可谓是风生水起,自上线以来,围绕内容载体和分发方式两个维度不断丰富,至今已衍生出图文.视频.微头条.专栏.搜索.直播等多种内容形式.根据最新中国联通发布的App大数据排行榜,今日头条 ...

  6. python爬取今日头条街拍,Python3今日头条街拍爬虫

    学习了大才哥的在线视频教程,特来这里总结分享一下. 不同于上一篇糗事百科的爬虫,这里爬取今日头条街拍需要分析ajax请求得来的数据. 首先这里是爬取的起始页 可以看到当我们往下拉滚动条的时候,新数据是 ...

  7. python爬取微博数据词云_用Python爬取微博数据生成词云图片

    原标题:用Python爬取微博数据生成词云图片 欢迎关注天善智能 hellobi.com,我们是专注于商业智能BI,大数据,数据分析领域的垂直社区,学习.问答.求职,一站式搞定! 对商业智能BI.大数 ...

  8. python爬取豆瓣影评理论依据_我用Python爬取了豆瓣的影评

    使用Python爬取豆瓣的影评,比爬取网易云简单,因为不需要设置特定的headers,关于网易云说几句,很难爬取,对请求头有着严格的要求,前几年那会还好些. 爬取结果分为:用户名,评价的星级,评论的内 ...

  9. python 爬取亚马逊评论_用Python爬取了三大相亲软件评论区,结果...

    小三:怎么了小二?一副愁眉苦脸的样子. 小二:唉!这不是快过年了吗,家里又催相亲了 ... 小三:现在不是流行网恋吗,你可以试试相亲软件呀. 小二:这玩意靠谱吗? 小三:我也没用过,你自己看看软件评论 ...

最新文章

  1. h5新增的属性php,HTML5中form的新增属性或元素
  2. 干货 | 手把手教你用115行代码做个数独解析器!(附代码)
  3. 分计算iv值_S71200PLC模拟量编程方法与计算原理
  4. graphpad如何加标注_咱也是有挖掘机加长臂的人了
  5. ASP.NET Core和json请求这样用真简单,axios、微信小程序得救了
  6. php基础教程 第六步 学习数组以及条件判断switch补充
  7. 从 JavaScript 到 TypeScript
  8. 条款5:了解C++默默编写并调用哪些函数(Know what functions C++ silently writes and calls)...
  9. WebAssembly 为何能改变软件的分发?
  10. C#读写SQLSERVER中Image类型图片
  11. timeshift 安装使用说明
  12. 心电自动分析技术综述-Phililps DXL / GE Marquette / Glasgow / HES Hannover / Mortara / 福田 / 光电...
  13. 《Doom启示录》(1-13)
  14. 求基于图像处理的身份证号码识别的程序
  15. Android一键转发图片多张图片到微信,朋友圈功能实现
  16. 利用VMWare和软路由多播实现校园网带宽叠加
  17. 第一篇:零基础入门金融风控之风控指标体系清单
  18. [Angular] ng-alain的一些实践
  19. [转贴]郎恒《齐天大圣》Rap 搞笑!
  20. icc校色文件使用教程_浅谈如何用ICC文件进行校色,校色前后效果展示

热门文章

  1. 当你丢失一部手机时:苹果、FBI以及你的全部生活
  2. 测试人即用宝典,全网最全的功能测试点,有这一篇完全足够......
  3. pandas处理json数据
  4. 这几年进厂基本都是通过劳务
  5. iPhone14升级iOS16.4正式版后无法连接WiFi怎么办?
  6. 视频教程-ReactiveCocoa开发技术教程-iOS
  7. Linux的命名空间详解--Linux进程的管理与调度(二)
  8. STA series --- 7.Configuring the STA SDC(PATR-I clock define)
  9. 光照常用设置经验总结--初级(个人笔记)
  10. Python(9)萌新也能看的懂——如何用openpyxl处理excel