久等了~史上最全爬虫采集场景终于来了
前嗅每天都接到很多数据采集的需求,虽然来自不同行业、网站及企业,不过各需求的采集场景都有很多类似之处。小编结合大家的数据采集需求,总结了以下几种爬虫常见的数据采集场景。
1.实时采集并更新新增数据
对于很多舆情或政策监测的数据采集需求,大多都需要实现实时采集,并且只采集新增数据。这样才能快速监测到需要的数据,提高监测速度和质量。
ForeSpider数据采集软件可设置不间断采集,7×24H不间断采集指定网站,已入库数据不重复采集,实时更新网站中的新增数据,之前采集的数据不会重复入库,无需每天重新采集数据,大大提高数据采集效率,节约网络带宽和代理IP资源。
设置介绍:
①定时采集
定时采集:设置任务定时设置,可在某个时间点定时启动/停止采集,或在某一时间段后定时启动/停止采集。
②增量采集:每次只采集更新的链接,只重采更新链接,不重采数据页面。
这样爬虫软件不仅可以自动采集,实时更新,还能自动排重保证数据采集高效稳定运行。
2.自动补采遗漏数据
在爬虫采集数据的过程中,经常会由于网络异常、加载异常、网站反爬等原因,导致采集过程中遗漏部分数据的情况。
针对这种情况,就需要将采集过程中采集失败的请求,重新补采一遍,从而高效获取全量数据。
ForeSpider数据采集系统针对于这种常见的采集场景,可以进行数据补采的设置,从而提高采集效率,快速获取全量数据。
设置介绍:
①自定义采集策略:选择采集入库失败、采集错误和上次未采集数据。设置后重新采集,即可快速补采之前的遗漏数据,无需重复采集耗时耗力。
②设置加载日志宏:可以按照任务ID值、任务数据大小等,对不符合采集要求的数据,通过筛选日志列表,进行重新采集,以补采存在遗漏的数据。
例如,有些网站封IP的方式是重定向一个新的网址,因此采集状态显示成功,但任务的数据质量一般很小,比如2KB,这种情况可以通过加载日志宏中,加载质量过小的任务日志的方式,来重新补采这部分任务。
3.定时采集数据
一个很常见的数据采集需求就是,每天定点开始爬取一个或多个网站,为了解放双手,定时采集数据就非常必要了。
ForeSpider数据采集系统可设置定时开始、停止采集,时间点与时间段兼并设置,可在某个时间点定时启动/停止采集,或在某一时间段后定时启动/停止采集。减少人力重复工作,有效避免手动采集的情况。
设置介绍:
①间隔定时采集:设定间隔时间,实现固定间隔时间的采集开启/关闭。
②定点定时采集:设定爬虫自动开始/关闭的时间。
示例:
①每天采集新增数据
每天定时采集新增数据,设置每天某时间点采集新增数据,设置好后,即可每天定点采集,节省人工成本。
②网站反爬
当采集一段时间以后获取不到数据,过一段时间又可以获取数据。可开启采集后,根据反爬规律,设置某时间段后停止采集,设置某时间段后开始采集,即可有效避免反爬,高效采集数据。
③自动更新数据库
部署到服务器上以后,需要每天采集网站新数据到本地数据库,可开始定时采集,每天在固定的时间采集数据。
4.批量关键词搜索
我们经常需要采集某网站上某行业、某事件、某主体等相关内容,这时就会用到关键词采集,来采集批量关键词搜索出来的数据。
ForeSpider数据采集软件可实现多种关键词检索采集的方式。
①批量导入关键词,采集在目标网站中搜索关键词出来的数据内容,还可对关键词进行排重处理,方便快捷,无需写脚本即可批量采集关键词搜索出来的数据。
②关键词存在外部数据库中,实时调用采集。通过ForeSpider爬虫软件连接到其他数据库的数据表,或爬虫软件中的其他数据表,可使用动态变化的关键词库,实时检索采集数据。
③通过接口实时传输关键词。可以将用户数据中实时产生的检索词,通过接口传输到ForeSpider数据采集系统中,进行实时关键词检索采集。并将采集到的数据,实时传输回用户系统中,进行显示。
设置介绍:
关键词配置:可进行关键词配置,可在高级配置中配置各项参数。
关键词列表:批量导入、修改关键词批量导入删除、修改关键词,还可对关键词进行排重处理。
示例:
①采集关键词搜索的网站
例如百度、360问答、微博搜索等所有具有搜索功能的网站。
②关键词充当词库,调用使用
例如某网站不同地区分类的网址中包含地区参数,可直接将地区参数导入关键词列表,写简单的脚本,调用关键词拼写不同地区分类的网站,从而让配置更加简单。
③用户输入检索词,实时爬取数据返回显示
用户输入需要检索的词汇后,实时传入ForeSpider爬虫软件中,进行现场查询采集,并将采集到的数据实时传输回用户的系统中去,向用户展示数据。
5.自定义筛选文件大小/类型
我们经常需要采集网页中的图片、视频以及各种附件等数据,为了获取更加精准的数据,需要对文件的大小/类型有更精确的筛选。
前嗅ForeSpider采集软件,可自行设置采集文件上下限或文件类型,从而筛选采集网页中符合条件的文件数据。
例如:采集某网页中大小在2b以上的文件数据、采集网页中所有的text数据、采集页面中image数据、采集文件中video数据等。
设置介绍:
设置过滤:设置采集文件的类型,采集该类型的文件数据,设置采集文件大小下限,以过滤小文件,设置采集文件大小阈值,以过滤大文件。
示例:
①采集网页中所有图片数据
需要网页中所有图片数据,或部分图片数据时,在文件设置中选择采集文件类型,然后配置采集,节省配置成本,实现精准采集。
②采集网页中所有视频数据
需要采集网页中所有视频数据,或部分视频数据时,在文件设置中选择采集文件类型,然后配置采集。
③采集网页中特定文件数据
通过设置采集文件大小下限值,将小文件、无效文件过滤掉,实现精准采集。
6.登录采集
当采集需要登录的网站上的数据时,就需要登录设置。前嗅ForeSpider数据采集分析引擎可采集需要登录(帐密登录、扫描登录、短信验证登录)的网站、APP数据,采集登录后可见的数据。
ForeSpider爬虫软件,可设置自动登录,也可手动设置登录,还可以使用Cookie进行登录,多种登录配置方式适合各种登录场景,灵活配置。
概念介绍:
Cookie:Cookie指某些网站为了辨别用户身份、进行session跟踪而储存在用户本地终端上的数据。Cookie基于Internet的各种服务系统应运而生,是由Web服务器保存在用户浏览器上的小文本文件,它可以包含有关用户的信息,是用户获取、交流、传递信息的主要场所之一,爬虫可以模拟cookie进行登录采集。
设置介绍:
①登录配置:可自动配置,也可手动配置。
②Cookie设置:对于需要cookie的网站,可自动生成cookie,获取数据。也可手动添加cookie,获取数据。
示例:
适用于任何需要登录(帐密登录、扫描登录、短信验证登录)的网站、APP数据。
7.批量网站批量配置
大部分的企业级大数据项目,往往需要采集的很多网站,少则数百,多则上千万,每个网站分别单独配置也是不现实的,这时候就需要对成千上万的网站进行批量配置并采集。
ForeSpider爬虫软件专门针对这种情况,独创智能配置算法和采集配置语言,能够高效配置采集和解析网页结构,采集大批量结构类似的网站数据,无需每个网站依次配置,即可实现同时采集成千上万网站。
用户将需要采集的网址列表输入到一个采集任务中,通过对采集内容进行智能识别,即可实现一个配置采集模板以采集成千上万网站的需求。
优势:
①节约大量人工配置成本:无需人工一个个网站依次配置,即可实现采集成千上万网站的需求。
②短时间内采集大批量网站,功能上线快:快速实现网站数据扩张,短时间内即可采集海量数据,缩短项目上线时间。
③采集数据多、范围广:一次性实现海量网站的采集需求,批量管理大规模数据,实现企业级数据采集能力。
④数据便于管理:数据高度集中管理,便于全局监测数据采集情况,方便运维。
⑤灵活删减采集源:对于不想继续采集的来源可以随时删除,有新的采集来源便于随时批量增加。
示例:
①舆情监测
短时间内迅速实现对大量媒体网站的数据监测,迅速形成与某事件/某主体相关的内容监测。
②内容发布平台
收集批量网址,海量采集某方面的内容,对数据分类后对应发布。
③行业信息库
迅速建立某行业相关信息资料库,以备查询使用。
看到这里,大家应该对爬虫的采集场景有了一个深入的了解。后期我们将结合各采集场景,为大家展示更多的采集案例,请您敬请期待。
l 前嗅简介
前嗅大数据,国内领先的研发型大数据专家,多年来致力于为大数据技术的研究与开发,自主研发了一整套从数据采集、分析、处理、管理到应用、营销的大数据产品。前嗅致力于打造国内第一家深度大数据平台!
久等了~史上最全爬虫采集场景终于来了相关推荐
- Python爬虫人工智能大数据全栈视频史上最全合辑教程分享!
Python爬虫人工智能大数据全栈视频史上最全合辑教程分享! 毫无疑问Python是这两年最火的编程语言,不仅容易上手,且在多个行业都可应用.尤其今年人工智能及大数据的发展,Python将会展现更多的 ...
- Nginx面试题(史上最全 + 持续更新)
尼恩面试宝典专题39:Nginx面试题(史上最全.持续更新) 本文版本说明:V27 <尼恩面试宝典>升级规划为: 后续基本上,每一个月,都会发布一次,最新版本,可以联系构师尼恩获取, 发送 ...
- python高分书籍推荐_史上最全的Python书排行榜|你想知道的都在这里
原标题:史上最全的Python书排行榜|你想知道的都在这里 感谢关注天善智能,走好数据之路↑↑↑ 欢迎关注天善智能,我们是专注于商业智能BI,大数据,数据分析领域的垂直社区,学习,问答.求职一站式搞定 ...
- 10_史上最全的Markdown使用教程(没有之一)(20190115)
我用markdown写博客已经有半年之久了吧,但是还是会出现有些你想用的功能很难找,或者你尝试使用它不好使,为了帮助那些和我一样热衷于使用markdown的乘客,我决定自己造一架航班,让我们一起搭乘M ...
- 史上最全Redis面试题(2020最新版)
导读:2020 年最新版 68 道Redis面试题,两万字干货,整理分享至此,希望对大家有帮助!文末有PDF文档下载方式,可按需下载. 概述 1. 什么是Redis? Redis(Remote Dic ...
- 史上最全数据库中间件详解
导读:本文详细介绍了中间件,主要从数据库拆分过程及挑战.主流数据库中间件设计方案.读写分离核心要点.分库分表核心要点展开说明. 1. 数据库拆分过程及挑战 垂直拆分.读写分离.分库分表(水平拆分).每 ...
- Prometheus+Grafana (史上最全)
尼恩大架构 最强环境 系列文章 一键打造 本地elk 实操环境: ELK日志平台(elasticsearch +logstash+kibana)原理和实操(史上最全) 高级开发必备,架构师必备 一键打 ...
- 时间轮 (史上最全)
缓存之王 Caffeine 中,涉及到100w级.1000W级.甚至亿级元素的过期问题,如何进行高性能的定时调度,是一个难题. 注: 本文从 对 海量调度任务场景中, 高性能的时间轮算法, 做了一个 ...
- 史上最全大数据学习资源整理
史上最全大数据学习资源整理 ----------------------------------------------------------------------------------- 转载 ...
最新文章
- add nodes to the swarm
- C# 小数位数保留的方法集锦
- Coursera自动驾驶课程第5讲:Vehicle Dynamic Modeling
- 美团容器平台架构及容器技术实践
- Git 忽略编译后文件
- Atitit.软件开发提升稳定性总结
- 刷机“变砖”,黑屏,自己通过以下方法再次让手机死而复生
- JMeter JDBC Request(实现往mysql批量造数)
- Android文件管理源码
- 看一看golang的官方包:strings
- 哈·曼丁的故事(二)
- tc275的flash
- 逆向分析并修改Hello World程序《逆向工程核心原理》《软件逆向工程原理与实践》
- npmmirror 中国镜像站,npm设置最新淘宝镜像
- Kubernetes--自动缩扩容
- 好久不见,最近忙起来了
- Spring JDBC的优雅设计 - 异常封装(下)
- Springboot http给websocket客户端发消息
- spring boot支付宝沙盒扫二维码支付
- 如何把视频分解成图片?怎么逐帧提取视频中的图片?
热门文章
- 乌鲁木齐地下综合管廊背后的城市智慧
- 高级软件测试工程师待遇,【华为工资】高级软件测试工程师待遇-看准网
- [附源码]计算机毕业设计Python+uniapp基于Android的校园考勤APPo0400(程序+源码+LW+远程部署)
- 阿里腾讯外包Java怎样_阿里Java岗、腾讯后台开发岗面经(拿到AT双Offer)
- 沁恒微 BLE Mesh 接入天猫精灵 教程 三元组
- mysql IP address ‘xxx‘ could not be resolved
- Adobe Premiere剪辑技巧分享
- 达梦数据库DM的知识总结---DCA
- 什么是缓存预热和热备?
- 2021年白露是什么时候?白露的习俗有哪些?