前嗅ForeSpider中数据采集界面介绍
2019独角兽企业重金招聘Python工程师标准>>>
一、运行设置 数据采集前的设置,包括采集速度、采集策略、任务装载、网络超时、HTTP设置、加载设置、任务模式、任务定时、预警设置、过滤设置10个部分。
【运行设置界面】
二、IP代理设置
软件支持动态和静态IP代理,支持http/https/socket代理。当需要启用IP代理时,需要在资源管理界面添加代理资源。
【IP代理设置界面】
1.启用IP代理
启用IP代理采集时,需要进行代理配置。需选中“启用IP代理”,才能启用IP代理功能。
【启用IP代理】
2.IP资源列表
添加完成的IP资源后会在列表中显示。
【IP资源列表】
:添加IP资源代理。
:删除IP资源代理。
:保存IP资源代理
:修改IP资源代理
3.IP代理配置
可添加IP代理账号,配置IP代理属性。
(1)静态代理IP
【静态代理IP配置】
:添加IP资源代理。
:删除IP资源代理。
:批量导入IP账号。
:保存IP资源代理。
(2)动态代理IP
【动态代理IP配置】
①协议类型:选择代理的协议类型,软件支持http/https/socket代理。
②返回格式:选择动态IP的返回格式。包括未知、Text、Json、XML。
③刷新周期:指代理IP的有效时长。
④请求地址:粘贴代理商的请求地址。
⑤POST DATA:根据代理不同,post请求的情况下填写该内容。
⑥代码编辑区:需要填写一段脚本,以调用代理IP。
4.启用代理加速
启用代理加速后,可以在采集过程中自动筛选无效和低效率的代理IP(屏蔽错误率超过50%,请求次数>3次的IP),优先使用高效的代理,提升采集的效率和数据质量。
【代理加速】
5.本机IP混用策略
当代理IP失效时,选择是否启用本地网络。
【本机IP混用策略】
三、验证码设置
当采集某些网站的数据时,每一条数据都需要输入一条验证码时就用到了验证码设置。验证码设置的作用是爬虫软件自身输入验证码,以避免人工输入。
【验证码设置界面】
1.识别配平台
软件内置了两个打码平台,可根据不同的平台进行验证码配置。
【识别平台】
(1)基础识别平台:预定的内置识别方式。
(2)若快:若快为打码平台。软件通过打码平台解析验证码内容。
2.识别列表
添加验证码识别名称。
【识别列表】
3.验证码设置与测试(不常用)
【资源配置】
其中红框内详情、保存、下载、清空、测试是用来测试验证码是否正确的。点击测试如果右侧验证码图片与图片下解析出来的文字一致,就证明验证码设置的正确。
转载于:https://my.oschina.net/forespider/blog/3009471
前嗅ForeSpider中数据采集界面介绍相关推荐
- 前嗅ForeSpider教程:配置关键词
对于通过关键词,在网页的搜索栏检索的情况,可以在软件中,通过配置关键词实现.那么,今天小编来为大家介绍:如何在前嗅ForeSpider中,配置关键词. 一,关键词配置的步骤 第一步:打开关键词采集设置 ...
- 前嗅ForeSpider教程:验证码设置
当我们遇到某些网站,采集每一条数据都需要输入一条验证码时,就用到了验证码设置.今天,小编为大家详细介绍一下:前嗅ForeSpider中的验证码设置.具体操作如下: 当采集某些网站的数据时,每一条数据都 ...
- 前嗅ForeSpider教程:IP代理设置
今天,小编主要为大家介绍一下:前嗅ForeSpider中的IP代理设置,主要内容包括:启用IP代理,静态代理设置,动态代理设置,这三大部分.具体内容如下: 一,启用IP代理 启用IP代理采集时,需要进 ...
- 前嗅ForeSpider教程:创建模板
今天,小编为大家带来的教程是:如何在前嗅ForeSpider中创建模板.主要内容有:模板的概念,模板的配置方式,模板的高级选项,具体内容如下: 一,模板的概念 模板列表的层级相当于网页跳转的层级.模板 ...
- 前嗅ForeSpider教程:数据建表
今天,小编为大家带来的教程是:如何在前嗅ForeSpider中,进行数据建表操作及各注意事项.主要内容包括:快速建表,自由建表,字段参数,数据表的创建,关联与删除,以及表单变更后的配置修改. 一,如何 ...
- 超好用的爬虫:前嗅ForeSpider数据采集软件教程
2019独角兽企业重金招聘Python工程师标准>>> 给大家良心推荐一款超好用的爬虫软件--前嗅ForeSpider爬虫工具,也是最近发现的.本人是数据工作者,每天就是跟各种各样的 ...
- 超好用的前嗅ForeSpider爬虫软件教程
给大家良心推荐一款超好用的爬虫软件--前嗅ForeSpider爬虫工具,也是最近发现的.本人是数据工作者,每天就是跟各种各样的数据打交道,数据采集必不可少,然而这也是最令我头疼的地方,尝试了各种各样的 ...
- 关于前嗅Forespider爬虫的常见问题答疑
关于前嗅Forespider爬虫的常见问题答疑 奋战在一线为客户答疑的狗蛋儿给小编提供了很多客户经常会问到的问题的素材,小编帮大家整理了一些,快来看看是不是都用的上吧! 一.采集预览没有 ...
- url获取网站信息不包含网页源文件内的标签_前嗅ForeSpider链接抽取应用场景及链接在源码的html标签里写脚本...
今天,小编给大家带来的教程为:前嗅ForeSpider脚本教程中,链接抽取的应用场景,以及链接在源码的html标签里写脚本的实战教程.具体内容如下: 一.应用场景 当需要手动添加链接时,可添加链接脚本 ...
最新文章
- WordPress-基础设置之固定链接设置
- Cacti使用配置及FAQ
- 《Python Cookbook 3rd》笔记(3.3):数字的格式化输出
- 为提升效率,阿里取消周报制度?醒醒吧,自动化报表才是出路
- C++安全方向(三):3.8 openssl单项散列章节总结
- CC攻击及其解决方法
- 如何下载和安装SQL Server数据库实验助手(DEA v2.0)
- Qt Project Build error PRJ0019: 工具从Moc'ing xxx.h...
- oracle常用插入一条语句,Oracle:用一条 INSERT 语句批量插入多条记录
- 流式套接字:基于TCP协议的Socket网络编程(案例1)
- Problem:服务器超过最大中终连接数
- 九、一个IC设计的公司的组织架构和部门职能
- 用基带等效的方式仿真8-DPSK载波调制信号在AWGN信道下的误码率和误比特率,并与理论值相比较。
- 异步编程之 Isolate
- 组建自己的局域网(可以将PC机实现为服务器)
- DOS窗口命令--实用完整版
- Python入门学习难吗
- uni-app:封装组件
- 计算机主机ip地址题,(完整版)IP地址划分测试题
- 51单片机——静态数码管