html采集电脑信息,网页数据采集入门词汇介绍

1、积分

积分是用来支付八爪鱼增值服务的一种方式，在八爪鱼采集器采集数据后，用来导出数据。免费版导出数据需积分，专业版及以上导出数据无限制。积分可以单独购买，也可以通过签到、完善个人资料、绑定社交账号等多种方式获得。

注意：不同的账号类型在使用八爪鱼增值服务时会有不同的收费策略，具体的收费策略和区别在版本说明里面有详细的解释。

2、规则(也称任务)

规则是八爪鱼规则配置程序记录人工操作流程、展现在八爪鱼客户端中并能进行导入导出操作的一个程序脚本。当一条规则配置好之后，八爪鱼即可按照所配置的规则自动地进行数据采集，代替人工采集。

3、云加速

八爪鱼系统采用分布式集群部署的方式，每个集群由数量庞大的云节点组成，单个节点的采集能力相当于一台PC机的采集能力。通过八爪鱼后台的版本资源分配策略，分配到多少个云节点资源就享有几倍的加速，版本高的账户有更高的加速倍数。

4、云优先

如果是多用户共享一个云集群的资源，一个集群的规模大小是有上限的，如果同一时间提交云集群任务过多，造成资源拥堵，那么根据用户账号版本的不同，八爪鱼系统会进行默认排序，版本高的，优先级高，将有优先获得资源分配的权益。暂时未分配到资源的任务将进行排队轮候。

5、URL

URL指正常网站的网址。

6、本地采集

本地采集是指不占用云集群的资源，只能通过八爪鱼客户端所在的PC进行工作，在工作期间，需要电脑和软件都处于运行状态，电源中断或者网路中断都会导致数据采集任务的中断。

7、云采集

云采集是指通过使用八爪鱼提供的服务器集群进行工作，该集群是7*24小时的工作状态，在客户端将任务设置完成并提交到云服务执行进行云采集之后，可以关闭软件，关闭电脑进行脱机采集，真正实现无人值守。除此之外，云采集通过云服务器集群的分布式部署方式，多节点同时进行作业，可以提高采集效率，并且可以高效的避开各种网站的IP封锁策略。

8、定时采集

定时采集指的是用户在设定好八爪鱼的采集规则后，可设置在云采集集群上定时运行该任务，任务会根据定时设置的时间周期性多次运行，支持实时采集。

9、URL循环

URL循环是指设定八爪鱼循环采集一批URL网址里面的数据。

10、自动导出

自动导出指的是用户可通过一些设置，实现数据自动导出，支持自动导出到数据库。自动导出到数据库只支持云采集，可以实现边采集边导出，导出的是当前未导出过的数据。

11、Cookie

1) Cookie诞生：当某个用户打开浏览器发出页面请求时，web服务器只是进行简单相应，然后就关闭与该用户的连接。所以当用户每发起一个打开网页请求到web服务器的时候，无论是否是第一次打开同一个网页，web服务器都会把这个请求当作第一次来对待，那这样的缺陷可想而知，比如每次打开登录页面的时候都需要输入用户名、密码。为了弥补这个缺陷，Cookie应运而生。

2) Cookie概述：Cookie就是服务器暂时存放在你计算机上的一笔资料，好让服务器来辨认你的计算机。当你在浏览网站的时候，web服务器会先送出小小资料放在你的计算机上，cookie会帮你在网站上所打的文字(如用户名、密码)和其他一些操作都记录下来。当下次你再打开同一个网站。web服务器会先看看有没有它上次留下的cookie资料，有的话就会依据cookie的内容来判断使用者，送出特定的网页内容给你。

3) Cookie登录：在八爪鱼中内置了记录Cookie的功能，可通过获取登陆后的Cookie来记住登陆状态，以达到采集数据的目的。Cookie只能在八爪鱼已打开的网页中获取，不支持自定义添加或修改Cookie

12、XPath

XPath：是一种路径查询语言，简单的说就是利用一个路径表达式找到我们需要的数据位置。 XPath专门用于在XML中沿着路径查找数据。八爪鱼采集器内部有一套针对HTML的XPath引擎，使得直接用XPath就能精准的查找定位网页里面的数据。

13、HTML

HTML概念 HTML：超文本标记语言，是用来描述网页的一种语言。主要用于控制数据的显示和外观。HTML文档也被称为网页。

HTML结构：完整的HTML文件至少包括标签、

标签、标签和标签，并且这些标签都是成对出现的，开头标签为<>，结束标签为>，在这两个标签之间添加内容。通过这些标签中的相关属性可以设置页面的背景色、背景图像等。

14、固定元素列表和不固定元素列表

固定元素列表，是一种精确定位方式，适用于网页上要采集的元素是固定数目的情况，一条XPath精确定位到一个元素。如图：3条XPath可精确定位到3个a标签。

//DIV[@class=’video-list’]/DIV[1]/A[1]/H3[1]

//DIV[@class=’video-list’]/DIV[2]/A[1]/H3[1]

//DIV[@class=’video-list’]/DIV[3]/A[1]/H3[1]

不固定元素列表，是一种模糊定位方式，以解决部分网页列表元素不是固定数目的情况，例如部分网页第一页存在8个同类元素、第二页存在14个同类元素。如图：一条XPath可直接把这三个a标签都包含进去。

//a[@class='test']

15、AJAX

AJAX：AJAX即延时加载、异步更新的一种脚本技术，通过在后台与服务器进行少量数据交换，可以在不重新加载整个网页的情况下，对网页的某部分进行更新。在八爪鱼中，如果网页只有局部数据更新，网址URL没有变化，八爪鱼收不到网页变化信号，导致采集停止或者采集不到数据。

AJAX在网页上表现特征：1、点击网页中某个选项时，大部分网站的网址不会改变；2、网页不是完全加载，只是局部进行了数据加载，有所变化。

16、IFRAME框架

IFRAME即HTML标签，会创建包含另外一个文档的内联框架(即行内框架)，含义是网页中的网页。例如我们可以通过火狐获取1688登陆框的详细地址，然后直接输入这个详细的地址进行流程设计，在火狐浏览器上鼠标右键登录框→选择此框架→查看框架信息→地址，这个地址即为登录框的真实网址，获取到这个地址之后，在八爪鱼里输入这个网址做规则即可。

html采集电脑信息,网页数据采集入门词汇介绍 - 八爪鱼采集器相关推荐

大数据信息资料采集:商品促营销活动海报设计模板八爪鱼采集规则
大数据信息资料采集:商品促营销活动海报设计模板八爪鱼采集规则数据采集满足多种业务场景:适合产品.运营.销售.数据分析.政府机关.电商从业者.学术研究等多种身份职业. 舆情监控:全方位监测公开信息,抢 ...
大数据信息资料采集:视频信息采集及评论内容爬取八爪鱼采集规则
大数据信息资料采集:视频信息采集及评论内容爬取八爪鱼采集规则数据采集满足多种业务场景:适合产品.运营.销售.数据分析.政府机关.电商从业者.学术研究等多种身份职业. 舆情监控:全方位监测公开信息,抢 ...
09丨数据采集：如何用八爪鱼采集微博上的“DG”评论
八爪鱼的基本操作在开始操作前,我先来介绍下今天要讲的主角"八爪鱼"工具.相比使用 Python 进行爬虫,八爪鱼的使用更加简便,因为是所见即所得的方式,基本上不需要编写代码,除了 ...
采集工具有哪些-数据采集工具有哪些-网站采集工具
采集工具有哪些,常用的采集工具有哪些?采集工具分为二种:第一种是关键词文章采集,就是你输入关键词就能采集批量采集文章.第二种是指定网站数据采集,你输入域名后就自动采集网站数据内容.全程可视化采集无需编 ...
《八爪鱼采集器》如何自定义抓取数据
步骤1:创建采集任务 1)进入主界面,选择"自定义模式" 2)将要采集的网址复制粘贴到网站输入框中,点击"保存网址" 步骤2:创建翻页循环 1)在页面右上角,打 ...
一款全新的网页数据采集工具：爬山虎采集器
特性爬山虎采集器是一款全新的网页数据采集工具.作为一款工具软件,我们: 放弃了花哨的界面,换之以快速流畅的体验. 放弃了复杂的规则配置,开发了智能的自动提取算法. 在基于浏览器的可视化操作上,同时保 ...
第01章网络数据采集入门
序言 1. 内容介绍本章详细介绍了网络数据采集基本流程,selenium 基本操作方法等内容. 2. 理论目标了解网络数据采集基本流程了解 selenium 基本操作方法 3. 实践目标能掌握 ...
[功能发布]Excel催化剂2周年巨献-网页数据采集功能发布，满足90%合理场景使用...
转眼间,Excel催化剂推出已经两周年,在此之际,献上数据时代最刚需的网页采集功能,无需苦苦寻觅各种工具,借助Excel催化剂过往数据处理.清洗功能,加上此轮的网页采集功能,一点不输于市面上的各种收费 ...
Python 网络数据采集（三）：采集整个网站
Python 网络数据采集(三):采集整个网站 1.采集整个网站 2. 完整代码 3. 下一节,继续优化这个"爬虫"程序参见作者:高玉涵时间:2022.5.30 15:3 ...
网页数据采集爬虫研究
数据采集的方式采用国内现成的采集工具通用类: 如火车头,八爪鱼等,gooseeker.com等,有配置页面,可定义规则,八爪鱼号称有抓取国内主流电商网站的版本. 专用类天猫店铺商品采集工具 v1 ...

html采集电脑信息,网页数据采集入门词汇介绍 - 八爪鱼采集器

html采集电脑信息,网页数据采集入门词汇介绍 - 八爪鱼采集器相关推荐

最新文章

热门文章