今天小编为大家带来的教程是:如何在前嗅ForeSpider中进行,字段的取值与清洗。主要内容包括:自动取值字段,取值的两个方法,和字段清洗方式。具体内容如下:

一,自动取值的字段包括哪些

当字段设置为下列采集内容时,系统会自动为字段赋值。
1.网页地址:自动采集网页的URL地址。
2.网页标题:采集网页的标题。即网页<title>中的内容。
3.网页内文字文本:采集整个页面中所有可见的文字文本。
4.网页内容:采集网页全部文本,包含html标签等,即整个页面的源代码。
5.网页创建时间:文档创建或网页发布的时间。
6.网页更新时间:文档或网页更新的时间。
7.网页获取时间:ForeSpider采集该网页的时间。
8.当前系统时间:数据采集入库的时间。
9.文档数据大小:采集对象的质量大小[单位:字节]。
10.文档名称:采集对象的文件名,如.html,.doc。
11.文档后缀:文档的文件名后缀,如html、pdf等。
12.文档视宽:文档的宽[如果是图片数据则为图片的宽]。
13.文档视高:文档的高[如果是图片数据则为图片的高]。
14.文档层级:自动获取从入口页当当前数据页的跳转层级数目。
15.频道ID:采集当前频道的ID。
16.频道名称:采集当前频道的名称。

二,取值方法

1.标准定位
(1)标准定位含义
通过在内置浏览器上,定位有所需数据的区域,为字段取值。大多数情况都选择“标准定位”。
(2)定位方法
①选择:按Ctrl点击页面上相应数据的区域。
②扩大选区:按Shift再次点击页面相应区域。
③确认选区:点击“确认选区”按钮,选区生效。

标准定位

2.特征定位
(1)特征定位含义
当所需数据在不同网页的位置不固定,且数据前后具有特征性文字时,用标准定位容易错位,需要使用特征定位。
举例:对于字符串“作者:*”,采集作者名称时,可用“作者:”作为特征来定位。

(2)特征定位的操作方法
① 选择:按Ctrl点击页面上所需数据的区域。
② 识别特征:点击“识别特征”,出现红框,再次点击,红框移动到特征字符串时确认。
③ 点击“确认选区”按钮,选区生效。

(3)特征定位的类型
特征定位分为四种方式:
① 局部关键词
当页面的数据前有特定的关键词,而各个页面的表格内容、各行次序、行数又各不相同时,采用标准定位的方式就会错乱。可以根据表头特征,采集表格后的数据。与全文关键词的区别是,局部关键词只在选定区域的附近采集。
② 全文关键词
根据选定的特征关键词,在全页面采集该特征关键词前后对应的数据,如果出现多个特征关键词,以第一个为主。如果想采集多个的话,可以设定多值。>>查看多值的配置方式
③ 大文本
选定大文本区域后,自动识别各页面的大文本,相比标准定位更加精确。
④ 特殊标签
采集页面中只出现一次的特殊标签,如标题的<h1>标签等。

三,字段清洗方式

在采集数据之前,通过使用字段处理,软件可以自动以某种过滤方式,清洗该字段的字符串数据。通过系统自带的或脚本的方式,可以预先清洗不需要的字符串。

字段处理

字段清洗的方式如下:

字段处理脚本是字段处理中选择“脚本处理”后,通过脚本进一步把需要的数据清洗干净。具体配置方法需要参考脚本文档。

前嗅ForeSpider教程:字段的取值与清洗相关推荐

  1. 前嗅ForeSpider教程:数据建表

    今天,小编为大家带来的教程是:如何在前嗅ForeSpider中,进行数据建表操作及各注意事项.主要内容包括:快速建表,自由建表,字段参数,数据表的创建,关联与删除,以及表单变更后的配置修改. 一,如何 ...

  2. 前嗅ForeSpider教程:创建模板

    今天,小编为大家带来的教程是:如何在前嗅ForeSpider中创建模板.主要内容有:模板的概念,模板的配置方式,模板的高级选项,具体内容如下: 一,模板的概念 模板列表的层级相当于网页跳转的层级.模板 ...

  3. 前嗅ForeSpider教程:配置关键词

    对于通过关键词,在网页的搜索栏检索的情况,可以在软件中,通过配置关键词实现.那么,今天小编来为大家介绍:如何在前嗅ForeSpider中,配置关键词. 一,关键词配置的步骤 第一步:打开关键词采集设置 ...

  4. 前嗅ForeSpider教程:验证码设置

    当我们遇到某些网站,采集每一条数据都需要输入一条验证码时,就用到了验证码设置.今天,小编为大家详细介绍一下:前嗅ForeSpider中的验证码设置.具体操作如下: 当采集某些网站的数据时,每一条数据都 ...

  5. 前嗅ForeSpider教程:IP代理设置

    今天,小编主要为大家介绍一下:前嗅ForeSpider中的IP代理设置,主要内容包括:启用IP代理,静态代理设置,动态代理设置,这三大部分.具体内容如下: 一,启用IP代理 启用IP代理采集时,需要进 ...

  6. java 58同城 抓取_前嗅ForeSpider教程:采集58同城

    以58同城·便当为例,通过社保医疗链接到文章列表,由列表进入文章页采集正文数据: 第一步:新建任务 ①点击左上角"加号"新建任务,如图1: [图1] ②在弹窗里填写采集地址,任务名 ...

  7. 前嗅ForeSpider教程:采集图片/视频/资源文件的链接地址

    昨天为大家介绍了如何采集图片/视频/资源文件后,有小伙伴问我如何采集他们的链接地址,今天小编就为大家演示如何采集图片/视频/资源文件的链接地址,操作如下: 第一步:新建任务 ①点击左上角"加 ...

  8. 前嗅ForeSpider教程:采集图片/视频/资源文件的链接地址 1

    2019独角兽企业重金招聘Python工程师标准>>> 以昵图网的美食海报为例,采集所有图片图片: 第一步:新建任务 ①点击左上角"加号"新建任务,如图1: [图 ...

  9. 前嗅ForeSpider教程:采集360问答

    今天,小编来教大家如何采集论坛自媒体类网站的数据,以采集360问答为例,为大家进行演示操作,该操作同样适用于其他类似网站: 第一步:新建任务 ①点击左上角"加号"新建任务,如图1: ...

  10. 前嗅ForeSpider教程:采集列表和正文的数据

    2019独角兽企业重金招聘Python工程师标准>>> 第一步:新建任务 ①点击左上角"加号"新建任务,如图1: [图1] ②弹窗里填写采集地址,任务名称,如图2 ...

最新文章

  1. java web常用权限方式,java web项目的几种权限控制方法
  2. 月薪3万的程序员都避开了哪些坑
  3. Linux下程序包管理工具RPM
  4. ajax mysql项目 react_React视频教程来啦,每周末都有前端视频教程学
  5. LVS的三种负载均衡以及高可用原理(VS/NAT、VS/TUN、VS/DR)
  6. 共阳极数码时钟c语言程序,基于51单片机C语言数字钟程序.doc
  7. DNN 4.x CodeSmith模板
  8. java post请求返回500错误信息_Retrofit API Post call 返回错误 500,适用于 Postman
  9. linux 系统命令和方法
  10. sqlite具体操作篇
  11. 亲串 (hdu 2203 KMP)
  12. 深入理解 GraphQL
  13. SIGIR‘22 推荐系统论文之对比学习篇
  14. AI革命,通往超级人工智能之路
  15. 计算机配置交换机线缆线序,H3C S7500X-G系列交换机
  16. Java开发帮助文档
  17. VS中如何导入wav并且播放音乐
  18. 光明顶短信支付:BASE64编码
  19. 如何在拍照时摆POSS
  20. 安卓开发用什么语言?Jetpack-MVVM-高频提问和解答,Android校招面试指南

热门文章

  1. 逻辑回归分析与回归分析_逻辑回归从零开始的情感分析
  2. 云服务器机型系统选择,云服务器机型选择操作系统
  3. 例4.6 素数判定 - 九度教程第50题(素数筛法)
  4. fork、vfork、clone 三者的区别
  5. python按行拆分表格_Pandas进阶之DataFrame行列拆分
  6. C语言标准io函数,《C语言深度解析》第9章——位操作 与 c标准IO库
  7. 选择mysql开发的原因_MySQL开发技巧
  8. 华为设备如何将接口配置为中继模式_(完整版)华为设备基本配置命令
  9. 学习打卡-2018/08/13
  10. Cortex-M0详解(2)--寄存器