今天,小编为大家带来的教程是:如何在前嗅ForeSpider中,进行数据建表操作及各注意事项。主要内容包括:快速建表,自由建表,字段参数,数据表的创建,关联与删除,以及表单变更后的配置修改。

一,如何快速建表
若在数据抽取链接下,没有相应表单可供选择,可点击“创建表单”按钮,快速创建表单。可添加表单名称、字段名称,选择字段类型、表单模板。

1.字段类型
①主键字段
②名称
③标题
④数字(-20亿~20亿)
⑤长整型数字
⑥时间值
⑦地址
⑧小文本(小于64k)
⑨大型文本
(>>字段参数)

2.表单模板
在表单模板中选择已经建好的表单,可以在表单中添加、删除、修改字段。

快速创建表单:

二,如何自由建表

1.概念解释
表单:规定了数据表都有哪些“列”,也就是都有哪些字段。数据存储结构类似的采集任务,可以共用同一个表单。一个表单可以创建多个数据表。
字段:在数据库中,表单的“列”称为“字段”,每个字段存储某一项的信息。

2.创建表单和字段
在表单列表点击“添加”按钮,创建一个新的表单。点击表单配置右侧的“添加”按钮,即弹出添加字段的窗口。

添加字段:

字段具体参数的设置方法,详见下节(>>字段参数)

3.字段修改
在数据建表的表单配置右侧,可以对表单进行一系列操作。

添加字段:

修改字段

字段排名上移

字段排名下移

删除字段

保存数据表

三,字段参数

1.字段名称
字段名称由英文字符、数字、下划线、$构成,且不能以数字开头。
①不支持中文。
②区分大小写。
③不能是SQL语句关键字:如select、time等。

2.字段属性
大部分情况无需选择字段属性。
一般数据表都需要一个主键字段,作为唯一ID记录。主键字段需要勾选“主键字段”,勾选后自动会选上“索引字段”和“键值唯一”。

3.采集内容
指该字段需要从网页上获取的数据内容。
当字段需要存储页面的url地址、采集时间、网页title等内容时,通过选择对应的采集,就可以自动为该字段赋值。(>>自动取值字段)
当某字段存储的是网页上的内容数据时,比如文章的标题、联系人名称、电话号码等,通过选择“选区内全部文本”,再在内置浏览器上定位,就可以自动获取网页的数据。

示例:
(1)选区内全部文本:
<ul><li>百度</li></ul>,采集全部标签下的内容。
(2)选区最外层节点文本:
<ul><li>百度</li></ul>,只选取<ul>节点,不采集<li>和内容。
(3)选区最外两层节点文本:
<ul><li>百度</li></ul>,只采集<ul><li>的内容,不采集的内容。
(4)网页内文字文本:采集整个页面中所有可见的文字文本。

4.数据类型
数据类型如下表所示:

5.字符串长度
只有变量类型是字符串时需要填写长度。字符串长度有两种情况:
(1)短文本
文本长度不大时,可以填写字符串长度,字符串可填写的最大长度为255。字段长度尽量不要设置的偏小,防止有超出长度的数据无法存入数据库。
(2)大文本
文本较大时,无需填写字符串长度。
①长文本:适用于新闻、正文等小于64K的文本。

设置长文本

也可以通过选择变长字段的方式,在数据库中两种方式效果相同。

设置变长字段

②超长文本:适用于论文等长文。

设置超长文本

6.字段描述
在“字段描述”文本框里,用户可以为字段填写描述性的注释内容。

四,数据表的创建、关联与删除

表单只是定义了都有哪些字段,想要实现数据的存储,需要对表单创建对应的数据表。(软件默认连接了ForeLib数据库,可更改。)

关联数据表

  1. 创建数据表

选择表单,在表单的左下方点击“创建”,输入数据表名称(仅限英文),完成数据表的创建。

  1. 关联数据表

勾选前面的多选框,即已关联数据表。取消勾选,解除关联。
采集数据时,数据存入勾选的数据表。

  1. 删除数据表

可以删除已创建的数据表。

  1. 反建表单

反建表单会根据数据库中,已存在的数据表创建爬虫表单。

五,表单变更后的配置修改

表单建好后,如果已经配置了模板中的字段,甚至已经建立了数据表,则修改表单,需要进行下列操作。

1.影响字段节点取值的情况
如果字段名称、字段数量和采集内容更改,需要到对应任务的字段节点,修改字段和采集内容。修改方式有两种:
(1)重置表单
重新选择表单名称后,这里的表单将被重置,所有的字段取值配置(包括字段处理脚本)也被清空,需要逐一重新配置字段取值。
(2)添加删除字段
当表单做了修改字段名称、添加删除字段的操作后,可以不必重置表单,在模板列表对应的数据抽取节点,通过右键添加删除字段,将两边的字段名称和数量保持一致即可。
这里的添加删除操作只针对该数据抽取,不会改动表单。

添加数据字段

①添加字段
在模板列表对应的数据抽取节点,点击右键,选择“添加数据字段”,可以新建字段。
②删除字段
在某字段上点击右键,可以删除该字段。
③修改采集内容
通过字段节点向导中的下拉菜单,修改采集内容与表单中的一致即可。

2.已创建数据表
当数据表已经建好后,修改表单会影响采集,原数据表不能适应新的表单结构。在上述修改字段的基础上,还需要删除原数据表,再重新创建一个新的数据表。

前嗅ForeSpider教程:数据建表相关推荐

  1. 前嗅ForeSpider教程:采集列表和正文的数据

    2019独角兽企业重金招聘Python工程师标准>>> 第一步:新建任务 ①点击左上角"加号"新建任务,如图1: [图1] ②弹窗里填写采集地址,任务名称,如图2 ...

  2. 前嗅ForeSpider教程:创建模板

    今天,小编为大家带来的教程是:如何在前嗅ForeSpider中创建模板.主要内容有:模板的概念,模板的配置方式,模板的高级选项,具体内容如下: 一,模板的概念 模板列表的层级相当于网页跳转的层级.模板 ...

  3. 前嗅ForeSpider教程:配置关键词

    对于通过关键词,在网页的搜索栏检索的情况,可以在软件中,通过配置关键词实现.那么,今天小编来为大家介绍:如何在前嗅ForeSpider中,配置关键词. 一,关键词配置的步骤 第一步:打开关键词采集设置 ...

  4. 前嗅ForeSpider教程:IP代理设置

    今天,小编主要为大家介绍一下:前嗅ForeSpider中的IP代理设置,主要内容包括:启用IP代理,静态代理设置,动态代理设置,这三大部分.具体内容如下: 一,启用IP代理 启用IP代理采集时,需要进 ...

  5. 前嗅ForeSpider教程:采集图片/视频/资源文件的链接地址

    昨天为大家介绍了如何采集图片/视频/资源文件后,有小伙伴问我如何采集他们的链接地址,今天小编就为大家演示如何采集图片/视频/资源文件的链接地址,操作如下: 第一步:新建任务 ①点击左上角"加 ...

  6. 前嗅ForeSpider教程:采集图片/视频/资源文件的链接地址 1

    2019独角兽企业重金招聘Python工程师标准>>> 以昵图网的美食海报为例,采集所有图片图片: 第一步:新建任务 ①点击左上角"加号"新建任务,如图1: [图 ...

  7. java 58同城 抓取_前嗅ForeSpider教程:采集58同城

    以58同城·便当为例,通过社保医疗链接到文章列表,由列表进入文章页采集正文数据: 第一步:新建任务 ①点击左上角"加号"新建任务,如图1: [图1] ②在弹窗里填写采集地址,任务名 ...

  8. 前嗅ForeSpider教程:采集360问答

    今天,小编来教大家如何采集论坛自媒体类网站的数据,以采集360问答为例,为大家进行演示操作,该操作同样适用于其他类似网站: 第一步:新建任务 ①点击左上角"加号"新建任务,如图1: ...

  9. 前嗅ForeSpider教程:验证码设置

    当我们遇到某些网站,采集每一条数据都需要输入一条验证码时,就用到了验证码设置.今天,小编为大家详细介绍一下:前嗅ForeSpider中的验证码设置.具体操作如下: 当采集某些网站的数据时,每一条数据都 ...

最新文章

  1. activiti工作流连接mysql_Activiti工作流 安装myeclipse activiti设计插件并生成数据库表...
  2. 两台主机ssh的测试及配置
  3. 【机器视觉】 dev_set_color算子
  4. 机器学习常用术语超全汇总
  5. VC++调试win32设置参数
  6. Highlighter与BooleanQuery查询
  7. FMS关于代理共享对象
  8. android wheel控件滚动,android 滚动选择插件 android-wheel
  9. hdu 1520(树形dp)
  10. python爬虫文字全是乱码_Python爬虫乱码的解决方案!
  11. 如何破解VS2015(使用秘钥)
  12. 如何恢复MAC苹果电脑系统数据文件恢复详细教程
  13. BLP安全操作系统---道里云公司参展英特尔北京IDF峰会介绍(三)
  14. PCBA电路板中电容MLCC失效分析-应力测试作业指导
  15. 【信号与系统】(十三)傅里叶变换与频域分析——周期信号的傅里叶级数
  16. 计算机第二课堂教学计划,小学第二课堂教学计划
  17. 06蚂蚁-高性能Nginx服务器——1.反向代理
  18. 读曾鸣的《智能商业》有感
  19. 如何将CAD图纸由DWG格式转换成PDF格式?
  20. matlab水力学工具箱,新浪潮水工设计工具箱

热门文章

  1. 莆田学院计算机科学与技术分数,莆田学院录取分数线2021是多少分(附历年录取分数线)...
  2. bat执行clsss
  3. IO流递归拷贝一个文件夹里面的所有文件,到另一个文件夹。如果重复不拷贝,可续拷
  4. linux子系统停止运行,linux 系统部署spring boot 退出连接端后项目停止运行问题
  5. python os模块方法_python os模块方法总结
  6. 数据库2.1.1mysql的特点
  7. C++:13---多态和虚函数表
  8. 算法(9)--两个数的最大公约数
  9. composer升级_Composer-命令简介
  10. C++面试宝典 基本语言(三)