前嗅ForeSpider采集教程:如何采集图片及链接地址

12/11 13:54 前嗅大数据

一. 网站结构

1. 网站截图说明

采集昵图网某页面中所有图片及链接地址

【昵图网某页面】

2. 采集结果截图

【检索列表链接】

【检索数据结果】

二. 配置模板

1.新建任务

点击【下一步】,需要采集全部检索结果,所以此处需要勾选【链接列表】和【普通翻页】,如图:

【新建采集任务】

2.过滤链接列表

①用定位过滤链接,过滤关键词检索出的列表链接。

【定位过滤列表链接】

②采集预览,看是否过滤成功。

采集预览出现链接均为网页中关键词检索列表中的链接,过滤成功。

【采集预览】

3. 过滤翻页链接

①用定位过滤链接,过滤翻页链接。

【定位过滤翻页链接】

②采集预览,看是否过滤成功

采集预览出现链接均为翻页的链接,过滤成功。

【采集预览】

4.新建数据抽取

5.添加示例地址

6.创建/选择表单

表单创建后可以重复选择使用,如果已有建好的表单,选择对应数据表单即可。如果没有,点击创建表单。

7.配置表单

根据所需内容,配置表单字段,此处配置了包括主键、网页地址、图片三个字段。=>(字段各属性介绍)

方式一:快速建表。(点击【创建表单】出现弹窗。)

【配置表单】

方式二:自由建表。(在【数据建表】界面。)

【字段取值】

8.关联表单

9.字段取值

①f_id:主键字段,自动取值。=>(能够自动取值的字段有哪些?)

②url:当前页面网址,自动取值。

③name1:通过字段定位取值,按ctrl+单击标题,确认选取。

【name1】

④fujian:通过字段定位取值,按ctrl+单击图片,确认选取。

10.关联数据表

先选择对应表单,然后再创建关联数据表,如图所示。

【创建关联数据表】

【定义表名称】

【勾选数据表】

11.模板预览

通过预览,可以了解配置是否能够正确地采集到所需数据。

方式一:点击【采集预览】按钮,可以从入口页逐层预览各个模板的数据。

点击任意一条链接,看看是否可以得到和网页对应的规整的数据。

方式二:右键后选择【模板预览】,可以单独预览某个模板的数据。

【模板预览】

【预览结果】

三.数据采集

1. 运行设置

运行设置处可以设置采集速度、采集策略、任务装载等。

【运行设置】

2. 选择采集任务

在【任务列表】中勾选需要采集的任务,可勾选多个任务,同时采集。

【选择采集任务】

3. 开始采集

点击【开始采集】,系统开始进行采集。剩余任务数为0时,系统自动停止采集。用户也可以自己暂停任务或停止任务(停止任务会释放任务,再次启动时重新装载任务)。

【开始采集】

4.数据浏览

采集一段时间以后,点击【数据浏览】,在数据列表中选中对应的数据表,即可浏览采集到的数据,点击【刷新】按钮可以同步显示数据。

【数据浏览】

5.导出数据

点击【导出】按钮,选择导出文件格式后保存。

【导出数据】

【导出数据】


如需了解产品可进入我们的官方网站:http://www.forenose.com/

或关注我们的官方微信账号【前嗅大数据】

ForeSpider采集教程:如何采集图片及链接地址相关推荐

  1. 前嗅ForeSpider教程:采集图片/视频/资源文件的链接地址

    昨天为大家介绍了如何采集图片/视频/资源文件后,有小伙伴问我如何采集他们的链接地址,今天小编就为大家演示如何采集图片/视频/资源文件的链接地址,操作如下: 第一步:新建任务 ①点击左上角"加 ...

  2. 前嗅ForeSpider教程:采集图片/视频/资源文件的链接地址 1

    2019独角兽企业重金招聘Python工程师标准>>> 以昵图网的美食海报为例,采集所有图片图片: 第一步:新建任务 ①点击左上角"加号"新建任务,如图1: [图 ...

  3. 前嗅ForeSpider教程:采集360问答

    今天,小编来教大家如何采集论坛自媒体类网站的数据,以采集360问答为例,为大家进行演示操作,该操作同样适用于其他类似网站: 第一步:新建任务 ①点击左上角"加号"新建任务,如图1: ...

  4. 前嗅ForeSpider教程:采集列表和正文的数据

    2019独角兽企业重金招聘Python工程师标准>>> 第一步:新建任务 ①点击左上角"加号"新建任务,如图1: [图1] ②弹窗里填写采集地址,任务名称,如图2 ...

  5. 前嗅ForeSpider教程:采集美团网

    2019独角兽企业重金招聘Python工程师标准>>> 以美团为例,通过关键词搜索后的结果列表,由列表进入正文页采集正文数据: 第一步:新建任务 ①点击左上角"加号&quo ...

  6. webbrowser 百度列表点击_前嗅ForeSpider采集教程:关键词的「检索列表」采集「检索结果」...

    以百度搜索关键词(http://www.baidu.com)为例: 一. 网站结构 网站截图说明 使用批量关键词,从百度检索列表依次进入检索结果页,采集结果页里的正文数据. 检索列表页 检索结果页 2 ...

  7. 网页图片采集教程(如何采集图片)

    如果要采集文章中的图片,要怎么设置呢? 图片在网页页面里是img标签(HTML代码),所以要想采集到图片,就要在文章采集器中设置保留HTML标签,否则只能采集到文本. 具体操作我们举例子来说明: 目录 ...

  8. 后台定时给页面发送数据_苹果CMS10全自动定时采集教程

    很多朋友在首次建立好自己的网站后,在资源采集方面,由于手动方式比较耗时间和精力,更新也不够及时,希望能有一个定时的全自动采集任务来帮助补充资源,现在教大家如何一步一步设置这个任务. ①进入苹果CMS1 ...

  9. 【火车头采集教程】轻而易举学会火车头采集(附带采集案例)

    咔咔不会用python,也没打算为了爬点东西就去学python.时间成本不允许我这样做 于是咔咔使用了一款工具,火车头采集工具 这款工具学会了很简单,不会的全是问题 下来咔咔会把这个工具的从开始到结束 ...

最新文章

  1. 第二章 数据类型、运算符与表达式
  2. 如何修改和查看tomcat内存大小
  3. Callable和Future接口的实现
  4. c语言 编程显示图案*,*型图案的显示与控制(学习C语言后的编程尝试)(2)(完)...
  5. java反射减少servlet_利用java 反射机制来实现一个servlet处理多种请求
  6. nhibernate many-to-one 没有匹配项时的异常
  7. C#LeetCode刷题之#645-错误的集合(Set Mismatch)
  8. python sqlalchemy orm
  9. 2017广东工业大学程序设计竞赛决赛:G. 等凹数字(数位DP)
  10. PHP关于按位取反结果的推导过程
  11. Norton Ghost V12
  12. 如何搭建视频点播服务
  13. docker之构建镜像
  14. java实现excel导入导出,对象图片读取,上传七牛云
  15. java工具封装树形对象,常用于菜单 json树逆向生成list集合
  16. ASCII转十六进制小工具
  17. 如何通过AWS Route53注册域名
  18. linux磁盘阵列数据恢复,Linux数据恢复
  19. 将指定的正整数n分解成若干个互不相同的自然数的和,且使这些自然数的乘积最大
  20. 《现代控制理论》第一章常见题型及解法

热门文章

  1. HC32F460库简介-USART
  2. 视频教程-纯风AE影视特效视频教程after effect-After Effects(AE)
  3. Introduction to Windows 8: The Definitive Guide for Developer
  4. 7-1 求解买股票问题
  5. 七个好习惯(The 7 habits)
  6. TrWebOCR开源的离线OCR
  7. Mybatis-plus使用IPage分页以及IPage分页失效
  8. android 图片 国际化,Android 语言国际化(+图片)
  9. 如何简单的在阿里云centos7.6 64位操作系统上手动搭建LNMP环境(Nginx1.14.2+PHP7.x+mysql5.7)
  10. 2019中小学机器人教育调研报告-中国电子学