ForeSpider采集教程:如何采集图片及链接地址
前嗅ForeSpider采集教程:如何采集图片及链接地址
12/11 13:54 前嗅大数据
一. 网站结构
1. 网站截图说明
采集昵图网某页面中所有图片及链接地址
【昵图网某页面】
2. 采集结果截图
【检索列表链接】
【检索数据结果】
二. 配置模板
1.新建任务
点击【下一步】,需要采集全部检索结果,所以此处需要勾选【链接列表】和【普通翻页】,如图:
【新建采集任务】
2.过滤链接列表
①用定位过滤链接,过滤关键词检索出的列表链接。
【定位过滤列表链接】
②采集预览,看是否过滤成功。
采集预览出现链接均为网页中关键词检索列表中的链接,过滤成功。
【采集预览】
3. 过滤翻页链接
①用定位过滤链接,过滤翻页链接。
【定位过滤翻页链接】
②采集预览,看是否过滤成功
采集预览出现链接均为翻页的链接,过滤成功。
【采集预览】
4.新建数据抽取
5.添加示例地址
6.创建/选择表单
表单创建后可以重复选择使用,如果已有建好的表单,选择对应数据表单即可。如果没有,点击创建表单。
7.配置表单
根据所需内容,配置表单字段,此处配置了包括主键、网页地址、图片三个字段。=>(字段各属性介绍)
方式一:快速建表。(点击【创建表单】出现弹窗。)
【配置表单】
方式二:自由建表。(在【数据建表】界面。)
【字段取值】
8.关联表单
9.字段取值
①f_id:主键字段,自动取值。=>(能够自动取值的字段有哪些?)
②url:当前页面网址,自动取值。
③name1:通过字段定位取值,按ctrl+单击标题,确认选取。
【name1】
④fujian:通过字段定位取值,按ctrl+单击图片,确认选取。
10.关联数据表
先选择对应表单,然后再创建关联数据表,如图所示。
【创建关联数据表】
【定义表名称】
【勾选数据表】
11.模板预览
通过预览,可以了解配置是否能够正确地采集到所需数据。
方式一:点击【采集预览】按钮,可以从入口页逐层预览各个模板的数据。
点击任意一条链接,看看是否可以得到和网页对应的规整的数据。
方式二:右键后选择【模板预览】,可以单独预览某个模板的数据。
【模板预览】
【预览结果】
三.数据采集
1. 运行设置
运行设置处可以设置采集速度、采集策略、任务装载等。
【运行设置】
2. 选择采集任务
在【任务列表】中勾选需要采集的任务,可勾选多个任务,同时采集。
【选择采集任务】
3. 开始采集
点击【开始采集】,系统开始进行采集。剩余任务数为0时,系统自动停止采集。用户也可以自己暂停任务或停止任务(停止任务会释放任务,再次启动时重新装载任务)。
【开始采集】
4.数据浏览
采集一段时间以后,点击【数据浏览】,在数据列表中选中对应的数据表,即可浏览采集到的数据,点击【刷新】按钮可以同步显示数据。
【数据浏览】
5.导出数据
点击【导出】按钮,选择导出文件格式后保存。
【导出数据】
【导出数据】
如需了解产品可进入我们的官方网站:http://www.forenose.com/
或关注我们的官方微信账号【前嗅大数据】
ForeSpider采集教程:如何采集图片及链接地址相关推荐
- 前嗅ForeSpider教程:采集图片/视频/资源文件的链接地址
昨天为大家介绍了如何采集图片/视频/资源文件后,有小伙伴问我如何采集他们的链接地址,今天小编就为大家演示如何采集图片/视频/资源文件的链接地址,操作如下: 第一步:新建任务 ①点击左上角"加 ...
- 前嗅ForeSpider教程:采集图片/视频/资源文件的链接地址 1
2019独角兽企业重金招聘Python工程师标准>>> 以昵图网的美食海报为例,采集所有图片图片: 第一步:新建任务 ①点击左上角"加号"新建任务,如图1: [图 ...
- 前嗅ForeSpider教程:采集360问答
今天,小编来教大家如何采集论坛自媒体类网站的数据,以采集360问答为例,为大家进行演示操作,该操作同样适用于其他类似网站: 第一步:新建任务 ①点击左上角"加号"新建任务,如图1: ...
- 前嗅ForeSpider教程:采集列表和正文的数据
2019独角兽企业重金招聘Python工程师标准>>> 第一步:新建任务 ①点击左上角"加号"新建任务,如图1: [图1] ②弹窗里填写采集地址,任务名称,如图2 ...
- 前嗅ForeSpider教程:采集美团网
2019独角兽企业重金招聘Python工程师标准>>> 以美团为例,通过关键词搜索后的结果列表,由列表进入正文页采集正文数据: 第一步:新建任务 ①点击左上角"加号&quo ...
- webbrowser 百度列表点击_前嗅ForeSpider采集教程:关键词的「检索列表」采集「检索结果」...
以百度搜索关键词(http://www.baidu.com)为例: 一. 网站结构 网站截图说明 使用批量关键词,从百度检索列表依次进入检索结果页,采集结果页里的正文数据. 检索列表页 检索结果页 2 ...
- 网页图片采集教程(如何采集图片)
如果要采集文章中的图片,要怎么设置呢? 图片在网页页面里是img标签(HTML代码),所以要想采集到图片,就要在文章采集器中设置保留HTML标签,否则只能采集到文本. 具体操作我们举例子来说明: 目录 ...
- 后台定时给页面发送数据_苹果CMS10全自动定时采集教程
很多朋友在首次建立好自己的网站后,在资源采集方面,由于手动方式比较耗时间和精力,更新也不够及时,希望能有一个定时的全自动采集任务来帮助补充资源,现在教大家如何一步一步设置这个任务. ①进入苹果CMS1 ...
- 【火车头采集教程】轻而易举学会火车头采集(附带采集案例)
咔咔不会用python,也没打算为了爬点东西就去学python.时间成本不允许我这样做 于是咔咔使用了一款工具,火车头采集工具 这款工具学会了很简单,不会的全是问题 下来咔咔会把这个工具的从开始到结束 ...
最新文章
- 第二章 数据类型、运算符与表达式
- 如何修改和查看tomcat内存大小
- Callable和Future接口的实现
- c语言 编程显示图案*,*型图案的显示与控制(学习C语言后的编程尝试)(2)(完)...
- java反射减少servlet_利用java 反射机制来实现一个servlet处理多种请求
- nhibernate many-to-one 没有匹配项时的异常
- C#LeetCode刷题之#645-错误的集合(Set Mismatch)
- python sqlalchemy orm
- 2017广东工业大学程序设计竞赛决赛:G. 等凹数字(数位DP)
- PHP关于按位取反结果的推导过程
- Norton Ghost V12
- 如何搭建视频点播服务
- docker之构建镜像
- java实现excel导入导出,对象图片读取,上传七牛云
- java工具封装树形对象,常用于菜单 json树逆向生成list集合
- ASCII转十六进制小工具
- 如何通过AWS Route53注册域名
- linux磁盘阵列数据恢复,Linux数据恢复
- 将指定的正整数n分解成若干个互不相同的自然数的和,且使这些自然数的乘积最大
- 《现代控制理论》第一章常见题型及解法
热门文章
- HC32F460库简介-USART
- 视频教程-纯风AE影视特效视频教程after effect-After Effects(AE)
- Introduction to Windows 8: The Definitive Guide for Developer
- 7-1 求解买股票问题
- 七个好习惯(The 7 habits)
- TrWebOCR开源的离线OCR
- Mybatis-plus使用IPage分页以及IPage分页失效
- android 图片 国际化,Android 语言国际化(+图片)
- 如何简单的在阿里云centos7.6 64位操作系统上手动搭建LNMP环境(Nginx1.14.2+PHP7.x+mysql5.7)
- 2019中小学机器人教育调研报告-中国电子学