webbrowser 百度列表点击_前嗅ForeSpider采集教程:关键词的「检索列表」采集「检索结果」...
以百度搜索关键词(http://www.baidu.com)为例:
一. 网站结构
- 网站截图说明
使用批量关键词,从百度检索列表依次进入检索结果页,采集结果页里的正文数据。
检索列表页
检索结果页
2. 采集结果截图
检索列表链接
检索结果数据
二. 配置模板
- 新建任务
新建任务
点击【下一步】,需要采集全部检索结果,所以此处需要勾选【链接列表】和【普通翻页】,如图:
新建采集任务
2. 配置关键词
配置关键词
① 内置浏览器显示搜索页面后,按照提示:ctrl+左键单击搜索框,点击右下角【完成】。点击右上角【保存】,保存任务配置。
保存关键词配置
② 关键词列表处,填写关键词,并点击保存。
填写关键词
3. 采集预览
看关键词检索的链接是否能够出来,如果没有出来,应该使用脚本采集;如果可以出来,则继续操作。
4. 过滤链接列表
①用定位过滤链接,过滤关键词检索出的列表链接。
定位过滤列表链接
② 采集预览,看是否过滤成功。
采集预览出现链接均为网页中关键词检索列表中的链接,过滤成功。
采集预览
5. 过滤翻页链接
①用定位过滤链接,过滤翻页链接。
定位过滤翻页链接
② 采集预览,看是否过滤成功
采集预览出现链接均为翻页的链接,过滤成功。
采集预览
6.关联模板
通过关联模板,可以设置该链接将要跳转的下一层级页面。通过模板之间的关联,可以将网站各层级页面关联起来,在软件中形成与浏览器相同的跳转结构,从而完整地采集数据。
关联模板
如果没有创建模板02,可以自行创建模板。
新建模板
7. 填写示例地址
模板二是为了抽取正文数据,故勾选【抽取数据】,并填写示例数据。
①选取任意一条检索结果的网址,也就是模板一过滤得到的任意一条链接,作为模板二的示例地址。
填写示例地址
②点击【下一步】,自动生成数据抽取。
如果没有自动生成,则新建数据抽取。
新建数据抽取
8. 创建/选择表单
表单创建后可以重复选择使用,如果已有建好的表单,选择对应数据表单即可。如果没有,点击创建表单。
创建表单
9.配置表单
根据所需内容,配置表单字段,此处配置了包括网页标题、网页地址、全部文本三个字段。=>(字段各属性介绍)
方式一:快速建表。(点击【创建表单】出现弹窗。)
配置表单
方式二:自由建表。(在【数据建表】界面。)
字段取值
10.字段取值
①f_id:主键字段,自动取值。=>(能够自动取值的字段有哪些?)
②web_title:通过字段定位取值,按ctrl+单击标题,确认选取。
字段取值
③web_link:自动获取url地址。
web_link
11. 关联数据表
先选择对应表单,然后再创建关联数据表,如图所示。
创建关联数据表
定义表名称
勾选数据表
12. 模板预览
通过预览,可以了解配置是否能够正确地采集到所需数据。
方式一:点击【采集预览】按钮,可以从入口页逐层预览各个模板的数据。
点击任意一条链接,看看是否可以得到和网页对应的规整的数据。
方式二:右键后选择【模板预览】,可以单独预览某个模板的数据。
模板预览
预览结果
三.数据采集
1. 运行设置
运行设置处可以设置采集速度、采集策略、任务装载等。
运行设置
1. 选择采集任务
在【任务列表】中勾选需要采集的任务,可勾选多个任务,同时采集。
选择采集任务
3. 开始采集
点击【开始采集】,系统开始进行采集。剩余任务数为0时,系统自动停止采集。用户也可以自己暂停任务或停止任务(停止任务会释放任务,再次启动时重新装载任务)。
开始采集
4. 数据浏览
采集一段时间以后,点击【数据浏览】,在数据列表中选中对应的数据表,即可浏览采集到的数据,点击【刷新】按钮可以同步显示数据。
数据浏览
5. 导出数据
点击【导出】按钮,选择导出文件格式后保存。
导出数据
导出数据
webbrowser 百度列表点击_前嗅ForeSpider采集教程:关键词的「检索列表」采集「检索结果」...相关推荐
- url获取网站信息不包含网页源文件内的标签_前嗅ForeSpider链接抽取应用场景及链接在源码的html标签里写脚本...
今天,小编给大家带来的教程为:前嗅ForeSpider脚本教程中,链接抽取的应用场景,以及链接在源码的html标签里写脚本的实战教程.具体内容如下: 一.应用场景 当需要手动添加链接时,可添加链接脚本 ...
- java 58同城 抓取_前嗅ForeSpider教程:采集58同城
以58同城·便当为例,通过社保医疗链接到文章列表,由列表进入文章页采集正文数据: 第一步:新建任务 ①点击左上角"加号"新建任务,如图1: [图1] ②在弹窗里填写采集地址,任务名 ...
- 前嗅ForeSpider教程:数据建表
今天,小编为大家带来的教程是:如何在前嗅ForeSpider中,进行数据建表操作及各注意事项.主要内容包括:快速建表,自由建表,字段参数,数据表的创建,关联与删除,以及表单变更后的配置修改. 一,如何 ...
- 超好用的前嗅ForeSpider爬虫软件教程
给大家良心推荐一款超好用的爬虫软件--前嗅ForeSpider爬虫工具,也是最近发现的.本人是数据工作者,每天就是跟各种各样的数据打交道,数据采集必不可少,然而这也是最令我头疼的地方,尝试了各种各样的 ...
- 超好用的爬虫:前嗅ForeSpider数据采集软件教程
2019独角兽企业重金招聘Python工程师标准>>> 给大家良心推荐一款超好用的爬虫软件--前嗅ForeSpider爬虫工具,也是最近发现的.本人是数据工作者,每天就是跟各种各样的 ...
- 前嗅ForeSpider教程:创建模板
今天,小编为大家带来的教程是:如何在前嗅ForeSpider中创建模板.主要内容有:模板的概念,模板的配置方式,模板的高级选项,具体内容如下: 一,模板的概念 模板列表的层级相当于网页跳转的层级.模板 ...
- 前嗅ForeSpider教程:配置关键词
对于通过关键词,在网页的搜索栏检索的情况,可以在软件中,通过配置关键词实现.那么,今天小编来为大家介绍:如何在前嗅ForeSpider中,配置关键词. 一,关键词配置的步骤 第一步:打开关键词采集设置 ...
- 关于前嗅Forespider爬虫的常见问题答疑
关于前嗅Forespider爬虫的常见问题答疑 奋战在一线为客户答疑的狗蛋儿给小编提供了很多客户经常会问到的问题的素材,小编帮大家整理了一些,快来看看是不是都用的上吧! 一.采集预览没有 ...
- 前嗅ForeSpider教程:验证码设置
当我们遇到某些网站,采集每一条数据都需要输入一条验证码时,就用到了验证码设置.今天,小编为大家详细介绍一下:前嗅ForeSpider中的验证码设置.具体操作如下: 当采集某些网站的数据时,每一条数据都 ...
最新文章
- win7安装omnetpp-4.6
- 计算机二级日月潭操作步骤,计算机二级考试真题-PPT-文小雨-台湾日月潭介绍
- oracle var/tmp,关于/var/tmp/.oracle 目录(ZT)
- 中间件方法必须返回Response对象实例(tp5.1+小程序结合时候出的问题)
- ArrayList如何对某个对象的日期属性排序?
- transform.SimilarityTransform()==>图像的相似变换=等距变换(平移+旋转变换)+均匀尺度缩放
- sql示例_SQL Server Lead功能概述和示例
- opencv基础--图像模板匹配
- 程序functionLua基础 小结(两个Lua程序示例)
- 阿里云云计算 50 云监控的使用
- HTML(五)列表,区块,布局,表单和输入
- 深入浅出通信原理知识点5
- 计算机网络应用基础试题6,计算机网络应用基础期末试卷试题2
- 轩辕剑【超越XISE菜刀的shell管理工具】
- 华南农业大学C语言程序设计(实验九)
- Python爬虫编程思想(69): 项目实战--抓取当当图书排行榜
- php多域名跳转,旱的旱死,涝的涝死,中超联赛的怪事
- Axure 8 - 中继器实战篇
- Bootstrap系列之导航条(Navbar)
- 2020Java后端开发面试题总结(春招+秋招+社招)
热门文章
- 基于malloc与free函数的实现代码及分析
- 几种方法来实现scp拷贝时无需输入密码
- 身份证识别——iOS端实现身份证检测
- 安装brew提示/usr/local/bin is not in your PATH.
- 4kyu Sums of Perfect Squares
- python 简单的server请求
- 解析程序员的几个成长阶段
- Windows 7安全补丁KB3110329遭遇更新失败 且暂无解决方法
- 谈谈 ES6 的 Promise 对象
- 为什么 wait/notify/notifyAll 在 Object 类定义而不是 Thread 类?