从今天起,小编开始教大家逐步进行可视化配置操作。首先,我们来学习第一步:创建新任务,主要包括创建新任务的操作步骤,操作中的注意事项两部分内容。

一,创建新任务操作步骤:

1.添加新任务

点击任务列表右侧,新建任务文件。

【添加任务】
此时会出现一个弹框,可以在弹框中填写采集地址,修改任务名称,以及选择是否需要登录/关键词采集。

【新建任务】

2.填写采集地址

在弹窗里填写采集地址和任务名称。

【填写采集地址】

采集地址一般选择目标网站的入口地址,比如首页。
大多数情况下,采集地址只填写一个url地址。如果链接的页面结构和层级结构是一致的,能够套用同一套采集模板进行采集,可填写多个采集地址,中间用回车换行分隔。如果不一致,需要创建新的采集任务。

例1:采集整个淘宝网全部商品的信息,淘宝网首页就是入口地址。

例2:只采集“女装”类别的商品信息,“女装”首页就是入口地址。

例3:只采集某商品的评论信息,该商品的链接地址就是入口地址。

3.选择当前页面所需内容

创建新的任务之后,点击“下一步”,选择页面需要抽取内容。
①抽取链接:需要抽取页面上的链接时,选择抽取链接以及具体的链接类型,会建立对应的链接抽取。(方式一:智能过滤/方式二:定位过滤/方式三:地址/标题过滤)
②抽取数据:需要抽取页面上的数据时,选择抽取数据,会建立对应的数据抽取。(>>如何选择表单)
例如:
需要采集新闻的正文数据,当前页面是新闻首页,汇集了新闻的链接,正文数据是通过点击新闻链接进入的,所以本页面需要抽取新闻链接。
软件预置了一些常见的链接页面场景,此时勾选链接列表,软件会自动建立一个链接抽取。

【选择页面抽取内容】
点击“完成”,软件自动创建对应的抽取内容的模板。

二,创建新任务注意事项

1.如何选择采集类型

采集类型分为默认(html)和本地文件目录两种。
(1)默认(html):采集网站上的各种信息
(2)本地文件目录:采集本地文件目录信息。

【设置采集类型】

2.什么情况下选择浏览器采集

在页面均由JS生成时,采集效果不理想的情况下,可以尝试使用“浏览器采集”,该方式近乎于在浏览器上点击,会减慢采集速度,但是对JS语法的支持更加全面。
浏览器采集:通过浏览器的方式采集数据。
适用情况:由大量JS生成的,采集难度大的网页。对JS语法的支持更加全面,近乎于在浏览器上点击,但采集速度慢、效率低。

【设置浏览器采集】

3.Cookie的使用方法

① 配置Cookie
(1)填写Cookie:
正常情况下(除JS生成的Cookie外),软件会自动获取Cookie。
当软件无法获取到网页的Cookie时,需要参考下文从浏览器寻找Cookie。
(2)禁用Cookie的情况:
对于不需要Cookie的网站,选择“禁用Cookie”,可加快采集速度。

【Cookie配置】
② 如何通过浏览器寻找cookie
在获取不到登录状态的时候,可以通过浏览器的F12开发者工具进行手动的获取Cookie。首先先用浏览器打开网页,点击F12打开开发者工具,如图所示。

接下来点击network网络任务列表。

在浏览器上输入用户名密码,点击登录

可以在network里面看到出现很多条任务,从中就可以找到关于登录的cookie。

③ 多账号登录的Cookie处理
当需要登录多个账号来抓取同一个网页时,可以在采集列表中设置多个采集任务,采集地址填写一个地址,填写不同的Cookie信息即可。

4.什么情况下禁用JavaScript

对于有些把JavaScript只用于美观效果的网页,关闭JavaScript不影响采集数据时,可以加快采集速度。

【JavaScript配置】

前嗅ForeSpider教程:如何创建新任务相关推荐

  1. 前嗅ForeSpider教程:创建模板

    今天,小编为大家带来的教程是:如何在前嗅ForeSpider中创建模板.主要内容有:模板的概念,模板的配置方式,模板的高级选项,具体内容如下: 一,模板的概念 模板列表的层级相当于网页跳转的层级.模板 ...

  2. 前嗅ForeSpider教程:数据建表

    今天,小编为大家带来的教程是:如何在前嗅ForeSpider中,进行数据建表操作及各注意事项.主要内容包括:快速建表,自由建表,字段参数,数据表的创建,关联与删除,以及表单变更后的配置修改. 一,如何 ...

  3. 前嗅ForeSpider教程:IP代理设置

    今天,小编主要为大家介绍一下:前嗅ForeSpider中的IP代理设置,主要内容包括:启用IP代理,静态代理设置,动态代理设置,这三大部分.具体内容如下: 一,启用IP代理 启用IP代理采集时,需要进 ...

  4. 前嗅ForeSpider教程:配置关键词

    对于通过关键词,在网页的搜索栏检索的情况,可以在软件中,通过配置关键词实现.那么,今天小编来为大家介绍:如何在前嗅ForeSpider中,配置关键词. 一,关键词配置的步骤 第一步:打开关键词采集设置 ...

  5. 前嗅ForeSpider教程:验证码设置

    当我们遇到某些网站,采集每一条数据都需要输入一条验证码时,就用到了验证码设置.今天,小编为大家详细介绍一下:前嗅ForeSpider中的验证码设置.具体操作如下: 当采集某些网站的数据时,每一条数据都 ...

  6. 前嗅ForeSpider教程:如何创建新任务 1

    从今天起,小编开始教大家逐步进行可视化配置操作.首先,我们来学习第一步:创建新任务,主要包括创建新任务的操作步骤,操作中的注意事项两部分内容. 一,创建新任务操作步骤: 1.添加新任务 点击任务列表右 ...

  7. java 58同城 抓取_前嗅ForeSpider教程:采集58同城

    以58同城·便当为例,通过社保医疗链接到文章列表,由列表进入文章页采集正文数据: 第一步:新建任务 ①点击左上角"加号"新建任务,如图1: [图1] ②在弹窗里填写采集地址,任务名 ...

  8. 前嗅ForeSpider教程:采集列表和正文的数据

    2019独角兽企业重金招聘Python工程师标准>>> 第一步:新建任务 ①点击左上角"加号"新建任务,如图1: [图1] ②弹窗里填写采集地址,任务名称,如图2 ...

  9. 前嗅ForeSpider教程:采集图片/视频/资源文件的链接地址

    昨天为大家介绍了如何采集图片/视频/资源文件后,有小伙伴问我如何采集他们的链接地址,今天小编就为大家演示如何采集图片/视频/资源文件的链接地址,操作如下: 第一步:新建任务 ①点击左上角"加 ...

最新文章

  1. CentOS7环境搭建使用PhpStorm上传代码
  2. Javascript 检查一组 radio 中的哪一个被勾选
  3. 学python好不好-Python就业前景好不好?学Python好找工作吗?
  4. 清华出品:一文看尽AI芯片两类瓶颈三大趋势,存储技术开拓新疆界 | 附全文...
  5. 异步服务_微服务全链路异步化实践
  6. mysql利用内存表导入数据_Mysql 大量数据导入
  7. WPF应用程序启动顺序机制
  8. 分享一个免费开源的视频录制软件(OBS)
  9. uni-app实现上传照片和个人信息
  10. 网易互娱2022校园招聘在线笔试 -《魔塔》
  11. 利用node爬取王者荣耀英雄信息,并存入数据库
  12. 如何将电脑上的音乐传到苹果手机上?电脑音乐导入苹果手机
  13. 视频流解码播放之VLC
  14. Nature:Rob Knight团队发现血液和组织微生物组可诊断癌症
  15. NC81 二叉搜索树的第k个结点
  16. 向日葵远程连接时控制失灵
  17. ZT: 回顾2007:新兴网络服务汇总(完整篇)
  18. php+分针和时针重合,时针、分针和秒针重合问题
  19. c++ xlsx、xls另存PDF
  20. java文件名 目录名或卷标语法不正确_java文件上传时提示(文件名,目录名或卷标语法不正确)...

热门文章

  1. 作业27-登录之后更新导航
  2. T4模板:MVC中用T4模板快速生成代码
  3. CentOS安装fortune+cowsay
  4. 研究Mysql优化得出一些建设性的方案
  5. SQL Server timeout分析和总结
  6. 在Win平台得到磁盘、CPU、用户信息
  7. The file or directory to be published does not exist: /data/vendor/bower/jquery/dist
  8. 一些Xcode快捷键,给新手
  9. Flask的session使用
  10. 跨站脚本攻击(selfxss)笔记(三)