以58同城·便当为例,通过社保医疗链接到文章列表,由列表进入文章页采集正文数据:

第一步:新建任务

①点击左上角“加号”新建任务,如图1:

【图1】

②在弹窗里填写采集地址,任务名称,如图2:

【图2】

③点击下一步,选择进行数据抽取还是链接抽取,首先采集58同城·便当分类下的分类列表的链接,所以点击抽取链接,如图3:

【图3】

④完成后模板抽取配置列表有一个模板,默认模板,如图4:

【图4】

第二步:创建链接抽取,通过定位过滤得到所需链接

①直接点击“默认模板:01”,点击上面“新建链接抽取”按钮,得到链接抽取,如图5。

【图5】

②按住Ctrl+鼠标左键,进行区域选择,按住Shift+鼠标左键,扩大选择区域,点击“确认选区”按钮,如图6:

【图6】

③点击采集预览确认链接是否过滤完全,如图7:

【图7】

第三步:创建新模板,并添加链接抽取

①在模板配置,点击“新建模板”按钮,得到新建模板,如图8。

【图8】

②将模板一过滤得到的任意一条链接,作为模板二的示例地址, 见图9:

【图9】

③新建数据抽取。直接点击模板二,点击上面“新建数据抽取”按钮,得到数据抽取,如图10。

【图10】

④关联模板

在软件中模板的关联关系,与网页中链接跳转的关系相同。 根据网页跳转规律,将模板一的“新建链接抽取”关联模板二,如图11

【图11】

第四步:通过定位过滤得到文章列表所需链接

①按住Ctrl+鼠标左键,进行区域选择,按住Shift+鼠标左键,扩大选择区域,点击“确认选区”按钮,如图12:

【图12】

②鼠标右键点击模板二,模板预览,如图13:

【图13】

③确认链接是否过滤完全,如图14:

【图14】

第五步:创建新的模板,并新建数据抽取

①在模板配置,点击“新建模板”按钮,得到新建模板,重命名为正文数据模板,如图15。

【图15】

②新建数据抽取。直接点击模板二,点击上面“新建数据抽取”按钮,得到数据抽取,如图16。

【图16】

③将模板一过滤得到的任意一条链接,作为模板二的示例地址, 见图17:

【图17】

④关联模板

在软件中模板的关联关系,与网页中链接跳转的关系相同。 根据网页跳转规律,将模板二“新建链接抽取”关联模板三,如图18。

【图18】

第六步:创建/选择表单

在ForeSpider爬虫中,表单是可以复用的,所以可以在数据表单出直接选择之前建过的表单,也可以通过表单ID来进行查找并关联数据表单。此处使用的是方法三。

方法一:通过下拉菜单或表单ID选择已有表单

方法二:点击创建表单进入快速建表页面,新建表单。

方法三:点击“采集配置”-“数据建表”,点击采“采集表单”后面的添加按钮,如图19:

【图19】

第七步:配置表单

根据所需内容,配置表单字段(即表头),此处配置了包括网页主键、文章标题、访问量、发布时间、文本内容5个字段,表单如图20:

【图20】

第八步:字段取值

取值方法:按住Ctrl+鼠标左键,进行区域选择,按住Shift+鼠标左键,扩大选择区域。点击:“确认选区”按钮,确认操作

tit、read_num、pub_date、text字段,如图21:

【图21】

第九步:模板预览

①鼠标右键点击模板三,然后点击“模板预览”,如图22:

【图22】

②预览结果如图23:

【图23】

第十步:采集预览

①点击右上角采集预览,如图24:

【图24】

②双击任意一条链接,看看是否可以得到和网页对应的规整的数据,如图25、26:

【图25】

【图26】

java 58同城 抓取_前嗅ForeSpider教程:采集58同城相关推荐

  1. url获取网站信息不包含网页源文件内的标签_前嗅ForeSpider链接抽取应用场景及链接在源码的html标签里写脚本...

    今天,小编给大家带来的教程为:前嗅ForeSpider脚本教程中,链接抽取的应用场景,以及链接在源码的html标签里写脚本的实战教程.具体内容如下: 一.应用场景 当需要手动添加链接时,可添加链接脚本 ...

  2. 前嗅ForeSpider教程:数据建表

    今天,小编为大家带来的教程是:如何在前嗅ForeSpider中,进行数据建表操作及各注意事项.主要内容包括:快速建表,自由建表,字段参数,数据表的创建,关联与删除,以及表单变更后的配置修改. 一,如何 ...

  3. 前嗅ForeSpider教程:创建模板

    今天,小编为大家带来的教程是:如何在前嗅ForeSpider中创建模板.主要内容有:模板的概念,模板的配置方式,模板的高级选项,具体内容如下: 一,模板的概念 模板列表的层级相当于网页跳转的层级.模板 ...

  4. 前嗅ForeSpider教程:配置关键词

    对于通过关键词,在网页的搜索栏检索的情况,可以在软件中,通过配置关键词实现.那么,今天小编来为大家介绍:如何在前嗅ForeSpider中,配置关键词. 一,关键词配置的步骤 第一步:打开关键词采集设置 ...

  5. 前嗅ForeSpider教程:验证码设置

    当我们遇到某些网站,采集每一条数据都需要输入一条验证码时,就用到了验证码设置.今天,小编为大家详细介绍一下:前嗅ForeSpider中的验证码设置.具体操作如下: 当采集某些网站的数据时,每一条数据都 ...

  6. 前嗅ForeSpider教程:IP代理设置

    今天,小编主要为大家介绍一下:前嗅ForeSpider中的IP代理设置,主要内容包括:启用IP代理,静态代理设置,动态代理设置,这三大部分.具体内容如下: 一,启用IP代理 启用IP代理采集时,需要进 ...

  7. 前嗅ForeSpider教程:如何创建新任务

    从今天起,小编开始教大家逐步进行可视化配置操作.首先,我们来学习第一步:创建新任务,主要包括创建新任务的操作步骤,操作中的注意事项两部分内容. 一,创建新任务操作步骤: 1.添加新任务 点击任务列表右 ...

  8. 前嗅ForeSpider教程:如何创建新任务 1

    从今天起,小编开始教大家逐步进行可视化配置操作.首先,我们来学习第一步:创建新任务,主要包括创建新任务的操作步骤,操作中的注意事项两部分内容. 一,创建新任务操作步骤: 1.添加新任务 点击任务列表右 ...

  9. webbrowser 百度列表点击_前嗅ForeSpider采集教程:关键词的「检索列表」采集「检索结果」...

    以百度搜索关键词(http://www.baidu.com)为例: 一. 网站结构 网站截图说明 使用批量关键词,从百度检索列表依次进入检索结果页,采集结果页里的正文数据. 检索列表页 检索结果页 2 ...

最新文章

  1. aryson ms sql_数据治理:SQL数据清洗十八般武艺
  2. sql和mysql一起,SQL连接和MySQL
  3. Youtube推荐系统是如何挖掘用户内心另一面的
  4. osg-3D世界到屏幕
  5. mysql安装图解_MySQL安装图解
  6. alientek ministm32液晶显示程序_佳显12864中文字库液晶专业生产液晶显示模块
  7. 中专计算机专业学c语言吗,中专计算机专业学什么 有哪些课程
  8. markdown编辑器语法——字体、字号与颜色
  9. 【华为云技术分享】ARM体系结构基础(3)
  10. 路由器与交换机的区别【知识普及】
  11. 那么多编程语言,为什么要选择C++?
  12. memcached(五)--源码分析,启动
  13. 什么是setup.py?
  14. vivado下载bit和ltx失败
  15. crmeb重新安装_CRMEB
  16. tkmybatis 子查询_最全的真假童子命查询方法!不想被忽悠就看看
  17. [USACO Hol10] 政党
  18. 修改计算机配置参数,男子买二手电脑重装系统后才知参数被修改
  19. Qt中textEdit文本编辑区设置滚动条自动向下滑落
  20. 启动tomcat闪退如何获取报错信息

热门文章

  1. Failed to find Platform SDK with path: platforms;android-28
  2. 过完这个元宵节 记得换一种方式陪伴你爱的人
  3. 计算机如何安装cpu风扇,cpu风扇怎么装(台式电脑安装步骤图)
  4. 计算机建筑绘图在线考试如何完成,2017年CAD绘图员考试操作题
  5. 前缀表达式与后缀表达式
  6. jsp SpringMVC 前台页面集成Markdown编辑器及在页面上实现文档编辑保存预下载
  7. 网上花店销售系统(附源码+课件+讲解+资料+数据库)
  8. ICCV-2021:APR
  9. 程序员电脑的心声:我想休息!
  10. spring mvc项目中,在jsp页面中输入中文时,提交到student.jsp页面后,结果显示中文乱码