java 58同城 抓取_前嗅ForeSpider教程:采集58同城
以58同城·便当为例,通过社保医疗链接到文章列表,由列表进入文章页采集正文数据:
第一步:新建任务
①点击左上角“加号”新建任务,如图1:
【图1】
②在弹窗里填写采集地址,任务名称,如图2:
【图2】
③点击下一步,选择进行数据抽取还是链接抽取,首先采集58同城·便当分类下的分类列表的链接,所以点击抽取链接,如图3:
【图3】
④完成后模板抽取配置列表有一个模板,默认模板,如图4:
【图4】
第二步:创建链接抽取,通过定位过滤得到所需链接
①直接点击“默认模板:01”,点击上面“新建链接抽取”按钮,得到链接抽取,如图5。
【图5】
②按住Ctrl+鼠标左键,进行区域选择,按住Shift+鼠标左键,扩大选择区域,点击“确认选区”按钮,如图6:
【图6】
③点击采集预览确认链接是否过滤完全,如图7:
【图7】
第三步:创建新模板,并添加链接抽取
①在模板配置,点击“新建模板”按钮,得到新建模板,如图8。
【图8】
②将模板一过滤得到的任意一条链接,作为模板二的示例地址, 见图9:
【图9】
③新建数据抽取。直接点击模板二,点击上面“新建数据抽取”按钮,得到数据抽取,如图10。
【图10】
④关联模板
在软件中模板的关联关系,与网页中链接跳转的关系相同。 根据网页跳转规律,将模板一的“新建链接抽取”关联模板二,如图11
【图11】
第四步:通过定位过滤得到文章列表所需链接
①按住Ctrl+鼠标左键,进行区域选择,按住Shift+鼠标左键,扩大选择区域,点击“确认选区”按钮,如图12:
【图12】
②鼠标右键点击模板二,模板预览,如图13:
【图13】
③确认链接是否过滤完全,如图14:
【图14】
第五步:创建新的模板,并新建数据抽取
①在模板配置,点击“新建模板”按钮,得到新建模板,重命名为正文数据模板,如图15。
【图15】
②新建数据抽取。直接点击模板二,点击上面“新建数据抽取”按钮,得到数据抽取,如图16。
【图16】
③将模板一过滤得到的任意一条链接,作为模板二的示例地址, 见图17:
【图17】
④关联模板
在软件中模板的关联关系,与网页中链接跳转的关系相同。 根据网页跳转规律,将模板二“新建链接抽取”关联模板三,如图18。
【图18】
第六步:创建/选择表单
在ForeSpider爬虫中,表单是可以复用的,所以可以在数据表单出直接选择之前建过的表单,也可以通过表单ID来进行查找并关联数据表单。此处使用的是方法三。
方法一:通过下拉菜单或表单ID选择已有表单
方法二:点击创建表单进入快速建表页面,新建表单。
方法三:点击“采集配置”-“数据建表”,点击采“采集表单”后面的添加按钮,如图19:
【图19】
第七步:配置表单
根据所需内容,配置表单字段(即表头),此处配置了包括网页主键、文章标题、访问量、发布时间、文本内容5个字段,表单如图20:
【图20】
第八步:字段取值
取值方法:按住Ctrl+鼠标左键,进行区域选择,按住Shift+鼠标左键,扩大选择区域。点击:“确认选区”按钮,确认操作
tit、read_num、pub_date、text字段,如图21:
【图21】
第九步:模板预览
①鼠标右键点击模板三,然后点击“模板预览”,如图22:
【图22】
②预览结果如图23:
【图23】
第十步:采集预览
①点击右上角采集预览,如图24:
【图24】
②双击任意一条链接,看看是否可以得到和网页对应的规整的数据,如图25、26:
【图25】
【图26】
java 58同城 抓取_前嗅ForeSpider教程:采集58同城相关推荐
- url获取网站信息不包含网页源文件内的标签_前嗅ForeSpider链接抽取应用场景及链接在源码的html标签里写脚本...
今天,小编给大家带来的教程为:前嗅ForeSpider脚本教程中,链接抽取的应用场景,以及链接在源码的html标签里写脚本的实战教程.具体内容如下: 一.应用场景 当需要手动添加链接时,可添加链接脚本 ...
- 前嗅ForeSpider教程:数据建表
今天,小编为大家带来的教程是:如何在前嗅ForeSpider中,进行数据建表操作及各注意事项.主要内容包括:快速建表,自由建表,字段参数,数据表的创建,关联与删除,以及表单变更后的配置修改. 一,如何 ...
- 前嗅ForeSpider教程:创建模板
今天,小编为大家带来的教程是:如何在前嗅ForeSpider中创建模板.主要内容有:模板的概念,模板的配置方式,模板的高级选项,具体内容如下: 一,模板的概念 模板列表的层级相当于网页跳转的层级.模板 ...
- 前嗅ForeSpider教程:配置关键词
对于通过关键词,在网页的搜索栏检索的情况,可以在软件中,通过配置关键词实现.那么,今天小编来为大家介绍:如何在前嗅ForeSpider中,配置关键词. 一,关键词配置的步骤 第一步:打开关键词采集设置 ...
- 前嗅ForeSpider教程:验证码设置
当我们遇到某些网站,采集每一条数据都需要输入一条验证码时,就用到了验证码设置.今天,小编为大家详细介绍一下:前嗅ForeSpider中的验证码设置.具体操作如下: 当采集某些网站的数据时,每一条数据都 ...
- 前嗅ForeSpider教程:IP代理设置
今天,小编主要为大家介绍一下:前嗅ForeSpider中的IP代理设置,主要内容包括:启用IP代理,静态代理设置,动态代理设置,这三大部分.具体内容如下: 一,启用IP代理 启用IP代理采集时,需要进 ...
- 前嗅ForeSpider教程:如何创建新任务
从今天起,小编开始教大家逐步进行可视化配置操作.首先,我们来学习第一步:创建新任务,主要包括创建新任务的操作步骤,操作中的注意事项两部分内容. 一,创建新任务操作步骤: 1.添加新任务 点击任务列表右 ...
- 前嗅ForeSpider教程:如何创建新任务 1
从今天起,小编开始教大家逐步进行可视化配置操作.首先,我们来学习第一步:创建新任务,主要包括创建新任务的操作步骤,操作中的注意事项两部分内容. 一,创建新任务操作步骤: 1.添加新任务 点击任务列表右 ...
- webbrowser 百度列表点击_前嗅ForeSpider采集教程:关键词的「检索列表」采集「检索结果」...
以百度搜索关键词(http://www.baidu.com)为例: 一. 网站结构 网站截图说明 使用批量关键词,从百度检索列表依次进入检索结果页,采集结果页里的正文数据. 检索列表页 检索结果页 2 ...
最新文章
- aryson ms sql_数据治理:SQL数据清洗十八般武艺
- sql和mysql一起,SQL连接和MySQL
- Youtube推荐系统是如何挖掘用户内心另一面的
- osg-3D世界到屏幕
- mysql安装图解_MySQL安装图解
- alientek ministm32液晶显示程序_佳显12864中文字库液晶专业生产液晶显示模块
- 中专计算机专业学c语言吗,中专计算机专业学什么 有哪些课程
- markdown编辑器语法——字体、字号与颜色
- 【华为云技术分享】ARM体系结构基础(3)
- 路由器与交换机的区别【知识普及】
- 那么多编程语言,为什么要选择C++?
- memcached(五)--源码分析,启动
- 什么是setup.py?
- vivado下载bit和ltx失败
- crmeb重新安装_CRMEB
- tkmybatis 子查询_最全的真假童子命查询方法!不想被忽悠就看看
- [USACO Hol10] 政党
- 修改计算机配置参数,男子买二手电脑重装系统后才知参数被修改
- Qt中textEdit文本编辑区设置滚动条自动向下滑落
- 启动tomcat闪退如何获取报错信息
热门文章
- Failed to find Platform SDK with path: platforms;android-28
- 过完这个元宵节 记得换一种方式陪伴你爱的人
- 计算机如何安装cpu风扇,cpu风扇怎么装(台式电脑安装步骤图)
- 计算机建筑绘图在线考试如何完成,2017年CAD绘图员考试操作题
- 前缀表达式与后缀表达式
- jsp SpringMVC 前台页面集成Markdown编辑器及在页面上实现文档编辑保存预下载
- 网上花店销售系统(附源码+课件+讲解+资料+数据库)
- ICCV-2021:APR
- 程序员电脑的心声:我想休息!
- spring mvc项目中,在jsp页面中输入中文时,提交到student.jsp页面后,结果显示中文乱码