前嗅ForeSpider教程:采集美团网
2019独角兽企业重金招聘Python工程师标准>>>
以美团为例,通过关键词搜索后的结果列表,由列表进入正文页采集正文数据:
第一步:新建任务
①点击左上角“加号”新建任务,如图1:
【图1】
②在弹窗里填写采集地址,任务名称,如图2:
【图2】
③点击下一步,选择进行数据抽取还是链接抽取,首先当前检索结果列表链接,所以点击抽取链接,选择链接抽取,如图3:
【图3】
④完成后模板抽取配置列表有两个个模板,默认模板和新建模板,模板一的默认链接抽取已与模板二关联,如图4:
【图4】 第二步:通过地址过滤,得到所需的链接。
①点击采集预览,在采集预览中有于目标链接相似的其他链接,可通过地址过滤得到列表链接。找到所需要的列表链接,右击复制链接,“https://www.meituan.com/meishi/+数字+/ ”如图5所示。
【图5】
②勾选地址过滤,过滤规则选择包含,将复制的目标地址粘入,使用过滤串“\d”得到列表链接,如图6所示。
过滤串规则说明:\d 表示一串(个)数字
【图6】
③点击采集预览确认链接是否过滤完全,如图7
【图7】
第三步:填写模板二示例地址并新建数据抽取
①将模板一过滤得到的任意一条链接,作为模板二的示例地址 见图8:
【图8】
②新建数据抽取
方法一:通过点击“下一步”后勾选抽取数据,再次点击“下一步”得到数据抽取。
方法二:直接点击模板二,点击上面“新建数据抽取”按钮,得到数据抽取,如图9:
【图9】
第四步:创建/选择表单
在ForeSpider爬虫中,表单是可以复用的,所以可以在数据表单出直接选择之前建过的表单,也可以通过表单ID来进行查找并关联数据表单。此处使用的方法三。
方法一:通过下拉菜单或表单ID选择已有表单
方法二:点击创建表单进入快速建表页面,新建表单。
方法三:点击“采集配置”-“数据建表”,点击采“采集表单”后面的如图10:
【图10】
第五步:配置表单
根据所需内容,配置表单字段(即表头),此处配置了网页主键、标题、联系方式、联系地址共4个字段,表单如图11:
【图11】
第六步:字段取值
① 先关联表单,如图12所示。
【图12】
② 字段取值是在数据模板位置写脚本,来给对应字段赋值,如图13所示。
【图13】
代码如下: var str=DOM.GetSource().ToStr().Middle(""detailInfo":",","photos""); //获取网页源码包含数据部分内容 jScript js; var obj=js.RunJson(str); //生成json对象 record re; re.id=MD5(URL.urlname);//给主键字段生成唯一标识 re.tit=obj.name; //标题名称 re.addr=obj.address; //店铺地址 re.tel=obj.phone; //店铺电话 RESULT.AddRec(re,TMPL.fstdoc.schemaid); //将所有的字段放入结果集
第七步:模板预览
①鼠标右键点击“数据抽取”,然后点击“模板预览”,如图14所示。
【图14】
②预览结果,如图15所示。
【图15】
第八步:采集预览
①点击右上角采集预览,如图16所示。
【图16】
②双击任意一条链接,看看是否可以得到和网页对应的规整的数据,如图17所示。
【图17】
【图18】
转载于:https://my.oschina.net/forespider/blog/3005535
前嗅ForeSpider教程:采集美团网相关推荐
- 前嗅ForeSpider教程:创建模板
今天,小编为大家带来的教程是:如何在前嗅ForeSpider中创建模板.主要内容有:模板的概念,模板的配置方式,模板的高级选项,具体内容如下: 一,模板的概念 模板列表的层级相当于网页跳转的层级.模板 ...
- 前嗅ForeSpider教程:数据建表
今天,小编为大家带来的教程是:如何在前嗅ForeSpider中,进行数据建表操作及各注意事项.主要内容包括:快速建表,自由建表,字段参数,数据表的创建,关联与删除,以及表单变更后的配置修改. 一,如何 ...
- 前嗅ForeSpider教程:配置关键词
对于通过关键词,在网页的搜索栏检索的情况,可以在软件中,通过配置关键词实现.那么,今天小编来为大家介绍:如何在前嗅ForeSpider中,配置关键词. 一,关键词配置的步骤 第一步:打开关键词采集设置 ...
- 前嗅ForeSpider教程:IP代理设置
今天,小编主要为大家介绍一下:前嗅ForeSpider中的IP代理设置,主要内容包括:启用IP代理,静态代理设置,动态代理设置,这三大部分.具体内容如下: 一,启用IP代理 启用IP代理采集时,需要进 ...
- 前嗅ForeSpider教程:验证码设置
当我们遇到某些网站,采集每一条数据都需要输入一条验证码时,就用到了验证码设置.今天,小编为大家详细介绍一下:前嗅ForeSpider中的验证码设置.具体操作如下: 当采集某些网站的数据时,每一条数据都 ...
- 前嗅ForeSpider教程:采集图片/视频/资源文件的链接地址
昨天为大家介绍了如何采集图片/视频/资源文件后,有小伙伴问我如何采集他们的链接地址,今天小编就为大家演示如何采集图片/视频/资源文件的链接地址,操作如下: 第一步:新建任务 ①点击左上角"加 ...
- 前嗅ForeSpider教程:采集图片/视频/资源文件的链接地址 1
2019独角兽企业重金招聘Python工程师标准>>> 以昵图网的美食海报为例,采集所有图片图片: 第一步:新建任务 ①点击左上角"加号"新建任务,如图1: [图 ...
- java 58同城 抓取_前嗅ForeSpider教程:采集58同城
以58同城·便当为例,通过社保医疗链接到文章列表,由列表进入文章页采集正文数据: 第一步:新建任务 ①点击左上角"加号"新建任务,如图1: [图1] ②在弹窗里填写采集地址,任务名 ...
- 前嗅ForeSpider教程:采集360问答
今天,小编来教大家如何采集论坛自媒体类网站的数据,以采集360问答为例,为大家进行演示操作,该操作同样适用于其他类似网站: 第一步:新建任务 ①点击左上角"加号"新建任务,如图1: ...
最新文章
- python如何读写文件-Python读写文件
- 【数理知识】《矩阵论》方保镕老师-第3章-矩阵的分解
- IT界含金量高的认证考试
- C#与.NET程序员面试宝典 1.3 投递简历
- testflight开发者已将您从测试计划中移除_使用 TestFlight 测?试 App
- 最大熵学习笔记(三)最大熵模型
- SpringBoot + Mybatis/JPA
- Java电商项目,秒杀,抢购等高并发场景的具体场景和一些概念以及处理思路
- linux版flash下载工具,Linux系统下安装Flash浏览器插件的方法
- 带隙基准电压-Bandgap详细介绍
- 树莓派4b安装Android TV 10
- HTML渐变背景不重复,在身体上设置的CSS3渐变背景不会拉伸,而是重复?
- 9. 成功解决:Driver class ‘org.gjt.mm.mysql.Driver‘ could not be found
- leetcode-拓扑排序
- 银河麒麟下安装ftp服务
- 明明安装了模块/包,Python提示无包/模块/报错
- flink理论干货笔记(6)
- 无心剑英译吴飞《经纬之歌》(泸州职业技术学院形象宣传歌曲)
- ker矩阵是什么意思_矩阵分析(一):空间变换与基变换
- Chrome 用户数据配置文件夹保存路径在哪?(Mac OS X/Windows/Linux)