2019独角兽企业重金招聘Python工程师标准>>>

以美团为例,通过关键词搜索后的结果列表,由列表进入正文页采集正文数据:

第一步:新建任务

①点击左上角“加号”新建任务,如图1:

【图1】

②在弹窗里填写采集地址,任务名称,如图2:

【图2】

③点击下一步,选择进行数据抽取还是链接抽取,首先当前检索结果列表链接,所以点击抽取链接,选择链接抽取,如图3:

【图3】

④完成后模板抽取配置列表有两个个模板,默认模板和新建模板,模板一的默认链接抽取已与模板二关联,如图4:

【图4】 第二步:通过地址过滤,得到所需的链接。

①点击采集预览,在采集预览中有于目标链接相似的其他链接,可通过地址过滤得到列表链接。找到所需要的列表链接,右击复制链接,“https://www.meituan.com/meishi/+数字+/ ”如图5所示。

【图5】

②勾选地址过滤,过滤规则选择包含,将复制的目标地址粘入,使用过滤串“\d”得到列表链接,如图6所示。

过滤串规则说明:\d 表示一串(个)数字

【图6】

③点击采集预览确认链接是否过滤完全,如图7

【图7】

第三步:填写模板二示例地址并新建数据抽取

①将模板一过滤得到的任意一条链接,作为模板二的示例地址 见图8:

【图8】

②新建数据抽取

方法一:通过点击“下一步”后勾选抽取数据,再次点击“下一步”得到数据抽取。

方法二:直接点击模板二,点击上面“新建数据抽取”按钮,得到数据抽取,如图9:

【图9】

第四步:创建/选择表单

在ForeSpider爬虫中,表单是可以复用的,所以可以在数据表单出直接选择之前建过的表单,也可以通过表单ID来进行查找并关联数据表单。此处使用的方法三。

方法一:通过下拉菜单或表单ID选择已有表单

方法二:点击创建表单进入快速建表页面,新建表单。

方法三:点击“采集配置”-“数据建表”,点击采“采集表单”后面的如图10:

【图10】

第五步:配置表单

根据所需内容,配置表单字段(即表头),此处配置了网页主键、标题、联系方式、联系地址共4个字段,表单如图11:

【图11】

第六步:字段取值

① 先关联表单,如图12所示。

【图12】

② 字段取值是在数据模板位置写脚本,来给对应字段赋值,如图13所示。

【图13】

代码如下: var str=DOM.GetSource().ToStr().Middle(""detailInfo":",","photos""); //获取网页源码包含数据部分内容 jScript js; var obj=js.RunJson(str); //生成json对象 record re; re.id=MD5(URL.urlname);//给主键字段生成唯一标识 re.tit=obj.name; //标题名称 re.addr=obj.address; //店铺地址 re.tel=obj.phone; //店铺电话 RESULT.AddRec(re,TMPL.fstdoc.schemaid); //将所有的字段放入结果集

第七步:模板预览

①鼠标右键点击“数据抽取”,然后点击“模板预览”,如图14所示。

【图14】

②预览结果,如图15所示。

【图15】

第八步:采集预览

①点击右上角采集预览,如图16所示。

【图16】

②双击任意一条链接,看看是否可以得到和网页对应的规整的数据,如图17所示。

【图17】

【图18】

转载于:https://my.oschina.net/forespider/blog/3005535

前嗅ForeSpider教程:采集美团网相关推荐

  1. 前嗅ForeSpider教程:创建模板

    今天,小编为大家带来的教程是:如何在前嗅ForeSpider中创建模板.主要内容有:模板的概念,模板的配置方式,模板的高级选项,具体内容如下: 一,模板的概念 模板列表的层级相当于网页跳转的层级.模板 ...

  2. 前嗅ForeSpider教程:数据建表

    今天,小编为大家带来的教程是:如何在前嗅ForeSpider中,进行数据建表操作及各注意事项.主要内容包括:快速建表,自由建表,字段参数,数据表的创建,关联与删除,以及表单变更后的配置修改. 一,如何 ...

  3. 前嗅ForeSpider教程:配置关键词

    对于通过关键词,在网页的搜索栏检索的情况,可以在软件中,通过配置关键词实现.那么,今天小编来为大家介绍:如何在前嗅ForeSpider中,配置关键词. 一,关键词配置的步骤 第一步:打开关键词采集设置 ...

  4. 前嗅ForeSpider教程:IP代理设置

    今天,小编主要为大家介绍一下:前嗅ForeSpider中的IP代理设置,主要内容包括:启用IP代理,静态代理设置,动态代理设置,这三大部分.具体内容如下: 一,启用IP代理 启用IP代理采集时,需要进 ...

  5. 前嗅ForeSpider教程:验证码设置

    当我们遇到某些网站,采集每一条数据都需要输入一条验证码时,就用到了验证码设置.今天,小编为大家详细介绍一下:前嗅ForeSpider中的验证码设置.具体操作如下: 当采集某些网站的数据时,每一条数据都 ...

  6. 前嗅ForeSpider教程:采集图片/视频/资源文件的链接地址

    昨天为大家介绍了如何采集图片/视频/资源文件后,有小伙伴问我如何采集他们的链接地址,今天小编就为大家演示如何采集图片/视频/资源文件的链接地址,操作如下: 第一步:新建任务 ①点击左上角"加 ...

  7. 前嗅ForeSpider教程:采集图片/视频/资源文件的链接地址 1

    2019独角兽企业重金招聘Python工程师标准>>> 以昵图网的美食海报为例,采集所有图片图片: 第一步:新建任务 ①点击左上角"加号"新建任务,如图1: [图 ...

  8. java 58同城 抓取_前嗅ForeSpider教程:采集58同城

    以58同城·便当为例,通过社保医疗链接到文章列表,由列表进入文章页采集正文数据: 第一步:新建任务 ①点击左上角"加号"新建任务,如图1: [图1] ②在弹窗里填写采集地址,任务名 ...

  9. 前嗅ForeSpider教程:采集360问答

    今天,小编来教大家如何采集论坛自媒体类网站的数据,以采集360问答为例,为大家进行演示操作,该操作同样适用于其他类似网站: 第一步:新建任务 ①点击左上角"加号"新建任务,如图1: ...

最新文章

  1. python如何读写文件-Python读写文件
  2. 【数理知识】《矩阵论》方保镕老师-第3章-矩阵的分解
  3. IT界含金量高的认证考试
  4. C#与.NET程序员面试宝典 1.3 投递简历
  5. testflight开发者已将您从测试计划中移除_使用 TestFlight 测?试 App
  6. 最大熵学习笔记(三)最大熵模型
  7. SpringBoot + Mybatis/JPA
  8. Java电商项目,秒杀,抢购等高并发场景的具体场景和一些概念以及处理思路
  9. linux版flash下载工具,Linux系统下安装Flash浏览器插件的方法
  10. 带隙基准电压-Bandgap详细介绍
  11. 树莓派4b安装Android TV 10
  12. HTML渐变背景不重复,在身体上设置的CSS3渐变背景不会拉伸,而是重复?
  13. 9. 成功解决:Driver class ‘org.gjt.mm.mysql.Driver‘ could not be found
  14. leetcode-拓扑排序
  15. 银河麒麟下安装ftp服务
  16. 明明安装了模块/包,Python提示无包/模块/报错
  17. flink理论干货笔记(6)
  18. 无心剑英译吴飞《经纬之歌》(泸州职业技术学院形象宣传歌曲)
  19. ker矩阵是什么意思_矩阵分析(一):空间变换与基变换
  20. Chrome 用户数据配置文件夹保存路径在哪?(Mac OS X/Windows/Linux)

热门文章

  1. python descriptor 详解(全干货)
  2. nin神经网络_深度学习基础(三)NIN_Network In Network
  3. Fedora17亮度调节,双显卡用户切换,无线网卡
  4. 牙科用丙烯酸树脂市场现状及未来发展趋势
  5. 植物大战僵尸之CE工具进阶版1
  6. python 海象运算符,海象操作符(:=)
  7. 你为什么累成狗了还这么穷?
  8. 柏林交响大键琴音源Orchestral Tools Berlin Harpsichords Kontakt
  9. 开了一个网站的会员,需要下载电子书的留言即可,免费帮下载
  10. redis保存登录用户信息