采集网站

【场景描述】采集金融界论坛数据。

【源网站介绍】金融界社区外汇论坛提供全面及时的外汇资讯及信息交流,时刻准确把握本外币信息及央行动态。

【使用工具】前嗅ForeSpider数据采集系统,免费下载:

http://www.forenose.com/view/forespider/view/download.html

采集网站

【入口网址】http://bbs.jrj.com.cn/905

【采集内容】

采集金融界论坛中的帖子信息。

【采集效果】如下图所示:

思路分析

配置思路概览:

配置步骤

1. 新建采集任务

选择【采集配置】,点击任务列表右上方【+】号可新建采集任务,将采集入口地址填写在【采集地址】框中,【任务名称】自定义即可,点击下一步。

2.获取翻页链接

①选择链接抽取,采集预览,找到翻页链接,观察翻页链接中都包含【
http://bbs.jrj.com.cn/forex,】,使用地址抽取的方法,抽取地址中包含该规律的链接。如下图所示:

②关联模板,将翻页链接抽取,关联模板01。

3. 抽取帖子链接

①在模板1下新建一个数据抽取,具体操作如下所示:

②采集预览,观察帖子链接的规律,发现帖子链接中都包含【http://bbs.jrj.com.cn/msg】,使用地址抽取的方法,抽取地址中包含该规律的链接。如下图所示:

4. 抽取帖子数据

①新建模板02,在模板02下新建一个数据抽取,具体操作如下所示:

将模板01下的帖子链接抽取,关联模板02.

②数据建表,按照下图所示建数据表。(注意字段属性等应严格按照下图进行设置)

③将新建好的数据表,关联到模板中去,如下图所示:

④填写示例地址

采集预览,复制任意一条帖子链接,并填写在模板02的示例地址处:

⑤使用定位取值的方法抽取数据:

Title字段:

author字段:

Pubtime字段:

Num字段:

Text字段:

⑥采集预览

采集步骤

模板配置完成,采集预览没有问题后,可以进行数据采集。

①建立数据表单:

选择【数据建表】,点击【表单列表】中该模板的表单,在【关联数据表】中选择【创建】,表名称自定义,这里命名为【jinrong】(注意命名不能用数字和特殊符号),点击【确定】。创建完成,勾选数据表,并点击右上角保存按钮。

②开始采集

选择【数据采集】,勾选任务名称,点击【开始采集】,则正式开始采集。

③导出数据

④导出的文件打开如下图所示:

*本教程仅供教学使用,严禁用于商业用途!

前嗅简介

前嗅大数据,国内领先的研发型大数据专家,多年来致力于为大数据技术的研究与开发,自主研发了一整套从数据采集、分析、处理、管理到应用、营销的大数据产品。前嗅致力于打造国内第一家深度大数据平台!

前嗅教你大数据:采集金融界论坛数据相关推荐

  1. spi的dma方式前四个字节_前嗅教你大数据:常见几种编码介绍

    为什么要编码? 大家可以先思考个问题: 计算机是如何表示我们人类能够理解的符号的,也就是我们人类使用的语言. 人类的语言有太多了,因而表示这些语言的符号太多. 我们无法用计算机中一个基本的存储单元-- ...

  2. 前嗅教你大数据:批量采集/下载网页中的图片数据

    l 采集网站 [场景描述]采集revisionvillage网页中所有真题图片的数据. [源网站介绍]revisionvillage,国外知名IB真题网站,每道题都有视频讲解的IB数学刷题网站. [使 ...

  3. 前嗅教你大数据:采集东方财富网数据

     l 采集场景 [场景描述]采集东方财富网行情中心沪深京A股数据. [使用工具]前嗅ForeSpider数据采集系统,免费下载: ForeSpider免费版本下载地址 l采集网站 [入口网址] htt ...

  4. 前嗅教你大数据:采集孔夫子旧书网

    l 采集网站 [场景描述]采集孔夫子旧书网数据. [源网站介绍]孔夫子旧书网是国内专业的古旧书交易平台,汇集全国各地13000家网上书店,50000家书摊,展示多达9000万种书籍:大量极具收藏价值的 ...

  5. 前嗅教你大数据:采集带有翻页结构的网页数据

    置顶 "前嗅大数据" 和数据大牛一起成长,做牛气哄哄的大数据人 [场景描述]采集带有翻页的网页中的数据. [使用工具]前嗅ForeSpider数据采集系统,免费下载: ForeSp ...

  6. python discuz_用python爬虫采集discuz论坛数据

    2019年课程规划及价格说明 PHP实战视频教程大全 打算做一个论坛,可是论坛数据量大如果全靠自己手动发布工作了就太大了 所以就想用python写一个入门级的爬虫,其实爬虫写好了才发现,写爬虫采集数据 ...

  7. 采集数据用云服务器与公司网站,网络爬虫软件,企业版,大企业,采集内网数据,私有云部署-集搜客GooSeeker...

    爬虫路线规划能力 集搜客GooSeeker网络爬虫沿着线索扩展爬行范围,而且不限广度和深度.免费在线版用户在MS谋数台的爬虫路线工作台上规划爬虫路线,主要能力就是:从抓取到的网址上建立下一级线索,这是 ...

  8. “从A到I”智慧数据中心上海论坛

    随着信息技术的快速发展,以及云计算.大数据.人工智能等新兴产业所带来的创新浪潮,数据中心作为互联网基础设施正在面临着全新的变革.在这场浴火重生般的变革中,数据中心不仅要实现自我升级,而且要支撑更多传统 ...

  9. 前嗅ForeSpider教程:数据建表

    今天,小编为大家带来的教程是:如何在前嗅ForeSpider中,进行数据建表操作及各注意事项.主要内容包括:快速建表,自由建表,字段参数,数据表的创建,关联与删除,以及表单变更后的配置修改. 一,如何 ...

  10. 2021-08-01 大数据岗位入职系列 前传:转战大数据

    大数据岗位入职系列 前传:转战大数据 大家好,我是赵大锅. 近些年来大数据.云计算技术在全球都比较火热,随着移动互联网的迅猛发展,智能设备越来越先进,4G/5G网络的覆盖,全球网民人数急剧增加,人们购 ...

最新文章

  1. string 日期比较_java8-新的日期API
  2. [云炬创业基础笔记]第七张创业资源测试11
  3. SAP CRM enterprise search index调试细节
  4. custom的短语_custom是什么意思中文翻译
  5. 索贝非编改bug定位
  6. HBase简介、搭建环境及安装部署
  7. 在Ubuntu中安装pycharm社区版
  8. RAID磁盘阵列总结
  9. 我们为什么教不好自己的孩子?(云中逸客)
  10. 编译原理c++基于LR分析表编写语法分析器
  11. 洛谷 P1413 坚果保龄球
  12. 谷歌tts android手机自带引擎,自动下载android TTS引擎
  13. Linux下的终端中用shell命令打开文件夹窗口
  14. JAVA Scanner 类用法小结
  15. 【Docker】Docker进阶(二)
  16. Linux Shell 基础语法 流程控制 逻辑运算 字符串操作详细解析
  17. JavaScript中方法或者变量名称前加下划线的是什么意思?
  18. 企业微信机器人发送消息
  19. item_review - 获得商品评论(shopee虾皮)
  20. vb.net 教程 3-10 窗体编程 datagridview控件 1 初步

热门文章

  1. 服务器amd cpu性能排行,2018年PC处理器性能排行:英特尔9代酷睿被AMD反超!
  2. 机械动力学瑞利法matlab程序,机器人学回炉重造(4):动力学仿真(附牛顿-欧拉递归逆动力学算法matlab代码)...
  3. qt项目转Xcode项目(Xcode开发qt)
  4. 通过Chrome实时调试webview
  5. 提交到dockerHub
  6. 用python写一个专属字典生成器
  7. MeshBaker优化原理
  8. Mac共享主机网络给虚拟机
  9. Only the Paranoid Survive
  10. 这 IDEA超全个性化设置,实用,属实装逼!