前嗅教你大数据:采集金融界论坛数据
采集网站
【场景描述】采集金融界论坛数据。
【源网站介绍】金融界社区外汇论坛提供全面及时的外汇资讯及信息交流,时刻准确把握本外币信息及央行动态。
【使用工具】前嗅ForeSpider数据采集系统,免费下载:
http://www.forenose.com/view/forespider/view/download.html
采集网站
【入口网址】http://bbs.jrj.com.cn/905
【采集内容】
采集金融界论坛中的帖子信息。
【采集效果】如下图所示:
思路分析
配置思路概览:
配置步骤
1. 新建采集任务
选择【采集配置】,点击任务列表右上方【+】号可新建采集任务,将采集入口地址填写在【采集地址】框中,【任务名称】自定义即可,点击下一步。
2.获取翻页链接
①选择链接抽取,采集预览,找到翻页链接,观察翻页链接中都包含【
http://bbs.jrj.com.cn/forex,】,使用地址抽取的方法,抽取地址中包含该规律的链接。如下图所示:
②关联模板,将翻页链接抽取,关联模板01。
3. 抽取帖子链接
①在模板1下新建一个数据抽取,具体操作如下所示:
②采集预览,观察帖子链接的规律,发现帖子链接中都包含【http://bbs.jrj.com.cn/msg】,使用地址抽取的方法,抽取地址中包含该规律的链接。如下图所示:
4. 抽取帖子数据
①新建模板02,在模板02下新建一个数据抽取,具体操作如下所示:
将模板01下的帖子链接抽取,关联模板02.
②数据建表,按照下图所示建数据表。(注意字段属性等应严格按照下图进行设置)
③将新建好的数据表,关联到模板中去,如下图所示:
④填写示例地址
采集预览,复制任意一条帖子链接,并填写在模板02的示例地址处:
⑤使用定位取值的方法抽取数据:
Title字段:
author字段:
Pubtime字段:
Num字段:
Text字段:
⑥采集预览
采集步骤
模板配置完成,采集预览没有问题后,可以进行数据采集。
①建立数据表单:
选择【数据建表】,点击【表单列表】中该模板的表单,在【关联数据表】中选择【创建】,表名称自定义,这里命名为【jinrong】(注意命名不能用数字和特殊符号),点击【确定】。创建完成,勾选数据表,并点击右上角保存按钮。
②开始采集
选择【数据采集】,勾选任务名称,点击【开始采集】,则正式开始采集。
③导出数据
④导出的文件打开如下图所示:
*本教程仅供教学使用,严禁用于商业用途!
前嗅简介
前嗅大数据,国内领先的研发型大数据专家,多年来致力于为大数据技术的研究与开发,自主研发了一整套从数据采集、分析、处理、管理到应用、营销的大数据产品。前嗅致力于打造国内第一家深度大数据平台!
前嗅教你大数据:采集金融界论坛数据相关推荐
- spi的dma方式前四个字节_前嗅教你大数据:常见几种编码介绍
为什么要编码? 大家可以先思考个问题: 计算机是如何表示我们人类能够理解的符号的,也就是我们人类使用的语言. 人类的语言有太多了,因而表示这些语言的符号太多. 我们无法用计算机中一个基本的存储单元-- ...
- 前嗅教你大数据:批量采集/下载网页中的图片数据
l 采集网站 [场景描述]采集revisionvillage网页中所有真题图片的数据. [源网站介绍]revisionvillage,国外知名IB真题网站,每道题都有视频讲解的IB数学刷题网站. [使 ...
- 前嗅教你大数据:采集东方财富网数据
l 采集场景 [场景描述]采集东方财富网行情中心沪深京A股数据. [使用工具]前嗅ForeSpider数据采集系统,免费下载: ForeSpider免费版本下载地址 l采集网站 [入口网址] htt ...
- 前嗅教你大数据:采集孔夫子旧书网
l 采集网站 [场景描述]采集孔夫子旧书网数据. [源网站介绍]孔夫子旧书网是国内专业的古旧书交易平台,汇集全国各地13000家网上书店,50000家书摊,展示多达9000万种书籍:大量极具收藏价值的 ...
- 前嗅教你大数据:采集带有翻页结构的网页数据
置顶 "前嗅大数据" 和数据大牛一起成长,做牛气哄哄的大数据人 [场景描述]采集带有翻页的网页中的数据. [使用工具]前嗅ForeSpider数据采集系统,免费下载: ForeSp ...
- python discuz_用python爬虫采集discuz论坛数据
2019年课程规划及价格说明 PHP实战视频教程大全 打算做一个论坛,可是论坛数据量大如果全靠自己手动发布工作了就太大了 所以就想用python写一个入门级的爬虫,其实爬虫写好了才发现,写爬虫采集数据 ...
- 采集数据用云服务器与公司网站,网络爬虫软件,企业版,大企业,采集内网数据,私有云部署-集搜客GooSeeker...
爬虫路线规划能力 集搜客GooSeeker网络爬虫沿着线索扩展爬行范围,而且不限广度和深度.免费在线版用户在MS谋数台的爬虫路线工作台上规划爬虫路线,主要能力就是:从抓取到的网址上建立下一级线索,这是 ...
- “从A到I”智慧数据中心上海论坛
随着信息技术的快速发展,以及云计算.大数据.人工智能等新兴产业所带来的创新浪潮,数据中心作为互联网基础设施正在面临着全新的变革.在这场浴火重生般的变革中,数据中心不仅要实现自我升级,而且要支撑更多传统 ...
- 前嗅ForeSpider教程:数据建表
今天,小编为大家带来的教程是:如何在前嗅ForeSpider中,进行数据建表操作及各注意事项.主要内容包括:快速建表,自由建表,字段参数,数据表的创建,关联与删除,以及表单变更后的配置修改. 一,如何 ...
- 2021-08-01 大数据岗位入职系列 前传:转战大数据
大数据岗位入职系列 前传:转战大数据 大家好,我是赵大锅. 近些年来大数据.云计算技术在全球都比较火热,随着移动互联网的迅猛发展,智能设备越来越先进,4G/5G网络的覆盖,全球网民人数急剧增加,人们购 ...
最新文章
- string 日期比较_java8-新的日期API
- [云炬创业基础笔记]第七张创业资源测试11
- SAP CRM enterprise search index调试细节
- custom的短语_custom是什么意思中文翻译
- 索贝非编改bug定位
- HBase简介、搭建环境及安装部署
- 在Ubuntu中安装pycharm社区版
- RAID磁盘阵列总结
- 我们为什么教不好自己的孩子?(云中逸客)
- 编译原理c++基于LR分析表编写语法分析器
- 洛谷 P1413 坚果保龄球
- 谷歌tts android手机自带引擎,自动下载android TTS引擎
- Linux下的终端中用shell命令打开文件夹窗口
- JAVA Scanner 类用法小结
- 【Docker】Docker进阶(二)
- Linux Shell 基础语法 流程控制 逻辑运算 字符串操作详细解析
- JavaScript中方法或者变量名称前加下划线的是什么意思?
- 企业微信机器人发送消息
- item_review - 获得商品评论(shopee虾皮)
- vb.net 教程 3-10 窗体编程 datagridview控件 1 初步