数据采集是进行大数据分析的前提也是必要条件,在整个流程中占据重要地位。本文将介绍大数据三种采集形式:系统日志采集法、网络数据采集法以及其他数据采集法。

(一)系统日志采集法

系统日志是记录系统中硬件、软件和系统问题的信息,同时还可以监视系统中发生的事件。用户可以通过它来检查错误发生的原因,或者寻找受到***时***者留下的痕迹。系统日志包括系统日志、应用程序日志和安全日志。(百度百科)大数据平台或者说类似于开源Hadoop平台会产生大量高价值系统日志信息,如何采集成为研究者研究热点。目前基于Hadoop平台开发的Chukwa、Cloudera的Flume以及Facebook的Scribe(李联宁,2016)均可成为是系统日志采集法的典范。目前此类的采集技术大约可以每秒传输数百MB的日志数据信息,满足了目前人们对信息速度的需求。一般而言与我们相关的并不是此类采集法,而是网络数据采集法。

在这里还是要推荐下我自己建的大数据学习交流群:529867072,群里都是学大数据开发的,如果你正在学习大数据 ,小编欢迎你加入,大家都是软件开发党,不定期分享干货(只有大数据软件开发相关的),包括我自己整理的一份最新的大数据进阶资料和高级开发教程,欢迎进阶中和进想深入大数据的小伙伴加入。

(二)网络数据采集法

做自然语言的同学可能对这点感触颇深,除了目前已经存在的公开数据集,用于日常的算法研究外,有时为了满足项目的实际需求,需要对现实网页中的数据进行采集,预处理和保存。目前网络数据采集有两种方法一种是API,另一种是网络爬虫法。

1.API

API又叫应用程序接口,是网站的管理者为了使用者方面,编写的一种程序接口。该类接口可以屏蔽网站底层复杂算法仅仅通过简简单单调用即可实现对数据的请求功能。目前主流的社交媒体平台如新浪微博、百度贴吧以及Facebook等均提供API服务,可以在其官网开放平台上获取相关DEMO。但是API技术毕竟受限于平台开发者,为了减小网站(平台)的负荷,一般平台均会对每天接口调用上限做限制,这给我们带来极大的不便利。为此我们通常采用第二种方式——网络爬虫。

2.网络爬虫

网络爬虫(又被称为网页蜘蛛,网络机器人,在FOFA社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。(百度百科)最常见的爬虫便是我们经常使用的搜索引擎,如百度,360搜索等。此类爬虫统称为通用型爬虫,对于所有的网页进行无条件采集。通用型爬虫具体工作原理见图1。

图1 爬虫工作原理[2]

给予爬虫初始URL,爬虫将网页中所需要提取的资源进行提取并保存,同时提取出网站中存在的其他网站链接,经过发送请求,接收网站响应以及再次解析页面,提取所需资源并保存,再将网页中所需资源进行提取…以此类推,实现过程并不复杂,但是在采集时尤其注意对IP地址,报头的伪造,以免被网管发现禁封IP(我就被封过),禁封IP也就意味着整个采集任务的失败。当然为了满足更多需求,多线程爬虫,主题爬虫也应运而生。多线程爬虫是通过多个线程,同时执行采集任务,一般而言几个线程,数据采集数据就会提升几倍。主题爬虫和通用型爬虫截然相反,通过一定的策略将于主题(采集任务)无关的网页信息过滤,仅仅留下需要的数据。此举可以大幅度减少无关数据导致的数据稀疏问题。

(三)其他采集法

其他采集法是指对于科研院所,企业政府等拥有机密信息,如何保证数据的安全传递?可以采用系统特定端口,进行数据传输任务,从而减少数据被泄露的风险。www.lekaowang.com.cn/yhcy/yhdt/yhbm/

大数据技术之数据采集篇相关推荐

  1. 大数据技术原理与应用 第一篇 大数据基础

    目录 第一章 大数据概述 一. 大数据时代 1.1 三次信息化浪潮 1.2 信息科技发展 1.3 数据产生方式的变革 1.4 大数据的影响 二. 大数据的概念 2.1 大数据的特征 2.2 大数据关键 ...

  2. 大数据、云计算、物联网相关技术概述——《大数据技术原理与应用》课程学习总结

    在学习大数.云计算以及物联网相关概念之前,先了解一下大数据的背景吧 1.1 大数据时代 1.1.1 第三次信息化浪潮 三次信息化浪潮: 信息化浪潮 发生时间 标志 解决问题 代表企业 第一次信息化浪潮 ...

  3. 大数据技术与原理 概述

    大数据概述: 大数据的发展历程: 第一阶段:萌芽期(20世纪90年代至21世纪初) 第二阶段:成熟期(21世纪前十年) 第三阶段:大规模应用期(2010年以后) 大数据的特点(简称4V): 数据量大 ...

  4. 大数据技术原理与应用——第一章 大数据概述

    第一章 大数据概述 1.1 大数据时代 1.1.1 第三次信息化浪潮 信息化浪潮 发生时间 标志 解决的问题 代表企业 第一次浪潮 1980年前后 个人计算机 信息处理 Intel.AMD.IBM.苹 ...

  5. 物联网与大数据技术-2

    物联网与大数据技术(物联网篇) 一.物联网概述 1.物联网定义 2.物联网的三个特点 二.物联网组成 1.体系结构概述 2.体系结构基本组成 三.物联网应用架构 四.物联网的关键技术 五.物联网的反馈 ...

  6. 物联网与大数据技术-3

    物联网与大数据技术(Hadoop篇) 一.Hadoop简介 1.Hadoop介绍 2.Hadoop诞生的关键论文 二.Hadoop发展史 三.Hadoop特点 四.Hadoop结构组成 1.HDFS ...

  7. 大数据技术原理与应用作业一

    大数据技术原理与应用作业一 1.试述信息技术发展史上的3次信息化浪潮及其具体内容. ​ 第一次信息化浪潮发生在1980年前后,具体标志是个人计算机的出现,PC开始普及,使得计算机走入企业和千家万户,大 ...

  8. 大数据技术基础笔记1 大数据概述

    文章目录 1.1 大数据时代 1.2 大数据概念 1.3 大数据的影响 1.4 大数据的应用 1.5 大数据关键技术 1.6 大数据计算模式 1.7 大数据产业 1.8 大数据与云计算.物联网的关系 ...

  9. 大数据技术原理与应用-大数据概述

    文章目录 1 大数据时代 1.1 第三次信息化浪潮 1.2 信息科技为大数据时代提供技术支撑 1.2.1 存储设备容量不断增加 1.2.2 CPU处理能力大幅提升 1.2.3 网络带宽不断增加 1.3 ...

最新文章

  1. 转:js-sdk探索之微信网页分享
  2. 系统无法在消息文件中为application_iOS 14 Filza 文件消息,M1 能用 win 系统
  3. vue项目 一行js代码搞定点击图片放大缩小
  4. Hadoop 系列之 Hive
  5. aix oracle监听配置_Oracle数据库03用户权限与数据库的连接
  6. leetcode18.4Sum
  7. HDOJ2005 ( 第几天? ) 【水题】
  8. loadrunner回放时IE模拟器弹出windows安全警告
  9. 关于银行项目的软件测试_关于软件测试
  10. 家校协同小程序实战教程
  11. MATLAB图像复原系统
  12. 《人月神话》阅读心得
  13. 微信小程序 测试环境和正式环境 access_token冲突问题
  14. 无损音乐下载网站推荐
  15. Android常用的第三方开源库和框架
  16. 【Web技术】1374- 纯 JS 实现灵活的前端主题切换功能
  17. hostapd对WIFI 热点(AP)的配置方法
  18. matlab对图像频谱图分析,应用Matlab对图像信号进行频谱分析及滤波
  19. 面试详解之Java8为什么用红黑树来实现HashMap
  20. Linux系统性能监测工具——CPU

热门文章

  1. 【Web项目测试访问遇到404错误的相关解决办法】
  2. 金蝶k3单据编码规则_编码规则
  3. 我理解的战争(程序员是需要有立场的)
  4. 网络通信技术(TCP/IP)
  5. 网络协议:HTTP的升级改进
  6. flash与PHP的交互技巧
  7. Egret(白鹭引擎)——Egret+fairyGui 实战项目入门
  8. C++开源游戏推荐,reshade游戏画质增强工具
  9. RVB2601开发板试用3——以太网通讯测试
  10. 华为硬件工程师社招机考题库_华为硬件工程师笔试、面试题