大数据开启了一个大规模生产、分享和应用数据的时代,它给技术和商业带来了巨大的变化。麦肯锡研究表明,在医疗、零售和制造业领域,大数据每年可以提高劳动生产率0.5-1个百分点。大数据在核心领域的渗透速度有目共睹,然而调查显示,未被使用的信息比例高达99.4%,很大程度都是由于高价值的信息无法获取采集。因此在大数据时代背景下,如何从大数据中采集出有用的信息已经是大数据发展的关键因素之一,那么什么是大数据采集技术呢?

什么是数据采集?

▷数据采集(DAQ), 又称数据获取,是指从传感器和其它待测设备等模拟和数字被测单元中自动采集信息的过程。数据分类新一代数据体系中,将传统数据体系中没有考虑过的新数据源进行归纳与分类,可将其分为线上行为数据与内容数据两大类。

▷线上行为数据:页面数据、交互数据、表单数据、会话数据等。

▷内容数据:应用日志、电子文档、机器数据、语音数据、社交媒体数据等。

▷大数据的主要来源:1)商业数据 2)互联网数据 3)传感器数据

▌数据采集与大数据采集区别

▌传统数据采集的不足

传统的数据采集来源单一,且存储、管理和分析数据量也相对较小,大多采用关系型数据库和并行数据仓库即可处理。对依靠并行计算提升数据处理速度方面而言,传统的并行数据库技术追求高度一致性和容错性,根据CAP理论,难以保证其可用性和扩展性。

▌大数据采集新的方法

▷系统日志采集方法

很多互联网企业都有自己的海量数据采集工具,多用于系统日志采集,如Hadoop的Chukwa,Cloudera的Flume,Facebook的Scribe等,这些工具均采用分布式架构,能满足每秒数百MB的日志数据采集和传输需求。

▷网络数据采集方法

网络数据采集是指通过网络爬虫或网站公开API等方式从网站上获取数据信息。该方法可以将非结构化数据从网页中抽取出来,将其存储为统一的本地数据文件,并以结构化的方式存储。它支持图片、音频、视频等文件或附件的采集,附件与正文可以自动关联。 除了网络中包含的内容之外,对于网络流量的采集可以使用DPI或DFI等带宽管理技术进行处理。

▷其他数据采集方法

对于企业生产经营数据或学科研究数据等保密性要求较高的数据,可以通过与企业或研究机构合作,使用特定系统接口等相关方式采集数据。

▌大数据采集平台

最后,再为大家介绍几款应用广泛的大数据采集平台,供大家参考使用。

Apache Flume

Flume是Apache旗下的一款开源、高可靠、高扩展、容易管理、支持客户扩展的数据采集系统。 Flume使用JRuby来构建,所以依赖Java运行环境。

Fluentd

Fluentd是另一个开源的数据收集框架。Fluentd使用C/Ruby开发,使用JSON文件来统一日志数据。它的可插拔架构,支持各种不同种类和格式的数据源和数据输出。最后它也同时提供了高可靠和很好的扩展性。Treasure Data, Inc 对该产品提供支持和维护。

Logstash

Logstash是著名的开源数据栈ELK (ElasticSearch, Logstash, Kibana)中的那个L。Logstash用JRuby开发,所有运行时依赖JVM。

Splunk Forwarder

Splunk是一个分布式的机器数据平台,主要有三个角色:Search Head负责数据的搜索和处理,提供搜索时的信息抽取;Indexer负责数据的存储和索引;Forwarder,负责数据的收集,清洗,变形,并发送给Indexer。

什么是大数据采集?大数据采集的过程是什么?相关推荐

  1. 大数据的数据采集数据处理_让我们处理大数据

    大数据的数据采集数据处理 作为开发人员,我们的重点是简单,有效的解决方案,因此,最有价值的原则之一就是"保持简单和愚蠢". 但是使用Hadoop map-reduce很难坚持这一点 ...

  2. 用python的Django框架写大乐透数据采集预测系统

    何以解忧/唯有暴富/用代码实现人生的致富理想-大乐透 资源下载 1.数据采集的实现 #-*-coding:utf-8-*- import requests import re from lxml im ...

  3. 大数据:数据采集平台之Scribe

    大数据:数据采集平台之Scribe Apache Flume 详情请看文章:<大数据:数据采集平台之Apache Flume> Fluentd 详情请看文章:<大数据:数据采集平台之 ...

  4. 大数据:数据采集平台之Apache Flume

    大数据:数据采集平台之Apache Flume Apache Flume 详情请看文章:<大数据:数据采集平台之Apache Flume> Fluentd 详情请看文章:<大数据:数 ...

  5. 大数据:数据采集平台之Fluentd

    大数据:数据采集平台之Fluentd Apache Flume 详情请看文章:<大数据:数据采集平台之Apache Flume> Fluentd 详情请看文章:<大数据:数据采集平台 ...

  6. 大数据:数据采集平台之Apache Chukwa

    大数据:数据采集平台之Apache Chukwa Apache Flume 详情请看文章:<大数据:数据采集平台之Apache Flume> Fluentd 详情请看文章:<大数据: ...

  7. 大数据:数据采集平台之Splunk Forwarder

    大数据:数据采集平台之Splunk Forwarder Apache Flume 详情请看文章:<大数据:数据采集平台之Apache Flume> Fluentd 详情请看文章:<大 ...

  8. 项目管理十大知识领域和五大过程(内功心法)

    PMBOK五大过程组是什么? PMBOK五大过程组是:启动过程.规划过程.执行过程.监控过程.收尾过程. 各用一句话概括项目管理知识体系五大过程组: 1.启动过程组:作用是设定项目目标,让项目团队有事 ...

  9. 给定一个由n个圆盘组成的塔,这些圆盘按照大小递减的方式套在第一根桩柱上。现要将整个塔移动到另一根桩柱上,每次只能移动一个圆盘,且较大的圆盘在移动过程中不能放置在较小的圆盘上面

    对汉诺塔问题详解,给定一个由n个圆盘组成的塔,这些圆盘按照大小递减的方式套在第一根桩柱上.现要将整个塔移动到另一根桩柱上,每次只能移动一个圆盘,且较大的圆盘在移动过程中不能放置在较小的圆盘上面: 输入 ...

  10. 高项--十大管理、47个过程、五大过程组

    十大管理.47个过程.五大过程组[联想记忆] 文章目录 十大管理.47个过程.五大过程组[联想记忆] 十大管理 1.十大管理是哪几个? 2.十大管理记忆口诀: 3.各大管理记忆口诀: 4.十大管理.十 ...

最新文章

  1. python xlwt单元格合并_Python xlwt写入单元格并合并单元格操作问题,pythonxlwt,我想展示成这样:----...
  2. C++ 基础概念、语法和易错点整理
  3. 我们离DevOps有多远--持续集成思想的延伸
  4. 三大纪律七项注意(Access数据库)
  5. php处理上传文件的步骤,php文件上传步骤
  6. python学习笔记全过程_Python学习过程笔记整理(一)
  7. 骨牌铺方格(HDU-2046)
  8. 鼠标缩略图遥感图像显示时的连动效果——Qt实现
  9. 实验2-1-1 计算摄氏温度 (5 分)
  10. Java 数组+循环升级篇
  11. linux下安装配置laravel环境,linux下的laravel安装
  12. hihocoder-Week195-奖券兑换
  13. 跟阿铭学linux书摘
  14. 使用jemeter进行接口压力测试
  15. java创建窗口_java如何创建一个窗口出来
  16. psp/psvita联机工具xlinkhandheldassistant,平台Xlink Kai
  17. 超低功耗研发-STM32L151C8T6芯片(五)低功耗设计总结
  18. 白宁超计算机科学院,基于主动学习的传统中医症状本体构建方法研究综述.PDF...
  19. 13年android手机top,2013安卓手机性能大排行:小米3才第七
  20. Vue-cli3.x中使用Axios发送跨域请求的配置方法

热门文章

  1. 社区折腾日志:基于python搭建个人微信/支付宝免签支付功能
  2. 如何用PS做出一张海报
  3. A2F-轻量级SISR网络 | Lightweight Single-Image Super-Resolution Network with Attentive Auxiliary Feature
  4. 十年老程序员的职场教训,很受用
  5. 小技巧---笔记本外接显示器设置全屏壁纸
  6. (ssl1458)数字金字塔(三角形)逆推法
  7. 【CSS】固定区域竖向滚动
  8. 机器学习-001-SVM线性可分-2020-4-28
  9. Oracle数据库建表 Oracle数据库的统一命名与编码规范
  10. 华为麦芒5刷机_TWRP_Magisk(Root)_Xposed流程