url采集工具_大数据关键技术浅谈之大数据采集
在前几篇文章中,企通查为大家介绍了大数据处理的基本流程。从大数据的一系列处理过程中(抽取、集成、分析、解释),我们可以发现这一整套流程中涵盖了数据存储、处理、应用等多方面的技术。
大数据价值的完美体现需要多种技术的协同。根据涉及领域的不同,大数据的关键技术可以分为大数据采集、大数据预处理、大数据存储及管理、大数据处理、大数据分析及挖掘、大数据展示等几大方面。
本文将对大数据采集进行介绍。
——
大数据采集处于大数据生命周期中第一个环节,是大数据分析至关重要的一个环节,也是大数据分析的入口。
在互联网行业技术快速发展的今天,数据采集广泛应用于互联网及分布式领域(常见的摄像头、麦克风等都可以成为数据采集的工具),此外还集合了信号、传感器、激励器、信号调流、数据采集设备和软件应用等。
大数据采集技术通过RFID射频数据、传感器数据、社交网络数据、移动互联网数据等方式获得各种类型的结构化、半结构化、非结构化的海量数据。
因此,大数据采集技术也面临着诸多挑战:一方面数据源的种类多,数据的类型繁杂,数据量大,并且产生的速度快;另一方面需要保证数据采集的可靠性和高效性,同时还要避免重复数据。
——
传统的数据采集来源单一,且存储、管理和分析数据量也相对较小,大多采用关系型数据库和并行数据仓库即可处理。
在大数据体系中,传统数据分为业务数据和行业数据,传统数据体系中没有考虑过的新数据源包括内容数据、线上行为数据和线下行为数据 3 大类。
大数据体系中,数据源与数据类型的关系如下图所示:
和传统的数据采集技术相比,大数据采集技术有2个特点:
1.大数据采集通常采用分布式架构
大数据采集的数据流量大,数据集记录条数多,传统的单机采集方式,在性能和存储空间上都无法满足需求。
2.多种采集技术混合使用
大数据不像普通数据采集那样单一,往往是多种数据源同时采集,而不同的数据源对应的采集技术通常不一样,很难有一种平台或技术能够统一所有的数据源,因此大数据采集时,往往是多种技术混合使用,要求更高。
大数据的采集从数据源上可以分为四类:
Web数据(包括网页、视频、音频、动画、图片等)
日志数据
数据库数据
其它数据(感知设备数据等)
针对不同的数据源,所采用的数据采集的方法和技术也不相同。
1.web数据采集
网络数据采集是指通过网络爬虫或网站公开 API 等方式从网站上获取数据信息的过程。
网络爬虫会从一个或若干初始网页的 URL 开始,获得各个网页上的内容,并且在抓取网页的过程中,不断从当前页面上抽取新的 URL 放入队列,直到满足设置的停止条件为止。
这样可将非结构化数据、半结构化数据从网页中提取出来,并以结构化的方式存储在本地的存储系统中。
2. 系统日志采集
系统日志采集主要是收集公司业务平台日常产生的大量日志数据,供离线和在线的大数据分析系统使用。
高可用性、高可靠性、可扩展性是日志收集系统所具有的基本特征。系统日志采集工具均采用分布式架构,能够满足每秒数百 MB 的日志数据采集和传输需求。
3. 数据库采集
传统企业会使用传统的关系型数据库 MySQL 和 Oracle 等来存储数据。
随着大数据时代的到来,Redis、MongoDB 和 HBase 等 NoSQL 数据库也常用于数据的采集。企业通过在采集端部署大量数据库,并在这些数据库之间进行负载均衡和分片,来完成大数据采集工作。
4. 其他数据(感知设备等数据采集)
感知设备数据采集是指通过传感器、摄像头和其他智能终端自动采集信号、图片或录像来获取数据。
大数据智能感知系统需要实现对结构化、半结构化、非结构化的海量数据的智能化识别、定位、跟踪、接入、传输、信号转换、监控、初步处理和管理等。其关键技术包括针对大数据源的智能识别、感知、适配、传输、接入等。
数据的采集是挖掘数据“石油”的第一步,当数据量越来越大时,可发掘的有价值的信息也就更多,反应信息也就越加全面。只有更加充分地利用数据化处理平台,才可以保证分析结果的有效性和准确性,以便更加有效地助力企业实现驱动的数据化。
参考文献:
大数据采集技术概述_大数据基础学习-CSDN博客blog.csdn.net
艾叔:最全【大数据采集技术】总结bigdatastudy.net
url采集工具_大数据关键技术浅谈之大数据采集相关推荐
- 海洋大数据关键技术及在灾害天气下船舶行为预测上的应用
海洋大数据关键技术及在灾害天气下船舶行为预测上的应用 王冬海,卢峰,方晓蓉,郭刚 中电科海洋信息技术研究院有限公司,北京 100041 摘要:随着海洋数据量的爆炸式增长,海洋大数据受到越来越多的关注. ...
- 大数据关键技术、及计算模式介绍,以及大数据与云计算、物联网的关系
大数据指数据与大数据技术这二者的综合,而大数据技术,是指伴随着大数据的采集.传输.处理和应用的相关技术,通过一系列非传统的工具来对大量的结构化.半结构化和非结构化数据进行处理,从而获得分析和预测结果的 ...
- 02云计算与大数据学习之大数据关键技术与应用
文章目录 1.应知应会 2.大数据总体框架 架构设计原则 总体架构特点 3.大数据存储技术 4.大数据处理技术 大数据处理模式 大数据处理Storm平台 5.大数据分析技术 大数据分析特点 大数据分析 ...
- 【学习】大数据关键技术
学习内容描述: 大数据涉及的四个环节是什么? 云计算服务的三种服务类型是什么? 重点知识: 大数据涉及的四个环节:1.数据采集:2.数据存储:3.数据管理:4.数据分析与挖掘. 云计算服务的三种服务类 ...
- 大数据关键技术——MapReduce
传统的数据采集来源单一,且存储.管理和分析数据量也相对较小,大多采用关系型数据库和并行数据仓库即可处理,并且数据处理方法是以处理器为中心,处理的大多是结构化数据. 随着互联网的发展,数据来源日渐丰富且 ...
- 02云计算与大数据学习之大数据关键技术与应用习题
一.选择题 以下是大数据技术架构的特点的是( ). A.集成性 B.架构先进性 C.实时性 D.以上都是 大数据分析的理论核心是( ). A.数据挖掘算法 B.聚类算法 C.统计分析算法 ...
- 大数据爬虫技术基础篇:大快在线爬虫安装步骤
2019独角兽企业重金招聘Python工程师标准>>> 在线爬虫是大快大数据一体化开发框架的重要组成部分,本篇重点分享在线爬虫的安装. 爬虫安装前准备工作:大快大数据平台安装完成.z ...
- 我们正处在大数据时代,浅谈大数据
大数据简单来说就是短时间快速的产生大量的多种多样的有价值的数据,但是这些数据的价值密度不是很高. 进入2012年,大数据(big data)一词越来越多地被提及,人们用它来描述和定义信息爆炸时代产生的 ...
- 【大数据架构】浅谈数据中台
数据中台背景 大环境背景 近几年较火的数字化转型,很多企业也从信息化到数字化. 信息化时代:是信息化为物理世界活动服务的:更多的是为物理世界活动提升效率.例如我们现在很多系统其实也是信息化,例如OA系 ...
最新文章
- 索引超出了数组界限_还在用优先队列?来试试索引优先队列吧(优先队列amp;索引优先队列)...
- 重新启动C++Builder
- android 常见分辨率(mdpi、hdpi 、xhdpi、xxhdpi )及屏幕适配注意事
- 10 分钟上手 Vim,常用命令大盘点
- linux 启动流详解
- null === undefined_【英】两个“非值”:undefined 和 null
- 20145226夏艺华 《Java程序设计》第2周学习总结
- Spring Boot 2.0 都更新了什么
- 2017-2018-1 20155327 《信息安全系统设计基础》第7周学习总结
- WinForm播放视频
- 讨论CGContextDrawImage
- Forever 0.5 (计算几何思维)
- 关于Mac系统中 vs code下使用markdown PDF 安装Chromium失败的解决办法
- 用友 NCC 1909 授权许可+无密码登录方法
- LED字体下载,可视化大屏,数据可视化必备
- js 随机生成时间段
- access百科 pc_PC Access SMART
- 小程序todolist
- 会员服务-获取所有会员等级
- USB WDM驱动开发实例 bulkusb
热门文章
- .NET Core ASP.NET Core Basic 1-2 控制反转与依赖注入
- 译 | .NET Core 基础架构进化之路(二)
- kubernetes高级之创建只读文件系统以及只读asp.net core容器
- 【送书活动】10分钟了解Docker,运维和开发视角有什么不同?
- 如何基于 Kubernetes 构建完整的 DevOps 流水线
- eShopOnContainers 看微服务③:Identity Service
- ASP.NET Core - Razor 页面介绍
- 从抵触到力推,.Net Core的成功让微软正视开源
- 在Linux以及Mac OS X启用F#
- 电脑QQ能登上,网页打不开的解决办法