大数据是什么?1分钟了解大数据的概念!
大数据本身是一个抽象的概念。从一般意义上讲,大数据是指无法在有限时间内用常规软件工具对其进行获取、存储、管理和处理的数据集合。
目前,业界对大数据还没有一个统一的定义,但是大家普遍认为,大数据具备 Volume、Velocity、Variety 和 Value 四个特征,简称“4V”,即数据体量巨大、数据速度快、数据类型繁多和数据价值密度低,如图 1 所示。下面分别对每个特征作简要描述。
图 1 大数据特征
1)Volume:表示大数据的数据体量巨大。
数据集合的规模不断扩大,已经从 GB 级增加到 TB 级再增加到 PB 级,近年来,数据量甚至开始以 EB 和 ZB 来计数。
例如,一个中型城市的视频监控信息一天就能达到几十 TB 的数据量。百度首页导航每天需要提供的数据超过 1-5PB,如果将这些数据打印出来,会超过 5000 亿张 A4 纸。图 2 展示了每分钟互联网产生的各类数据的量。
图 2 互联网每分钟产生的数据
2)Velocity:表示大数据的数据产生、处理和分析的速度在持续加快。
加速的原因是数据创建的实时性特点,以及将流数据结合到业务流程和决策过程中的需求。数据处理速度快,处理模式已经开始从批处理转向流处理。
业界对大数据的处理能力有一个称谓——“ 1 秒定律”,也就是说,可以从各种类型的数据中快速获得高价值的信息。大数据的快速处理能力充分体现出它与传统的数据处理技术的本质区别。
3)Variety:表示大数据的数据类型繁多。
传统 IT 产业产生和处理的数据类型较为单一,大部分是结构化数据。随着传感器、智能设备、社交网络、物联网、移动计算、在线广告等新的渠道和技术不断涌现,产生的数据类型无以计数。
现在的数据类型不再只是格式化数据,更多的是半结构化或者非结构化数据,如 XML、邮件、博客、即时消息、视频、照片、点击流、 日志文件等。企业需要整合、存储和分析来自复杂的传统和非传统信息源的数据,包括企业内部和外部的数据。
4)Value:表示大数据的数据价值密度低。
大数据由于体量不断加大,单位数据的价值密 度在不断降低,然而数据的整体价值在提高。以监控视频为例,在一小时的视频中,有用的数据可能仅仅只有一两秒,但是却会非常重要。现在许多专家已经将大数据等同于黄金和石油,这表示大数据当中蕴含了无限的商业价值。
根据中商产业研究院发布的《2018-2023 年中国大数据产业市场前景及投资机会研究报告》显示,2017 年中国大数据产业规模达到 4700 亿元,同比增长 30%。随着大数据在各行业的融合应用不断深化,预计 2018 年中国大数据市场产值将突破 6000 亿元达到 6200 亿元。
通过对大数据进行处理,找出其中潜在的商业价值,将会产生巨大的商业利润。
大数据是什么?1分钟了解大数据的概念!相关推荐
- 【大数据 minio】10分钟了解大数据存储的方案minio
1.MinIO是什么? minio 是一款开源的对象存储服务.可以兼容亚马逊的S3存储服务接口,非常适合存储大容量的非结构化数据. 这些非结构化数据包含 图片,视频,日志文件,备份数据和容器.虚拟机镜 ...
- 箱形图适用于哪种数据_盘点 | 十分钟进阶Excel数据可视化
过·往 半年前,开了一个叫"知识点"的小专题,陆陆续续分享了一些数据可视化相关的东西.其中Excel相关16篇,Tableau相关3篇,Ai相关3篇,D3.js相关2篇. 刚开始的 ...
- 15分钟构建超低成本数据大屏:DataV + DLA
为什么80%的码农都做不了架构师?>>> 第一步:准备低成本存储的业务数据和DLA表 OSS(https://www.aliyun.com/product/oss)是云上低成本 ...
- elementui的tree组件页面显示不出数据_只要10分钟,教你配置出炫酷的数据可视化大屏...
在电影<摩天营救>中,监控中心的全方位展示屏幕给人印象深刻.现在这种立体化大屏幕似乎成了好莱坞大片的标配.其实,这种逼格很高的镜头就是一个数据可视化大屏.随着社会信息化的高速增长,数据可视 ...
- 三分钟入门大数据之用户画像标签的分类
哈喽,大家好,我是汉斯老师.近几年来,互联网行业由于较高的薪资收入,受到许多人的追捧.很多年轻的学子,或是其他行业的有志青年,都想要投身到这个行业中来.然而一方面受到"互联网寒冬" ...
- 一分钟了解大数据的价值
一分钟?发发呆就过去了,但是在互联网上会发生些什么呢?据统计,每分钟Youtube超过500万的视频观看量:Amazon2 5万份商品被购买 Youtube超过500万的视频观看量: Amazon2. ...
- 炫酷大屏demo_只要10分钟,教你配置出炫酷的数据可视化大屏
在电影<摩天营救>中,监控中心的全方位展示屏幕给人印象深刻.现在这种立体化大屏幕似乎成了好莱坞大片的标配.其实,这种逼格很高的镜头就是一个数据可视化大屏. 随着社会信息化的高速增长,数据可 ...
- 三分钟入门大数据之什么是用户画像?
哈喽,大家好,我是汉斯老师.近几年来,互联网行业由于较高的薪资收入,受到许多人的追捧.很多年轻的学子,或是其他行业的有志青年,都想要投身到这个行业中来.然而一方面受到"互联网寒冬" ...
- hive load data inpath 空目录_Hive内部表 | 每日五分钟学大数据
上一篇说的是外部表,当把EXTERNAL关键字去掉的时候就是内部表了.为什么叫内部表,因为这种表,Hive会(或多或少地)控制着数据的生命周期. 如果你熟悉Hive那你一定知道,Hive默认情况下会将 ...
最新文章
- DevExpress.GridControl.gridView的一些注意
- Scalable IO in Java
- 多线程程序在多核和单核上运行的不同
- Ubuntu Server 16.04 LTS上给Docker配置镜像加速器
- 用启明云端基于ESP32模块的开发板来快速了解天猫精灵
- 生成式模型和判别式模型(转)
- Docker入门简明教程
- HDU 4597 Play Game
- ViewModel中C# Property自动添加OnPropertyChanged处理的小工具, 以及相应Python知识点...
- BeX5平台简明部署过程
- java程序单词薄课程设计,Java程序设计课程设计
- 软件工程7条基本原理
- 服务器固态硬盘跟机械硬盘之间差别是什么?
- 与文本内容无关的说话人识别概述——从特征到超矢量
- canvas绘制星空底图
- Python爬虫入门-小试ImagesPipeline爬取pixabay和煎蛋之为什么是‘404’
- 如何选择大数据培训机构
- 12N65-ASEMI高压MOS管12A 650V
- 【机器学习技巧】回归模型的几个常用评估指标(R2、Adjusted-R2、MSE、RMSE、MAE、MAPE)及其在sklearn中的调用方式
- STM32F103C8T6定时器的使用