大数据简介


一、概念

  1. 研究机构Gartner给出了这样的定义:“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产
  2. 根据维基百科的定义,大数据是指无法在可承受的时间范围内用常规软件工具进行捕捉、管理和处理的数据集合

二、特征

  1. Volume:数据量大,包括采集、存储和计算的量都非常大。大数据的起始计量单位至少是T、P(1024个T)、E(100万个T)或Z(10亿个T)
  2. Variety:种类和来源多样化。包括结构化、半结构化和非结构化数据,具体表现为网络日志、音频、视频、图片、地理位置信息等等,多类型的数据对数据的处理能力提出了更高的要求
  3. Value:数据价值密度相对较低,或者说是浪里淘沙却又弥足珍贵。随着互联网以及物联网的广泛应用,信息感知无处不在,信息海量,但价值密度较低,如何结合业务逻辑并通过强大的机器算法来挖掘数据价值是大数据时代最需要解决的问题
  4. Velocity:数据增长速度快,处理速度也快,时效性要求比较高
  5. Veracity:数据的准确性和可信赖度,即数据的质量
  6. Valence:大数据之间的连通性
  7. 随着大数据的发展,又增加了Vitality(动态性)、Visualization(可视化)、Validity(合法性)等
  8. 计算机存储单位一般用bit、B、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB……来表示。

换算率等于1024:

1 Byte(B) = 8 bit

1 Kilo Byte(KB) = 1024B

1 Mega Byte(MB) = 1024 KB

1 Giga Byte (GB)= 1024 MB

1 Tera Byte(TB)= 1024 GB

1 Peta Byte(PB) = 1024 TB

1 Exa Byte(EB) = 1024 PB

1 Zetta Byte(ZB) = 1024 EB

1Yotta Byte(YB)= 1024 ZB

1 Bronto Byte(BB) = 1024 YB

1Nona Byte(NB)=1024 BB

1 Dogga Byte(DB)=1024 NB

1 Corydon Byte(CB)=1024DB

大数据-什么是大数据?大数据的相关概念相关推荐

  1. 了解大数据的特点、来源与数据呈现方式

    作业来源:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/2639 浏览2019春节各种大数据分析报告,例如: 这世间,再无第二个国家有 ...

  2. MySQL 狠甩 Oracle 稳居 Top1,私有云最受重用,大数据人才匮乏! | 中国大数据应用年度报告...

    整理 | 屠敏 出品 | CSDN(ID:CSDNnews) 科技长河,顺之者昌,错失者亡.在这个技术百态之中,中国专业的 IT 社区CSDN 创始人&董事长蒋涛曾多次在公开活动中表示,开发者 ...

  3. 我在MongoDB年终大会上获二等奖文章:由数据迁移至MongoDB导致的数据不一致问题及解决方案...

    作者 | 上海小胖 来源 | Python专栏(ID:xpchuiit) 故事背景 企业现状 2019年年初,我接到了一个神秘电话,电话那头竟然准确的说出了我的昵称:上海小胖. 我想这事情不简单,就回 ...

  4. 面试官:海量无序数据,寻找第 K 大的数,越快越好

    最近在参加阿里云举办的<第三届数据库大赛创新上云性能挑战赛--高性能分析型查询引擎赛道>,传送门: https://tianchi.aliyun.com/competition/entra ...

  5. 数据中台已成气候!大数据架构师如何站上风口?

    你被大数据杀过熟吗?当今企业对数据的重视度越来越高,在大数据系统架构设计层面,大数据架构师需要完成技术决策.技术选型,还需要根据不同时期的业务场景,不断优化和演进软件架构,最终攻克技术难点.化解技术风 ...

  6. R语言ggplot2可视化使用不连续的y轴、中断的Y轴来可视化数值分布差异很大的数据实战:把数据轴分为两个区间或者多个区间来匹配不同区间数据的可视化(因为有的数据可能10附近,有的数值可能1W附近)

    R语言ggplot2可视化使用不连续的y轴.中断的Y轴来可视化数值分布差异很大的数据实战:把数据轴分为两个区间或者多个区间来匹配不同区间数据的可视化(因为有的数据可能10附近,有的数值可能1W附近) ...

  7. 大数据学习笔记一:大数据的发展历程--MapReduce,Hive,Yarn,Hadoop,Spark,Flink

    大数据学习系列文章:大数据-博客专栏 今天在学习极客时间专栏:<从0开始学大数据> 从预习 01 | 大数据技术发展史:大数据的前世今生到预习 03 | 大数据应用领域:数据驱动一切,系统 ...

  8. hadloop大数据平台论文_企业大数据平台建设过程中的问题和建议

    2 0 1 7 年 第 1 2 期 信 息 通 信 2017 (总第 180 期) INFORMATION & COMMUNICATIONS ( Sum . N o 180) 企业大数据平台建 ...

  9. 华为报告称2013年大数据将引发IT系统大变革

    华为报告称2013年大数据将引发IT系统大变革 华为公司昨天发布的2013年行业趋势展望显示,大数据将引发IT系统大变革.华为认为,运营商和企业的IT系统将成为实时的业务系统,而不再是后处理的支撑系统 ...

  10. 郑可迪 : 培养数据思维,投身电力大数据领域研究 | 提升之路系列(一)

    导读 为了发挥清华大学多学科优势,搭建跨学科交叉融合平台,创新跨学科交叉培养模式,培养具有大数据思维和应用创新的"π"型人才,由清华大学研究生院.清华大学大数据研究中心及相关院系共 ...

最新文章

  1. Python 之 Pandas (七)merge合并
  2. hadoop过程中遇到的错误与解决方法
  3. 使用Session服务未开启错误解决方案
  4. mysql计算秒_如何在MySQL中基于秒计算时间?
  5. JAVA中如何确保N个线程可以访问N个资源,但同时又不导致死锁?
  6. 对命令行程序调用及其结果显示的一点补充
  7. nodejs实践录:pm2实验测试记录
  8. 模版 ----- 实数二分
  9. expect免互交 常用编辑文本
  10. Pandas基础:列方向分组变形
  11. 计算机系统汉字编码分为,计算机中的汉字编码
  12. 计算机桌面图标的使用,电脑桌面图标不见了怎么恢复 如何规范使用电脑
  13. 个体和公司以及小微企业的区别
  14. 深信服PHP,深信服终端检测响应平台 EDR 代码审计
  15. 密码1-分类,常用类型,密码分析
  16. 江恩 计算机,江恩理论基础篇
  17. Google Chrome OS中文版下载 支持中文输入法
  18. 高级密码学复习2-HUST版
  19. VUE进阶篇Part9(render函数)
  20. 一起零基础学Python

热门文章

  1. op07数据手册分析
  2. java基础测试大集合 今天收罗精选一下Java题 适合小白挑战和新手回顾
  3. 载波聚合mac_Lte-a终端测试仪表在载波聚合下mac层数据调度方法
  4. Eclipse 使用与配置
  5. Android权限申请库——EasyPermissions使用详解和打开相册方法
  6. 导数与微分 — 高等数学
  7. 【计算机基础】 --- LSB、MSB与大/小端字节序
  8. 临时或永久修改cgroup和Cgroup 入门教程:cpuset
  9. vue3.0抢先看(附尤雨溪vue分享ppt)
  10. 【分享】光纤光缆PPT