声明:大数据系列教程文章由Java潘老师辛苦原创,免费公开供java爱好者学习。如需转载请获得潘老师授权并保留原文链接,如有疑问或建议,可以联系潘老师:

Q:1562691348

V:A1562691348

本教程学习知识储备:Java SE基础、Linux基础、数据库基础

1.大数据起源与背景

先了解两个概念(摩尔定律和新摩尔定律):

谷歌公司这样基于搜索引擎的公司,需要将互联网上每天产生的海量数据爬取存储到自己的索引库,提供给用户搜索,就面临着海量数据存储与处理的问题。

单台服务器的性能是有限的,那么处理数据的能力是有限的,而计算机性能的增长远不及数据的增长迅猛,面对每天产生的海量数据,单台服务器根本无能为力,因此必须要使用多台服务器针对海量数据进行协同处理。

Google:

  • 在2003年发表文章《The Google File System 》 :

GFS 解决大批量、海量数据存储问题

  • 在2004年发表文章《MapReduce: Simplified Data Processing on Large Clusters》:MapReduce 解决大数据领域的计算问题
  • 在2006年发表文章《Bigtable: A Distributed Storage System for Structured Data》:

补充说明:

谷歌技术三宝分别是:GFS、MapReduce和BigTable。

Hadoop实际上就是谷歌三宝的开源实现,Hadoop MapReduce对应Google MapReduce,HBase对应Big Table,HDFS对应GFS。区别是谷歌底层是c++,而hadoop底层是用java。

2.大数据的数据单位

按顺序给出所有单位:bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB。(进率2^10)

大数据的起始计量单位至少是PB级别。

处理过PB级别的大数据是指:搭建的处理集群每天处理PB数据量(单次计算任务的数据量在PB级别)

3.大数据概念

维基百科定义:

大数据(Big data或Megadata):大数据,或称巨量数据、海量数据、大数据,指的是所涉及的数据量规模巨大到无法通过人工,在合理时间内达到截取、管理、处理、并整理成为人类所能解读的信息。

(简单理解:无法用现有的软件工具提取、存储、搜索、共享、分析和处理的海量的、复杂的数据集合)

4.大数据特点

业界通常使用4V来描述:

海量性(Volume):第一个特征是数据量大,包括采集、存储和计算的量都非常大。大数据的起始计量单位至少是P(1000个T)、E(100万个T)或Z(10亿个T),而我们生活中每天都会产生大量的数据。

多样性(Variety):第二个特征是种类和来源多样化。包括结构化、半结构化和非结构化数据,具体表现为网络日志、音频、视频、图片、地理位置信息等等,多类型的数据对数据的处理能力提出了更高的要求。

价值性(Value):第三个特征是数据价值密度相对较低,意思是说大部分数据没有参考意义,少部分数据会形成高价值,比如行车记录仪记录的大部分视频是无用的,只有当出现事故时才会体现出价值。随着互联网以及物联网的广泛应用,信息感知无处不在,信息海量,但价值密度较低,如何结合业务逻辑并通 过强大的机器算法来挖掘数据价值,是大数据时代最需要解决的问题。

高速性(Velocity):第四个特征数据增长速度快,处理速度也快,时效性要求高。比如搜索引擎要求几分钟前的新闻能够被用户查询到,个性化推荐算法尽可能要求实时完成推荐。这是大数据区别于传统数据挖掘的显著特征。

5.大数据的价值

在总数据量相同的情况下,与个别分析独立的小型数据集(Data Set)相比,将各个小型数据集合并后进行分析可得出许多额外的信息和数据关系性,可用来察觉商业趋势、判定研究质量、避免疾病扩散、打击犯罪或测定实时交通路况等;这样的用途正是大型数据集盛行的原因。

6.大数据技术框架

7.大数据计算模式

8.大数据与云计算、物联网之间的关系

大数据系列教程001-初识大数据相关推荐

  1. namenode无法启动_大数据系列教程003-hadoop伪分布式环境搭建步骤11-启动与验证环境...

    声明:大数据系列教程文章由Java潘老师辛苦原创,免费公开供java爱好者学习.本教程学习知识储备:Java SE基础.Linux基础.数据库基础 1.将/usr/hadoop目录赋予777权限,否则 ...

  2. 大数据系列教程003-hadoop伪分布式环境搭建步骤03-安装虚拟机CentOS7

    声明:大数据系列教程文章由Java潘老师辛苦原创,免费公开供java爱好者学习.如需转载请获得潘老师授权并保留原文链接,如有疑问或建议,可以联系潘老师: Q:1562691348 V:A1562691 ...

  3. 大数据系列教程003-hadoop伪分布式环境搭建步骤

    声明:大数据系列教程文章由Java潘老师辛苦原创,免费公开供java爱好者学习.如需转载请获得潘老师授权并保留原文链接,如有疑问或建议,可以联系潘老师: Q:1562691348 V:A1562691 ...

  4. 大数据系列教程003-hadoop伪分布式环境搭建步骤02-设置vmware虚拟网络编辑器

    声明:大数据系列教程文章由Java潘老师辛苦原创,免费公开供java爱好者学习.如需转载请获得潘老师授权并保留原文链接,如有疑问或建议,可以联系潘老师: Q:1562691348 V:A1562691 ...

  5. c,c++小白到大神系列教程之一:C语言入门-王健伟-专题视频课程

    c,c++小白到大神系列教程之一:C语言入门-1127人已学习 课程介绍         本课程针对 有一点计算机基础比如知道二进制.八进制.十六进制数据的含义,对内存.堆.栈等有基本概念的计算机初学 ...

  6. CANOpen系列教程01_初识CAN与CANOpen及相关内容

    推荐 分享一个大神的人工智能教程.零基础!通俗易懂!风趣幽默!还带黄段子!希望你也加入到人工智能的队伍中来!https://www.cnblogs.com/captainbed 正文: CANOpen ...

  7. hive 如果表不存在则创建_从零开始学习大数据系列(四十七) Hive中数据的加载与导出...

    [本文大约1400字,阅读时间5~10分钟] 在<从零开始学习大数据系列(三十八) Hive中的数据库和表>和<从零开始学习大数据系列(四十二)Hive中的分区>文章中,我们已 ...

  8. 政务大数据系列9:政务大数据的价值链

    政务是个大市场,阿里.腾讯.电信.华为都在赔本赚吆喝.本文作者宇同学是资深从业人士,研发总监,他会写一系列文章来阐述政务云全景. 前面八篇分别深入阐述: 政务大数据的本质:< 浅谈政务大数据的本 ...

  9. 政务大数据系列7:政务大数据的部署结构

    政务是个大市场,阿里.腾讯.电信.华为都在赔本赚吆喝.本文作者宇同学是资深从业人士,研发总监,他会写一系列文章来阐述政务云全景. 前面六篇分别深入阐述: 政务大数据的本质:< 浅谈政务大数据的本 ...

最新文章

  1. 【BZOJ1085】【SCOI2005】骑士精神 [A*搜索]
  2. Ruby中的require_relative和require有什么区别?
  3. Almost Regular Bracket Sequence
  4. php join a.id b.id,mysql,sql_MySQL A left join B on B.cid=A.id 左链接查询失败,求解,mysql,sql - phpStudy...
  5. 打开高效文本编辑之门_Linux sed之模式空间与保留空间
  6. round四舍五入详解--python2与python3版本间区别
  7. [MySQL FAQ]系列 -- 数据不算大,备份却非常慢
  8. 【转】刨根究底字符编码之五——简体汉字编码方案(GB2312、GBK等)以及全角、半角、CJK
  9. 计算机管理关机在哪,电脑点了关机为什么却关不了
  10. Qt文档阅读笔记-关于Qt Core的进一步认识
  11. rocketmq namesrv 第一章启动过程
  12. JAVA多线程--线程的同步安全
  13. 百度地图InfoWindow弹窗圆角
  14. .NetCore获取拼多多平台优惠券
  15. python写文件格式转换程序_有趣的python小程序——图片格式转换
  16. Android 抖音爱心动画,Android实现抖音心形函数
  17. gpt分区android系统备份,OBR一键还原备份系统WINPE专用v2.166版支持GPT分区UEFI
  18. Vue 项目提示:`(Emitted value instead of an instance of Error) the “scope“ attribute for scoped slots
  19. 【机器学习】Python秘密武器之Numpy
  20. Ford-Fulkerson 最大流求解方法

热门文章

  1. 输入梯形的上底,下底和高,求梯形的面积
  2. u盘无法格式化-免费u盘格式化恢复容量
  3. 网络日志管理工具_企业网络日志管理的优质工具有哪些?
  4. [心得]麦肯锡7步法解决问题实际应用
  5. 输出大写英文字母PTA
  6. 解决Xshell连接服务器失败:Could not connect to ‘192.168.191.128‘ (port 22): Connection failed.
  7. 5.1 docker安装及应用基础
  8. 设计师必读的10本书
  9. Python批量计算NDVI
  10. ?id=1454320074805