1.什么是数据

数据是事实或观察的结果,是对客观事物的逻辑归纳,是用于表示客观事物的未加工的原始材料。数据经过加工之后就成为信息。

2.大数据的定义

麦肯锡给出的大数据定义是:大数据是指大小超过常规的数据库工具获取、存储、管理和分析能力的数据集。但它同时强调,并不是说一定要超过特定的TB值的数据才能是大数据。

亚马逊的大数据科学家John Rauser给出了一个简单的定义:大数据是任何超过一台计算机处理能力的数据量。

百度百科中说到:大数据(big data),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

总之,对大数据的概念并没有一个明确的概念,也没有说数据要有多大才能算是大数据。通熟易懂地将,大数据就是很大很大的数据,要多大有多大。

3.大数据有多大?“互联网上的一天”告诉我们大数据有多大

一天之中,互联网产生的全部内容可以刻满1.68亿张DVD;
发出的邮件有2940亿封之多(相当于美国两年的纸质信件数量);
发出的社区帖子达200万个(相当于《时代》杂志770年的文字量);
卖出的手机为37.8万台,高于全球每天出生的婴儿数量37.1万……
截止到2012年,数据量已经从TB(1024GB=1TB)级别跃升到PB(1024TB=1PB)、EB(1024PB=1EB)乃至ZB(1024EB=1ZB)级别。
国际数据公司(IDC)的研究结果表明,2008年全球产生的数据量为0.49ZB,2009年的数据量为0.8ZB,2010年增长为1.2ZB,2011年的数量更是高达1.82ZB,相当于全球每人产生200GB以上的数据。而到2012年为止,人类生产的所有印刷材料的数据量是200PB,全人类历史上说过的所有话的数据量大约是5EB。

4.大数据的特点 4个V

Volume大量:这个特点不用说就知道了吧,不是若不是大量的,怎么能说是大数据呢?

Variety多样:大数据有多种多样性:文字、图片、视频、音乐等等

Value价值:我们通过大数据分析,就可以得到大数据中蕴含的信息,这些信息是最珍贵的。比如说你经商上某宝,有一天你搜索了大数据的书,那么它就会在首页给你推荐所有关于大数据的书,这就是你的搜索记录让大数据分析系统分析出你需要一本关于大数据的数,于是给你智能推荐你需要的书,这个也就是精准营销。大数据分析出你的搜索记录搜索行为这些信息,是很珍贵的,这就是它的价值。

Velocity高速:大数据也是高速的,比如说你出行的时候需要查找最优路径,于是大数据系统会分析现在各条路上的人流量,给你推荐人最少的的最优路径,这个是需要实时计算的,也就是高速计算。

5.大数据工具网站 www.apache.org,绝大多数大数据的工具都是在这个网站中的。

【大数据】什么是大数据相关推荐

  1. 第二篇:智能电网(Smart Grid)中的数据工程与大数据案例分析

    前言 上篇文章中讲到,在智能电网的控制与管理侧中,数据的分析和挖掘.可视化等工作属于核心环节.除此之外,二次侧中需要对数据进行采集,数据共享平台的搭建显然也涉及到数据的管理.那么在智能电网领域中,数据 ...

  2. SparkSQL和Hadoop(面向数据科学家和大数据分析师)

    了解HDFS命令.Hadoop.Spark SQL.SQL查询.ETL和数据分析| Spark Hadoop集群虚拟机|完全解决的问题 你会学到什么 作为本课程的一部分,学生将获得在Spark Had ...

  3. 大数据的两面性_大数据,多大的数据才是大数据?

    大数据的本质是统计学,是通过统计分析得出最终结果.比如我们经常会使用到的图像识别,为什么手机能识别出来那些可能你也不知道的东西,因为那是建立在海量数据资料的基础之上的.就连如今人人都会用到的手机美颜也 ...

  4. 什么是大数据口子_大数据分析师年薪几十万,学什么专业才能从事大数据?

    近几年,大数据为各个领域带来了全新的变革,大数据的重要性越来越被企业和国家所看到,大数据工作者的需求再次被无限放大,他们的薪资和社会地位也在不断上涨.马云在演讲中就提到,未来的时代将不是IT时代,而是 ...

  5. 华为云大数据存储的冗余方式是三副本_大数据入门:HDFS数据副本存放策略

    大数据处理当中,数据储存始终是一个重要的环节,从现阶段的市场现状来说,以Hadoop为首的大数据技术框架,仍然占据主流地位,而Hadoop的HDFS,在数据存储方面,仍然得到重用.今天的大数据入门分享 ...

  6. MyBatis中使用流式查询避免数据量过大导致OOM

    欢迎关注方志朋的博客,回复"666"获面试宝典 今天mybatis查询数据库中大量的数据,程序抛出: java.lang.OutOfMemoryError: Java heap s ...

  7. 大数据实验室(大数据基础培训)——基础概念

    2019独角兽企业重金招聘Python工程师标准>>> 为某企业做的培训,完整文档见:http://gudaoxuri.github.io/bd-lab/ 3. 大数据总揽 见大数据 ...

  8. php读取大文件某行内容,php读取大文件最后几行数据的实现代码

    /* * 读取大文件最后几行数据 * by www.jbxue.com */ $file = $handledir.'/venocap.1'; $fp = fopen($file, "r&q ...

  9. 命名管道 win7未响应_大数据分析Python建立分析数据管道

    如果您曾经想通过流数据或快速变化的数据在线学习Python,那么您可能会熟悉数据管道的概念.数据管道允许您通过一系列步骤将数据从一种表示形式转换为另一种表示形式.数据管道是数据工程的关键部分,我们将在 ...

  10. R语言使用hexbin包的hexbin函数可视化散点图、应对数据量太大、且有数据重叠的情况、普通散点图可视化效果变差的情况、提供了对六边形单元格的二元绑定、通过图例颜色标定每一个区域数据点的数量

    R语言使用hexbin包的hexbin函数可视化散点图.应对数据量太大.且有数据重叠的情况.普通散点图可视化效果变差的情况.hexbin函数提供了对六边形单元格的二元绑定.通过图例颜色标定每一个区域数 ...

最新文章

  1. 百度信息流和搜索业务中的KV存储实践
  2. 1乘到100 python_python每日一练之如何计算你的应发奖金?
  3. CNCF宣布containerd毕业
  4. 不使用临时表,仅使用select实现查询出多行常数
  5. 分布式电子邮件系统设计--转载
  6. 针对firefox ie6 ie7的css样式
  7. flex实现水平居中和两栏布局
  8. 第六节: 六类Calander处理六种不同的时间场景
  9. Android 音频均衡器,可通过拖动调节音频EQ
  10. poj 3461 Oulipo (KMP)
  11. app android切图工具,2018最强手机APP切图规范指南和切片要求
  12. latex怎么让table下面空白变小_LaTeX:pgf usepackage(宏包)的中译
  13. 群的概念,双线性映射
  14. android四级联动机制,小程序四级联动(wepy)
  15. 运动耳机哪些好用?专业运动耳机购买指南
  16. bi数据分析工具有哪些?
  17. #7:怀念儿时的春节——9
  18. 南航与英航签署合作谅解备忘录
  19. (超级详细教程)搭建自己的博客——从购买服务器到建站
  20. C++ STL(第十三篇:RB-tree)

热门文章

  1. Java编程之三角形图案
  2. Redis设计与实现——对象
  3. ECMAScript 6 简明教程
  4. html的基础网页代码源(超基础)
  5. bss段,data段、text段、堆heap和栈stack
  6. 支持向量机蠓虫分类问题
  7. java super.clone解释_super.clone()做了什么
  8. 2016华为软件精英挑战赛:赛题及其答疑汇总
  9. 测试转开发,真有那么好?
  10. java之Map集合总结