经常有人问小智这样一个问题:什么是大数据?

这问题看似简单,实际不简单,也许一千个人会有一千个答案。是的,每个人对大数据都有自己的理解,就像小智问朋友,“重庆什么菜最好吃?”分分钟都能收获上百个答案。

今天,小智就尝试从吃货的角度,给大家举栗说明一下,什么是大数据?

1.大数据是什么?怎么理解大数据?

如果把数据比作地球上的水,个人的数据(电脑里的各种文档、歌曲、电影、程序等等),就好像一颗小水珠,最多能在累的时候解解渴;企业级的数据略有些不同,根据规模的大小,有些可以算作水坑、有些是池塘,已经可以养些小鱼小虾打打牙祭了;还有一些企业的数据(比如Facebook,2012年每天需要处理的数据量就达到了500TB)已经算得上是一个大的湖泊了,可以实现大型的捕捞、规模化的养殖。但是,在湖泊之外,还有更广阔的世界,也就是说还有更多的数据值得我们去发现。

比如,外国人常常埋怨中国菜不够“精确”,很多配料都用“少许”“适当”“足量”粗略地进行描述,实际操作起来很难学到精髓。有了大数据以后,主材、配料的数量、比例,油盐酱醋的多少,都可以进行精准地记录,甚至哪里产的猪肉,配上哪里的青椒、豆瓣做出来的回锅肉最好吃,都可以形成数据被记录下来。这些以前不被重视、不被采集的数据,就是我们大数据领域隐藏的“水滴”“池塘”“湖泊”。已有的大量数据,以及尚未被发现、记录的数据,共同构成了大数据时代的发展基础。

水滴、池塘、湖泊发现得多了,就能够汇聚成海洋。大数据海洋里面的水(数据),多到数不清楚,里面的物产、资源(大数据产生的价值)也丰富到无以复加。原来我们在湖泊里面养养“青草鲢鳙”四大家鱼,有了数据海洋,想吃生蚝、鳕鱼、金枪鱼等等都可以轻松搞定。

这么说,你明白大数据了吗?就是把超级多数据信息汇集到一起,然后在里面“钓大鱼”。

2.都说大数据有4V的特征,是什么意思?

大数据的4V,就是“容量大Volume”“多样性Variety”“价值高Value”“速度快Velocity”,同样以海洋和里面的美食进行类比:

A.容量大:地球表面有70%左右都是海洋,想想里面都有多少水滴,有多少好吃的?大数据时代,每一个人、每一种食材、甚至每一秒风味与口感的变化关系,都能够形成一系列随时更新的数据,数据规模空前庞大,其中隐藏的价值也远远超出大部分人的预期。

B.多样性:海洋里面的物质非常多样化,有资源、也有杂物;有海胆、生蚝、象鼻蚌等小而鲜嫩的海产,也有黄鱼、鳕鱼、金枪鱼等大型鱼类……大数据的结构也和海洋一样复杂,仅仅以文件类型为例,就有图片、文字、声音、视频等等,还有各种非结构化数据,所以在利用这些资源之前,需要把他们“排排站”进行分类、处理,才能“吃果果”。

C.价值高:这个就不用说了,鳗鱼、龙虾、三文鱼……动辄每100克3~4万元的黄唇鱼,还有危急时刻能救人命的秋刀鱼。(前几年就出过一个日本青年因吃到炭烤秋刀鱼而放弃轻生的新闻,小智会乱说?)在实际应用中,大数据可以用于提升优化企业的管理效率,发现新的商业机会,也能够对事物的发展做出准确的分析、预测等等,各种商业价值就看你怎么用;

D.速度快:先来吃肉、后来喝汤,这个道理想必大家都懂。数据海洋很大,想要比别人抢先一步找到美味,速度一定要快,这就要求我们要能对整个数据海洋进行快速的扫描、筛选、处理。如果只有两条小渔船,就算给你整个太平洋,也不见得能奔上小康。

PS:第4个V的比喻有点牵强,但不影响小智的发挥哈,他们说“想要吃肉,脸皮要厚”……

3.对大数据的处理,还是以在大海里面抓鱼为例:

通过技术手段,发现隐藏在海水中的丰富物产的过程,就是数据挖掘;(从大量的数据中通过算法搜索隐藏于其中信息)

找到的东西里面,哪些是有用的,哪些是杂草、沙石先大概做一个分析,顺手把错误的、不合适的、没价值东西排除掉,这是数据清洗;(发现并纠正数据文件中可识别的错误)

在进行过初步筛选的“海域”里,进一步扫描出哪些是矿产、哪些是渔产,渔产里面有哪些鱼类,分别的种类划分、经济价值如何、数量多少……这是数据分析;(对收集来的大量数据进行分析,提取有用信息和形成结论)

把一眼看起来有些面目狰狞的海鲜(各种数字、表格)进行加工、处理,做成精美的大餐送上餐桌,色香味俱全地呈现在用户面前(精美、直观的图表),就是我们说的数据可视化。

4.IaasPaasSaas是什么?

Iass是基础设施服务。IaaS是所有计算基础设施的利用,包括处理CPU、内存、存储、网络和其它基本的计算资源,用户能够部署和运行任意软件,包括操作系统和应用程序。就好像给你一个码头,配备好了各种硬件设备。机会和能力给了你,还需要靠自己的平台、工具,到海洋里面获取资源。

Pass是平台服务。提供给消费者的服务是把客户采用提供的开发语言和工具(例如Java,python,.Net等)开发的或收购的应用程序部署到供应商的云计算基础设施上去。除了码头,又给了一艘船,还给你配齐船长、大副、水手,有了一个系统可以直接面对海洋的各种资源了。不过怎么抓鱼,用什么工具抓鱼,还是你自己的事情。

SaaS是软件服务,提供给客户的服务是运营商运行在云计算基础设施上的应用程序,用户可以在各种设备上通过客户端界面访问,如浏览器。这次就落实到具体的工具上面来,捕捞方案、抓鱼的网、开船路线都配齐了,只需要安排下去:去哪片海域抓什么鱼就行。

5.这几年说大数据,必定说Hadoop,后来又多了个Spark,是什么意思呢?

假如我的家族世代以打鱼为生,以前都是聚集在一个岛上,驾驶一艘大船出海打鱼,整个家族能打到多少鱼就和这艘船的航行速度(计算能力)、装载数量(存储能力)有关。它的速度再快、捞得再多,由于只有一艘船,能够搜寻的海域就相当有限。

现在我们改变了策略,一艘船的能力不行,就找N多艘船一起。整个家族的人分散到世界海洋各地,和其他家族一起共同分享各自的船只。必要的时候,我们可以联合几百艘船一起出动捕捞,由于覆盖的海域足够广,能够装载的收获足够多,对应的捕捞能力也可以实现指数式的增长。

hadoop就是这样一个分布式系统的基础构架,通过将文件进行分布式(切块、分散)管理,充分利用集体的威力进行高速运算和存储。

至于spark嘛,就是船上以前有艘快艇,本来是用来逃生的,如今也被利用当成抓鱼的主要工具。(Spark是一种与hadoop类似的开源计算集群环境,启用了内存分布数据集,直接从内存读数据,运算速度最快能比从硬盘读取数据提升10倍水平)。

6.大数据用来做什么?

大数据有很多应用场景,比如精准营销,就是打鱼的人通过多年海上经验,知道哪片海域的海鲜多又能卖好价钱;比如舆情分析,就像海啸预警,通过对海量信息的分析、比对,找出可能产生海啸灾害的区域……当然,最大的用处还是“预测”,比如通过分析多年的洋流运动,能够分析出你今天在好望角错过的鱼群下个月会出现在哪里。什么?你说鱼对你没有吸引力?那如果预测的是未来股票的涨跌呢?如果预测的是未来行业的风口呢?

7.大数据企业都提供哪些服务?

第一类,云平台服务商,像亚马逊、阿里云这些,就好比世界上一个个国家,管理各自的海域,你可以去他的海域里面捕鱼,可以将你的海域交给他们管理,也可以直接买他们捕捞到的成品;

第二类,数据交易中介,他们自身提供一些数据,更主要的是搭建一个交易平台,撮合数据提供者与数据使用者实现数据交换,促成数据价值的实现,这有点像买卖各种湖泊、海洋的商人,买家拿到这些数据后,可以融合到自己的“海洋”里面去,让自己的海洋变得更大,物产更丰富;

第三类,大数据解决方案提供商,就是在数据海洋的各个角落派遣捕鱼船队,提供海洋开拓、资源扫描、采矿捕捞、加工销售的一系列服务,你想在数据大航海时代做的所有事情,他们都能帮你处理。

悄悄说一句,小智的公司——智慧思特就是提供大数据解决方案的企业,提供数据关联分析、数据深度挖掘、定制化大数据解决方案。哈哈哈,说了这么多,你对大数据的认识有没有增加一些?如果有的话,下次来重庆一定记得请小智吃饭呐!

哇哈哈哈……

END

转载于:https://my.oschina.net/u/3407515/blog/873398

零基础入门,资深吃货带你搞懂大数据相关推荐

  1. HCNA零基础入门视频教程-HCNP职场提升班-HCIE大神直通班

    hcna视频教程,零基础小白,一个月快速入门,1个月助你拿证加就业,SPOTO培训学习平台,2019新版HCNA认证详解与学习指南,实验题目,专注网络工程师认证!挑战年薪30W+! HCNA概述 Hu ...

  2. 零基础学python实战-Python3.6零基础入门与实战 PDF 带源码视频版

    给大家带来的一篇关于Python相关的电子书资源,介绍了关于Python 3.6.入门.实战方面的内容,本书是由清华大学出版社出版,格式为PDF,资源大小518.9 MB,王启明编写,目前豆瓣.亚马逊 ...

  3. 技术革新大趋势!一文带你读懂大数据分布式存储

    黑马程序员视频库 播妞QQ号:3077485083 传智播客旗下互联网资讯.学习资源免费分享平台 随着信息时代的发展,大数据已经成为当今技术革新的一大发展趋势.在大数据时代,数据呈指数级增长,催生了多 ...

  4. 医疗保健、零售、金融、制造业……一文带你看懂大数据对工业领域的影响!...

    作者 | Zubair Hassan 译者 | 风车云马 责编 | 徐威龙 封图| CSDN 下载于视觉中国 随着大数据技术的兴起,工业领域在很大程度上发生了变化.智能手机和其他通讯方式的使用迅速增加 ...

  5. 一篇文章带你弄懂大数据!

    一.大数据是什么? 大数据,big data,<大数据>一书对大数据这么定义,大数据是指不能用随机分析法(抽样调查)这样捷径,而采用所有数据进行分析处理. 这句话至少传递两种信息: 1.大 ...

  6. SpringBoot零基础入门指南--搭建Springboot然后能够在浏览器返回数据

    File->new Project 修改默认包名,根据自己的喜好修改 选择初始化需要导入的包,尽量不要一开始就导入很多,特别是数据库,不然启动可能会有问题,创建好的目录如下: 配置文件写在app ...

  7. 零基础入门Python数据分析,只需要看懂这一张图,附下载链接!

    摘要 在做数据分析的过程中,经常会想数据分析到底是什么?为什么要做数据数据分析?数据分析到底该怎么做?等这些问题.对于这些问题,一开始也只是有个很笼统的认识. 最近这两天,读了一下早就被很多人推荐的& ...

  8. C语言零基础速通——函数(7分钟搞懂)

    此章讲的主要是自定义函数 函数的定义 形式: 函数类型 函数名 (形参列表){ 函数体} 可以把函数看成个加工厂,形式参数是原料,返回值是加工好的成品 举个例子具体化一下 eg. int compar ...

  9. 【课程汇总】Hello HarmonyOS系列课程,手把手带你零基础入门

    HarmonyOS是面向未来.面向全场景的新一代智能终端操作系统,为不同设备的智能化.互联与协同提供了统一的语言,给人们带来简洁.流畅.连续.安全可靠的全场景交互体验. 初识HarmonyOS的开发者 ...

  10. 零基础入门│带你理解Kubernetes

    条分缕析带你充分理解Kubernetes的各个细节与部分:它是什么,它如何解决 容器编排问题,它包含哪些你必须掌握的关键对象,以及如何快速上手部署使用Kubernetes. 容器的好处不胜枚举:一致的 ...

最新文章

  1. 状态压缩dp(hdu2662)(我综合了一个人的解释和另一个人的代码)
  2. 探索区块链-挖框体验
  3. Boost:bimap双图信息的测试程序
  4. android ndk 多线程mk,NDK开发之Android.mk文件编写
  5. linux 追加多行文件,linux多行文件信息追加
  6. 使用Matlab(R2018b)画复杂函数的图形(网格图meshgrid)及等高线contour
  7. Qt学习笔记-简单的UDP广播包聊天室
  8. Android 用户界面---拖放(Drag and Drop)(三)
  9. Mac下启动AndroidStudio失败
  10. 计算机桌面怎么分区域,怎样设置电脑桌面的区域分割?
  11. sql 给字段设置默认值,
  12. .net core with 微服务 - 微服务架构图
  13. 如何查看谷歌浏览器的版本
  14. qt编写的mask遮罩的半透明涂抹功能
  15. 参加腾讯云TVP的Coding吐槽大会感想
  16. ngx-datatable中文教程
  17. php和android和mysql_如何使用JSON连接Android和PHP Mysql数据库
  18. html5网页制作代码-我的班级网页 HTML期末大作业
  19. Oracle11g在虚拟机win7上的详细安装过程(包括win7在虚拟机上的安装)
  20. 软件工程作业之甘特图

热门文章

  1. 计算机如何连接iphone,iphone怎么连接到电脑的方法详解【图文】
  2. 邹城机器人产业园出租_华丰机器人产业园写字楼出租出售租赁出租我们是专
  3. Ubuntu安装微信,三步到位
  4. 2.1.17 设置字符间距
  5. python课程改进建议_关于Python课程的思考和意见
  6. 笔记本计算机无法开机怎么办,笔记本开机按了没反应 笔记本电脑开不了机怎么办...
  7. 中国卸扣市场趋势报告、技术动态创新及市场预测
  8. 空中交通通信控制设备的全球与中国市场2022-2028年:技术、参与者、趋势、市场规模及占有率研究报告
  9. 魔兽争霸3冰封王座 对战初始化被禁止
  10. Linux下彻底删除oracle