大物移云:大数据,物联网,移动互联,云计算

大数据时代

图灵奖(计算机最高奖项)杰姆·格雷(Jim Gray)曾提出著名的"新摩尔定律”:每18个月全球新增信息量是计算机有史以来全部信息量的总和。时至今日,所累积的数据量之大,已经无法用传统方法处理,因而使“大数据”这个词备受万众瞩目。
而处理"大数据”的技术手段- "云计算”,很早就被人们所熟知了。

数据存储计量单位

换算率等于1024,例:1K=1024B
1B(byte,字节)
1KB
1MB
1GB
1TB
1PB
1EB
1ZB
1YB

数据产生方式的改变

历史上,数据基本是通过手工产生的。随着人类步入信息社会,数据产生越来越自动化。比如在精细农业中,需要采集植物生长环境的温度、湿度、病虫害信息,对植物的生长进行精细的控制。因此我们在植物的生长环境中安装各种的传感器,自动地收集我们需要的信息。对环境的感知,是一种抽样的手段,抽样密度越高,越逼真真实情形。如今,人类不再满足于得到部分信息,而是倾向于收集对象的全部信息,即将我们周围的一切数据化。因为有些数据如果丢失了哪怕很小的一部分,都有可能得出错误的结论,比如通过分析人的基因组判断某人可能患有某种疾病,即使丢失一小块基因片段,都有可能导致错误的结果。为了达到这个目的,传感器的使用暴增。目前全球有30亿-50亿个传感器,到2020年将达到1000亿个之多。这些传感器24小时都在产生数据,这就导致了信息爆炸

人类的活动越来越依赖数据

人类的日常生活已经与数据密不可分

全球已经有大约30亿人连入互联网。在Web2.0时代,每个人不仅是信息的接收者,同时也是信息的产生者,每个人都成为数据源,每个人都在用智能终端拍照、拍录像、发微博、发微信等。全球每天会有2.88万小时的视频上传到YouTube, 会有5000万条信息上传到Twitter, 会在亚马逊产生630万笔订单…

科学研究进入了”数据科学”时代

例如,在物理学领域,欧洲粒子物理研究所的大型强子对撞机,每秒产生的原始数据量高达40TB。在天文学领域,2000年斯隆数字巡天项目启动时位于墨西哥州的望远镜在短短几周内收集到的数据比天文学历史上的总和还要多。

各行各业也越来越依赖大数据手段来开展工作

例如,石油部门用地震勘探的方法来探测地质构造、寻找石油,使用了大量传感器来采集地震波形数据。高铁的运行要保障安全,需要在每一段铁轨周边大量部署传感器,从而感知异物、滑坡、水淹、变形、地震等异常。目前一个普通城市的摄像头往往就有几十万个之多,每分每秒都在产生极其海量的数据。

大数据定义

海量数据巨量数据,其规模巨大到无法通过目定前主流的计算机系统在合理时间内获取、存储、管理、处理并提炼以帮助使用者决策。

大数据特征(4V+1C)

价值密度低(Value)

在成本可接受的条件下,通过快速采集、发现和分析,从大量、多种类别的数据中提取价值的体系架构。

数据量大(Volume)

存储的数据量巨大,PB级别是常态,因而对其分析的计算量也大。

快速(Velocity)

数据增长速度快,而且越新的数据价值越大,这就要求对数据的处理速度也要快,以便能够从数据中及时地提取知识,发现价值。

多样(Variety)

数据的来源及格式多样,数据格式除了传统的结构化数据外,还包括半结构化或非结构化数据,比如用户上传的音频和视频内容。而随着人类活动的进一步拓宽,数据的来源更加多样。

复杂度(Complexity)

对数据的处理和分析的难度大。

云计算-大数据的计算

在中国大数据专家委员会成立大会上,委员会主任怀进鹏院士用一个公式描述了大数据与云计算的关系:
G=f(x)G=f(x) G=f(x)
其中,G,我们的目标;f,云计算;x,大数据。
云计算是处理大数据的手段,大数据与云计算是一枚硬币的正反面。
大数据是需求,云计算是手段。没有大数据,就不需要云计算。没有云计算,就无法处理大数据。

什么是云计算?

云计算长定义

计算是一种商业计算模型。它将计算任务分布在大量计算机构成的资源池上,使各种应用系统能够根据需要获取计算力、存储空间和信息服务。

云计算短定义

云计算是通过网络按需提供可动态伸缩的廉价计算服务。

资源池=云

云是一些可以自我维护和管理的虚拟计算资源, 通常是一-些大型服务器集群, 包括计算服务器、存储服务器和宽带资源等。
云计算将计算资源集中起来,并通过专门软件实现自动管理,无须人为参与。用户可以动态申请部分资源,支持各种应用程序的运转,无须为繁琐的细节而烦恼,能够更加专注于自己的业务,有利于提高效率、降低成本和技术创新。
之所以称为“云”,是因为它在某些方面具有现实中云的特征:
云一般都较大;
云的规模可以动态伸缩,它的边界是模糊的;
云在空中飘忽不定,无法也无须确定它的具体位置,但它确实存在于某处。

云计算是并行计算、分布式计算和网格计算的发展,或者说是这些计算科学概念的商业实现。
云计算是虚拟化、效用计算、将基础设施作为服务、将平台作为服务和将软件作为服务等概念混合演进并跃升的结果。

云计算的特点

  • (1)超大规模:“云”具有相当的规模,谷歌云计算已经拥上百万台服务器,亚马逊、IBM、微软、Yahoo、 阿里、百度和腾讯等公司的"云”均拥有几十万台服务器。“云”能赋予用户前所未有的计算能力。
  • (2)虚拟化:云计算支持用户在任意位置、使用各种终端获取服务。所请求的资源来自“云”,而不是固定的有形的实体。应用在“云”中某处运行,但实际上用户无须了解应用运行的具体位置,只需要一台计算机、 PAD或者手机,就可以通过网络服务来获取各种能力超强的服务。
  • (3)高可靠性:“云” 使用了数据多副本容错、计算节点同构可互换等措施来保障服务的高可靠性,使用云计算比使用本地计算机更加可靠。
  • (4)通用性:云计算不针对特定的应用,在“云”的支撑下,可以构造出千变万化的应用,同一片“云”可以同时支持不同的应用运行。
  • (5)高可伸缩性:“云”的规模可以动态伸缩,满足应用和用户规模增长的需要。
  • (6)按需服务: “云”是一个庞大的资源池,用户按需购买,像自来水、电和煤气那样计费。
  • (7)极其廉价
    “云”的特殊容错措施使得可以采用极其廉价的节点来构成云;
    “云”的自动化管理使数据中心管理成本大幅度降低;
    “云”的公用性和通用性使资源的利用率大幅度提升;
    “云”设施可以建在电力资源丰富的地区,从而大幅度降低能源成本。

云计算按服务类型大致分为三类

云计算发展现状

国外云计算的先行者

Amazon

  • 率先在全球提供了弹性计算云EC2 (Elastic Computing Cloud) 和简单存储服务 S3 (Simple Storage Service),为企业提供计算和存储服务。
  • 收费的服务项目包括存储空间、带宽、CPU资源以及月租费。
  • AWS服务的种类非常齐全。
  • 全球用户数量已经超过100万。

Google

  • 最大的云计算技术的使用者。
  • 谷歌搜索引擎就建立在分布在200多个站点、超过100万台的服务器的支撑之上,而且这些设施的数量正在迅猛增长,谷歌的一系列成功应用平台,包括谷歌地球、地图、Gmail、 Docs等也同样使用了这些基础设施。
  • 采用Google Docs之类的应用,用户数据会保存在互联网上的某个位置,可以通过任何一个与互联网相连的终端十分便利地访问和共享这些数据。
  • 谷歌已经允许第三方在谷歌的云计算中通过Google App Engine运行大型并行应用程序。
  • 发表学术论文的形式公开其云计算三大法宝: GFS、 MapReduce和Bigtable,并在美国、中国等高校开设如何进行云计算编程的课程。相应地,模仿者应运而生,Hadoop是其中最受关注的开源项目。

注:Hadoop的框架最核心的设计就是:HDFS和MapReduce。HDFS为海量的数据提供了存储,而MapReduce则为海量的数据提供了计算。

Microsoft

  • 微软于2008年10月推出了Windows Azure操作系统。Azure(译为 “蓝天”)是继Windows取代DOS之后,微软的又一次颠覆性转型-通过在互联网架构上打造新云计算平台,让Windows真正由PC延伸到“蓝天”上。
  • 微软的云平台包括几十万台服务器。
  • Azure的底层 是微软全球基础服务系统,由遍布全球的第四代数据中心构成。
  • 微软将为Windows Azure用户推出许多新的功能,不但能更简单地将现有的。应用程序转移到云中,而且可以加强云托管应用程序的可用服务,充分体现出微软的“云”+“端”战略。
  • 在中国,微软2014年3月27日宣布由世纪互联负责运营的Microsoft Azure公有云服务正式商用,这是国内首个正式商用的国际公有云服务平台。

国内云计算崛起代表企业

阿里巴巴

阿里巴巴已经在北京、杭州、青岛、香港、深圳、硅谷等拥有云计算数据中心,并正在德国、新加坡和日本建设数据中心。
阿里云提供云服务ECS、关系型数据库服务RDS、开放存储服务OSS、内容分发网络CDN等产品服务。
其用户规模已经超过140万,处于全球领先的位置,并开始在欧美市场与亚马逊等正面竞争。

其他

云计算实现机制

云计算体系结构


云计算的管理中间件层

资源管理

均衡使用云资源节点,检测节点故障并试图恢复或屏蔽之,并对资源的使用情况进行监视统计。

任务管理

检测节点故障执行用户或应用提交的任务,包括完成用户任务映象(lmage) 的部署和管理、任务调度、任务执行、任务生命期管理等。

用户管理

实现云计算商业模式的一个必不可少的环节,包括提供用户交互接口、管理和识别用户身份、创建用户程序的执行环境、对用户的使用进行计费等。

安全管理

保障云计算设施的整体安全,包括身份认证、访问授权、综合防护和安全审计等。

简化的IaaS实现机制图

云计算压倒性的成本优势

为什么云计算拥有划时代的优势?

主要原因在于它的技术特征规模效应所带来的压倒性的性能价格比优势。

全球企业的IT开销分为三部分:硬件开销、能耗和管理成本。根据IDC在2007年做过的一个调查和预测,从1996年到2010年, 全球企业IT开销中的硬件开销是基本持平的,但能耗和管理的成本上升非常迅速,以至于到2010年管理成本占了IT开销的大部分,而能耗开销越来越接近硬件开销了。

举例1:拥有1000个服务器中型数据中心和拥有5万个特大型数据中心的成本比较


因而,对于规模通常达到几十万乃至上百万台计算机的亚马逊和谷歌云计算而言,其网络、存储和管理成本比中型数据中心至少可以降低5-7倍。

举例2:美国不同地区电力价格的差异

美国爱达荷州的水电资源丰富,电很便宜。夏威夷是岛屿,本地没电力资源,电力价格比较贵。

谷歌的数据中心一般选择在人烟稀少,气候寒冷、水资源丰富的地区,这些地点的电价、散热成本、场地成本、人力成本都远远低于人烟稠密的大都市。

注:“信息时代核电站”-Google数据中心:数据中心采用了高度自动化的云计算软件来管理,需要的人员很少,而为了技术保密而拒绝外人进入参观,让人有一种神秘的感觉。

举例3:某典型网站的流量数据

云计算与传统互联网数据中心IDC相比,资源的利用率也有很大的不同。IDC一般采用服务器托管和虚拟主机等方式对网站提供服务。每个租用IDC的网站所获得的网络宽带、处理能力和存储空间都是固定的。然而,绝大多数网站的访问流量都不是均衡的。

云计算较之传统方式的性价比优势


云计算将计算变成了大众用得上和用得起的“水和电”

对云计算用户而言,云计算的优势也是无与伦比的。他们不用开发软件,不用安装硬件,用低得多得使用成本,就可以快速部署应用系统,而且可以动态伸缩系统的规模,可以更容易地共享数据。租用公共云的企业不再需要自建数据中心,只需申请账号并按量付费,这一点对于中小企业和刚起步的创业公司尤为重要。
目前,云计算的应用领域涵盖应用托管、存储备份、内容推送、 电子商务、高性能计算、媒体服务、搜索引|擎、 Web托管等多个领域,代表性的云计算应用企业包括Abaca、BelnSync、 AF83、Giveness、 纽约时报、华盛顿邮报、GigaVox、 SmugMugAlexa、Digitaria等。
纽约时报使用亚马逊云计算服务在不到24小时的时间里处理了1100万篇文章,累计花费仅240美元。如果用自己的服务器,需要数月时间和多得多的费用。

云计算概论-大数据与云计算相关推荐

  1. 科普丨数据中心、云计算、大数据之间有什么区别和联系?

    不少人把数据中心.云计算数据中心.大数据搞混淆,觉得这三者是一样的产品,其实有显著地区别,数据中心机房是一整套复杂的设施,如今,云计算即将成为信息社会的公共资源,而数据中心则是支撑云计算服务的基础设施 ...

  2. 大数据、云计算、物联网、数据仓库、OLAP、OLTP、等大数据你必须知道并且了解的概念及相关关系,我的一些总结

    三个概念 Cloud computing-云计算: 定义: 百度百科解释: 云计算(cloud computing)是分布式计算的一种,指的是通过网络"云"将巨大的数据计算处理程序 ...

  3. 大数据、云计算、物联网、数据库、数据仓库、OLAP、OLTP等学习大数据你必须了解的概念,我的学习总结

    三个概念 Cloud computing-云计算: 定义: 百度百科解释: 云计算(cloud computing)是分布式计算的一种,指的是通过网络"云"将巨大的数据计算处理程序 ...

  4. 【云计算与大数据概述 】课堂笔记

    文章目录 第一章 云计算与大数据基础 1.1 云计算基础 1.1.1 云计算简介 1.1.2 云计算的特点 1.1.3 云计算技术分类 1.2大数据基础 1.2.1 大数据简介 1.2.2 主要的大数 ...

  5. 大数据和云计算知识点汇总

    大数据和云计算 1 大数据和云计算的关系 2 云计算的技术 3 云计算的优势 4 云服务类型 5 GFS/HDFS的架构模式 6 大数据处理过程 7 MapReduce编程结构 8 VPC的概念 9 ...

  6. 云计算和大数据之间的区别与联系

    如今,云计算即将成为信息社会的公共资源,而数据则是支撑云计算服务的基础,所以自从云计算横空出世,一切信息技术都开始围着它转,云计算有如神一样地存在着,下面随芜湖云计算培训看看云计算.大数据之间有什么联 ...

  7. 大数据与云计算概论2

    大数据与云计算概论2 #简介 在分布式计算中,由于数据量的大小及格式超出了典型数据库软件的采集.储存.管理和分析等能力,因此需要采用新的技术来完成当前数据量的处理及分析,于是大数据技术因用而生. 一. ...

  8. 分布式计算、云计算与大数据概论心得理解

    分布式计算.云计算与大数据概论心得理解 第一章 分布式计算概述 分布式计算的概念 分布式计算与其相关计算的发展趋势 集中计算(单机计算) 串行运算与并行运算简介 各种计算简介 网络计算 网格计算 分布 ...

  9. 大数据与云计算概论5

    大数据与云计算概论5 #虚拟化技术 一.虚拟化技术与云计算 虚拟化是云计算中主要支撑技术之一.虚拟化将应用程序和数据在不同层次以不同的面貌展现,这样有助于使用者.开发及维护人员方便的使用.开发及维护这 ...

  10. 云计算与大数据考试重点

    云计算与大数据重要考点 By Suzhou University of Science and Technology, CS1812, zhoubo Email: usts.zhoubo@gmail. ...

最新文章

  1. 基于SSM实现招聘网站
  2. 单调栈之Next Greater Number
  3. Unity3D对apk反编译、重编译、重签名
  4. 误码率越高越好还是越低越好_夜间护理步骤越多越好还是越少越好?NFF
  5. java用log.i打印数组_java-使用JSCH将ssh日志打印到列表(android)
  6. 数据库中where与having区别~~~
  7. 强化顶层设计 巩固网络安全
  8. Python_骑士游历问题
  9. 平衡二叉树、B树、B+树、B*树
  10. android psp 模拟器卡,手机PSP游戏闪退或卡顿的解决方法
  11. FPGA基础入门【14】开发板VGA视频输出控制
  12. xp启用计算机共享打印机,xp系统和win7系统怎么共享打印机_xp如何连接 win7共享打印机...
  13. Android自定义View里面获取宽高及dp和px间的转换
  14. Mac上通过docker配置PHP开发环境
  15. 免费英语听力工具voscreen
  16. Retrofit简单使用(小白都会了)
  17. 天轰川 推荐的Javscript大收集 大集锦
  18. 欧几里得算法求解最大公因数详解
  19. NUC-lib资源学习
  20. Vue 生命周期函数

热门文章

  1. 线性代数(一)矩阵和方程组
  2. 微星GS安装Ubuntu系统
  3. leetcode每日一题 838. 推多米诺 正解 双指针~这题很考察模拟逻辑——是一道不错的模拟题
  4. mysql数据库分页查询,limit语句用法
  5. prosody之component
  6. java查看eth转账状态,eth转账确认查询
  7. 解决谷歌浏览器 Google Chrome不能拖拽安装离线插件的办法
  8. word怎么删除最后一页空白页
  9. 2015年最新中国知网CNKI免费账号直接入口
  10. mysql 关于 不可重复读与幻读的解决方案