在学习Hadoop之前,我们先来学习一下大数据的有关知识吧~

1.1 大数据时代

1.1.1 三次信息化浪潮

次序 时间 标志 解决问题 代表企业 大数据
第一次信息化浪潮 1980年前后 个人计算机 信息处理 Intel,AMD,IBM,苹果,微软,联想,戴尔,惠普等 兴起
第二次信息化浪潮 1995年前后 互联网 信息传输 雅虎,Google,Alibaba,百度,腾讯 普及
第三次信息化浪潮 2010年前后 物联网、云计算和大数据 信息爆炸 亚马逊、Google、IBM、VMWare、Palantir、Hortonworks、Cloudera、阿里云等 大数据时代

1.1.2 信息科技提供技术支撑:存储、计算、网络

信息科技需要解决信息存储、信息传输 和 信息处理 3 个核心问题,人类社会在信息科技领域的不断进步为大数据时代的到来提供了技术支撑。

存储设备容量不断提升,价格不断下降

CPU性能大幅提升(摩尔定律)

网络带宽不断增加

1.1.3 数据产生方式变革

数据产生方法的变革,是促进大数据时代来临的重要因素。总体而言,人类社会的数据产生方式大致经历了 3 个阶段:运营式系统阶段、用户原创内容阶段和感知式系统阶段。

运营式系统阶段–所有运营活动都存储在数据库中

数据库的诞生是一重要标志。在这一阶段,数据的产生方式是被动的,只有当实际的企业业务发生时,才会产生新的记录并存入数据库。

用户原创内容阶段–博客、微博,每个网民都能创作

互联网真正的数据爆发产生于以“用户原创内容”为特征的 Web 2.0 时代。Web 2.0 技术以 Wiki、博客、微博、微信等自服务模式为主,增强自服务,大量用户本身就是内容的生成者,尤其是随着移动互联网和智能手机终端的普及,人们更是可以随时随地使用手机发微博、上传照片,数据量急剧增加。

感知式系统阶段–物联网最底层包含很多设备(感知器、传感器、摄像头)源源不断产生信息

物联网的发展最终导致了人类社会数据量的第三次跃升。物联网包含大量传感器以及视频监控摄像头。这些设备,每时每刻都在自动产生大量数据,与 Web 2.0 时代的人工数据产生方式相比,物联网中的自动数据产生方式,将在段时间内生成更密集、更大量数据,是得人类社会迅速步入“大数据时代”。

1.1.4 大数据发展历程

大数据的发展历程总体上可以划分为 3 个重要阶段:

阶段 时间 内容
萌芽期 20 世纪 90 年代至 21 世纪初 随着数据挖掘理论和数据库技术的逐步成熟,一批商业智能工具和知识管理技术开始被应用,如数据仓库、专家系统、知识管理系统等
成熟期 21 世纪前 10 年 Web 2.0 应用迅猛发展,非结构化数据大量出现,传统处理方法难以应对,带动了大数据技术的快速突破,大数据解决方法逐渐走向成熟,形成了并行计算 与 分布式系统 两大核心技术,谷歌的 GFS 和 MapReduce 等大数据技术受到追捧,Hadoop 平台大行其道。
大规模应用期 2010 年以后 大数据应用渗透各行各业,数据驱动决策,信息社会智能化程度大幅度提高

1.2 大数据概念

4V:

大量化(Volume)、快速化(Velocity)、多样化(Variety)、价值密度比较低(Value)

1.2.1 数据量大

大数据摩尔定律:数据每两年增长一倍

随着 Web 2.0 和移动互联网的快速发展,以及物联网的推广和普及,人类社会正经历着第二次“数据大爆炸”。各种数据产生速度之快,产生数量之大,已经远远超出人类可以控制的范围,“数据爆炸”成为大数据时代的鲜明特征。

1.2.2 数据类型繁多

大数据的数据类型丰富,包括结构化数据 和 非结构化数据。

10%结构化数据,存储在关系数据库中

90%非结构化数据,种类繁多,主要包括邮件、音频、视频、微信、微博等各种网络信息,与人类信息密切相关

1.2.3 处理速度快

数据生成到消耗时间窗口非常小,用于生成决策时间非常少

大数据时代的许多应用都需要基于快速生成的数据给出实时分析结果,用于指导生产和生活实践。因此,数据处理和分析的速度通常需要达到秒级响应。

1秒定律–和传统的数据挖掘技术有本质不同

为了数显快速分析海量数据的目的,新兴的大数据分析技术通常采用集群处理和独特的内部设计。如谷歌公司的 Dremel。

1.2.4 价值密度低

在大数据时代,许多有用信息都是分散在海量数据中的。但商业价值高,如监控器,连续不间断的监控可能只有几秒有用

1.3 大数据影响

1.3.1 大数据对科学研究的影响

在科研上先后有实验、理论、计算和数据四种范式

比萨斜塔–各种定律(相对论)–计算机解决问题–数据分析

实验科学–理论科学–计算科学–数据密集型科学

虽然第三种范式和第四种范式都是利用计算机进行计算,但是二者还有有本质区别的。在第三种研究范式中,一般是先提出可能的理论,再搜集数据,然后通过计算来验证。而对于第四种研究范式,则是现有了大量已知的数据,然后通过计算得出之前未有的理论。

1.3.2 大数据对思维方式的影响

在思维方式方面,大数据完全颠覆了传统的思维方式:

全样而非抽样–之前无法对全样数据进行处理,计算能力存储能力不够

效率而非精确–之前看重算法的精度,而且是抽样;现在追求处理速度

相关而非因果–淘宝推荐其他人还买了啥,只考虑相关性但不研究因果

1.3.3 其他影响

社会发展方面,大数据决策逐渐成为一种新的决策方式,大数据应用有力促进了信息技术与各行业的深度融合,大数据开发大大推动了新技术和新应用的不断涌现

就业市场方面,大数据的兴起使得数据科学家成为热门职业

人才培养方面,大数据的兴起,将在很大程度上改变中国高校信息技术相关专业的现有教学和科研体制

1.4 大数据的应用

案例:

拍摄美剧(大数据分析找到最火的剧本、演员)

Google流感趋势(根据搜索数据判断流感情况)

1.5 大数据关键技术

所谓大数据技术,是指伴随着大数据的采集、存储、分析和应用的相关技术,是一系列使用非传统的工具对大量的结构化、半结构化和非结构化数据进行处理,从而获得分析和预测结果的一系列数据处理和分析技术。

大数据的基本处理流程,主要包括数据采集、存储、分析和结果呈现等环节。

技术层面 功能
数据采集 利用ETL工具将分布的、异构数据源中的数据如关系数据、平面数据文件等,抽取到临时中间层后进行清洗、转换、集成,最后加载到数据仓库或数据集市中,成为联机分析处理、数据挖掘的基础;或者也可以把实时采集的数据作为流计算系统的输入,进行实时处理分析
数据存储和管理 利用分布式文件系统、数据仓库、关系数据库、NoSQL数据库、云数据库等,实现对结构化、半结构化和非结构化海量数据的存储和管理
数据处理和分析 利用分布式并行编程模型和计算框架,结合机器学习和数据挖掘算法,实现对海量数据的处理和分析;对分析结果进行可视化呈现,帮助人们更好地理解数据、分析数据
数据隐私和安全 在从大数据中挖掘潜在的巨大商业价值和学术价值的同时,构建隐私数据保护体系和数据安全体系,有效保护个人隐私和数据安全

两大核心技术

  • 分布式存储

    • GFS/HDFS
    • BigTable/HBase
    • NoSQL(键值、列族、图形、文档数据库)
    • NewSQL(如 SQL Azure)
  • 分布式处理

    • MapReduce

1.6 大数据计算模式

计算模式 解决问题 代表产品
批处理计算 针对大规模数据的批量处理(风险控制检测、如花呗借呗、考察借款风险) MapReduce(无法高效迭代计算)、Spark等
流计算 针对流数据的实时计算(抖音、淘宝实时推送) Storm、S4、Flume、Streams、Puma、DStream、Super Mario、银河流数据处理平台等
图计算 针对大规模图结构数据的处理 Pregel、GraghX、Giraph、PowerGraph、Hama、GoldenOrb等
查询分析计算 大规模数据的存储管理和查询分析 Dremel、Hive、Cassandra、Impala等

1.7 大数据产业

大数据产业是指一切与支撑大数据组织管理和价值发现相关的企业经济活动的集合

产业链环节 包含内容
IT基础设施层 包括提供硬件、软件、网络等基础设施以及提供咨询、规划和系统集成服务的企业,比如,提供数据中心解决方案的IBM、惠普和戴尔等,提供存储解决方案的EMC,提供虚拟化管理软件的微软、思杰、SUN、Redhat等
数据源层 大数据生态圈里的数据提供者,是生物大数据(生物信息学领域的各类研究机构)、交通大数据(交通主管部门)、医疗大数据(各大医院、体检机构)、政务大数据(政府部门)、电商大数据(淘宝、天猫、苏宁云商、京东等电商)、社交网络大数据(微博、微信、人人网等)、搜索引擎大数据(百度、谷歌等)等各种数据的来源
数据管理层 包括数据抽取、转换、存储和管理等服务的各类企业或产品,比如分布式文件系统(如Hadoop的HDFS和谷歌的GFS)、ETL工具(Informatica、Datastage、Kettle等)、数据库和数据仓库(Oracle、MySQL、SQL Server、HBase、GreenPlum等)
数据分析层 包括提供分布式计算、数据挖掘、统计分析等服务的各类企业或产品,比如,分布式计算框架MapReduce、统计分析软件SPSS和SAS、数据挖掘工具Weka、数据可视化工具Tableau、BI工具(MicroStrategy、Cognos、BO)等等
数据平台层 包括提供数据分享平台、数据分析平台、数据租售平台等服务的企业或产品,比如阿里巴巴、谷歌、中国电信、百度等
数据应用层 提供智能交通、智慧医疗、智能物流、智能电网等行业应用的企业、机构或政府部门,比如交通主管部门、各大医疗机构、菜鸟网络、国家电网等

1.8 大数据与云计算、物联网的关系

云计算、大数据和物联网代表了IT领域最新的技术发展趋势,三者相辅相成,既有联系又有区别

1.8.1 云计算

1.8.1.1 云计算概念

云计算实现了了通过网络提供可伸缩的、廉价的分布式计算能力,用户只需要在具备网络接入条件的地方,就可以随时随地获得所需的各种IT资源

云计算三种服务模式:

  • 应用层:软件作为服务(SaaS)

  • 平台层:平台作为服务(PaaS)

  • 基础设施层:基础设施作为服务(IaaS)

云计算包括:

  • 公有云:基础设施层

  • 混合云:基础设施层、平台层

  • 私有云:基础设施层、平台层、应用层

1.8.1.2 云计算关键技术

虚拟化、分布式存储、分布式计算、多租户等

1.8.1.3 云计算数据中心
  • 云计算数据中心是一整套复杂的设施,包括刀片服务器、宽带网络连接、环境控制设备、监控设备以及各种安全装置等
  • 数据中心是云计算的重要载体,为云计算提供计算、存储、带宽等各种硬件资源,为各种平台和应用提供运行支撑环境
  • 全国各地推进数据中心建设
1.8.1.4 云计算应用
  • 政务云上可以部署公共安全管理、容灾备份、城市管理、应急管理、智能交通、社会保障等应用,通过集约化建设、管理和运行,可以实现信息资源整合和政务资源共享,推动政务管理创新,加快向服务型政府转型
  • 教育云可以有效整合幼儿教育、中小学教育、高等教育以及继续教育等优质教育资源,逐步实现教育信息共享、教育资源共享及教育资源深度挖掘等目标
  • 中小企业云能够让企业以低廉的成本建立财务、供应链、客户关系等管理应用系统,大大降低企业信息化门槛,迅速提升企业信息化水平,增强企业市场竞争力
  • 医疗云可以推动医院与医院、医院与社区、医院与急救中心、医院与家庭之间的服务共享,并形成一套全新的医疗健康服务系统,从而有效地提高医疗保健的质量
1.8.1.5 云计算产业

云计算产业作为战略性新兴产业,近些年得到了迅速发展,形成了成熟的产业链结构,产业涵盖硬件与设备制造、基础设施运营、软件与解决方案供应商、基础设施作为服务(IaaS)、平台作为服务(PaaS)、软件作为服务(SaaS)、终端设备、云安全、云计算交付/咨询/认证等环节

1.8.2 物联网

1.8.2.1 物联网概念

物联网是物物相连的互联网,是互联网的延伸,它利用局部网络或互联网等通信技术把传感器、控制器、机器、人员和物等通过新的方式联在一起,形成人与物、物与物相联,实现信息化和远程管理控制

体系架构图:

1.8.2.2 物联网关键技术
  • 识别和感知技术(二维码、RFID、传感器等)
  • 网络与通信技术
  • 数据挖掘与融合技术
  • 等等
1.8.2.3 物联网应用

广泛应用于智能交通、智慧医疗、智能家居、环保监测、智能安防、智能物流、智能电网、智慧农业、智能工业等领域,对国民经济与社会发展起到了重要的推动作用

1.8.2.4 物联网产业

完整的物联网产业链主要包括核心感应器件提供商、感知层末端设备提供商、网络提供商、软件与行业解决方案提供商、系统集成商、运营及服务提供商等六大环节

1.9 小结

  • 本章介绍了大数据技术的发展历程,并指出信息科技的不断进步为大数据时代提供了技术支撑,数据产生方式的变革促成了大数据时代的来临
  • 大数据具有数据量大、数据类型繁多、处理速度快、价值密度低等特点,统称“4V”。大数据对科学研究、思维方式、社会发展、就业市场和人才培养等方面,都产生了重要的影响,深刻理解大数据的这些影响,有助于我们更好把握学习和应用大数据的方向
  • 大数据在金融、汽车、零售、餐饮、电信、能源、政务、医疗、体育、娱乐等在内的社会各行各业都得到了日益广泛的应用,深刻地改变着我们的社会生产和日常生活
  • 大数据并非单一的数据或技术,而是数据和大数据技术的综合体。大数据技术主要包括数据采集、数据存储和管理、数据处理与分析、数据安全和隐私保护等几个层面的内容
  • 大数据产业包括IT基础设施层、数据源层、数据管理层、数据分析层、数据平台层和数据应用层,在不同层面,都已经形成了一批引领市场的技术和企业
  • 本章最后介绍了云计算和物联网的概念和关键技术,并阐述了大数据、云计算和物联网三者之间的区别与联系

Hadoop-1-大数据概述相关推荐

  1. 初识Hadoop:大数据与Hadoop概述

    1.大数据概述 大数据(big data),IT行业术语,是指无法在一定时间范围内用常规软件工具进行捕捉.管理和处理的数据集合,是需要新处理模式才能具有更强的决策力.洞察发现力和流程优化能力的海量.高 ...

  2. Ronald Van Loon/Greg White带你领略Hadoop/Spark大数据CCA175认证(一)

    目录 圣普伦Simplilearn课程概述: 圣普伦的Hadoop/Spark大数据CCA175认证培训课程特点: 上课模式: 预修课程: 适合人群 主要学习成果: 认证考试: 认证条件: 课程设置: ...

  3. 大数据技术介绍:01大数据概述

    大数据技术介绍:01大数据概述 大数据技术框架: Hadoop生态系统(1) Hadoop生态系统(2) Hadoop构成:Flume(非结构化数据收集): Cloudera开源的日志收集系统 用于非 ...

  4. 大数据学习笔记(一)——大数据概述

    第一章 大数据概述 1.1 大数据时代 1.1.1 信息科技为大数据时代提供技术支持 ①存储设备容量不断増加--解决了信息存储的问题 ②CPU处理能力大幅提升--解决了信息处理的问题 ③网络带宽不断増 ...

  5. Hadoop和大数据技术精讲班

    尊敬的先生/女士: 思数于计算和大数据服务中心http://www.bihadoop.com,简称思数于(隶属亍北京思数科技有限公司),是国内与业大数据分析培训.咨询机构.中国于计算大数据处理委员会. ...

  6. 零售业如何用Hadoop开启大数据之门?

    文章讲的是零售业如何用Hadoop开启大数据之门,在过去几年,全球零售商一直试图利用大数据创造价值.由于其大数据分析基础架构的限制,许多工作被一再推迟.Hadoop为这些零售商打开了新的大门,它可以解 ...

  7. 分享Hadoop处理大数据工具及优势

    现如今,随着云计算技术.物联网技术的兴起,企业需要应对的数据规模越来越大.数据格式越来越复杂.数据收集速度越来越快,也使得它和传统意义的业务数据相比,有了明显的特点.比如ApacheHadoop已成为 ...

  8. 荐六十款针对Hadoop和大数据顶级开源工具

    为什么80%的码农都做不了架构师?>>>    荐六十款针对Hadoop和大数据顶级开源工具 2015-08-10 10:37 布加迪编译 51CTO 字号: T |  T 说到处理 ...

  9. 混合云模式下 MaxCompute + Hadoop 混搭大数据架构实践

    摘要:2019杭州云栖大会大数据企业级服务专场,由斗鱼大数据高级专家张龙带来以 "混合云模式下 MaxCompute+Hadoop 混搭大数据架构实践" 为题的演讲.本文讲述了从 ...

  10. 史上最快! 10小时大数据入门(一)-大数据概述

    第1章 大数据概述 计划安排

最新文章

  1. windows系统杀掉explorer.exe进程后黑屏
  2. python 爬虫ip代理
  3. cannot resolve symbol spark
  4. db2诊断系列之---定位锁等待问题
  5. ASP.NET Core中使用IOC三部曲(一.使用ASP.NET Core自带的IOC容器)
  6. pandas object转float_25个Pandas实用技巧
  7. vuex从安装到使用的教程
  8. sid图像数据_实战材料信息学:使用skimage处理扫描电子显微镜(SEM)图像数据
  9. spring boot入门(九) springboot的过滤器filter。最完整、简单易懂、详细的spring boot教程。
  10. 餐饮业进销存软件哪个好用?推荐这十款
  11. Django项目使用NGINX通过LDAP实现用户验证
  12. 爬虫爬取全国地名的中文和拼音
  13. 小波变换二之Haar变换
  14. 使用GSM6315模块,采用http或者https协议与服务器通信笔记
  15. freemarker英文日期显示成中文问题
  16. 钉钉网页版入口,存档
  17. VMware 12虚拟机win7中添加摄像头
  18. Modifiers should be declared in the correct order 修饰符应按正确的顺序声明
  19. 「 SLAM lesson-2.3 」SLAM数学描述、运动方程、观测方程
  20. 班主任工作总结(2013年度)

热门文章

  1. SAP PS 第0节 PS PA有哪些知识点及IDES练习
  2. Python---按字典序输出集合的所有非空子集
  3. 2022全国高职院校教师真实薪酬数据汇总
  4. cts测试如何跳过某个模块不测过
  5. linux定时任务每两天,linux定时任务
  6. java中双冒号的用法
  7. oracle ipac,Oracle VM VritualBOX安装Centos详解与注意事项
  8. gantt/甘特图完整代码(带注释,可以复制)
  9. Hadamard矩阵和Kronecker积
  10. 技术科普:虚拟现实系统