大数据简介

什么是大数据

​ 最近几年,IT行业最火的名词中,少不了"大数据"、“人工智能”、“云计算”、“物联网”、"区块链"等等这些名词。针对于"大数据"这个名词,现在更是全国老百姓,老少皆知的一个词语。但是什么是大数据,除了IT行业的专业人士外,其他人乃至其他行业的人,除了能说出"数据量大"之外,好像真的不能再更深层次的解释了。那么我们来看看下面几个权威机构给出的解释:

**维基百科: **数据规模巨大到无法通过人工在合理的时间内达到截取,管理,处理并整理成为人类所解读的信息。

**麦肯锡全球研究所: **一种规模大到在获取、存储、管理、分析方面都大大超出了传统数据库软件工具能力范围的数据集合。

**高德纳: **需要新的处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产。

不同的权威机构给出了不同的概念定义,但是这些概念是大同小异的。我们提炼出来这些机构给出的定义中的共同点,总结如下:

海量数据,具有高增长率、数据类型多样化、一定时间内无法使用常规软件工具进行捕捉、管理和处理的数据集合。

大数据的特征

​ 早在1980年,著名未来学家托夫勒在其所著的《第三次浪潮》中就热情地将“大数据”称颂为“第三次浪潮的华彩乐章”。《自然》杂志在2008年9月推出了名为“大数据”的封面专栏。从2009年开始“大数据”才成为互联网技术行业中的热门词汇。最早应用“大数据”的是世界著名的管理咨询公司麦肯锡公司,它看到了各种网络平台记录的个人海量信息具备潜在的商业价值,于是投入大量人力物力进行调研, 对“大数据”进行收集和分析的设想,在2011年6月发布了关于“大数据”的报告,该报告对“大数据”的影响、关键技术和应用领域等都进行了详尽的分析。麦肯锡的报告得到了金融界的高度重视,而后逐渐受到了各行各业关注。 那么大数据到底有什么特征呢?我们怎么去理解大数据呢?有专业人士总结了4V说法,也有相关机构总结了5V说法,甚至6V说法。不管哪种说法,下面四个特征,是大家普遍认可的。

  • Volume: 数据量非常庞大

  • Variety: 数据类型多样化,组成庞大的数据集的数据,有结构化的、半结构化的和非结构化的数据

  • Velocity: 数据增长的速度非常快

  • Value: 数据的价值密度低

大数据的应用场景

​ 时至今日,大数据已经在生活的各行各业中都有应用了,在各个领域中影响着我们的生活。这里列举了一些常见的场景:

  • OFO故障报警

    • 星期天,我扫一UFO,刚扫完…
    • 一黄框蹦跶出来,温馨提示:“编号***车16人已上报维修,左侧脚踏板可能已坏,建议您换一辆,以免影响您行程”
    • 差点影响俺见富婆的速度,点赞赞赞
  • 杀熟外卖会员

    -《我被美团会员割了韭菜》爆料称,在美团上的同一家店铺,统一配送地址,同一时间点单,会员配送费仍为6元,而非会员账号仅为2元。此外不仅是一家店有这种情况,一部开通美团会员的手机,附近几乎所有外卖商户的配送费都要超出非会员配送0.5-1倍。

    • 你被某团会员割韭菜了吗?
    • 外卖时,什么都相同,会员比非会员配送费贵3倍。有你吗?
    • 你开通某外卖会员的手机,附近几乎所有外卖商户配送费贵了几块呢?
  • 苹果打车比安卓贵吗

    • 约车,你被舒适了吗?
    • 假期,孙教授带一帮弟兄,去北、上、深、成和重5座城市,以不同距离、工作日早晚高峰、日间非高峰和晚间非高峰4个时间段进行了分层抽样调查。
    • 一共采样821个样本。其中,苹果手机样本占比1/3,安卓手机占比2/3,和现实生活中苹果、安卓手机的占比基本一致。
    • 最后选取233个样本进行调查,结果发现苹果手机“被舒适”的比例比非苹果手机高,高出3倍。
    • 苹果手机支付时平均获取2.07优惠,非苹果手机用户平均优惠是4.12元。优惠折扣低了1半
  • 啤酒和尿不湿的故事

    • 周末,已婚小明来到全球零售巨头沃尔玛,溜达溜达,买打啤酒
    • 咦,还有尿不湿,顺便给娃带包尿不湿
    • 强大数据分析发现,买啤酒的很多还买尿不湿。从此,啤酒+尿不湿组合卖,销量果真与日俱增
    • 这就是啤酒+尿不湿的故事
    • 由于受启发,于是有了红酒+??
  • 猜你喜欢

    • 又是无聊一天,小A和小B又开始冲浪…
    • 小A:打开百度浏览器,随意搜索,左右、上下都是千锋大数据、好程序员大数据等小广告
    • 小B:打开,随意搜索,居然满屏的亚洲、欧美、一堆羞羞
    • 小A说我喜欢大数据,我喜欢千锋,我信
    • 小B说我喜欢大数据,我喜欢千锋,我信。他说他不喜欢日本片、不喜欢欧美片,你们信吗?我信你个鬼
  • 贷款要看大数据

    • 专员:个人征信好么?
    • 我:这是征信
    • 专员:还行 或者 (拖二连三贷不了)
    • 专员:个人大数据咋样呀?
    • 大数据是指您个人的生活,工作,消费习惯,网贷,网购,网上搜索内容等等,覆盖到您的方方面面。
    • 专员:比如信用百分百查大数据征信-108项深度检测,信用风险早预防
    • 专员:主要是怕还款不稳定,怕坏账
  • 马云给各省女性罩杯的排名

    • 你们都知道全中国胸罩最大的
    • 女的叫Bra是吧,是那几个省?
    • 我这儿都有
    • 最小的是那几个,知道吧?
    • 浙江省 …浙江网友表示不服
    • C罩杯及以上尺寸所占购买比例最大的地区依次是:新疆、香港、北京、云南和山西,它们因而被视为女性平均胸围最大的地区。

大数据的发展前景

​ 大数据技术目前正处在落地应用的初期,从大数据自身发展和行业发展的趋势来看,大数据未来的前景还是不错的,具体原因有以下几点:

  • 大数据本身的价值体现

    本身的数据价值化就会开辟出很大的市场空间。目前在互联网领域,大数据技术已经得到了较为广泛的应用。 大数据造就了新兴行业。

  • 大数据推动了科技领域的发展

    不仅体现在互联网领域,还体现在金融、教育、医疗等诸多领域,尤其是现在的人工智能。

  • 大数据产业链的形成

    经过近些年的发展,大数据已经初步形成了一个较为完整的产业链,包括数据采集、整理、传输、存储、分析、呈现和应用,众多企业开始参与到大数据产业链中,并形成了一定的产业规模,相信随着大数据的不断发展,相关产业规模会进一步扩大。

  • 国家大力扶持大数据行业的发展

  • 高校大数据专业井喷发展

企业大数据的一般处理流程

数据源

数据的来源有如下内容:

  • 关系型数据库

    • 各种关系表,如订单表、账号表、基本信息表
  • 日志文件
    • 用户行为数据
    • 浏览了哪些页面(网页、App、电视机顶盒),导航栏上的哪些选项等等
  • 三方数据
    • 第三方的接口提供数据
    • 爬虫等
数据采集或者同步

常用数据采集导入框架:

  • sqoop:
    用于RDBMS与HDFS之间数据导入与导出
  • flume:
    采集日志文件数据,动态采集日志文件,数据流
    flume采集到的数据,一份给HDFS,用于做离线分析;一份给Kafka,实时处理
  • kafka:
    主要用于实时的数据流处理

flume与kafka都有类似消息队列的机制,来缓存大数据环境处理不了的数据

数据存储

常用数据存储框架

  • HDFS、 HBase、ES
数据清洗

即对数据进行过滤,得到具有一定格式的数据源

常用框架(工具):MapReduce、Hive(ETL)、SparkCore、sparksql等

数据分析

对经过数据清洗后的数据进行分析,得到某个指标

常用框架(工具):MapReduce、Hive、SparkSQL、impala(impa:le)、kylin

数据展示

即将数据分析后的结果展示出来,也可以理解为数据的可视化、以图或者表具体的形式展示出来

常用工具:
metastore、Javaweb、hcharts、echarts

数据部门的组织架构

云计算的概念

概念

云计算是以虚拟技术为核心,进行统一管理硬件设施,平台,软件等;它通过网络提供了可伸缩的、廉价的分布式计算能力;它用出租的方式提供给用户,用户只要花低价,在具备网络接入条件的地方,就可以随时随地获得所需的各种IT资源;类似于国家统一管理水,电,煤气等等。

云计算的种类
  • 公有云:公有云面向所有用户提供服务,只要是注册付费的用户都可以使用
  • 私有云:私有云只为特定用户提供服务
  • 混合云:混合云综合了公有云和私有云的特点
服务的种类
云计算的关键技术

-1. IaaS(基础设施即服务):IaaS将基础设施(计算资源和存储)作为服务出租。

在这种服务模型中,普通用户不用自己构建一个数据中心等硬件设施,而是通过租用的方式,利用 Internet从IaaS服务提供商获得计算机基础设施服务,包括服务器、存储和网络等服务。

举个例子:假如你现在要做一个网站,你肯定要有一台服务器或者虚拟机,要么自己搭建,要么买服务器运营商的。说白了,IaaS就是解决企业硬件问题的,包括服务器、存储设备、网络设备等基础设施。基础设施有了,你就可以搭建环境了。

-2. PaaS(平台即服务):PaaS把平台作为服务出租

举个例子:假如你现在要做一个网站,你不想自己买服务器搭环境,你就直接购买别人的PaaS服务。PaaS一般会为企业解决硬件的租赁问题,以及操作系统的选装,开发测试环境的搭建,及各种编程语言的选装等,提供一个运行的直接用的软件平台。有了PaaS你就可以在上面做开发工作了,当然,一些别的程序及软件还得你自己安装配置。

-3. SaaS(软件即服务)。SaaS把软件作为服务出租。

举个例子:你现在想做一个网站,你不会做,你只要购买别人的成熟软件,配置几下就能使用了。说白了就是卖软件的,你不用租用服务器,开发软件等费时间的工作,你直接购买别人的软件通过互联网就能使用,也不需要本地安装,也就是软件即服务的意思,你出钱,别人出软件服务。-1. 虚拟化

云计算的核心技术之一就是虚拟化技术。所谓虚拟化,是指通过-1. IaaS(基础设施即服务):IaaS将基础设施(计算资源和存储)作为服务出租。

在这种服务模型中,普通用户不用自己构建一个数据中心等硬件设施,而是通过租用的方式,利用 Internet从IaaS服务提供商获得计算机基础设施服务,包括服务器、存储和网络等服务。

举个例子:假如你现在要做一个网站,你肯定要有一台服务器或者虚拟机,要么自己搭建,要么买服务器运营商的。说白了,IaaS就是解决企业硬件问题的,包括服务器、存储设备、网络设备等基础设施。基础设施有了,你就可以搭建环境了。

-2. PaaS(平台即服务):PaaS把平台作为服务出租

举个例子:假如你现在要做一个网站,你不想自己买服务器搭环境,你就直接购买别人的PaaS服务。PaaS一般会为企业解决硬件的租赁问题,以及操作系统的选装,开发测试环境的搭建,及各种编程语言的选装等,提供一个运行的直接用的软件平台。有了PaaS你就可以在上面做开发工作了,当然,一些别的程序及软件还得你自己安装配置。

-3. SaaS(软件即服务)。SaaS把软件作为服务出租。

举个例子:你现在想做一个网站,你不会做,你只要购买别人的成熟软件,配置几下就能使用了。说白了就是卖软件的,你不用租用服务器,开发软件等费时间的工作,你直接购买别人的软件通过互联网就能使用,也不需要本地安装,也就是软件即服务的意思,你出钱,别人出软件服务。虚拟化技术将一台计算机虚拟为多台逻辑计算机。在一台计算机上同时运行多个逻辑计算机,每个逻辑计算机可运行不同的操作系统,并且应用程序都可以在相互独立的空间内运行而互不影响,从而显著提高计算机的工作效率。

虚拟化的核心软件VMM,是一种运行在物理服务器和操作系统之间的中间层软件。VMM是一种在虚拟环境中的“元”操作系统。他们可以访问服务器上包括CPU、内存、磁盘、网卡在内的所有物理设备。VMM不但协调着这些硬件资源的访问,也同时在各个虚拟机之间施加防护。当服务器启动并执行VMM时,它会加载所有虚拟机客户端的操作系统同时会分配给每一台虚拟机适量的内存,CPU,网络和磁盘。

-2. 分布式存储

云计算的另一大优势就是能够快速、高效地处理海量数据。在数据爆炸的今天,这一点至关重要。为了保证数据的高可靠性,云计算通常会采用分布式存储技术,将数据存储在不同的物理设备中。这种模式不仅摆脱了硬件设备的限制,同时扩展性更好,能够快速响应用户需求的变化。

分布式存储与传统的网络存储并不完全一样,传统的网络存储系统采用集中的存储服务器存放所有数据,存储服务器成为系统性能的瓶颈,不能满足大规模存储应用的需要。分布式网络存储系统采用可扩展的系统结构,利用多台存储服务器分担存储负荷,利用位置服务器定位存储信息,它不但提高了系统的可靠性、可用性和存取效率,还易于扩展。

在当前的云计算领域,Google的GFS和Hadoop开发的开源系统HDFS是比较流行的两种云计算分布式存储系统。

GFS(GoogleFileSystem)技术:谷歌的非开源的GFS(GoogleFileSystem)云计算平台满足大量用户的需求,并行地为大量用户提供服务。使得云计算的数据存储技术具有了高吞吐率和高传输率的特点。

HDFS(HadoopDistributedFileSystem)技术:大部分ICT厂商,包括Yahoo、Intel的“云”计划采用的都是HDFS的数据存储技术。未来的发展将集中在超大规模的数据存储、数据加密和安全性保证、以及继续提高I/O速率等方面
-3. 分布式计算
问题分解为若干小问题,分配给各个计算机再综合起来
-4. 多租户

物联网的概念

概念

物联网是物物相连的互联网,是互联网的延伸,它利用局部网络或互联网等通信技术把传感器、控制器、机器、
人员和物等通过新的方式连在一起,形成人与物、物与物相连,实现信息化和远程管理控制。物联网关键技术

物联网是物与物相连的网络,通过为物体加装二维码、RFID标签、传感器等,就可以实现物体身份唯一标识和各
种信息的采集,再结合各种类型网络连接,就可以实现人和物、物和物之间的信息交换。因此,物联网中的关键
技术包括识别和感知技术(二维码、RFID、传感器等)、网络与通信技术、数据挖掘与融合技术等。

扩展

射频识别(RFID)是 Radio Frequency Identification 的缩写。
其原理为阅读器与标签之间进行非接触式的数据通信,达到识别目标的目的。RFID 的应用非常广泛,典型应用有动物晶片、汽车晶片防盗器、门禁管制、停车场管制、生产线自动化、物料管理。

大数据与云计算、物联网的概念

​ 云计算、大数据和物联网代表了IT领域最新的技术发展趋势,三者既有区别又有联系。从云计算和大数据概念的诞生到现在,二者之间的关系非常微妙,既密不可分,又千差万别。因此,我们不能把云计算和大数据割裂开来作为截然不同的两类技术来看待。此外,物联网也是和云计算、大数据相伴相生的技术。

大数据、云计算和物联网的区别
  • 大数据侧重于对海量数据的存储、处理与分析,从海量数据中发现价值,服务于生产和生活;
  • 云计算本质上旨在整合和优化各种IT资源并通过网络以服务的方式,廉价地提供给用户;
  • 物联网的发展目标是实现物物相连,应用创新是物联网发展的核心。
大数据、云计算和物联网的联系

从整体上看,大数据、云计算和物联网这三者是相辅相成的。

物联网的传感器源源不断产生的大量数据,构成了大数据的重要数据来源,没有物联网的飞速发展,就不会带来数据产生方式的变革,即由人工产生阶段转向自动产生阶段,大数据时代也不会这么快就到来。同时,物联网需要借助于云计算和大数据技术,实现物联网大数据的存储、分析和处理。

全方位揭秘!大数据从0到1的完美落地之大数据简介相关推荐

  1. 全方位揭秘!大数据从0到1的完美落地之MapReduce实战案例(1)

    案例一: MR实战之小文件合并(自定义inputFormat) 项目准备 需求 无论hdfs还是MapReduce,对于小文件都有损效率,实践中,又难免面临处理大量小文件的场景,此时,就需要有相应解决 ...

  2. 全方位揭秘!大数据从0到1的完美落地之运行流程和分片机制

    一个完整的MapReduce程序在分布式运行时有三类实例进程: MRAppMaster: 负责整个程序的过程调度及状态协调 MapTask: 负责Map阶段的整个数据处理流程 ReduceTask: ...

  3. 全方位揭秘!大数据从0到1的完美落地之Shuffle和调优

    MapReduce高级 shuffle阶段 概述 MapReduce会确保每个reducer的输入都是按键排序的.从map方法输出数据开始.到作为输入数据传给reduce方法的过程称为shuffle. ...

  4. 全方位揭秘!大数据从0到1的完美落地之HDFS块详解

    HDFS块详解 传统型分布式文件系统的缺点 现在想象一下这种情况:有四个文件 0.5TB的file1,1.2TB的file2,50GB的file3,100GB的file4:有7个服务器,每个服务器上有 ...

  5. 全方位揭秘!大数据从0到1的完美落地之Mysql介绍

    导读 在大数据中,我们需要处理的数据来自不同的渠道,其中有一个很重要的渠道就是关系型数据库中存储的数据.在企业中,会把业务数据存储在关系型数据库中,一般以 MySQL 居多.另外,我们在后续的学习中需 ...

  6. 全方位揭秘!大数据从0到1的完美落地之Mysql操作DQL

    DQL是数据查询语言(Data Query Language)的缩写,是一种用于从数据库中检索数据的编程语言.DQL是SQL(结构化查询语言)的子集,用于查询关系型数据库,例如MySQL.Oracle ...

  7. 全方位揭秘!大数据从0到1的完美落地之HDFS的工作机制

    HDFS的工作机制 开机启动Namenode过程 非第一次启动集群的启动流程 我们应该知道,在启动namenode之前,内存里是没有任何有关于元数据的信息的.那么启动集群的过程是怎样的呢?下面来叙述一 ...

  8. 全方位揭秘!大数据从0到1的完美落地之Hive分桶

    分桶的概述 为什么要分桶 数据分区可能导致有些分区数据过多,有些分区数据极少.分桶是将数据集分解为若干部分(数据文件)的另一种技术. 分区和分桶其实都是对数据更细粒度的管理.当单个分区或者表中的数据越 ...

  9. 全方位揭秘!大数据从0到1的完美落地之Hive企业级调优

    Hive企业级调优 调优原则已经在MR优化阶段已经有核心描述,优化Hive可以按照MR的优化思路来执行 优化的主要考虑方面: 环境方面:服务器的配置.容器的配置.环境搭建 具体软件配置参数: 代码级别 ...

最新文章

  1. 关于移动端rem适配
  2. 【转】iOS类似Android上toast效果
  3. 求两数最大公约数,最小公倍数-Java
  4. powermock跳过某方法_变频调速电动机产生机械共振原因和处理方法
  5. ROS学习笔记01:安装ROS - 玩小海龟
  6. 吴恩达教授机器学习笔记【一】- 线性回归(2)
  7. 利用pil库处理图像
  8. jsp java 登陆界面代码_jsp登陆界面源代码
  9. IDEA 代码格式化设置
  10. 1+X 云计算运维与开发(中级)案例实战——单节点应用商城系统部署
  11. redis mysql 雪崩_Redis雪崩和穿透问题
  12. mysql误删除恢复
  13. 目的路径太长如哈删除_文件名超长导致文件无法删除怎么办?
  14. 关于电脑网络显示红叉的解决方法
  15. 全新UI众人帮任务帮PHP源码 悬赏任务抖音快手头条点赞源码 带三级分销可封装小程序
  16. KSO-docker命令大全,基于Linux服务器CentOS7.5 安装docker
  17. sql优化(面试必问一)
  18. abp生成proxy代理时的一些问题记录
  19. Flink 最锋利的武器:Flink SQL 入门和实战带你了解NBA球星数据
  20. IMU传感器时什么?(二)陀螺仪的种类和原理

热门文章

  1. 为什么游戏需要热更新?
  2. Allegro如何复用软件设置参数Parameters
  3. 前端 什么是响应式设计
  4. 数字电路74161(MN)
  5. 以运力平台的方式切入自动驾驶会是一条捷径吗?
  6. Taste/Thoth:开源的推荐系统引擎
  7. ​数据科学家必须了解的事:中心极限定理
  8. 电路方程的矩阵形式 c语言,电路方程的矩阵形式
  9. (4.3.1.11)微信扫描二维码无法下载apk文件解决办法
  10. 分析IBinder体系中getService的流程