初学耗时:0.5h

注:CSDN手机端暂不支持章节内链跳转,但外链可用,更好体验还请上电脑端。

一、什么是大数据
  1.1  大数据相关的理论。
  1.2  大数据相关的技术。
  1.3  大数据相关的实践。


记忆词:

  理论:4V

  技术:云技术、分布式处理、存储、感知

  实践:互联网、政府、企业、个人


 B05 - 999、大数据组件学习② - Hadoop


 ギ 舒适区ゾ || ♂ 累觉无爱 ♀

一、什么是大数据

  1.1 ~ 大数据相关的理论。

    1.1.1 .  特征定义。
  • 业界(IBM 最早定义)将大数据的特征归纳为 4 个“V”(量 Volume,多样Variety,价值 Value,速 Velocity):
1、数据体量巨大。


大数据的起始计量单位至少是 P(1000 个 T)、E(100 万个 T)或 Z(10 亿个 T);

2、数据类型繁多。


比如,网络日志、视频、图片、地理位置信息等等。

3、价值密度低,商业价值高。

4、处理速度快。


最后这一点也是和传统的数据挖掘技术有着本质的不同。

    1.1.2 .  价值探讨。
  • 大数据是什么?投资者眼里是金光闪闪的两个字:资产。
  • 比如,Facebook 上市时,评估机构评定的有效资产中大部分都是其社交网站上的数据。
  • 如果把大数据比作一种产业,那么这种产业实现盈利的关键,在于提高对数据的“加工能力”,通过“加工”实现数据的“增值”。
  • Target 超市以 20 多种怀孕期间孕妇可能会购买的商品为基础,将所有用户的购买记录作为数据来源,通过构建模型分析购买者的行为相关性,能准确的推断出孕妇的具体临盆时间,这样 Target 的销售部门就可以有针对的在每个怀孕顾客的不同阶段寄送相应的产品优惠卷。
  • Target 的例子是一个很典型的案例,这样印证了维克托·迈尔-舍恩伯格提过的一个很有指导意义的观点:通过找出一个关联物并监控它,就可以预测未来。
  • Target 通过监测购买者购买商品的时间和品种来准确预测顾客的孕期,这就是对数据的二次利用的典型案例。
  • 如果,我们通过采集驾驶员手机的 GPS 数据,就可以分析出当前哪些道路正在堵车,并可以及时发布道路交通提醒;通过采集汽车的 GPS 位置数据,就可以分析城市的哪些区域停车较多,这也代表该区域有着较为活跃的人群,这些分析数据适合卖给广告投放商。
从大数据的价值链条来分析,存在三种模式:


1、手握大数据,但是没有利用好;典型的是金融机构,电信行业,政府机构等。

2、没有数据,但是知道如何帮助有数据的人利用它;比较典型的是 IT 咨询和服务企业,比如,埃森哲,IBM,Oracle 等。

3、既有数据,又有大数据思维;比较典型的是 Google,Amazon 等。

未来在大数据领域最具有价值的两种事物:


1、拥有大数据思维的人,这种人可以将大数据的潜在价值转化为实际利益;

2、还未有被大数据触及过的业务领域。这些是还未被挖掘的油井,金矿,是所谓的蓝海。

    1.1.3 .  现在和未来。

  • 其实,这些还远远不够,未来大数据的身影应该无处不在。
  • 比如,Amazon 的最终期望是:“最成功的书籍推荐应该只有一本书,就是用户要买的下一本书。”
  • Google 也希望当用户在搜索时,最好的体验是搜索结果只包含用户所需要的内容,而这并不需要用户给予 Google 太多的提示。
  • 未来的大数据除了将更好的解决社会问题,商业营销问题,科学技术问题,还有一个可预见的趋势是以人为本的大数据方针。
  • 人才是地球的主宰,大部分的数据都与人类有关,要通过大数据解决人的问题。
  • 比如,建立个人的数据中心,将每个人的日常生活习惯,身体体征,社会网络,知识能力,爱好性情,疾病嗜好,情绪波动……换言之就是记录人从出生那一刻起的每一分每一秒,将除了思维外的一切都储存下来,这些数据可以被充分的利用:
    1.1.4 .  大数据隐私。
  • 用户隐私问题一直是大数据应用难以绕开的一个问题。
  • 在大数据的背景下,很多人都在积极的抵制无底线的数字化,这种大数据和个体之间的博弈还会一直继续下去……
  • 当下,很多人依然没有建立对于信息隐私的保护意识,让自己一直处于被滋扰,被精心设计,被利用,被监视的处境中。

  1.2 ~ 大数据相关的技术。

    1.2.1 .  云技术。
  • 大数据常和云计算联系到一起,因为实时的大型数据集分析需要分布式处理框架来向数十、数百或甚至数万的电脑分配工作。
  • 可以说,云计算充当了工业革命时期的发动机的角色,而大数据则是电。
  • 云计算思想的起源是麦卡锡在上世纪 60 年代提出的:把计算能力作为一种像水和电一样的公用事业提供给用户。
  • 如今,在 Google、Amazon、Facebook 等一批互联网企业引领下,一种行之有效的模式出现了:云计算提供基础架构平台,大数据应用运行在这个平台上,那么大数据到底需要哪些云计算技术呢?
  • 这里暂且列举一些,比如虚拟化技术,分布式处理技术,海量数据的存储和管理技术,NoSQL、实时流数据处理、智能分析技术(类似模式识别以及自然语言理解)等。
云计算:


硬件资源的虚拟化,为大数据的处理提供计算的硬件资源。

私有云
公有云
混合云

    1.2.2 .  分布式处理技术。
  • 分布式处理系统可以将不同地点的或具有不同功能的或拥有不同数据的多台计算机用通信网络连接起来,在控制系统的统一管理控制下,协调地完成信息处理任务—这就是分布式处理系统的定义。
  • 举个实际的例子,虽然这个例子有些陈旧,但是淘宝的海量数据技术架构还是有助于我们理解对于大数据的运作处理机制:
  • 淘宝的海量数据产品技术架构分为五个层次,从上至下来看它们分别是:
  • 数据源,计算层,存储层,查询层和产品层。
1、数据来源层。


存放着淘宝各店的交易数据。
在数据源层产生的数据,通过DataX,DbSync 和 Timetunel 准实时的传输到下面第 2 点所述的“云梯”。

2、计算层。


在这个计算层内,淘宝采用的是 Hadoop 集群,这个集群,我们暂且称之为云梯,是计算层的主要组成部分。
在云梯上,系统每天会对数据产品进行不同的 MapReduce 计算。

3、存储层。


在这一层,淘宝采用了两个东西,一个是基于 MySQL 的分布式关系型数据库的集群 MyFox,Prom 是基于 Hadoop Hbase 技术的一个 NoSQL 的存储集群。

4、查询层。


在这一层中,Glider 是以 HTTP 协议对外提供 restful 方式的接口。
数据产品通过一个唯一的 URL 来获取到它想要的数据。
同时,数据查询即是通过 MyFox 来查询的。

5、产品层。

    1.2.3 .  存储技术。
  • 大数据可以抽象的分为大数据存储和大数据分析,这两者的关系是:大数据存储的目的是支撑大数据分析。
  • 到目前为止,这是两种截然不同的计算机技术领域:大数据存储致力于研发可以扩展至 PB 甚至 EB 级别的数据存储平台;大数据分析关注在最短时间内处理大量不同类型的数据集。
    1.2.4 .  感知技术。
  • 大数据的采集和感知技术的发展是紧密联系的。
  • 以传感器技术,指纹识别技术,RFID 技术,坐标定位技术等为基础的感知能力提升同样是物联网发展的基石。
  • 全世界的工业设备、汽车、电表上有着无数的数码传感器,随时测量和传递着有关位置、运动、震动、温度、湿度乃至空气中化学物质的变化,都会产生海量的数据信息。
  • 而随着智能手机的普及,感知技术可谓迎来了发展的高峰期,除了地理位置信息被广泛的应用外,一些新的感知手段也开始登上舞台,比如,“iPhone”在home 键内嵌指纹传感器,新型手机可通过呼气直接检测燃烧脂肪量,用于手机的嗅觉传感器面世可以监测从空气污染到危险的化学药品,微软正在研发可感知用户当前心情智能手机技术,谷歌眼镜InSight新技术可通过衣着进行人物识别。
  • 这些感知被逐渐捕获的过程就是世界被数据化的过程,一旦世界被完全数据化了,那么世界的本质也就是信息了。
  • 就像一句名言所说,“人类以前延续的是文明,现在传承的是信息。”

  1.3 ~ 大数据相关的实践。

    1.3.1 .  互联网的大数据。
  • 互联网上的数据每年增长 50%,每两年便将翻一番,而目前世界上 90%以上的数据是最近几年才产生的。据 IDC 预测,到 2020 年全球将总共拥有35ZB 的数据量。
  • 互联网是大数据发展的前哨阵地,随着 WEB2.0 时代的发展,人们似乎都习惯了将自己的生活通过网络进行数据化,方便分享以及记录并回忆。
  • 互联网上的大数据很难清晰的界定分类界限,我们先看看 BAT 的大数据:
  • 百度拥有两种类型的大数据:用户搜索表征的需求数据;爬虫和阿拉丁获取的公共 web 数据。
  • 搜索巨头百度围绕数据而生。
  • 它对网页数据的爬取、网页内容的组织和解析,通过语义分析对搜索需求的精准理解进而从海量数据中找准结果,以及精准的搜索引擎关键字广告,实质上就是一个数据的获取、组织、分析和挖掘的过程。
  • 阿里巴巴拥有交易数据和信用数据。
  • 这两种数据更容易变现,挖掘出商业价值。
  • 除此之外阿里巴巴还通过投资等方式掌握了部分社交数据、移动数据。如微博和高德。
  • 腾讯拥有用户关系数据和基于此产生的社交数据。
  • 这些数据可以分析人们的生活和行为,从里面挖掘出政治、社会、文化、商业、健康等领域的信息,甚至预测未来。
简要归纳一下,在互联网大数据的典型代表性包括:


1、用户行为数据(精准广告投放、内容推荐、行为习惯和喜好分析、产品优化等)

2、用户消费数据(精准营销、信用记录分析、活动促销、理财等)

3、用户地理位置数据(O2O 推广,商家推荐,交友推荐等)

4、互联网金融数据(P2P,小额贷款,支付,信用,供应链金融等)

5、用户社交等 UGC 数据(趋势分析、流行元素分析、受欢迎程度分析、舆论监控分析、社会问题分析等)

    1.3.2 .  政府的大数据。
  • 国内来说,政府各个部门都握有构成社会基础的原始数据,比如,气象数据,金融数据,信用数据,电力数据,煤气数据,自来水数据,道路交通数据,客运数据,安全刑事案件数据,住房数据,海关数据,出入境数据,旅游数据,医疗数据,教育数据,环保数据等等。这些数据在每个政府部门里面看起来是单一的,静态的。
  • 但是,如果政府可以将这些数据关联起来,并对这些数据进行有效的关联分析和统一管理,这些数据必定将获得新生,其价值是无法估量的。
  • 具体来说,现在城市都在走向智能和智慧,比如,智能电网、智慧交通、智慧医疗、智慧环保、智慧城市,这些都依托于大数据,可以说大数据是智慧的核心能源。
    1.3.3 .  企业的大数据。
  • 企业的 CXO 们最关注的还是报表曲线的背后能有怎样的信息,他该做怎样的决策,其实这一切都需要通过数据来传递和支撑。
哪些传统企业最需要大数据服务呢?


1、对大量消费者提供产品或服务的企业(精准营销);

2、做小而美模式的中长尾企业(服务转型);

3、面临互联网压力之下必须转型的传统企业(生死存亡)。

  • 对于企业的大数据,还有一种预测:随着数据逐渐成为企业的一种资产,数据产业会向传统企业的供应链模式发展,最终形成“数据供应链”。
这里有两个明显的现象:


1、外部数据的重要性日益超过内部数据。在互联互通的互联网时代,单一企业的内部数据与整个互联网数据比较起来只是沧海一粟;

2、能提供包括数据供应、数据整合与加工、数据应用等多环节服务的公司会有明显的综合竞争优势。

    1.3.4 .  个人的大数据。
  • 个人的大数据概念很少有人提及,简单来说,就是与个人相关联的各种有价值数据信息被有效采集后,可由本人授权提供第三方进行处理和使用,并获得第三方提供的数据服务。
  • 未来,每个用户可以在互联网上注册个人的数据中心,以存储个人的大数据信息。
  • 用户可确定哪些个人数据可被采集,并通过可穿戴设备或植入芯片等感知技术来采集捕获个人的大数据。

向前看,看未来;齐步走,走天下。

- - - - - - - - - - - - - - - - - - - - - - - - - - - -

^ 至此,什么是大数据完成。

- - - - - - - - - - - - - - - - - - - - - - - - - - - -

※ 世间诱惑何其多,坚定始终不动摇。

设集合A={1,2,3},A上的关系R={(1,1),(2,2),(2,3),(3,2),(3,3)},则R不具备 ( )?


A、自反性
B、传递性
C、对称性
D、反对称性

D

向前看,看未来;齐步走,走天下。

- - - - - - - - - - - - - - - - - - - - - - - - - - - -

注:CSDN手机端暂不支持章节内链跳转,但外链可用,更好体验还请上电脑端。

我知道我的不足,我也知道你的挑剔,但我就是我,不一样的烟火,谢谢你的指指点点,造就了我的点点滴滴:)!

向前看,看未来;齐步走,走天下。

B05 - 008、什么是大数据相关推荐

  1. 100+套大数据可视化模板

    由于公司项目里面用到一个数据可视化大屏页面,自己网上各种谷歌百度,发现资源良莠不齐,而且大多数都是收费的,甚至一个页面一收费的那种. 前前后后自己不管是付费的还是免费的收集了不少,于是自己打算整理下, ...

  2. 大数据每周分享第 008 期

    这里记录过去一周,大数据相关值得分享的东西,每周日发布. 好久不见,断更了,最近开始接着写.再断更会发

  3. 近期活动盘点:心电数据标注系统和深度学习诊断算法研究、2019年第六届清华大学大数据社会科学讲习班...

    想知道近期有什么最新活动?大数点为你整理的近期活动信息在此: 第四期医工结合研讨会:心电数据标注系统和深度学习诊断算法研究 2019年7月11日 7月11日,"医工结合系列研讨会第四期会议: ...

  4. 报名 | 2019年第六届清华大学大数据社会科学讲习班

    2019年第六届清华大学大数据社会科学讲习班招生简章 讲习班简介 为了顺应信息技术和数据科学的飞速发展,促进大数据方法在社会科学研究中的普及和广泛应用,加强社会科学领域研究方法与研究问题的融合,自20 ...

  5. B06 - 999、大数据组件学习③ - Hive

    初学耗时:999h 注:CSDN手机端暂不支持章节内链跳转,但外链可用,更好体验还请上电脑端. 『   因为要去见那个不一般的人,所以我就不能是一般人.』  B99.要学就学大数据 - B系列总纲   ...

  6. B15 - 999、大数据组件学习⑫ - Hue

    初学耗时:999h 注:CSDN手机端暂不支持章节内链跳转,但外链可用,更好体验还请上电脑端. 『   因为要去见那个不一般的人,所以我就不能是一般人.』  B99.要学就学大数据 - B系列总纲   ...

  7. IT十八掌 大数据技术资料+内部资料

    教程介绍: IT十八掌 大数据技术资料+内部资料 目录 技术资料 [IT十八掌大数据_徐培成]001.Hadoop介绍.avi [IT十八掌大数据_徐培成]002.VMware安装.avi [IT十八 ...

  8. 浅谈一个新人的大数据之路

    CCCCCold丶大数据之禅 第一章,大数据之路浅谈 数仓&数据集市&数据湖 数据模型 模型ETL频率: 模型存储技术: 模型数据分层: 模型架构分层: 模型主题域: 模型创建类型: ...

  9. 大数据【企业级360°全方位用户画像】业务数据调研及ETL

    写在前面: 博主是一名大数据的初学者,昵称来源于<爱丽丝梦游仙境>中的Alice和自己的昵称.作为一名互联网小白,写博客一方面是为了记录自己的学习历程,一方面是希望能够帮助到很多和自己一样 ...

最新文章

  1. 突破屏蔽限制,自己的网站使劲弹新IE窗口
  2. irobot擦地机器人故障_iRobot擦地机器人:只会擦地并不“奢侈”
  3. POJ 2987 Firing(最大权闭合图)
  4. uboot 分析之 启动流程
  5. SAP CAM - Cloud Access Manager
  6. 2、Sprite,SpriteBatch,Texture,TextureRegion的初步认识
  7. Flink 1.12 CDH 6.3 集成
  8. 利用zabbix API进行管理
  9. JavaScript就这么回事 (JS基础知识整理)
  10. SaaS软件的应用弱化了不同规模企业的竞争差距
  11. Java线程并发与安全性问题详解
  12. 寒假学习报告 第一周 1.18
  13. ATE软件测试工程师,ATE软硬件测试开发工程师/高级工程师
  14. python实战-爬取斗鱼所有颜值主播头像
  15. 利安德巴赛尔任命Peter Vanacker任首席执行官;纬湃科技斩获长城汽车逆变器大额订单 | 能动...
  16. 减轻压力保护脊椎,上学路上更轻松,Deuter多特护脊减负双肩背包体验
  17. 2021年9款优秀的大数据可视化BI软件
  18. rtl8811au黑苹果10.15_黑苹果10.15Catalina硬件选择+完美配置指南【接入智能家居】...
  19. 腾讯云服务器地域怎么选?地域可用区选择四大因素
  20. 一、《跟我学spring3》电子书下载地址:

热门文章

  1. 获取市场上的股票代码
  2. NotePad++安装HEX-Editor插件
  3. linux 相关快捷键
  4. 文件上传插件WebUploader的使用
  5. 2022-2028全球与中国紫外线点固化系统市场现状及未来发展趋势
  6. mysql判断当前日期是否为节假日_java 判断日期是否是节假日
  7. unreal4 源码引言
  8. SMARTS决策引擎实战练习
  9. LoRa SX1278通信代码开发学习
  10. android系统版本卸掉,使用内置软件卸载最新版本的Android